今天,英伟达公司正式宣布推出一项重大突破,名为TensorRT-LLM的深度优化开源库,该库旨在显著提升其Hopper等AI GPU上所有大型语言模型的推理性能。
英伟达公司目前已经积极与开源社区合作,运用包括SmoothQuant、FlashAttention和fMHA等先进技术,通过AI内核优化其GPU,实现了对GPT-3(175 B)、Llama Falcom(180 B)和Bloom等模型的加速。
TensorRT-LLM的一个重要特点是引入了一种称为”In-Flight Batching”(即在飞行中批处理)的调度方案,允许GPU在处理大规模计算密集型请求时,动态地同时处理多个较小的查询。这一方案的实施大大提高了GPU的处理性能,H100 GPU的吞吐量相比之前加快了2倍。
在性能测试中,英伟达以A100为基准,对比了H100和启用TensorRT-LLM的H100。在GPT-J 6B模型的推理中,H100的性能比A100提升了4倍,而启用TensorRT-LLM的H100性能更是达到了A100的8倍。
在Llama 2模型中,H100的推理性能相较于A100提高了2.6倍,而启用TensorRT-LLM的H100性能则高达A100的4.6倍。
这一次的突破再次彰显了英伟达在AI计算领域的技术实力,将为未来更加强大的AI应用提供强大的计算支持。详细的报告原文已经发布,对此感兴趣的读者可以进一步深入研究。
报告地址:developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/