当前位置:首页>文章>人工智能>NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

今天,英伟达公司正式宣布推出一项重大突破,名为TensorRT-LLM的深度优化开源库,该库旨在显著提升其Hopper等AI GPU上所有大型语言模型的推理性能。

NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

英伟达公司目前已经积极与开源社区合作,运用包括SmoothQuant、FlashAttention和fMHA等先进技术,通过AI内核优化其GPU,实现了对GPT-3(175 B)、Llama Falcom(180 B)和Bloom等模型的加速。

NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

TensorRT-LLM的一个重要特点是引入了一种称为”In-Flight Batching”(即在飞行中批处理)的调度方案,允许GPU在处理大规模计算密集型请求时,动态地同时处理多个较小的查询。这一方案的实施大大提高了GPU的处理性能,H100 GPU的吞吐量相比之前加快了2倍。

在性能测试中,英伟达以A100为基准,对比了H100和启用TensorRT-LLM的H100。在GPT-J 6B模型的推理中,H100的性能比A100提升了4倍,而启用TensorRT-LLM的H100性能更是达到了A100的8倍。

在Llama 2模型中,H100的推理性能相较于A100提高了2.6倍,而启用TensorRT-LLM的H100性能则高达A100的4.6倍。

这一次的突破再次彰显了英伟达在AI计算领域的技术实力,将为未来更加强大的AI应用提供强大的计算支持。详细的报告原文已经发布,对此感兴趣的读者可以进一步深入研究。

报告地址:developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

声明:学AI网所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服或提交工单进行处理。学AI网内用户所发表的所有内容及言论仅代表其本人,并不反映任何学AI网之意见及观点。

给TA充电
共{{data.count}}人
人已充电
人工智能

海外艺术家联名呼吁:生成式AI在艺术创作中有用,但需要监管

2023-9-10 11:30:19

人工智能

腾讯云发布全新AI绘画类产品,支持超过25种生成风格

2023-9-10 12:02:22

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索