Tensor RT-LLM,使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

Tensor RT-LLM,使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

  生成式 AI(GenerativeAI)是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。

  GeForceRTX 和 NVIDIARTXGPU配备名为TensorCores的专用AI处理器,将生成式 AI (GenerativeAI)的强大功能原生引入超过1亿台WindowsPC和工作站。

  如今,TensorRT-LLM for Windows 使PC生成式AI(GenerativeAI)速度提高4倍,TensorRT-LLM for Windows是一个开源库,可加速最新AI大语言模型(如Llama2和CodeLlama)的推理性能。此前,TensorRT-LLM for Datacenter 已在上个月发布。

  NVIDIA还发布帮助开发者加速LLM 的工具,包括使用TensorRT-LLM优化自定义模型的脚本、TensorRT优化的开源模型,以及一个展示LLM响应速度和质量的开发者参考项目。

  TensorRT 加速现已应用于 Automatic 1111 发布的热门应用 Stable Diffusion WebUI。它将生成式 AI(GenerativeAI)扩散模型的速度提升2倍,比此前最快的速度还快。

  此外,作为今天发布的 GameReady 驱动的一部分,RTXVSR 视频超分辨率(VideoSuperResolution)v1.5版现已发布,11月初发布的 NVIDIAStudio驱动 也将支持该技术。

  TensorRTLLM增效

  LLM正在提高生产力——聊天、总结文档和网页内容、起草电子邮件和博客,并且是由AI和其他软件所组成的全新工作流的核心,可以自动分析数据并生成大量内容。

  TensorRT-LLM 是 NVIDIA 用于加速LLM推理的库,使开发者和最终用户可以享受运行 LLM 的更多优势。现在,LLM 在搭载 RTX 的 WindowsPC 上的运行速度可提高4倍。

  在更大的批量大小下,这种加速可显著改善更复杂的LLM使用体验,如写作和编码助手,可同时输出多个唯一的自动完成结果,从而加速性能并改进质量,让用户可以有最好的选择。

  TensorRT-LLM 加速还有利于将LLM功能与其他技术相结合,例如在检索增强生成(RAG)中,LLM与向量库或向量数据库组合。RAG使LLM能根据特定的数据集(如用户的电子邮件或网站文章)提供更有针对性的答案。

  在实际应用中,当我们向LLaMa2基础模型提出”《心灵杀手2》(AlanWake2) 集成了 NVIDIA 的哪些技术?”这一问题时,它给出”游戏尚未公布”这一毫无帮助的回答。

  相反,使用RAG 将GeForce 新闻添加到向量库中,并连接到相同的Llama2模型,不仅得到正确答案——NVIDIADLSS3.5、NVIDIAReflex和全景光线追踪,而且在TensorRT-LLM加速的助力下响应速度更快。这种速度与能力的结合为用户提供更智能的解决方案。

  TensorRT-LLM 即将能从 NVIDIA开发者网站下载。

  TensorRT优化的开源模型和以GeForce 新闻为示例项目的RAGDemo 可从ngc.nvidia.com和GitHub.com/NVIDIA下载。

  自动加速

  Diffusion模型(如 StableDiffusion)用于想象和创造令人惊叹的新颖艺术作品。图像生成是一个迭代过程,可能需要数百次循环才能获得完美输出。如果在性能不足的 PC 上进行,这种循环可能会增加数小时的等待时间。

  TensorRT旨在通过神经网络层融合、精度校准、内核自动选择和其他功能加速AI模型,从而显著提高推理效率和速度。这使它成为实时应用和资源密集型任务不可或缺的工具。

  现在,TensorRT使 StableDiffusion 生成速度翻倍。

  兼容最热门的 Automatic1111WebUI,借助 TensorRT 加速的 StableDiffusion 可以帮助用户加快迭代速度,减少PC等待时间,更快生成最终图像。在GeForceRTX4090上,它的运行速度是使用苹果M2Ultra的Mac顶配版的7倍。该扩展即日起可供下载。

  基于 StableDiffusion 流程的TensorRTDemo 为开发者提供了如何为TensorRT加速准备扩散模型并部署加速的参考实现。这是一个起点,它可以为对此感兴趣的开发者加速 Diffusion 流程,并为应用带来快如闪电的推理能力。

  超级视频体验

  AI 正在改善所有用户的诸多日常PC体验。流媒体视频是PC上最受欢迎的活动之一,其来源几乎无所不包,如YouTube、Twitch、PrimeVideo、Disney+等。得益于 AI 和RTX,它的图像质量又有全新提升。

  RTXVSR视频超分辨率在 AI 像素处理方面的重大突破,通过减少或消除压缩视频造成的失真,提高直播视频内容的质量。此外,它还能锐化边缘和细节。

  现在,RTXVSR 视频超分辨率v1.5版通过更新模型进一步提升视频画面质量,消除以原始分辨率播放内容的伪影,并增加对采用 NVIDIA Turing 架构的RTX 20 系列GPU的支持,包括:专业图形卡和GeForceRTX20系列GPU。

  重新训练VSRAI模型有助于它学会准确识别微妙细节和压缩失真之间的区别。因此,经过AI增强的图像在放大过程中能更准确地保留细节。细节更加清晰可见,整体图像看起来更加锐利清晰。v1.5版的全新功能是消除以屏幕原始分辨率播放视频时的失真。最初的版本仅在视频分辨率被提升时增强视频效果。现在,例如在1080p分辨率显示器上串流1080p视频会更流畅,因为严重的失真会显著改善。

RTXVSR现在能消除以原始分辨率播放视频时的失真RTXVSR现在能消除以原始分辨率播放视频时的失真

  即日起,所有RTX用户可在最新的GameReady 驱动中获取 RTXVSR 视频超分辨率v1.5 版使用,下月初发布的NVIDIAStudio驱动也将支持该技术。

  RTXVSR 视频超分辨率是NVIDIA软件、工具、库和SDK(如上文提到的软件、工具、库和SDK,以及DLSS、Omniverse、AIWorkbench等软件)的一部分,这些软件、工具、库和SDK为消费者带来超过400款AI加速的应用和游戏。

  AI时代即将到来。RTX正为其发展的每一步增加动力。

  关于NVIDIA

  自1993年成立以来,NVIDIA (NASDAQ: NVDA) 一直是加速计算领域的先驱。NVIDIA 1999年发明的 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代AI时代,正在推动跨市场的工业数字化。NVIDIA 现在是一家全栈计算公司,其数据中心规模的解决方案正在重塑整个行业。更多信息,请访问https://nvidianews.nvidia.com/。

  # # #

  媒体咨询:

  Jade Li

  NVIDIA GeForce, Studio PR

  邮箱:[email protected]