Tensor RT-LLM，使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

　　生成式 AI(GenerativeAI)是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。

　　GeForceRTX 和 NVIDIARTXGPU配备名为TensorCores的专用AI处理器,将生成式 AI (GenerativeAI)的强大功能原生引入超过1亿台WindowsPC和工作站。

　　如今,TensorRT-LLM for Windows 使PC生成式AI(GenerativeAI)速度提高4倍,TensorRT-LLM for Windows是一个开源库,可加速最新AI大语言模型(如Llama2和CodeLlama)的推理性能。此前,TensorRT-LLM for Datacenter 已在上个月发布。

　　NVIDIA还发布帮助开发者加速LLM 的工具,包括使用TensorRT-LLM优化自定义模型的脚本、TensorRT优化的开源模型,以及一个展示LLM响应速度和质量的开发者参考项目。

　　TensorRT 加速现已应用于 Automatic 1111 发布的热门应用 Stable Diffusion WebUI。它将生成式 AI(GenerativeAI)扩散模型的速度提升2倍,比此前最快的速度还快。

　　此外,作为今天发布的 GameReady 驱动的一部分,RTXVSR 视频超分辨率(VideoSuperResolution)v1.5版现已发布,11月初发布的 NVIDIAStudio驱动也将支持该技术。

　　TensorRT为LLM增效

　　LLM正在提高生产力——聊天、总结文档和网页内容、起草电子邮件和博客,并且是由AI和其他软件所组成的全新工作流的核心,可以自动分析数据并生成大量内容。

　　TensorRT-LLM 是 NVIDIA 用于加速LLM推理的库,使开发者和最终用户可以享受运行 LLM 的更多优势。现在,LLM 在搭载 RTX 的 WindowsPC 上的运行速度可提高4倍。

　　在更大的批量大小下,这种加速可显著改善更复杂的LLM使用体验,如写作和编码助手,可同时输出多个唯一的自动完成结果,从而加速性能并改进质量,让用户可以有最好的选择。

　　TensorRT-LLM 加速还有利于将LLM功能与其他技术相结合,例如在检索增强生成(RAG)中,LLM与向量库或向量数据库组合。RAG使LLM能根据特定的数据集(如用户的电子邮件或网站文章)提供更有针对性的答案。

　　在实际应用中,当我们向LLaMa2基础模型提出”《心灵杀手2》(AlanWake2) 集成了 NVIDIA 的哪些技术?”这一问题时,它给出”游戏尚未公布”这一毫无帮助的回答。

　　相反,使用RAG 将GeForce 新闻添加到向量库中,并连接到相同的Llama2模型,不仅得到正确答案——NVIDIADLSS3.5、NVIDIAReflex和全景光线追踪,而且在TensorRT-LLM加速的助力下响应速度更快。这种速度与能力的结合为用户提供更智能的解决方案。

　　TensorRT-LLM 即将能从 NVIDIA开发者网站下载。

　　TensorRT优化的开源模型和以GeForce 新闻为示例项目的RAGDemo 可从ngc.nvidia.com和GitHub.com/NVIDIA下载。

　　自动加速

　　Diffusion模型(如 StableDiffusion)用于想象和创造令人惊叹的新颖艺术作品。图像生成是一个迭代过程,可能需要数百次循环才能获得完美输出。如果在性能不足的 PC 上进行,这种循环可能会增加数小时的等待时间。

　　TensorRT旨在通过神经网络层融合、精度校准、内核自动选择和其他功能加速AI模型,从而显著提高推理效率和速度。这使它成为实时应用和资源密集型任务不可或缺的工具。

　　现在,TensorRT使 StableDiffusion 生成速度翻倍。

　　兼容最热门的 Automatic1111WebUI,借助 TensorRT 加速的 StableDiffusion 可以帮助用户加快迭代速度,减少PC等待时间,更快生成最终图像。在GeForceRTX4090上,它的运行速度是使用苹果M2Ultra的Mac顶配版的7倍。该扩展即日起可供下载。

　　基于 StableDiffusion 流程的TensorRTDemo 为开发者提供了如何为TensorRT加速准备扩散模型并部署加速的参考实现。这是一个起点,它可以为对此感兴趣的开发者加速 Diffusion 流程,并为应用带来快如闪电的推理能力。

　　超级视频体验

　　AI 正在改善所有用户的诸多日常PC体验。流媒体视频是PC上最受欢迎的活动之一,其来源几乎无所不包,如YouTube、Twitch、PrimeVideo、Disney+等。得益于 AI 和RTX,它的图像质量又有全新提升。

　　RTXVSR视频超分辨率在 AI 像素处理方面的重大突破,通过减少或消除压缩视频造成的失真,提高直播视频内容的质量。此外,它还能锐化边缘和细节。

　　现在,RTXVSR 视频超分辨率v1.5版通过更新模型进一步提升视频画面质量,消除以原始分辨率播放内容的伪影,并增加对采用 NVIDIA Turing 架构的RTX 20 系列GPU的支持,包括:专业图形卡和GeForceRTX20系列GPU。

　　重新训练VSRAI模型有助于它学会准确识别微妙细节和压缩失真之间的区别。因此,经过AI增强的图像在放大过程中能更准确地保留细节。细节更加清晰可见,整体图像看起来更加锐利清晰。v1.5版的全新功能是消除以屏幕原始分辨率播放视频时的失真。最初的版本仅在视频分辨率被提升时增强视频效果。现在,例如在1080p分辨率显示器上串流1080p视频会更流畅,因为严重的失真会显著改善。

RTXVSR现在能消除以原始分辨率播放视频时的失真

　　即日起,所有RTX用户可在最新的GameReady 驱动中获取 RTXVSR 视频超分辨率v1.5 版使用,下月初发布的NVIDIAStudio驱动也将支持该技术。

　　RTXVSR 视频超分辨率是NVIDIA软件、工具、库和SDK(如上文提到的软件、工具、库和SDK,以及DLSS、Omniverse、AIWorkbench等软件)的一部分,这些软件、工具、库和SDK为消费者带来超过400款AI加速的应用和游戏。

　　AI时代即将到来。RTX正为其发展的每一步增加动力。

　　关于NVIDIA

　　自1993年成立以来,NVIDIA (NASDAQ: NVDA) 一直是加速计算领域的先驱。NVIDIA 1999年发明的 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代AI时代,正在推动跨市场的工业数字化。NVIDIA 现在是一家全栈计算公司,其数据中心规模的解决方案正在重塑整个行业。更多信息,请访问https://nvidianews.nvidia.com/。

　　# # #

　　媒体咨询:

　　Jade Li

　　NVIDIA GeForce, Studio PR

　　邮箱:[email protected]

Tensor RT-LLM，使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

Tensor RT-LLM，使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

JCBET JC THỂ THAO

Recent posts

偶像的力量！拉菲尼亚欧冠1/4决赛双响荣获MVP，偶像小罗现场见证

哈登23+11+7库里意外伤退勇士负快船吞赛季首败

Fantasy Basketball Rankings 2024-25: Top sleepers, breakouts and busts by proven NBA simulation

壮成锡安！凯尔特人爽了他才是球队第一核心

【剑雪封喉天下DotA】TI13战队巡礼——Team Liquid

3射1正掉链子！姆巴佩战巴萨全场隐身三大1.8亿先生欧冠集体拉胯

《守望先锋2》星际牛仔联动发布游玩预告演示

詹姆斯32+11+6杜兰特38分季中锦标赛湖人射落太阳

国米提前两轮出线欧冠小组赛锁定世俱杯参赛席位

詹皇32+11+6湖人逆转太阳杜兰特38+9