您的位置:首页 >电信 >

GPU加速运算:Nvidia强化交谈式AI应用多模态服务框架Jarvis进入公开测试阶段

原标题:GPU加速运算:Nvidia强化交谈式AI应用多模态服务框架Jarvis进入公开测试阶段

目前交谈式AI的应用最常见于聊天机器人(Chatbot),然而,若要提升与使用者互动的体验,需要支援多种模态的整合应用,而Nvidia在这部份的技术研发,则是Jarvis这套应用程式框架,10月进入公开测试阶段。

在10月的GTC大会上,Nvidia创办人暨执行长黄仁勋介绍完一系列AI推论的应用成效,以及TensorRT这套针对Nvidia推论伺服器使用的编译器将推出7.2版的消息,在这之后,随即宣布,他们发展的对话式AI的软体应用Jarvis,进入开放公开测试的阶段。

事实上,Nvidia在今年5月的GTC Digital大会,已揭露更多Jarvis应用架构与方式,他们将其定调为多模态交谈式AI服务框架(Multimodal Conversational AI Services Framework),能让企业运用影音与语音资料,建构先进的语音交谈式AI服务,而且可针对本身的产业、产品与客户特性来进行自定。

Nvidia表示,随着在家工作、远距医疗、远距学习应用大增,企业自行开发交谈式AI服务需求量也跟着提升,应用範围相当广泛,从客户支援,到即时翻译、语音视讯通话的摘要,有了这些服务,可让身处不同地方的人们,保持工作效率与彼此联繫。

黄仁勋当时展示了两个作法,首先是将AI模型结合语音与脸部的应用,他们将一段饶舌歌曲结合一个人头塑像动画来展现,就像这个虚拟人物正在唱颂的样子。

类似的应用他们先前也曾展示,例如,在2017年的语音驱动式脸部3D动画(Audio-Driven Facial Animation),当中结合了关于动作与情感的全面机器学习技术。

2019年Nvidia AI实验室(NVAIL)也展示他们发展的语音操作型角色动画(Voice Operated Character Animation,VOCA)。

第二个应用则是气象资讯对话机器人,名为Misty。黄仁勋不只与这个机器人进行天气资讯的双向语音问答,机器人本身的动画也会跟随所回答的内容而自动变化,例如,面部表情、嘴型说话动作、眼神注视动作,以及呈现不同天气下的自身状态。

他们运用Omniverse与Jarvis建立了AI驱动的3D数位分身。这当中使用的Jarvis,包含了预先训练的交谈式AI模型,针对语音辨识(ASR)、电脑视觉(CV)、自然语言理解(NLU)、文字转语音(TTS)等多种AI服务,也涵盖了Audio2Face语音驱动式的AI技术,能够从Jarvis合成语音,快速而自动建立即时的脸部动画,而涉及即时图像渲染的部份,则交由Omniverse这套即时模拟与协作平台,来进行3D内容的生产与处理。

值得一提的是,Jarvis包含了几套先进的深度学习模型,像是Nvidia发展的Megatron BERT,可用于自然语言理解。Nvidia表示,这是世界最大型的BERT(Bidirectional Encoder Representations from Transformers)模型,可理解39亿个参数,在进行训练处理时,可支援数百个GPU的线性扩展,并可随着模型规模扩大而增加精準度。

企业若要进一步在他们的资料上,更妥善地调校AI模型,可运用Jarvis整合的另一个开放原始码软体工具包Nemo,它是用于开发交谈式AI模型的工具,当中包含了Python模组集,能简化模型组建,以及支援混合精度运算,加速训练与调校,之后也可部署至Jarvis services当中。

除此之外,Jarvis还整合了TensorRT 7.1,可支援今年新推出的A100 GPU,来运用INT8精度来加速BERT推论,获得6倍的效能提升(相较于搭配V100)。

而在10月Nvidia宣布Jarvis公开测试的消息当中,也首度提及这套解决方案的成效。他们表示,若採用Jarvis这套用来建构多模态交谈式AI服务的加速软体框架,搭配GPU且用于执行深度学习的交谈式AI应用时,延迟度将可低于300毫秒,并提供7倍的吞吐量(相较于纯粹仰赖中央处理器的作法)。

 

相关推荐

猜你喜欢

特别关注