2023-11-28
一场谈话中,,,沉默的时间超过4秒,,,气氛就会变的尴尬
人与人的对话尚且如此,,,更别说数字人了
因此,,,交互速度成为我们衡量一个“全拟真人类个体”是否合格的重要技术指标之一
通常情况下,,,AI驱动的交互型数字人交互反应时长在7-8秒左右
有些“人工智障”甚至要达到20几秒
但是现在,,,这个难题被攻克了
我们的全拟真人类个体响应时间还不到1秒!
《最in数字人》第一期中,,,我们介绍了“全拟真人类个体”的概念及五大要素
本期内容小编将透露降低数字人交互延迟的奥秘!
降低交互延迟“四步曲”

超低延迟“江凌枫”,,,共享诗词对答丝滑体验
这位侠气十足的古装帅哥,,,是我们的全拟真人类个体“江凌枫”
跟他的对话可以用“纵享丝滑”来形容,,,全程秒问秒答
主打一个绝不让任何人尴尬!
和数字人对话有几步?
回想一下我们平时回答别人问题的时候,,,大脑运转大概分为三步:
1.理解对方的问题
2.构思答案
3.说出答案
数字人的大脑和人类大脑的区别在于,,,人的大脑不是被设计出来的,,,而是经过浩瀚的历史长河,,,通过选择和演化而产生的。。。而数字人的大脑,,,是通过不断的学习训练变得越来越聪明,,,反应速度越来越快。。。
这看似简单的三个步骤对数字人来说,,,需要海量的学习数据,,,通过庞大的计算,,,调用一系列工具才能实现。。。而这个过程中,,,每个环节都可能是造成数字人反应延迟,,,让对话出现尴尬的沉默的原因。。。
总体来说,,,给江凌枫“大脑加速”,,,让他能够做到秒级响应,,,需要ASR语音识别 、、、TTS语音合成 、、、Audio2Face语音转表情 、、、大模型部署四大方面的技术提效。。。
秒问秒答的江凌枫有何过人之处?
步骤一 ASR语音识别
ASR语音识别的主要任务就是把语言信号转换成文本,,,让数字人理解我们在说什么。。。在这个过程中,,,通过选择在本地部署ASR语音识别引擎的方式,,,能更好地应对网络延迟问题,,,从而加速整个识别过程,,,同时还保护了用户的语音数据隐私。。。
步骤二 TTS语音合成
TTS语音合成环节,,,则是将上一步生成的文本转换为语音的过程,,,让数字人把回答说给我们听。。。
值得一提的是,,,在这个环节,,,我们采用了流式传输的方式,,,通过将字符进行拆分重组,,,分段传回合成语音的方式再次提升了数字人的反应速度。。。
举个例子,,,如果是非流式传输,,,一句简单的“你好,,,我是江凌枫”需要等所有文字全部转成语音后才能统一输出,,,而采用了流式传输,,,数字人可以先将“你好”的语音输出,,,并同时进行“我是江凌枫”的语音合成并输出,,,巧妙地提升数字人回应速度。。。而且,,,这种将一句话分段输出形成消息队列的方式,,,可以在“你好”输出完成被“消费”掉以后,,,不再储存于整个队列中,,,解决大模型负担,,,实现语音合成输出环节的提速。。。
TTS语音合成这一步骤也是在本地完成的,,,在保护用户隐私的前提下,,,极大程度上减少了与远程服务器通信带来的延迟问题。。。
步骤三 Audio2Face语音转表情
人在说话的时候会有自然的表情变化,,,要让数字人实现更真实的交互自然也要具备这种能力。。。Audio2Face语音转表情过程,,,就是让数字人根据语义所表现内容做出面部肌肉运动 、、、眨眼等相应表情变化的关键。。。
这个环节中,,,我们着重解决的是当多个数字人同时在任务中,,,由于实例分配不及时导致的延迟问题。。。在布置Audio2Face实例过程中,,,我们自主研发的A2FServer 、、、负载均衡服务器两大神器起到了重要作用。。。
A2FServer不仅能够自主匹配实例,,,还能实现持续连接,,,避免暂停交互数字人与实例自动断开连接的情况发生。。。负载均衡服务器可以汇总数字人需要连接的端口 、、、公网 、、、内网 、、、状态 、、、是否被占用等信息,,,使数字人可随时查看实例状态并调用,,,降低表情转化的时间。。。
步骤四 大模型部署
大模型是数字人“中枢神经”,,,在实时交互的过程中承担了自然语言处理 、、、对话生成 、、、个性化交互 、、、知识获取与问答 、、、创造性文本生成 、、、自动化文本生成 、、、多轮对话处理等任务。。。
为了让大模型拥有更好的运行环境,,,提升整体效率,,,技术团队采用了高效的硬件和软件架构,,,利用先进的多维并行 、、、异构内存管理和低延时推理解决方案,,,来加速训练和推理任务,,,最大程度地提高模型任务的效率。。。在有效降低AI大模型训练 、、、微调和推理成本的同时,,,还优化了模型任务的性能表现,,,降低了对GPU的需求。。。通俗来说就是,,,大模型具备了完美的运行环境,,,灵活度自然也变得更好了。。。
除此之外,,,为了满足不同场景的应用需求,,,我们还选择了基于国内数据的预训练基座大模型,,,并对它进行垂直领域的训练和细致调整,,,不仅提升模型在特定任务中的准确性和适用性,,,还使其更符合专业需求。。。就好像当我们花大部分的时间深入研究 、、、学习“金融”知识,,,当涉及该领域的内容时,,,能够更快速做出反应并给出精准答案。。。通过这样的训练,,,使数字人交互延迟的问题得到进一步解决。。。
总结
通过ARS语音识别 、、、TTS语音合成 、、、Audio2Face语音转表情 、、、大模型部署四个方面的有效技术提升,,,最终为我们呈现出了“有记忆 、、、有灵魂 、、、多感情 、、、多感知 、、、超写实”的全拟真人类个体,,,使得数字人在交互过程中达到“秒级反应”,,,真正实现了超低延迟的互动体验。。。