2023-06-05
近日,,,《浪姐4》高调开播,,,与之前不同的是,芒果台这次大手笔,,,准备走国际化, 放眼望去尽是俄罗斯 、、、美国 、、、日本 、、、韩国 、、、德国 、、、越南姐姐齐聚一堂争奇斗艳,,,缔造了同期综艺节目的天花板。。。不过本季浪姐的流量剧本似乎未按照预期上演,,,在国内“几乎无知名度”的二次元美女美依礼芽(MARiA),,,凭借一首《极乐净土》人气迅速上升,,,断崖甩开其他选手,,,直接霸榜第一,,,打翻了本季浪姐剧本。。。
AIGC版《极乐净土》点燃B站
美依礼芽和《极乐净土》究竟是何来头?早在7年前《极乐净土》就曾以其入耳的旋律 、、、律动感强烈的舞步血洗B站,,,吸引了一大批二次元粉丝,,,成为B站镇站歌曲,,,如今时隔7年后,,,《极乐净土》再度翻红出圈,,,点燃了B站网友们的二创热情。。。有网友使用AIGC技术,,,复刻了《极乐净土》舞蹈的名场面,,,引发热议,,,播放量甚至超过B站舞蹈区知名大UP翻跳版。。。
百变换衣,,,人不变,,,生成式AI迎来技术突破
AIGC版的《极乐净土》,,,甚至比原版舞蹈更为上头(毕竟谁不喜欢小姐姐在跳舞时一秒一换衣呢)。。。之前大家熟知的AIGC图像生成,,,多应用于图像领域。。。因为无法做到稳定的多帧连续图像生成,,,所以鲜有高质量的AI生成视频。。。而AIGC版的《极乐净土》却实现了对图像的精准控制,,,动作 、、、服饰连续多变,,,但人物却始终保持较为稳定的状态,,,其原因正是生成式AI技术迎来了新的技术突破。。。
2023 年,,,一款叫ControlNet(译为控制网)的Stable Diffusion插件发布,,,这款插件在短短的2天时间就在GitHub狂揽4.6K Stars,,,成为了AI绘画领域最热门的新星。。。ControlNet的出现代表着生成式AI技术开始可控,,,而生成式AI技术能否被精确控制,,,正是AIGC技术是否进入实际生产环境中最为关键的一环。。。
此前,,,如果想通过AIGC技术,,,生成带有运动轨迹的稳定连续图像(多张图片,,,转换成视频)是非常困难的,,,由于生成式AI技术的不可控,,,导致生成的图像,,,每一帧都会有极大的差异,,,无法用于合成视频。。。如果说在使用生成式AI技术作画时,,,不可控在某些场景下还算是个优点,,,能够帮助创作者发散思维,,,提供更多可能性。。。那么在视频创作领域,,,生成式AI技术的不可控,,,将导致生成的画面无法使用(想象一下,,,一部电影,,,上一秒挥拳的还是杰森斯坦森,,,下一秒就变成了巨石强森),,,所以在影视领域,,,AIGC技术的普及速度远远落后于其他产业。。。
通过引入额外的输入,,,实现精准控制生成式AI
ControlNet 作者提出了一个新的神经网络概念,,,通过引入额外的输入来控制扩散模型,,,如 stable diffusion,,,然后在新生成的图像中保留这些信息,,,比如人物姿态 、、、深度 、、、画面结构等,,,以实现用户对生成的图像进行精细化控制。。。
在此之前,,,如果想要实现对图像进行精细控制,,,需要对prompt提示词进行详细描写,,,或者用图生图加上详细的prompt才能小概率生成目标图像,,,ControlNet 出现后,,,实现难度大幅降低。。。通过引入额外的输入(如Canny 边缘检测 、、、Openpose 骨骼绑定),,,ControlNet就可以对模型加以约束,,,以保证生成的图像可以依照使用者的意图进行生成 、、、调整,,,从而实现对模型的精细化控制。。。
对于视频内容创作者,,,元享AIGC模块将带来巨大的效率提升,,,原本需要投入大量人力物力成本,,,花费数周时间才能完成的视频的将在一两天内完成。。。智能化的使用体验,,,极大降低了视频的制作成本与周期。。。并且随着AIGC技术的不断更新迭代,,,效率效果还将持续提升,,,在不久的未来,,,AIGC技术将颠覆视频创作流程,,,成为影视行业新时代数字生产力。。。
拓展AIGC应用领域,,,元享生成式AI+大模型,,,开启多模态虚拟数字人交互新篇章
胜天国际子公司元境科技计划将AIGC技术扩展到更多领域。。。目前内测版元享智能云平台已将AIGC 、、、大模型技术应用到虚拟数字人肢体驱动,,,通过卷积神经网络提取音频特征与动作库特征,,,建立双向映射关系,,,通过预训练大模与型神经网络解码器得到肢体动作关键点位置信息,,,生成式AI将音频信息与动作关键点位置信息结合,,,生成并驱动虚拟数字人动作 、、、表情。。。实验室环境进行双盲测试,,,接入到内测版元享智能云平台的元趣AI,,,在虚拟数字人电商直播间的效果对比评分高于真人。。。由于元享虚拟数字人每一次说话时的动作表情都是由生成式AI生成的全新的动作,,,且能够与直播音乐频谱相结合,,,在直播时互动更加多样,,,表现更加生动自然。。。
在相同话术,,,不同音乐韵律下,,,虚拟数字人每次的交互动作不尽相同,,,实时生成的新动作打破了以往虚拟数字人只能根据动作库进行关键词匹配,,,且动作模型少 、、、肢体表情僵硬不自然等问题,,,能够更好地处理复杂的互动场景。。。此项技术的落地将有效提升虚拟数字人在影视 、、、教育 、、、金融 、、、文娱 、、、电商 、、、本地生活等诸多行业的应用效果,,,拥有无穷动作的虚拟数字人将成为虚拟人行业发展的重要里程碑。。。