“搜狗分身”技术亮相乌镇,“AI合成主播”入职新华社

11-09 10:56

11月7日,第五届世界互联网大会如期在乌镇举行。

乌镇峰会是年度最盛大的互联网峰会之一,它不仅是行业精英交流学习的难得机会,同时,也是众多前沿科技成果的集中展示。在本届乌镇峰会上,搜狗便与新华社联手,共同推出了全球第一个“AI合成主播”,创造性地“克隆”出了真人主播的职业分身。

所谓“AI合成主播”,顾名思义,是用人工智能技术合成的新闻主播。“他”不仅能用和真人一样的声音进行播报,甚至,连唇形、面部表情、肢体语言也能够与真人主播吻合,达到真假难辨的效果。“AI合成主播”的价值在于,可以大幅压缩新闻播报视频的后期制作成本,新华社副社长刘思扬表示:“从今天开始,新华社AI虚拟主播就将正式上岗,成为新华社报道队伍中新的一员。”

1.jpg(新华社主持人邱浩与自己的“分身”)

那么,“AI合成主播”是如何产生的呢?搜狗语音交互技术中心总经理王砚峰透露,只需要由真人主播面对镜头录制一段播报新闻视频,“搜狗分身”技术凭借这段视频,就能将真人主播的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的“AI合成主播”。

2.jpg

王砚峰提到的“搜狗分身”技术,是搜狗公司的前沿技术之一,它包含语音合成和图像生成两大引擎。

在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;在图像生成引擎中,使用业界领先的搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。

在以上两大引擎的基础上,搜狗分身能够逼真模拟人类说话的声音、嘴唇动作和表情,并将三者自然匹配,做到惟妙惟肖,让机器以更逼真自然的形象呈现在用户面前。而“AI合成主播”还集成了搜狗其他领域的先进技术,例如,“他”可以自动识别中英文,并将中文直接转换成英文。

3.jpg

值得一提的是,“AI合成主播”仅仅是“搜狗分身”技术的应用场景之一。得益于这项技术,搜狗可以批量复制风格各异的人类形象,满足用户的各种需求,例如合成教师、合成医生、合成客服等,从而提升不同行业的信息生产传播效率。

此次搜狗与新华社的深度合作,是AI合成技术在全球新闻领域的首次应用,也是媒体与科技碰撞产生的全新果实。而“AI合成主播”的正式上岗,想必将影响除了新闻领域之外的、更广泛的社会生活。毕竟,人类与AI共舞的故事,现在才刚刚开始。

Tags: