网站首页 百科全书 > 正文
阿里巴巴集团智能计算研究院的一个人工智能研究人员小组通过他们创建的视频演示了一款新的人工智能应用程序,该应用程序可以接受一张人脸照片以及某人说话或唱歌的配乐,并使用它们来创建说话或演唱音轨的人的动画版本。该小组发表了一篇论文,描述了他们在arXiv预印本服务器上的工作。
先前的研究人员已经演示了人工智能应用程序,可以处理脸部照片并用它来创建半动画版本。在这项新的努力中,阿里巴巴团队通过添加声音更进一步。也许,同样重要的是,他们在没有使用 3D 模型甚至面部标志的情况下就做到了这一点。相反,该团队使用了基于在大型音频或视频文件数据集上训练人工智能的扩散建模。在本例中,该团队使用了大约 250 小时的此类数据来创建他们的应用程序,他们将其称为 Emote Portrait Alive ( EMO )。
通过直接将音频波形转换为视频帧,研究人员创建了一个应用程序,可以捕获微妙的人类面部姿势、言语怪癖以及其他特征,从而将动画图像识别为人类面部。这些视频忠实地再现了用于形成单词和句子的可能的嘴形,以及通常与之相关的表情。
该团队发布了多个视频,展示了他们生成的惊人准确的性能,并声称它们在真实性和表现力方面优于其他应用程序。他们还指出,完成的视频长度是由原始音轨的长度决定的。在视频中,原始图片与该人一起显示,该人以原始音轨上录制的声音说话或唱歌。
版权说明: 本文由用户上传,如有侵权请联系删除!
- 上一篇: 研究发现长期使用阿片类药物与脑细胞 DNA 变化之间存在联系
- 下一篇: 最后一页
猜你喜欢:
- 2024-03-02 研究发现长期使用阿片类药物与脑细胞 DNA 变化之间存在联系
- 2024-03-01 基因密码的变化可以解释人类祖先如何失去尾巴
- 2024-02-29 构建用于海洋探索的仿生水母
- 2024-02-28 增加土壤盐分:新发现可能有助于提高作物的恢复能力
- 2024-02-27 青光眼的更清晰图像:青光眼相关肌纤蛋白的展开和聚集之间的关系
- 2024-02-26 肠道中的细菌可以改善你的情绪:对小鼠的研究试图将关键菌株归零
- 2024-02-23 一种快速降低血压并激活血气交换的非侵入性选择
最新文章:
- 2024-03-04 研究人员观察磁场对电催化过程的影响
- 2024-03-04 科学家让纳米粒子跳舞以解开量子极限
- 2024-03-04 化学蚀刻方法为燃料电池等打开孔隙
- 2024-03-04 原子伞:二维量子材料的第一层保护层
- 2024-03-04 理想汽车大型小型货车在中国上市
- 2024-03-04 英国跑车制造商唯一的两栖原型车
- 2024-03-04 经济型轿车东风风神逸轩2024亮相
- 2024-03-04 一辆旧丰田皮卡被改装成越野房车
- 2024-03-04 限量版海滩吉普车将上市
- 2024-03-04 悉尼拍卖:购房者因拍卖增加而幸运
- 2024-03-04 为什么定制的利奥波德住宅提供了价值 100 万美元的梦想蓝图
- 2024-03-04 悉尼拍卖:Marrickville 单元售价高出预期 30 万澳元
- 2024-03-04 周日惊喜:Centralian 经典住宅等你来拿
- 2024-03-04 布里斯班私人宁静绿洲上市
- 2024-03-03 Adobe将推出用于搜索总结PDF的AI助手