《AI技术助力图片生成有声视频的创新发展》
在当今科技飞速发展的时代,AI技术的应用领域不断拓展,其中图片生成有声视频的技术尤为引人注目。
阿里巴巴达摩院推出的 EchoMimic 是一项 AI 驱动的口型同步技术项目。它能够通过给定的音频和一张或多张人物的面部照片,生成一个看起来像是在说话的视频,人物的口型动作与音频中的语音完美匹配。这项技术在娱乐、教育、虚拟现实、在线会议等领域具有广泛的应用前景,能够创建更加真实和互动的视频内容。EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,并且支持将两者混用,通过音频控制口型,通过 landmarks 来控制姿势和表情。它的稳定性和自然度是其两大优势,通过融合音频和面部标志点的特征,生成的面部动画更加符合真实的面部运动和表情变化,能够精准捕捉微小的嘴角上扬和眼神的微妙流转。
除了 EchoMimic,还有其他工具也可以实现图片生成有声视频的功能。D-ID 是其中之一,登录其网站,选择 create video,点击 add 上传图片,在右边输入文字并选择语言可自动生成音频,也可直接上传做好的音频,再点击 generate viedo 即可生成视频。不过,使用 D-ID 需要魔法,且**版有限制,初始有 20 个信用值,制作一次视频会消耗 1 – 2 个信用值。
此外,微软展示的 VASA – 1 的 AI 模型,只要接受一张人像照片和一段声音样本,就可创建一个鲜活的会说话的人脸视频,包括唇语同步、面部情绪表达及头部动作。该模型具有很强的控制能力,提供的图片无需正面平视前方的视角就可生成相应动态视频,还可将图片中人物眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。但目前该模型只是研究预览版,除微软研究团队以外的任何人都无法试用。
在服装领域,图应 AI 是飞链云公司推出的国内首批 AI + IMaas 架构的 AI 商拍优化平台。它专注于通过 AI 技术生成指定需求的优质服装商拍图像、服装视频。经过大量数据专业训练,具备高智能化能力。无需场景实拍,可根据服装素材和数字人进行融合处理,在保留指定特征的基础上嵌入模型表征,自动生成真实模特上身场景或指定需求的商拍内容。其具有诸多优势,如商拍成本下降 50%,效率提升 5 倍以上;无需模特预约,提升新品上线周期;无需外模、布景、化妆、差旅,随意拍摄,AI 自动精修;海量无版权风险的模特可供选择,无出海肖像版权风险担忧。
总之,随着 AI 技术的不断发展,图片生成有声视频的技术将不断完善,为人们的生活和工作带来更多的便利和创新。https://tuingai.com/
暂无评论内容