带有语音动画的实时AI视频


一个拆分屏幕的数字视频呼叫接口具有两个进行实时对话的动画头像。在左侧,一个具有直截了当的棕色头发和黑色顶部的逼真的女性,具有自然表达。右边是一个动漫风格的女孩,有着大紫色的眼睛和棕色的头发热情地微笑。每个化身之下是一个发光的音频波形图形,代表了实时语音输入。左上角出现了一个红色的“现场”图标,而柔和的语音气泡则漂浮在两个化身后面。黑暗,时尚的背景和微妙的界面元素传达了一个未来派和现代的通信平台。

关键要点:

  • targure.ai介绍了TalkingMachines,这是一种实时视频生成模型,可动画音频输入字符。

  • 该系统使用音频驱动的跨注意事项和两步扩散过程来动画逼真的嘴巴,头部和眼睛的动作。

  • 该技术支持多种动画风格,包括逼真的,动漫和3D化身。

  • 它仅在两个GPU上实时运行,使其足够有效,可以在讲故事,角色扮演和虚拟角色流中进行交互式使用。

  • 虽然不是产品发布,但该版本标志着朝着沉浸式实时AI代理商的基础转变。

实时AI动画:说话机器如何工作

角色。Eai的TalkingMachines是一种新的实时视频生成模型,可以使用图像和语音信号从框架中从语音输入中进行动画化身。结果:明显说话,倾听和响应的角色以语调,暂停和表达方式进行动作。它标志着迈向互动视听的AI代理人迈出的重大一步,这些AI代理在现场对话中感觉到和反应灵敏。

该系统建立在扩散变压器(DIT)体系结构的基础上,并使用一种称为非对称知识蒸馏的技术来转换高质量但缓慢的双向视频模型,该模型通过分析过去和将来的上下文来生成每个框架,这是通过生成实时生成FRAMES FERAMES SECETICELICELICENTICELECTICELICENTICE-FERASE和将来的上下文。这使TalkingMachines能够使角色动画动画,而不会损害图像质量,表现力或风格一致性。

这种实时功能由旨在平衡速度,质量和自然运动的创新组合提供支持:

  • 流相匹配的扩散: 接受了复杂的面部和身体运动模式的培训,以保持跨帧的一致性和表现力。

  • 音频驱动的交叉注意: 一种专业的12亿参数音频模型将声音与运动相结合,以自然的时机捕捉语音和沉默。

  • 因果关系稀疏: 自回旋设计参考文献仅是过去框架最相关的框架,而不是完整的序列,在保持质量的同时减少了内存需求。

  • 不对称知识蒸馏: 两步生成的管道模仿了一个较慢,高保真的教师模型,以持续的质量实现实时性能 – 支持长而不间断的序列,而无需视觉降低。

超越面部动画:迈向视听AI代理商

该系统将角色移动。EAI的功能超出了静态化身或预渲染的视频。它为可以在屏幕上出现,响应用户输入并在口语和听力阶段中无缝转移的交互式AI角色打开了新的可能性。

  • 风格多功能性: 从栩栩如生的人类到动漫或风格的3D化身,跨流派工作

  • 实时响应: 以自然的对话节奏和聆听来支持实时流媒体流

  • 多宣言处理: 检测语音边界,以使角色顺畅地转弯

  • 硬件效率: 得益于深度系统级优化,仅在两个GPU上实时运行

  • 世界建设基金会: 为角色扮演,讲故事和身临其境,角色驱动的体验建立核心基础设施

角色.ai将其视为一个研究里程碑 –不是产品发布– 但将其定位为其路线图的核心组成部分,用于FaceTime式AI互动和虚拟世界建设。

大规模培训:从实验室到部署

角色。EAI在培训基础架构,蒸馏方法和系统工程上进行了大量投资,以将这项研究转变为实时可部署的模型。谈论机器的培训使用:

  • 超过150万个策划的视频剪辑

  • 在大约256 H100 GPU上运行的三阶段训练管道

  • 自定义部署优化,包括CUDA流重叠,键值(KV)缓存和VAE-DECODER分解,以提高效率和响应能力

这些后端投资使该模型即使在扩展的开放式互动期间也能够维持高视觉质量和自然运动,这为与表现力的反应性AI字符进行长形式对话的基础。

AI读者的快速事实

问:什么在说话?

一个: 它是字符。EA的实时语音驱动视频生成模型,可以使角色在谈话中的面部和头部动画动画。

一个: 它使用两步扩散过程和专门的音频注意模型来实时与音频提示同步语音。

一个: 它可以使响应迅速的视听AI代理 – 支持讲故事,现场角色扮演和虚拟伴侣等用例。

问:现在可以使用吗?

一个: 还没有。这是一个研究突破,而不是产品发布,但它为将来集成到角色的平台中奠定了基础。

这意味着什么

说话机器不仅是一项技术成就,而且是我们在日常生活中与AI互动的方式的转变。通过单独从语音和图像输入中生成实时视频,它为沟通,娱乐和创意协作的全新格式打开了大门。

这可能会从播客转变为直播。想象一下,AI AFATAR与人类主持人一起参加视频播客 – 实时响应,保持眼神交流并展示自然的肢体语言。设想采访细分市场不再是一段伸展,创作者与AI角色交谈,而不仅仅是谈论它们。

在游戏,教育和虚拟陪伴中,动画表现力,上下文感知的化身的能力可以显着增加参与和沉浸感。对于创作者而言,它降低了生产完全动画,对话内容的障碍,而无需昂贵的动画管道或配音会议。

最终,TalkingMachines表示从静态或反应性AI转变为体现的视听代理商 – 一个不仅说话而是表演的人。这种转变可以重新定义人类在日常数字空间中与AI的感知,信任和合作。

编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。



Source link

0
分享到:

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
没有账号? 忘记密码?