阿里通义实验室力作：全新数字人生成技术，音视频合成实现超高真实感

发布于：2025-04-15 13:57 全文约909字

阿里通义实验室推出新型数字人视频生成大模型OmniTalker，能通过上传参考视频模仿人物表情、声音和说话风格，简化制作流程，降低成本，并提升真实感和互动体验。该模型采用双分支DiT架构，实现音视频同步生成，解决了传统技术中的同步和风格一致性问题。实验显示，OmniTalker在音视频生成质量上具有显著优势。项目已在相关平台开放免费体验。

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。

OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提供了多种模板供用户自由使用，完全免费。为了让人们更直观地感受到这一技术的强大，阿里通义实验室展示了几段示例视频，观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的，这让人感到震撼。

该模型的研发背景源于近年来语言大模型的迅猛发展，虚拟主播和虚拟助手的应用越来越广泛。然而，以往的文本驱动数字人生成研究相对较少，且传统方法通常采用级联流水线的方式，容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构，能够同时从文本和参考视频中生成同步的语音和视频，从而克服了这些技术瓶颈。

在模型结构方面，OmniTalker 的设计由三大核心部分构成。首先，模型能够提取音频特征和视觉特征，确保两者在时间上的完美同步;其次，采用多模态特征融合模块，提升了音频和视频的整合效果;最后，经过预训练的解码器能够高效将合成的音视频特征转换为原始格式，保证输出的高质量。

通过实验数据的对比，OmniTalker 在音频生成和视觉效果方面都表现出色，显示出更低的错误率和更高的声音相似度，进一步证明了其在零样本条件下的强大能力。

论文:https://arxiv.org/abs/2504.02433v1

项目页:https://humanaigc.github.io/omnitalker

体验页:https://huggingface.co/spaces/Mrwrichard/OmniTalker

OmniTalker 数字人视频生成大模型 AI数字人阿里通义实验室