全部 AI 动态 · AI 热点

arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

精选

浙江大学团队提出 Archon，一个完全预训练的统一多模态模型，用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构，统一了七种模态，并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题，Archon 引入了一种内存高效的语义视频重参数化方法，实现 4 倍 token 压缩同时保留精细动态，并配合语义驱动的视频扩散解码器。此外，提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理，提升了生成保真度和可控性。实验表明，Archon 在多种数字人生成任务上达到或超越现有水平。

论文数字人多模态模型视频生成自回归模型 token压缩

推荐理由：做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了，不用再拼凑多个模型，做沉浸式体验的开发者可以直接参考其架构。

原文

5月27日

10:52

Pandaily@contact@pandaily.com (Pandaily)

精选

美团发布LongCat-Video-Avatar 1.5版本，这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平，只需8步推理即可生成逼真视频。

AI模型 LongCat-Video-Avatar Meituan 数字人视频生成开源模型

推荐理由：8步推理生成逼真数字人

原文

5月25日

11:47

美团技术团队@美团技术团队

美团开源了 LongCat-Video-Avatar 1.5，这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升，能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题，让数字人从实验室走向真实应用。开源版本可供开发者直接使用，推动数字人视频生成技术的普及。

AI模型数字人视频生成开源/仓库唇形同步美团

推荐理由：做数字人视频生成或虚拟主播的团队，终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显，建议试试 LongCat 1.5 来降低制作成本。

原文

5月22日

14:37

14:37IT之家（博客/媒体）

76°

美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。美团表示，数字人视频生成正从展示效果走向真实使用，希望开源能成为可验证、可改进、可共建的技术基座。

AI模型数字人视频生成开源/仓库美团 LongCat-Video-Avatar

推荐理由：数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成，效率提升 15 倍，做虚拟主播、在线教育、客服视频的团队可以直接拿来用，省去大量渲染时间。

原文

5月21日

08:00

HeyGen@HeyGen_Official

83°

HeyGen 发布了其最高质量的 AI 虚拟形象模型 Avatar V API，定价为每秒 0.05 美元。该模型在跨场景说话头像生成任务中，与 Veo 3.1、Kling O3 Pro、OmniHuman 1.5 和 Seedance 2.0 进行了基准测试，并在所有类别中胜出。HeyGen 同时发布了研究论文和 API 接口，供开发者直接使用。这标志着 AI 虚拟形象生成在质量和成本上迈出了重要一步，尤其适合需要高保真数字人视频的应用场景。

AI产品虚拟形象 API 数字人视频生成 HeyGen

推荐理由：HeyGen 的 Avatar V 在跨场景说话头像生成上全面领先竞品，做数字人、虚拟主播或视频生成的开发者可以直接用 API 接入，成本可控且效果顶级。

原文

5月20日

04:00

Replicate@replicate

72°

HeyGen 的 Avatar V 模型现已上线 Replicate 平台，支持生成保留人物身份的高质量视频。该模型在长脚本场景下表现出更好的动作质量和更连贯的表情，还具备多角度拍摄能力并保持角色一致性。API 定价为 0.05 美元/秒，在跨场景说话头生成基准测试中击败了 Veo 3.1、Kling O3 Pro 等竞品。开发者可以立即通过 Replicate 调用该模型。

AI产品 HeyGen Avatar V AI视频生成 Replicate 数字人

推荐理由：AI 视频生成领域迎来新标杆——Avatar V 在长脚本和多角度一致性上明显优于竞品，做虚拟主播、数字人、视频内容的团队可以直接用 API 集成，性价比突出。

原文

5月14日

01:10

百度 AI Baidu@Baidu_Inc

百度将旗下数字人平台“慧播星”升级为“文心智能体平台”，使其从直播带货扩展到直播、视频、实时交互和长互动内容等多场景。百度CEO李彦宏提出，数字人可能成为智能体的可视化前端，即“可见的智能体”，用于调用智能体、管理任务和访问服务。同时，国际版平台也已上线，帮助全球创作者和企业更高效地制作高质量数字人内容。这一升级标志着数字人技术正从单一商业场景向更广泛的智能体交互界面演进。

AI产品数字人智能体百度文心智能体平台多场景交互

推荐理由：数字人从直播带货扩展到多场景交互，做智能体应用或数字人内容的团队值得关注——百度把数字人定位为“可见的智能体”，这可能改变人机交互的方式。

原文