AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:数字人×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月6日
23:43
23:43IT之家(博客/媒体)
百度移动生态事业群组(MEG)进行新一轮组织调整,将商业部与电商事业部合并成立大商业事业部,同时将数字人创新业务部升级为独立部门。此前百度在 Create 2026 大会上将数字人品牌“慧播星”升级为“百度一镜”,并推出海外版,定位为全场景数字人平台。李彦宏称数字人是“看得见的智能体”,是 AI 时代的通用交互界面。此次调整显示百度正加速将数字人业务作为独立战略方向,并整合商业与电商资源以提升协同效率。
行业百度组织调整数字人电商智能体

推荐理由:百度把数字人业务独立成部门,做直播带货或视频创作的团队可以关注——百度一镜已从带货场景扩展到全平台,一个人加一镜就能做视频,值得试试。
原文
01:42
01:42HeyGen@HeyGen_Official
HeyGen 在五月发布多项更新,包括 HyperFrames 升级、Avatar V 支持自然语言指令(英文),并开放 API 和实时使用。同时,HeyGen 新增与 Superhuman、Codex、Canva、Lovable 等工具的集成,并推出 Android 版应用。这些更新降低了 AI 视频生成的使用门槛,让用户更便捷地创建和定制数字人内容。
AI产品HeyGen数字人API集成视频生成

推荐理由:做视频内容或数字人应用的团队,现在可以用自然语言直接指挥 Avatar V,还能在常用工具里直接调用,建议试试。
原文
6月5日
01:16
01:16HeyGen@HeyGen_Official
HeyGen 发布了 Cinematic_avatar API,允许用户保留自己的肖像特征,同时增加电影级画质范围。该 API 支持通过编程代理(如 CLI + HyperFrames 技能)构建视频管线,用于创建类似官方发布的启动视频。开发者可以安装 HeyGen CLI 和 HyperFrames 技能来快速上手。这一更新为视频生成领域提供了更灵活、可编程的解决方案,尤其适合需要批量或定制化视频内容的团队。
AI产品HeyGen视频生成APICLI数字人

推荐理由:HeyGen 的 Cinematic_avatar API 让视频生成从“手动调参”进化到“代码驱动”,做视频管线或批量内容生产的团队可以直接用 CLI 集成,省去重复劳动。
原文
6月2日
01:11
01:11berryxia@berryxia
Google 的 Gemini Omni 正式推出数字人(Digital Avatar)功能,用户只需在 App 或网页端拍摄几张照片并录制几句语音,即可生成外貌和声音都高度仿真的数字分身。该分身可直接用于视频创作工具,让用户“自己”出现在视频中。所有生成视频均嵌入不可见的 SynthID 数字水印,便于验证来源,有效防范深度伪造风险。整个过程对普通用户只需几分钟,无需专业设备,对教育、营销和内容创作者是重大利好。
AI产品数字人Gemini Omni视频创作数字水印内容创作

推荐理由:做视频内容的人终于可以不用真人出镜了——Gemini Omni 的数字人功能让克隆自己变得像拍照一样简单,教育博主和营销团队建议立刻试试。
原文
5月29日
11:07
11:07arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang
精选
浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。
论文数字人多模态模型视频生成自回归模型token压缩

推荐理由:做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了,不用再拼凑多个模型,做沉浸式体验的开发者可以直接参考其架构。
原文
5月27日
10:52
10:52Pandaily@contact@pandaily.com (Pandaily)
精选
美团发布LongCat-Video-Avatar 1.5版本,这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平,只需8步推理即可生成逼真视频。
AI模型LongCat-Video-AvatarMeituan数字人视频生成开源模型

推荐理由:8步推理生成逼真数字人
原文
5月25日
11:47
11:47美团技术团队@美团技术团队
美团开源了 LongCat-Video-Avatar 1.5,这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升,能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题,让数字人从实验室走向真实应用。开源版本可供开发者直接使用,推动数字人视频生成技术的普及。
AI模型数字人视频生成开源/仓库唇形同步美团

推荐理由:做数字人视频生成或虚拟主播的团队,终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显,建议试试 LongCat 1.5 来降低制作成本。
原文
5月22日
14:37
14:37IT之家(博客/媒体)
76°
美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。美团表示,数字人视频生成正从展示效果走向真实使用,希望开源能成为可验证、可改进、可共建的技术基座。
AI模型数字人视频生成开源/仓库美团LongCat-Video-Avatar

推荐理由:数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成,效率提升 15 倍,做虚拟主播、在线教育、客服视频的团队可以直接拿来用,省去大量渲染时间。
原文
5月21日
08:00
08:00HeyGen@HeyGen_Official
83°
HeyGen 发布了其最高质量的 AI 虚拟形象模型 Avatar V API,定价为每秒 0.05 美元。该模型在跨场景说话头像生成任务中,与 Veo 3.1、Kling O3 Pro、OmniHuman 1.5 和 Seedance 2.0 进行了基准测试,并在所有类别中胜出。HeyGen 同时发布了研究论文和 API 接口,供开发者直接使用。这标志着 AI 虚拟形象生成在质量和成本上迈出了重要一步,尤其适合需要高保真数字人视频的应用场景。
AI产品虚拟形象API数字人视频生成HeyGen

推荐理由:HeyGen 的 Avatar V 在跨场景说话头像生成上全面领先竞品,做数字人、虚拟主播或视频生成的开发者可以直接用 API 接入,成本可控且效果顶级。
原文
5月20日
04:00
04:00Replicate@replicate
72°
HeyGen 的 Avatar V 模型现已上线 Replicate 平台,支持生成保留人物身份的高质量视频。该模型在长脚本场景下表现出更好的动作质量和更连贯的表情,还具备多角度拍摄能力并保持角色一致性。API 定价为 0.05 美元/秒,在跨场景说话头生成基准测试中击败了 Veo 3.1、Kling O3 Pro 等竞品。开发者可以立即通过 Replicate 调用该模型。
AI产品HeyGenAvatar VAI视频生成Replicate数字人

推荐理由:AI 视频生成领域迎来新标杆——Avatar V 在长脚本和多角度一致性上明显优于竞品,做虚拟主播、数字人、视频内容的团队可以直接用 API 集成,性价比突出。
原文
5月14日
01:10
01:10百度 AI Baidu@Baidu_Inc
百度将旗下数字人平台“慧播星”升级为“文心智能体平台”,使其从直播带货扩展到直播、视频、实时交互和长互动内容等多场景。百度CEO李彦宏提出,数字人可能成为智能体的可视化前端,即“可见的智能体”,用于调用智能体、管理任务和访问服务。同时,国际版平台也已上线,帮助全球创作者和企业更高效地制作高质量数字人内容。这一升级标志着数字人技术正从单一商业场景向更广泛的智能体交互界面演进。
AI产品数字人智能体百度文心智能体平台多场景交互

推荐理由:数字人从直播带货扩展到多场景交互,做智能体应用或数字人内容的团队值得关注——百度把数字人定位为“可见的智能体”,这可能改变人机交互的方式。
原文
精选全部日报登录