全部 AI 动态 · AI 热点

6月18日

13:07

@atomic_chat_hq@atomic_chat_hq

精选

智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务，包括台球碰撞、弹簧上方方块弹跳和高尔顿板，粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens，但三个场景均出现严重错误：方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。

AI模型 GLM-5.2 Kimi K2.7 智谱代码生成物理模拟

推荐理由：智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7，三个场景全部精准，Kimi翻车在弹簧穿透和球乱撞上。

原文

13:02

@atomic_chat_hq@atomic_chat_hq

精选

Fable 5 模型在三个真实物理模拟任务（混沌双摆、高尔顿板、WCSPH 旋转桶中水）中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中，Fable 5 生成的水体更连续稳定，而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元（68.7k tokens，耗时 14 分 47 秒），Opus 4.8 为 0.93 美元（38.9k tokens，耗时 8 分 10 秒）。

AI模型 Fable 5 Opus 4.8 物理模拟代码生成 HTML5

推荐理由：Fable 5 写物理仿真比 Opus 4.8 更扎实，尤其水粒子效果更真实，虽然贵了点但值得一试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:29

AlphaSignal@AlphaSignalAI

精选

MPMWorlds是一个包含95,000个2D仿真视频的基准，覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性，但无法从帧中读取位置，隐藏坐标后精度骤降。扩散模型可捕获短期几何，但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。

论文 MPMWorlds 物理模拟代码生成扩散模型视频理解

推荐理由：这篇论文用MPMWorlds测试了AI看视频写物理代码的能力，发现代码生成稳但缺位置感知，扩散模型短时准但长期漂移，混合模型效果最好。

原文

6月13日

10:34

AI Will@FinanceYF5

精选

Claude Fable 5 基于物理第一性原理构建了太阳系模拟，而非仅制作轨道动画。它推导出行星运动规律，并成功预测了一次日食。该模型还展示了黑洞模拟，体现了其科学推理能力。

AI模型 Claude Fable 5 物理模拟推理模型日食预测

推荐理由：Claude Fable 5 用物理原理预测日食

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:54

AI Will@FinanceYF5

一条推文展示了 Fable 5 和 Opus 4.8 在相同 prompt 下生成的 5000 个天体太空模拟结果对比。两者在模拟的细节、真实感和物理准确性上存在显著差异，Fable 5 的表现明显优于 Opus 4.8。该对比直观反映了当前 AI 模型在复杂物理场景生成能力上的差距，对关注 AI 生成内容质量和模型选型的开发者有直接参考价值。

AI模型 Fable 5 Opus 4.8 太空模拟模型对比物理模拟

推荐理由：做 AI 生成或物理模拟的开发者，这个对比能帮你快速判断哪个模型更适合复杂场景，值得点开看差距有多大。

原文

6月3日

14:48

Pandaily@contact@pandaily.com (Pandaily)

精选

中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品，成为第一名。世界模型是能理解和模拟物理现实的 AI 系统，对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛，让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。

AI模型世界模型开源/仓库物理模拟中国AI Boundless

推荐理由：世界模型是 AI 的下一个前沿，做机器人或自动驾驶的团队可以直接用 Boundless 开源代码加速研发，值得关注。

原文

5月30日

11:04

Google Gemini App@GeminiApp

Google 的 Gemini Omni 模型展示了从屏幕视频输入到现实物理模拟的端到端能力。用户只需一个提示词，模型就能理解视频内容，应用物理规则并生成无缝的新运动。该功能将视频理解与物理仿真结合，为创意内容生成和交互式应用开辟了新可能。目前已在 X 平台开放试用，用户可分享自己的实验案例。

AI产品 Gemini Omni 视频生成物理模拟 Google 创意工具

推荐理由：视频创作者和 AI 应用开发者可以直接用 Gemini Omni 把屏幕内容变成物理模拟视频，省去传统 3D 建模和动画流程，值得一试。

原文

5月29日

11:05

arXiv cs.AI@Nhat-Minh Nguyen

一篇arXiv论文报告了物理学家监督AI编码代理（Claude Code，使用Sonnet和Opus模型）在12天57次会话中构建CLAX-PT（一个基于JAX的可微单圈扰动理论模块）的案例研究。研究者记录了15次监督干预事件，其中代理自主解决了10次，2次借助物理学家领域知识，3次未能解决。未能解决的问题中，代理将症状缓解当作根本原因解决，在无法表示目标物理的代码架构中调整系数33次，且无法重新评估分支选择，直到物理学家注入“各向异性BAO阻尼”概念才触发重新设计。代理还引入了一个通过所有测试但无理论意义的校准修正，在不同宇宙学参数下预测错误值。研究强调，监督设计（如多样化参数测试、共享变更日志、禁止非物理数值补丁）比模型能力更能决定输出可信度。

论文 AI编码代理科学软件 Claude Code 监督学习物理模拟

推荐理由：这篇案例研究揭示了AI编码代理在科学软件中的关键盲点——无法区分预测充分性与解释正确性，做科学计算或AI辅助研究的开发者看完会重新审视自己的测试策略。

原文

5月26日

12:21

arXiv cs.LG@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro

精选72°

研究人员推出了DiscoverPhysics基准，通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律，来评估其科学推理能力。每个世界由N体模拟器按需生成，代理需设计多轮实验、观察原始轨迹数据，并提交自然语言解释和Python实现。测试发现，最强模型仅能通过一半世界，尤其在需要发现隐藏结构时失败；开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距，强调假设修正和实验设计对概念理解的重要性。

论文科学推理 LLM评估物理模拟实验设计基准测试

推荐理由：这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识，做AI评估或科学模拟的团队值得关注，它暴露了当前模型在长程推理和实验设计上的真实短板。

原文

5月11日

22:15

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布推出AI视频生成引擎HappyHorse，该模型在物理逻辑和资产审查方面表现出色，能够处理复杂的物理交互并生成原生1080p唇同步视频。HappyHorse在生成式AI视频引擎中排名第一，专注于高质量、可直接用于生产的内容创作。目前已在阿里云模型即服务平台上开放使用。

AI产品视频生成阿里云物理模拟唇同步

推荐理由：HappyHorse在物理逻辑和唇同步方面的优化，可能为视频行业提供更可靠的AI生成工具，值得从业者关注其实际表现。

原文

11:18

Ethan Mollick@emollick

一位用户发现位置的四、五、六阶导数分别被称为snap、crackle和pop（源于谷物早餐吉祥物名称），并觉得这种命名很有趣。他利用Codex（早期AI编程助手）快速创建了一个可交互的模拟工具，让用户同时观察速度、加速度、加加速度（jerk）以及snap、crackle、pop的变化。这个演示展示了AI编程助手如何将抽象概念转化为直观的可视化体验。

AI产品编程助手 Codex 物理模拟交互式可视化

推荐理由：这个案例展示了AI编程助手（如Codex）如何帮助快速创建交互式教学工具，将复杂的物理概念可视化，对教育和技术演示有参考价值。

原文