AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 958 条中筛出 57 条
全部模型产品行业论文技巧
标签:物理模拟×
6月18日
13:07
13:07@atomic_chat_hq@atomic_chat_hq
精选
智谱GLM-5.2与月之暗面Kimi K2.7 Code在三个物理模拟HTML5编程任务中对比。GLM-5.2使用12,640 tokens完成全部任务,包括台球碰撞、弹簧上方方块弹跳和高尔顿板,粒子和动量表现正确。Kimi K2.7 Code仅用7,420 tokens,但三个场景均出现严重错误:方块穿透弹簧、台球碰撞不真实、高尔顿板珠子重叠。评测显示GLM-5.2在物理模拟细节和精度上显著优于Kimi K2.7 Code。
AI模型GLM-5.2Kimi K2.7智谱代码生成物理模拟

推荐理由:智谱的GLM-5.2写物理模拟代码完胜Kimi K2.7,三个场景全部精准,Kimi翻车在弹簧穿透和球乱撞上。
原文
13:02
13:02@atomic_chat_hq@atomic_chat_hq
精选
Fable 5 模型在三个真实物理模拟任务(混沌双摆、高尔顿板、WCSPH 旋转桶中水)中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中,Fable 5 生成的水体更连续稳定,而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元(68.7k tokens,耗时 14 分 47 秒),Opus 4.8 为 0.93 美元(38.9k tokens,耗时 8 分 10 秒)。
AI模型Fable 5Opus 4.8物理模拟代码生成HTML5

推荐理由:Fable 5 写物理仿真比 Opus 4.8 更扎实,尤其水粒子效果更真实,虽然贵了点但值得一试。
原文
6月16日
20:29
20:29AlphaSignal@AlphaSignalAI
精选
MPMWorlds是一个包含95,000个2D仿真视频的基准,覆盖液体、雪、沙子和弹性体。模型观看2.5秒场景后预测后续运动。代码生成方法能保持长期物理稳定性,但无法从帧中读取位置,隐藏坐标后精度骤降。扩散模型可捕获短期几何,但物体随时间消失、运动不真实。混合两种方法的简单门控机制超越单一模型。
论文MPMWorlds物理模拟代码生成扩散模型视频理解

推荐理由:这篇论文用MPMWorlds测试了AI看视频写物理代码的能力,发现代码生成稳但缺位置感知,扩散模型短时准但长期漂移,混合模型效果最好。
原文
6月13日
10:34
10:34AI Will@FinanceYF5
精选
Claude Fable 5 基于物理第一性原理构建了太阳系模拟,而非仅制作轨道动画。它推导出行星运动规律,并成功预测了一次日食。该模型还展示了黑洞模拟,体现了其科学推理能力。
AI模型Claude Fable 5物理模拟推理模型日食预测

推荐理由:Claude Fable 5 用物理原理预测日食
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月3日
14:48
14:48Pandaily@contact@pandaily.com (Pandaily)
精选
中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品,成为第一名。世界模型是能理解和模拟物理现实的 AI 系统,对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛,让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。
AI模型世界模型开源/仓库物理模拟中国AIBoundless

推荐理由:世界模型是 AI 的下一个前沿,做机器人或自动驾驶的团队可以直接用 Boundless 开源代码加速研发,值得关注。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月26日
12:21
12:21arXiv cs.LG@Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro
精选72°
研究人员推出了DiscoverPhysics基准,通过让LLM代理在22个物理规则偏离现实的模拟世界中自主发现运动定律,来评估其科学推理能力。每个世界由N体模拟器按需生成,代理需设计多轮实验、观察原始轨迹数据,并提交自然语言解释和Python实现。测试发现,最强模型仅能通过一半世界,尤其在需要发现隐藏结构时失败;开源模型在实验设计和结论提取上显著落后于商业模型。该基准揭示了预测准确性与解释质量之间的差距,强调假设修正和实验设计对概念理解的重要性。
论文科学推理LLM评估物理模拟实验设计基准测试

推荐理由:这个基准直击LLM科学推理的软肋——从数据中归纳规律而非回忆知识,做AI评估或科学模拟的团队值得关注,它暴露了当前模型在长程推理和实验设计上的真实短板。
原文
精选全部日报登录