精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:10

11:10

arXiv cs.AI@Noémi Éltető, Nathaniel D. Daw, Kimberly L. Stachenfeld, Kevin J. Miller

精选

ATLAS 是一个用于自动化科学发现的主动学习框架，旨在通过数据驱动的方式发现可解释的行为模型。它迭代生成机械论假设（以稀疏神经网络集成形式实现），并设计最优实验来区分这些假设。在强化学习代理恢复任务中，ATLAS 相比随机实验实现了 5-10 倍的样本效率提升，其性能甚至优于专家设计的实验。该框架有望加速认知科学等领域中机械论模型的发现过程。

论文主动学习机械论建模认知科学强化学习稀疏神经网络

推荐理由：ATLAS 解决了科学实验中实验设计效率低下的核心问题，做认知科学或行为建模的研究者可以直接用这个框架加速发现可解释模型，建议点开看看具体实现。

6月8日

09:23

09:23

arXiv cs.AI@Yuxiang Chen, Jun Wang

精选72°

一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较，标注了10247个推理步骤。研究发现，DeepSeek-R1的推理存在“拓扑模仿”现象：它频繁进行浅层验证和局部循环，缺乏人类推理中紧凑的分析与演绎交替结构。然而，成功的推理轨迹显示出稳定的分支和回溯使用，而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效，陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练，包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。

论文推理模型 DeepSeek-R1 数学推理认知科学评估方法

推荐理由：这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现，模型可能只是在模仿推理的“样子”而非真正进步，值得细读其提出的改进方向。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月18日

10:33

10:33

arXiv cs.LG@Nathan Roll, Jill Kries, Laura Gwilliams, Cory Shain

精选

受人类失语症研究启发，研究者提出了一种新方法，通过“损伤”（置零）语言模型中的参数，并观察其输出在临床失语症症状测试（TAB）中的表现，来揭示模型的功能组织。对5个1B参数规模的语言模型进行112,426次测试后，发现模型能表现出全部失语症症状，但分布与人类显著不同。注意力组件（查询、键、值、输出）与前馈组件（上、门、下）之间症状谱差异明显，而同一机制内组件差异较弱。早期层损伤更易导致句法和语义症状，中后期层则更多引发音韵和流畅度缺陷。尽管某些损伤模式与特定人类失语症类型定量相似，但定性差异表明失语症综合征受学习和处理细节影响，而非语言处理中断的领域不变结果。

论文语言模型失语症可解释性参数损伤认知科学

推荐理由：这项研究为理解语言模型内部功能组织提供了全新视角，做AI可解释性或认知科学交叉研究的团队值得关注——它把临床神经心理学方法搬到了模型分析中，看完会重新思考“模型损伤”的意义。