全部 AI 动态 · AI 热点

6月17日

09:31

09:31

arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang

该论文提出了LLM代码推理的内部生命周期概念：模型先在早期层中酝酿答案，使其线性可解，然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码（CSD）实验。结果显示已解析平均仅41.5%，且函数调用任务中，调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%，但解析成功率随模型能力和规模变化。

论文代码推理 Qwen Llama DeepSeek 推理模型

推荐理由：这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密，发现即便准确率相近，内部失败模式也截然不同，值得想理解推理本质的人读。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月26日

08:41

08:41IT之家（博客/媒体）

88°

Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下，暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型，相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段，因此迟迟未全面开放。同时，Anthropic 推进名为 Glasswing 的项目，联合其他公司保护关键软件系统，已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后，可能准备向更广泛用户开放。

AI模型 Anthropic Claude Mythos 推理模型代码推理安全

推荐理由：Anthropic 最强模型 Mythos 即将公开，做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率，也带来新的安全挑战，建议提前了解其能力边界。