AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:代码推理×
6月17日
09:31
09:31arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang
该论文提出了LLM代码推理的内部生命周期概念:模型先在早期层中酝酿答案,使其线性可解,然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码(CSD)实验。结果显示已解析平均仅41.5%,且函数调用任务中,调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%,但解析成功率随模型能力和规模变化。
论文代码推理QwenLlamaDeepSeek推理模型

推荐理由:这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密,发现即便准确率相近,内部失败模式也截然不同,值得想理解推理本质的人读。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月26日
08:41
08:41IT之家(博客/媒体)
88°
Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下,暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型,相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段,因此迟迟未全面开放。同时,Anthropic 推进名为 Glasswing 的项目,联合其他公司保护关键软件系统,已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后,可能准备向更广泛用户开放。
AI模型AnthropicClaude Mythos推理模型代码推理安全

推荐理由:Anthropic 最强模型 Mythos 即将公开,做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率,也带来新的安全挑战,建议提前了解其能力边界。
原文
精选全部日报登录