全部 AI 动态 · AI 热点

6月28日

05:01

05:01

ollama@ollama

精选

Ollama 宣布支持运行 Ornith 1.0 系列模型，包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4，Terminal-Bench 2.1 得分 77.5，多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练，采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源，支持商业和研究用途。

AI模型 Ollama Ornith SWE-Bench 编程助手开源模型

推荐理由：Ollama 现在可以直接跑 Ornith 编程智能体了，从 9B 到 397B 都有，SWE-Bench 拿了 82.4 分，本地搞智能体编码超方便。

6月25日

23:37

23:37

berryxia@berryxia

Ornith-1.0 模型家族覆盖 9B 到 397B MoE 全尺寸。在 Terminal-Bench、SWE-Bench 等 agent coding 基准上达到当前开源模型顶尖水平。其训练方式使用 RL 同时优化任务脚手架和最终解决方案。模型全系列 MIT 开源，并提供了 GGUF 版本，可在 Ollama、Unsloth 等工具中直接运行。

AI模型 Ornith-1.0 Terminal-Bench SWE-Bench Ollama 智能体

推荐理由：Ornith-1.0 用 RL 教模型搭执行框架，在 SWE-Bench 上表现顶尖，本地党还有 GGUF 版本可玩。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:17

13:17

Amazon Science@AmazonScience

精选

Amazon 研究人员推出 Simple Strands Agent (SSA)，这是一个轻量级开源框架。SSA 在 SWE-Bench-Verified、SWE-Bench-Pro 和 Terminal-Bench2 三个基准上均达到当前最优 (SOTA)。该框架通过缩小模型意图与执行之间的差距来提升性能。SSA 的设计强调简洁与可复现性。

AI模型 Simple Strands Agent Amazon SWE-Bench 开源模型编程助手

推荐理由：轻量开源，三个基准登顶

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月23日

23:09

23:09

rohanpaul_ai@rohanpaul_ai

精选76°

Meta 最新论文发现，编码智能体在复用过去尝试的简短摘要（而非原始日志）时，性能显著提升。研究表明，更强的编码智能体不仅需要更多尝试，更需要更好的记忆方式。论文提出将每次完整尝试转化为紧凑摘要，包含主要猜测、部分进展和失败点，然后利用这些摘要选择最佳尝试并指导新尝试。在 SWE-Bench Verified 基准上，Claude 4.5 Opus 从 70.9% 提升至 77.6%，在 Terminal-Bench v2.0 上从 46.9% 提升至 59.1%。核心结论是：长编码任务的测试时扩展瓶颈不在于生成更多尝试，而在于以智能体可复用的形式存储经验。

论文 Meta 编码智能体测试时扩展摘要复用 SWE-Bench

推荐理由：这篇论文戳中了编码智能体效率低下的核心痛点——不是试得不够多，而是记不住经验。做 AI 编程工具或智能体开发的团队，可以直接借鉴其摘要复用和锦标赛选择方法，值得点开看看。