全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

09:34

09:34

Ate-a-Pi@svpino

精选

Lemma 推出 FARS（全自动研究系统）模式，通过四个专门智能体（构思、规划、实验、写作）实现端到端的 AI 研究自动化。该系统无需人类干预即可运行完整研究循环，从提出假设到撰写论文。FARS 通过共享文件系统协调智能体，支持并行运行多个研究线程，使单个研究者一周内能完成传统实验室一年的工作量。这有望彻底改变当前研究效率低下的现状，解决文献综述耗时、路径选择风险高等痛点。

AI产品多智能体系统自动化研究 Lemma FARS 假设验证

推荐理由：AI 研究者终于有了能并行跑假设验证的工具——FARS 把实验室一年的工作量压缩到一周，做学术或工业研究的团队可以直接用它加速探索。

5月26日

23:02

23:02

rohanpaul_ai@rohanpaul_ai

72°

Meta、斯坦福、谷歌等顶级实验室联合提出AutoResearchClaw，一种将自动化科研从“生产流水线”转变为“受控循环”的新框架。该框架允许AI在研究中失败、恢复并在适当时机向人类求助，将失败视为证据而非错误。在ARC-Bench基准上，AutoResearchClaw比AI Scientist v2提升54.7%，尤其在结果分析环节表现突出。实验显示，完全自主的科研接受率仅25%，而人类协作模式（CoPilot）达到87.5%，说明过度监督和缺乏判断都会损害科研质量。论文揭示了当前AI科研系统的关键边界：机器能验证数字的真实性，但人类仍能识别实验是否在问正确的问题。

论文 AI科研 AutoResearchClaw 人机协作自动化研究失败恢复

推荐理由：做AI科研自动化的团队会发现，这个框架把失败变成了系统的一部分，而不是bug——CoPilot模式87.5%的接受率值得所有做AI Scientist的人点开看看。

5月14日

01:10

01:10

AlphaSignal@AlphaSignalAI

70°

Hugging Face 开源了一个 CLI 智能体，能自动执行机器学习工程师的完整研究循环：从阅读论文、追踪引用，到拉取数据集、编写训练脚本，再到启动 GPU 任务并迭代优化。在科学推理任务中，它训练 Qwen3-1.7B 将 GPQA 得分从 10% 提升至 32%，超越 Claude Code 的 22.99%。在医疗领域，它因公开数据集质量不足，自动生成 1100 个合成样本并上采样 50 倍，在 HealthBench 上比 Codex 高出 60%。该智能体还具备自主诊断失败评估、恢复训练的能力，以 CLI 和 Web 应用形式提供，甚至可在手机上运行。

AI产品 Hugging Face CLI 智能体开源/仓库自动化研究模型训练

推荐理由：Hugging Face 这个开源智能体把 ML 研究全流程自动化了，做实验的团队可以直接用它跑论文复现和模型训练，省掉大量手动调参和写脚本的时间。

5月13日

21:35

21:35Anthropic: Research（资讯）

70°

Anthropic 发布了一项新研究，提出利用大型语言模型（LLM）作为自动化对齐研究者，以解决 AI 对齐中的可扩展监督问题。该方法通过让 LLM 自动生成和测试对齐假设，减少对人类研究者的依赖，从而加速对齐研究进程。实验表明，自动化对齐研究者能够发现一些人类可能忽略的漏洞，并生成有效的对齐策略。这项研究为未来更安全的 AI 系统开发提供了新思路，尤其适用于需要大规模监督的复杂场景。

论文 Anthropic AI 对齐可扩展监督自动化研究 LLM

推荐理由：Anthropic 用 LLM 自动化对齐研究，解决了可扩展监督的人力瓶颈，做 AI 安全和对齐的团队值得关注，可以直接参考其方法加速自己的研究。