全部 AI 动态 · AI 热点

AITOP

6月19日

22:18

Decoder@Maximilian Schreiner

一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型，也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。

AI模型基准测试知识工作 AI性能

推荐理由：这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作，别看平时吹得厉害。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:36

shao__meng@shao__meng

76°

Perplexity 与哈佛商学院合作，基于真实使用数据首次系统比较了「对话助手」与「通用 Agent」对知识工作的影响。研究发现，Agent 模式（Computer）相比传统搜索模式（Search），任务完成时间平均节省 87%，成本降低约 94%，且用户满意度更高。Agent 提高了任务自主性，用户角色从「操作者」转向「监督者」，同时扩大了工作边界，让用户能承担更广、更深的任务。研究覆盖 18 个领域，编程领域效果最显著，时间节省 92%，成本节省 96%。

行业 AI Agent 知识工作效率提升 Perplexity 哈佛研究

推荐理由：这份研究用真实数据证明了 Agent 不是噱头——做知识工作、项目管理或跨职能协作的团队，看完会重新评估自己的工具链。建议点开看看具体的数据对比，尤其是成本节省部分。

原文

01:48

The Rundown AI@therundownai

88°

Anthropic发布了Claude Fable 5，定位为“面向最困难知识工作和编程问题的下一代智能”。该模型在几乎所有AI能力基准测试中达到最先进水平，尤其在软件工程、知识工作、视觉、科学研究等领域表现卓越。同时，Anthropic还推出了Claude Mythos 5，面向一小群网络防御者和基础设施提供商，其安全限制较少。这一发布标志着AI在专业领域应用的重要进展。

AI模型 Claude Fable 5 Anthropic 推理模型编程助手知识工作

推荐理由：做知识工作和编程的团队终于有了更强大的AI助手——Claude Fable 5在多个基准上领先，值得直接上手试试。

原文

6月9日

05:24

elvis@omarsar0

精选

一篇新论文从经济学视角分析了 AI 智能体如何改变知识工作，研究了智能体在自主性、效率和任务委托范围三个维度的采用情况。论文指出，用户与智能体交互的主要障碍并非模型质量，而是大多数人从未被教导如何以这种方式工作。该研究为理解智能体如何直接填补知识工作中的空白提供了有价值的参考。

论文 AI 智能体知识工作经济学分析自主性效率

推荐理由：这篇论文戳中了知识工作者用 AI 智能体的真实痛点——不是模型不够好，而是没人教你怎么用。做知识管理、流程优化的团队值得一读，看完会对智能体落地有更清醒的认识。

原文

01:51

Aravind Srinivas@AravSrinivas

精选

Perplexity AI 与哈佛大学合作发布了一项关于其自主代理产品 Perplexity Computer 在真实工作场景中的研究。研究为期三个月，发现使用 Computer 的工人完成任务的时间比仅用搜索减少了 87%，成本降低了 94%，同时用户满意度更高。该代理能够进行跨学科搜索，提供比多步搜索更自主、更高质量的输出。这标志着从传统聊天界面到自主代理的转变，为知识工作者提供了更高效的工具。

AI产品 Perplexity 自主代理效率提升哈佛研究知识工作

推荐理由：Perplexity Computer 用真实数据证明了自主代理比传统搜索快 87%、省 94% 成本，做研究、写报告、跨领域查资料的知识工作者可以直接用起来，效率提升肉眼可见。

原文

6月8日

10:10

arXiv cs.AI@Jeremy Yang, Kate Zyskowski, Noah Yonack, Jerry Ma

83°

这篇论文基于 Perplexity 的 Search 和 Computer 产品的实际使用数据，研究了 AI Agent 如何改变知识工作。研究发现，Computer 产品（具有自主执行能力）每个用户会话可自动完成 26 分钟的工作，而 Search 仅为 33 秒。在相同任务上，Computer 将完成时间从 269 分钟降至 36 分钟，成本降低 94%，且用户不满率降低 55%。此外，Computer 用户更倾向于尝试跨职业边界、需要高阶认知的复合任务，解锁了 Search 中几乎不存在的活动。这表明 AI Agent 不仅加速了工作流，还提升了质量、降低了成本，并扩展了自动化工作的广度和深度。

论文 AI Agent 知识工作自主性效率提升 Perplexity

推荐理由：这篇论文用真实数据证明了 AI Agent 在知识工作中的巨大价值——效率提升 7 倍、成本降低 94%，做 AI 产品设计或知识管理的人值得仔细看，尤其是 Perplexity 的案例很有参考意义。

原文

6月4日

10:44

AI Will@FinanceYF5

88°

Can Sar正式加入OpenAI，负责Codex产品。Codex旨在将分散在prompt、标签页、工具和文件中的AI Agent功能整合为一个统一界面，打造知识工作的单一操作面。这一整合对比了30多个Agent工具，强调强大的模型、产品思维和对用户的真正关注。Codex在OpenAI内部的战略定位可能比外界预期的更重。

AI产品 Codex OpenAI 智能体产品整合知识工作

推荐理由：AI Agent工具碎片化是当前开发者的痛点，Codex试图用统一界面解决这个问题，做Agent或知识工作的团队值得关注其进展。

原文

6月3日

16:54

Greg Brockman@gdb

OpenAI 的 Codex 产品周活跃用户已超过 500 万，增长迅速。更重要的是，用户不再仅用它写代码，而是广泛用于研究、分析、内容创作和运营等知识工作场景。OpenAI 发布新报告，详细展示了 Codex 如何从编程助手演变为通用生产力工具。这表明 AI 辅助工作正在从开发者群体向更广泛的职场人群渗透。

AI产品 Codex OpenAI 知识工作生产力工具周活用户

推荐理由：Codex 从写代码工具变成知识工作者的效率利器，做研究、分析、内容或运营的团队值得看看它如何帮你省时间。

原文

6月2日

17:15

17:15OpenAI Blog（博客/媒体）

OpenAI 发布《知识工作的下一时代》报告，详细介绍了 Codex 如何通过 AI 驱动的研究、数据分析、工作流自动化和内容创作来提升生产力。Codex 能够自动执行重复性任务、生成报告、分析数据集，并整合多种工具，帮助知识工作者节省时间、提高效率。该报告强调了 Codex 在金融、法律、医疗等领域的实际应用案例，展示了其作为通用生产力工具的潜力。

AI产品 Codex 知识工作生产力工具 AI自动化数据分析

推荐理由：知识工作者终于有了一个能真正自动化繁琐任务的 AI 工具——Codex 帮你做研究、分析数据、写报告，省下时间做更有价值的事。做咨询、金融、法律、内容创作的团队，值得看看实际案例。

原文

5月25日

08:34

berryxia@berryxia

Lenny Rachitsky 与 Every CEO Dan Shipper 的新播客中，Dan 回顾了他一年前关于 Claude Code 会火起来的预言，如今已基本应验。Dan 团队是科技圈 AI 使用最深的一批人，他分享了对明年的看法：自动化是谎言，CLI 时代已过，SaaS 不会大崩盘，每家公司 Slack 里很快会有超级代理。他认为 Claude Code 和 Codex 会成为知识工作的新操作系统，AI 不会带来就业危机，产品经理和设计师反而迎来更好时代。这些观点与末日论相反，重度 AI 用户看到的是工具放大人类产出。

行业 Claude Code AI 趋势 SaaS 知识工作产品经理

推荐理由：Dan Shipper 的预言一年后成真，说明他对 AI 趋势的判断值得关注。如果你是产品经理、设计师或 SaaS 从业者，他的观点能帮你避开焦虑，看到 AI 带来的实际机会。建议点开听听，看看他说的「超级代理」和「知识工作新操作系统」到底怎么落地。

原文