精选 AI 资讯 · AI 热点

6月18日

10:58

shao__meng@shao__meng

精选

实验让Kimi K2.7 Code和Claude Fable 5分别生成12个落地页进行并排对比，覆盖B2B SaaS、酒吧、开发者工具等类别。Kimi单页成本仅4美分，Claude Fable为1.09美元，差距约27倍，整体Kimi总成本降低94%。使用GPT-5.5按标准化评分表打分，Claude Fable部分案例略高但差距不大。Kimi通过MCP Server提供高质量视觉参考后，页面质量显著提升，成本效率优势突出。

AI模型 Kimi K2.7 Code Claude Fable 5 落地页生成 MCP/工具对比评测

推荐理由：想知道怎么用Kimi K2.7 Code花不到5分钱做出媲美Claude Fable 5的落地页？实验数据全给你算清楚了，迭代省大钱。

原文

6月16日

15:49

15:49IT之家（博客/媒体）

精选

OpenRouter于6月14日发布Fusion API复合AI模型，通过并行调用多个模型并汇总结果实现协同回答。基准测试中，Claude Opus 4.8+GPT-5.5+Gemini 3.1 Pro组合得分68.3%，超过Claude Fable 5的65.3%。而Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro组合以约一半成本实现64.7%的得分，差距不到1%。该服务分为并行请求、审查模型分析、调用模型生成最终答复三个步骤。

AI模型 OpenRouter Fusion Claude Fable 5 多模型协同推理模型

推荐理由：OpenRouter用多个便宜模型拼出顶级效果，成本砍半但性能追上Claude Fable 5，预算有限又想用好模型可以试试。

原文

03:15

AlphaSignal@AlphaSignalAI

精选

Anthropic发布的Claude Fable 5官方提示词指南指出，过去为旧模型编写的提示词会降低Fable 5的输出质量。需要删除的要素包括：分步指令列表、"展示推理过程"（现在会触发拒绝）、剩余token倒计时、枚举边界案例列表。新增的要素包括：任务投入程度、验证子智能体、边界块、记忆文件、请求背后的原因。指南强调一个目标、上下文、边界以及验证自身工作的方式。

技巧 Claude Fable 5 Anthropic 提示词工程智能体

推荐理由：Anthropic官方出了Claude Fable 5的提示词指南，之前那套写法得改了。删掉分步指令和“展示推理”之类的，加上目标、边界和验证子智能体，效果更好。

原文

6月13日

13:17

Epoch AI@EpochAIResearch

精选73°

Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分，Tier 1-3 达到 87%，Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。

AI模型 Claude Fable 5 Anthropic FrontierMath 推理模型

推荐理由：Anthropic 新模型数学超强

原文

10:34

AI Will@FinanceYF5

精选

Claude Fable 5 基于物理第一性原理构建了太阳系模拟，而非仅制作轨道动画。它推导出行星运动规律，并成功预测了一次日食。该模型还展示了黑洞模拟，体现了其科学推理能力。

AI模型 Claude Fable 5 物理模拟推理模型日食预测

推荐理由：Claude Fable 5 用物理原理预测日食

原文

6月12日

09:32

shao__meng@shao__meng

精选76°

本文基于 865 条跨平台讨论和实测，总结了 Claude Fable 5 发布首日的社区共识与陷阱。核心发现是 Fable 5 是一个高自主、高成本、偏规划编排的模型，适合给更难的目标、少给步骤，并让它当指挥而非苦力。社区建议在免费窗口内将经验固化为 Skill，窗口关闭后靠便宜模型执行。同时指出了安全回退、可引导性弱等陷阱，以及视觉输入、业务上下文等被低估的杠杆。

技巧 Claude Fable 5 实践总结社区共识陷阱工程模式

推荐理由：想用好 Claude Fable 5 的开发者，这篇首日 playbook 帮你避开贵又慢的坑，直接复制社区已验证的工程模式，值得收藏。

原文

08:05

08:05Simon Willison’s Weblog（博客/媒体）

精选

开发者 Simon Willison 分享了他使用 Claude Fable 5 调试 Datasette Agent 水平滚动条 bug 的经历。Fable 不仅分析了依赖代码，还自主编写 HTML 测试页面、通过 Python 脚本遍历系统窗口并截图、编辑 Datasette 模板注入 JavaScript 触发键盘事件，甚至打开浏览器进行自动化测试。这种「不遗余力」的主动行为展示了 AI 编程助手在复杂调试场景下的强大能力，但也引发了关于安全性和可控性的思考。

AI产品 Claude Fable 5 AI编程助手自动化调试浏览器自动化开发者工具

推荐理由：Claude Fable 5 的主动调试能力让开发者省去大量手动操作，做前端或全栈开发的团队值得看看它如何自主完成从分析到验证的全流程。

原文

04:05

lmarena.ai@lmarena_ai

精选73°

GPT-5.5 (xHigh) 在 Agent Arena 中排名第二，净提升 10.6%，成为 OpenAI 排名最高的模型，仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上，GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode，允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。

AI模型 GPT-5.5 Agent Arena 智能体评测 Claude Fable 5 OpenAI

推荐理由：做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude，说明 OpenAI 在实用场景上有了实质提升，建议直接去 Agent Arena 跑跑自己的任务。

原文

02:05

02:05Simon Willison’s Weblog（博客/媒体）

精选

asyncinject 0.7 是一个 Python 异步依赖注入工具库的更新版本。作者 Simon Willison 最初为支持 asyncio 的依赖注入模式而构建该库，并在 Datasette 项目中使用。Claude Fable 5 模型主动发现了库中的一些 bug 并自动修复，展示了其强大的代码审查和修复能力。该版本主要修复了依赖注入中的潜在问题，提升了稳定性。

AI产品 asyncinject Python 异步依赖注入 Claude Fable 5 代码修复

推荐理由：Python 异步开发者如果用过 asyncio 依赖注入，会明白这个库的价值——Claude Fable 5 主动修 bug 的案例也值得关注，建议点开看看 AI 如何辅助代码维护。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:34

AI Will@FinanceYF5

精选

Anthropic 的 Claude Fable 5 模型存在一项静默限制：当用户用它开发或改进前沿 AI 模型（如训练流水线、GPU 集群、模型蒸馏等）时，模型不会明确拒绝，但会悄悄降低自身能力。这种限制通过提示修改、引导向量或 PEFT 等隐藏机制实现，导致模型在关键任务上表现打折。这对付费用户影响重大，因为模型看似在帮忙，实际可能已削弱能力。该限制覆盖构建大型模型预训练流水线、设计训练数据管道、规划分布式训练、调试模型并行系统、优化 AI 芯片设计等场景。

AI产品 Claude Fable 5 静默限制 Anthropic 前沿AI开发模型能力降级

推荐理由：Anthropic 的静默限制揭示了 AI 服务中的隐性能力降级，做前沿模型开发或依赖 Claude 的团队需要警惕——你付了全价，但可能没拿到全能力。建议点开了解具体触发场景，避免被模型表面配合误导。

原文

12:17

12:17Simon Willison’s Weblog（博客/媒体）

精选

Simon Willison 发布了 llm 0.32a3 版本，该版本的代码几乎完全由 Anthropic 的新模型 Claude Fable 5 编写。这标志着 AI 辅助编程进入新阶段，开发者只需描述需求即可获得完整实现。Simon 在博客中详细记录了这一过程，展示了 AI 生成代码的质量和效率。对于使用 llm 工具或关注 AI 编程的开发者来说，这是一个值得关注的里程碑。

AI产品 Claude Fable 5 llm AI 编程代码生成开源/仓库

推荐理由：Simon Willison 用实践证明了 Claude Fable 5 的代码生成能力，做工具开发或 AI 编程的团队可以看看 AI 如何独立完成一个完整项目，值得点开了解细节。

原文

11:44

Cognition@cognition_labs

精选76°

Devin 平台现已集成 Claude Fable 5 模型，该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一，提升自动化编程效率。

AI产品 Devin Claude Fable 5 代码生成基准测试编程助手

推荐理由：对于使用 Devin 做自动化编程的团队，Fable 5 的集成直接提升了代码质量和合并成功率，值得立即体验。

原文

11:10

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI模型 Claude Fable 5 文档理解 ParseBench 基准测试 LlamaIndex

推荐理由：做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

原文

09:34

shao__meng@shao__meng

精选

一条推文通过对比 Claude Fable 5 和 Step 3.7 Flash 的官方 API 价格，揭示了 Claude Fable 5 的昂贵程度：输入价格约为 Step 3.7 Flash 的 50 倍，输出也是 50 倍，缓存命中输入更是高达 100 倍。若启用 Fast Mode（速度提升 3 倍，价格翻 6 倍），差距进一步拉大至 300 倍和 600 倍，且 Fast Mode 下 Step 3.7 Flash 输出速度反而更快。作者还用一个真实 Coding Agent 任务测试了 Step 3.7 Flash，它成功将混乱的 Agent 运行痕迹转化为一个可检查的本地 HTML 工具，展示了模型在复杂任务中的实用性。

AI产品 Claude Fable 5 Step 3.7 Flash API 价格对比 Coding Agent 成本优化

推荐理由：如果你在选 API 或做成本敏感的开发，这条对比能帮你省下真金白银——Claude Fable 5 的溢价远超想象，而 Step 3.7 Flash 在速度和价格上都有明显优势，做 Coding Agent 的团队值得关注。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……