23:10berryxia@berryxia精选Anthropic工程师Margot Van Laar在Code with Claude分享提示词工程最佳实践,强调通过评估(Eval)而非直接修改提示词来优化。她用客服机器人和零售排班两个案例演示:使用XML标签结构化提示词、移除旧模型遗留的禁止列表(如Claude 3 Opus)、用工具替代指令处理计算任务。拆解复杂任务为生成-评估-修复循环,并建议用更强推理模型(如Opus)加自适应思考替代小模型复杂提示词。技巧提示词工程Claude评估Claude Opus工作流8 个信源在谈推荐理由:Anthropic工程师手把手教你怎么调客服提示词和搭Agent,用Opus加循环拆解比堆复杂指令更管用,核心就一句话:先搞评估原文
21:24Geek@geekbb精选DAO-C是基于DeepSeek V4的终端编码agent,在7个真实开源bug-fix任务上总成本仅¥1.07。相比Claude Opus,费用降低约30倍。其成本优势源于前缀缓存聚合,命中率达95.8%。该工具在编码效率上媲美Claude Code。AI产品DeepSeek V4Claude CodeClaude Opus编程助手低成本推荐理由:这个基于DeepSeek V4的终端agent超省钱,修7个bug才1块零7分,比Claude Opus便宜30倍,编码体验还接近Claude Code。原文
10:24arXiv: OpenAI@Moran Koren该论文提出一种以验证为先的LLM辅助经济理论协议,并实例化为三种方法:单次严谨通道、对抗性验证器对(Claude Opus 4.8提议,OpenAI Codex反驳,作者仲裁)以及带评审门控的结构化多智能体项目。作者在一个开放示例——为Gans-Kominers等级膨胀模型设计Groves/Pigouvian激励相容机制——上评估该协议,三个运行均未产生严格直接揭示VCG/Clarke机制,对抗性通道自身证实了该点。结果揭示三个反复出现的现象:收敛发现、对抗验证的有效性、以及抛光不等于严谨。论文LLM经济理论验证协议多智能体Claude Opus10 个信源在谈推荐理由:这篇论文为你演示了如何用LLM做经济理论研究,重点不是让模型生成答案,而是设计验证流程来确保结果可靠,三种方法对比很清楚。原文
02:43SiliconFlowAI@siliconflowaiGLM-5.2 在 Designarena 的 HTML Web Design 排行榜上取得第一,超越了此前长期占据榜首的 Claude Opus 4.6 和 4.7。该模型已通过 SiliconFlow API 提供使用。开发者可以立即调用 GLM-5.2 构建 HTML 网页设计项目。AI模型GLM-5.2Claude OpusSiliconFlowDesignarena编程助手1 个信源在谈推荐理由:HTML 设计排行榜上 GLM-5.2 干掉了 Claude,现在就能用 SiliconFlow 的 API 上手,写网页贼快。原文
08:30Ate-a-Pi@svpino推文作者Santiago分享了他的7款最爱模型:日常用Claude Opus 4.7和ChatGPT 5.5 Thinking、实时新闻用Grok、编程用Claude Code(Sonnet 4.6和Opus 4.6)、本地快速用Gemma 4、开放权重用MiniMax 2.7和Qwen 3.6。他还推荐了Anuma作为一站式替代方案,支持跨模型共享上下文和并排对比答案。AI产品Claude OpusChatGPTGrokGemmaAnuma1 个信源在谈推荐理由:有人列出了7款主流模型推荐,还发现Anuma能跨模型保持对话、对比答案,省订阅费。原文
01:55Decoder@Jonathan Kemper精选智谱AI推出开源模型GLM-5.2,采用MIT许可证,支持稳定100万token上下文。在FrontierSWE编码基准测试中,GLM-5.2以1个百分点之差落后于Anthropic的Claude Opus 4.8。该模型在推理能力上仍显著落后于闭源竞争对手。AI模型GLM-5.2智谱AIClaude Opus开源模型编码助手10 个信源在谈推荐理由:智谱AI的GLM-5.2在长时间编码任务上只比Claude Opus 4.8差1%,还是开源免费,码农可以试试。原文
03:45Guillermo Rauch@rauchgAnthropic 的 Mythos 安全验证工具对 Malte Ubl 的 just-bash 项目进行了安全审计,结果未发现严重问题。just-bash 是一个完整的 bash 实现,包含 QuickJS、CPython 和可选文件系统访问,攻击面很大。该项目大部分代码由 Claude Opus 4.5 编写,仅经过最少的人工审查,但通过深度加固循环和机器强制编码规则保证了安全性。这一案例展示了 AI 生成代码在严格安全约束下可以达到的可靠性。AI产品Claude OpusMythos安全验证AI 生成代码just-bash10 个信源在谈推荐理由:AI 写代码的安全性问题一直让人担心,这个案例证明只要加固流程到位,AI 生成的复杂系统也能通过专业审计。做 AI 安全或代码生成的团队值得看看他们的方法论。原文
01:18elvis@omarsar0Boris Cherny 分享了让 Claude Opus 自主运行数小时甚至数天的 5 个实用技巧。核心要点包括:使用自动模式避免频繁请求批准、利用动态工作流让 Claude 协调数百/数千个智能体、通过 /goal 或 /loop 命令持续推动任务完成、在云端运行 Claude Code 以便随时关闭笔记本、以及确保 Claude 能端到端自我验证工作成果。这些技巧对于需要长时间自主运行 AI 智能体的开发者非常实用。技巧Claude Opus自主运行智能体自动化技巧3 个信源在谈推荐理由:做长时间自主 AI 智能体的开发者终于有了实操指南——这 5 个技巧直接解决「怎么让模型持续干活不卡壳」的痛点,建议做自动化任务的团队点开抄作业。原文
11:35rohanpaul_ai@rohanpaul_ai精选72°斯坦福、MIT、NVIDIA、Google 等顶尖实验室联合发布 AutoLab 基准测试,包含 36 个任务,要求智能体从弱代码出发,在固定时间内改进。测试 17 个强模型后发现,最佳结果并非源于初始想法好,而是模型持续测试、利用反馈。Claude Opus 4.6 因坚持迭代而领先,其他前沿模型常因过早放弃或过度思考而失败。该研究揭示了当前 AI 智能体在长周期研究中的关键短板。论文智能体基准测试长周期研究Claude Opus坚持迭代10 个信源在谈推荐理由:做 AI 研究和智能体开发的团队会看到,坚持比聪明更重要——AutoLab 的发现直接点出了当前智能体在长任务中的致命弱点,值得反思自己的智能体设计。原文
10:58shao__meng@shao__meng精选Claude Code 作者 Boris Cherny 分享了让 Claude Opus 持续运行数小时甚至数天的 5 条实战建议,包括启用自动权限模式、使用动态工作流编排子 Agent、通过 /goal 或 /loop 指令推动任务完成、优先使用云端版本避免本地关机中断,以及确保端到端自我验证能力。这些建议同样适用于 Codex、GPT-5.5 等其他模型,核心在于减少人工干预、提升任务连续性和验证有效性。对于需要长时间自主执行复杂任务的开发者来说,这些技巧能显著提升效率并避免 token 浪费。AI产品Claude OpusClaude Code自主运行动态工作流端到端验证3 个信源在谈推荐理由:Boris Cherny 的 5 条建议直击长时自主运行的痛点,做自动化任务编排的开发者可以直接套用到 Codex 或 GPT-5.5 上,尤其是端到端自我验证这条能帮你省下大量无效 token 消耗,值得收藏实践。原文
05:21rohanpaul_ai@rohanpaul_ai72°Datacurve 推出 DeepSWE,一个更严格的编程基准测试,旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%,而 GPT-5.4 为 56%,Claude Opus 4.7 为 54%,差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题,避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半,但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同,DeepSWE 检查请求行为是否真正实现,而非仅依赖合并 PR 的测试。AI模型基准测试编程能力GPT-5.5Claude Opus软件工程1 个信源在谈推荐理由:做 AI 模型评估或选型的团队,DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距,建议关注这个新基准。原文
17:59Philipp Schmid@_philschmid72°DeepSWE 是一个新的软件工程/智能体基准测试,包含 113 个任务,覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令,没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短,但平均需要修改 5.5 倍以上的代码和 7 个文件,旨在模拟开发者与智能体对话的真实方式。初步结果显示,Claude Opus 比 Claude Code 高 10 个百分点,Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力,可能对探索型模型不利。AI模型SWE 基准智能体编程助手Claude OpusGemini Pro1 个信源在谈推荐理由:做 SWE 智能体评估或开发 AI 编程助手的团队,这个新基准更贴近真实开发场景,值得关注其设计思路和模型表现差异。原文
12:33Claude: Blog(资讯)精选Claude Opus 是Anthropic最新旗舰模型,在MMLU基准测试中达到90.2%,在HumanEval代码生成测试中达到90.1%,均超越GPT-4。它支持200K token上下文窗口,在复杂推理、多语言对话和编程等任务上表现领先。该模型采用Constitutional AI训练方法,提升了安全性和可控性。AI模型Claude OpusAnthropicMMLU编程助手推理模型10 个信源在谈推荐理由:推理编程都碾压,性价比高原文