17:45Browser Use@browser_useBrowser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。AI模型GLM 5.2Opus 4.7GPT 5.5Minimax M3基准测试3 个信源在谈推荐理由:他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。原文
13:48Ethan Mollick@emollick一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包,相当于人类工程师2-17周的工作量,总花费251美元。虽然模型仍不完美,但进步速度显著。AI模型Opus 4.7编程助手编码能力AI基准测试推荐理由:Opus 4.7只用14小时和251块就干完了人类几周的活,虽然还有瑕疵,但进步真的快。原文
11:51Browser Use@browser_useBrowser Use 团队对 Opus 4.7 和 GLM 5.2 进行前端设计基准测试。测试使用 Browser Use v4 工具,从 LLM Arena 数据集中选取一个 prompt。每个模型根据该 prompt 生成网站并自动评分。结果对比了这两款模型在代码生成和界面设计上的能力。AI模型Opus 4.7GLM 5.2Browser UseLLM Arena前端生成推荐理由:Browser Use 团队拿 Opus 4.7 和 GLM 5.2 比前端设计,一个 prompt 生成网站打分,看看谁画页面更强。原文
12:57OpenRouter@OpenRouterAI精选OpenRouter发布了一个MCP演示,展示agent如何通过MCP从DesignArena拉取实时设计模型排行。演示中,agent同时启动GLM-5.2、Opus 4.7和Kimi 2.6三个子模型,各自生成自画像网页并排展示。用户可以直接对比三个模型的输出,选择最喜欢的设计。这种方式省去了手动注册多个平台、重复输入提示词的繁琐流程。技巧OpenRouterMCP/工具GLM-5.2Opus 4.7Kimi 2.6推荐理由:OpenRouter演示了怎么用MCP让agent自动调用GLM-5.2、Opus 4.7、Kimi 2.6三个模型并排出设计图,再也不用一个个手动试了。原文
01:33Decoder@Matthias Bastian智谱AI的GLM-5.2在Snowflake的103项编程任务基准测试中,性能接近Claude Opus 4.7,但每输出token成本仅为后者的五分之一。不过GLM-5.2每任务消耗的token数量几乎是Opus 4.7的两倍。这一价格差异对Anthropic和OpenAI构成压力,可能影响西方AI实验室的估值。AI模型GLM-5.2Opus 4.7智谱AISnowflake推理模型10 个信源在谈推荐理由:智谱AI新模型GLM-5.2用Opus 4.7五分之一的价格做差不多的活,就是更费token,性价比很猛。原文
01:43Anthropic@AnthropicAI精选Anthropic 发布 Frontier Red Team 博客,介绍 Project Fetch 第二阶段:测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务,速度比去年最佳人类团队(使用 Opus 4.1)快约 20 倍。尽管速度提升显著,机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。AI模型ClaudeOpus 4.7Anthropic机器人编程安全测试10 个信源在谈推荐理由:Anthropic 让 Claude 自己写代码控制机器狗,速度比人快20倍,虽然最后没抓到球,但过程特别有意思原文
10:41AI Will@FinanceYF5精选《Memory》方法让模型在多个 session 间积累知识,路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步(记录失败但不查询);Opus 4.7 可到第3步,但校验覆盖率仅7–33%;Fable 5 能走完全程,验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。论文Sonnet 4.6Opus 4.7Fable 5记忆机制推理模型10 个信源在谈推荐理由:Fable 5 跨 session 记忆覆盖率73%原文
14:42歸藏(guizang.ai)@op7418Notion官方在状态页面公开指出Anthropic的Opus 4.7和4.8模型出现性能下降,导致用户使用Notion AI时失败率升高。为缓解影响,Notion已禁用所有Anthropic模型并将请求路由到其他供应商。Anthropic回应称此类问题在所有模型中都会发生,目前性能已恢复。但观察者指出,Anthropic模型出问题的频率明显高于其他两家,其状态页面甚至显示可用性未达99%。AI产品AnthropicOpus 4.7Opus 4.8模型性能Notion AI10 个信源在谈推荐理由:Anthropic模型频繁出问题,做AI产品集成的团队需要评估供应商稳定性——Notion的公开点名就是信号,建议关注Anthropic的可用性记录再决定是否深度依赖。原文
04:18Anthropic@AnthropicAIAnthropic发布新博客,展示其AI模型Claude Opus 4.7在核磁共振波谱(NMR)分析任务上的表现。NMR是化学家理解分子结构的关键工具。研究发现,Opus 4.7在部分任务上甚至超越了专用的NMR软件。这一进展表明AI在科学领域,尤其是化学分析中,具有巨大潜力。AI模型ClaudeOpus 4.7化学NMR科学AI10 个信源在谈推荐理由:化学研究者或药物开发团队可以关注:Claude Opus 4.7在NMR分析上达到专业软件水平,意味着AI可能简化分子结构解析流程,值得尝试用于辅助实验。原文
08:01AI Breakfast@AiBreakfast据 AI Breakfast 报道,Google 的 Gemini 3.5 Flash 模型在多个关键基准测试中超越了 Anthropic 的 Opus 4.7,包括终端基准、MCP Atlas、OSWorld 验证、金融代理、CharXiv 推理等。更重要的是,Gemini 3.5 Flash 的成本仅为 Opus 4.7 的一小部分。这一结果挑战了“贵即更好”的认知,表明轻量级模型在特定任务上可能更具性价比。对于预算有限但追求高性能的开发者或团队,这是一个值得关注的信号。AI模型Gemini 3.5 FlashOpus 4.7基准测试性价比模型对比10 个信源在谈推荐理由:轻量模型在多个实际任务上反超旗舰模型,做 AI 应用选型的团队可以直接参考这份基准对比来优化成本与效果。原文
14:56IT之家(博客/媒体)精选Anthropic 宣布上调所有套餐中 Claude Design 的 Token 上限翻倍,减少设计中断,支持更长上下文和更多迭代。同时,Claude Code 的快速模式默认切换为 Opus 4.7 模型,速度提升 2.5 倍,适合快速代码迭代和实时调试。快速模式定价为百万 Token 输入 30 美元、输出 150 美元,与 Opus 4.6 共享速率限制池。这些更新提升了创作和编程效率,尤其对需要频繁交互的用户有利。AI产品Claude DesignClaude CodeOpus 4.7Token 上限快速模式10 个信源在谈推荐理由:Claude Design 上限翻倍解决了复杂设计项目频繁中断的痛点,做原型和演示的团队可以更流畅地迭代;Claude Code 切到 Opus 4.7 让交互式编程快 2.5 倍,写代码的开发者值得立刻试试快速模式。原文
05:12claudedevs@claudedevs76°Claude Code 的快速模式现已默认使用 Opus 4.7 模型,提升了代码生成和推理的效率。用户可以通过 /fast 命令立即体验。这一更新意味着开发者在使用 Claude Code 进行编程时,能获得更快的响应速度和更强的模型能力,尤其适合需要频繁迭代代码的场景。AI产品Claude CodeOpus 4.7编程助手快速模式模型升级推荐理由:Claude Code 用户现在默认用上 Opus 4.7,代码生成更快更聪明,做编程的可以直接用 /fast 试试。原文
14:54Ate-a-Pi@svpino72°一位开发者提出了一个多模型架构模式,该模式将用户提示分解为子任务,并路由到最适合的模型执行:推理任务交给 Opus 4.7,视频生成用 Seedance,图像生成用 GPT Image。这种系统还包含三层记忆,使得上下文能在会话间累积,而不是每次重置。该模式有望取代单一模型工具,通过组合多个专长模型实现更高效、更精准的任务处理。AI产品多模型架构路由系统Opus 4.7SeedanceGPT Image推荐理由:这个多模型路由架构解决了单一模型能力不足的问题,做 AI 应用开发的团队可以直接参考这种设计,让不同模型各展所长,值得关注。原文