03:24Genspark@genspark_aiGenspark 推出 Genspark Design,一款基于 Claude Opus 4.7 的 AI 设计工具。用户无需设计背景即可从草图生成专业设计,支持 UI 原型、视频、HTML 动画和海报。可上传 Figma 文件或保存设计复用于项目,并一键将设计转化为工作代码(基于 Genspark Code)。目前处于首发定价阶段。AI产品Genspark DesignClaude Opus 4.7设计工具代码生成Figma6 个信源在谈推荐理由:不用学设计软件,上传 Figma 或画个草图就能出 UI、视频、动画,还能一键转代码,设计师和产品经理都该试试。原文
05:29elvis@omarsar0精选GLM-5.2 (Max)在Code Arena: Frontend榜单中排名第二,得分比Claude Opus 4.7 (Thinking)高29分,仅落后于Fable 5。该模型在React子榜单排第2,HTML排第4,且在品牌营销、参考设计等6个子类别中均位列第一。作为开源模型,GLM-5.2大幅领先Kimi-K2.6和Minimax-M3。AI模型GLM-5.2Code ArenaClaude Opus 4.7Fable 5编程助手10 个信源在谈推荐理由:智谱新模型GLM-5.2 Max在代码前端评测中杀到第二,直接压过Claude Opus 4.7,开源模型里目前最强,做前端开发的可以关注。原文
19:01AI Will@FinanceYF5Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一,超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位,显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现,对移动端 AI 应用开发者有重要参考价值。AI模型Claude Opus 4.7Android Arena排行榜AnthropicGPT-5.510 个信源在谈推荐理由:移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先,Anthropic 整体优势明显,值得关注其技术路线。原文
06:41rohanpaul_ai@rohanpaul_aiAgent Arena 发布了一个全新的智能体排行榜,不再依赖传统基准测试中的孤立问题,而是评估 AI 模型在真实用户任务中的表现,包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据,综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示,GPT-5.5 High 以 +10.7% 的净改进率领先,Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统,综合评估模型选择、工具使用、恢复行为和用户满意度。AI模型智能体排行榜GPT-5.5Claude Opus 4.7工具调用1 个信源在谈推荐理由:做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据,告诉你哪个模型在写代码、做研究、处理文档时真正靠谱,值得点开看看你的模型排第几。原文
04:58rohanpaul_ai@rohanpaul_ai76°Anthropic 发布新报告,显示 Claude Opus 4.7 在核磁共振(NMR)谱图分析上表现惊人。该模型不仅能像专业 NMR 软件一样预测谱图,还能反向从谱图推断分子结构,这是传统工具通常需要化学家完成的任务。Opus 4.7 在氢谱预测误差最小,碳谱预测接近专业软件 MestReNova,且未经过化学领域微调。这标志着通用 AI 模型在化学领域取得了突破性进展,有望加速分子结构解析流程。AI模型Claude Opus 4.7NMR分析化学AI分子结构推断Anthropic10 个信源在谈推荐理由:化学研究者和药物开发团队终于有了一个能反向推断分子结构的通用 AI 工具,省去专业软件和人工分析的双重成本,建议做结构解析的团队直接关注报告细节。原文
06:16lmarena.ai@lmarena_ai88°Arena 平台今日正式推出 Agent Mode,允许用户测试前沿模型在真实任务中的表现,包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用(如网页搜索、沙箱 bash、图像生成、文件写入)完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时,Battle Mode 投票数已突破 5000 万。AI产品ArenaAgent Mode模型评测GPT-5.5Claude Opus 4.72 个信源在谈推荐理由:Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现,做 AI 评测或选型的团队值得一试。原文
01:48lmarena.ai@lmarena_ai88°Arena 平台推出 Agent Mode,允许用户测试 AI 智能体在真实任务中的表现,包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具,评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行,为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。AI产品智能体评测平台GPT-5.5Claude Opus 4.7Gemini 3.1 Pro2 个信源在谈推荐理由:Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题,做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现,值得一试。原文
01:19lmarena.ai@lmarena_ai88°Agent Arena 是一个全新的智能体评测平台,通过数百万次真实用户会话,衡量模型在完成实际任务(如编写代码、创建幻灯片、网页研究、构建应用、分析文档)时的表现。评测基于五个信号:任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一为 OpenAI GPT-5.5,其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题,为开发者提供更贴近实际使用的性能参考。AI产品智能体评测/基准GPT-5.5Claude Opus 4.7GLM-5.110 个信源在谈推荐理由:智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队,可以直接用 Arena 的评测结果来选模型,比跑基准测试更有参考价值。原文
01:46Fireworks AI@FireworksAI_HQFireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式:用 GLM 5.1 作为执行工人,Claude Opus 4.7 作为稀疏顾问,结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100,成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议,显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。AI产品智能体法律AIGLM 5.1Claude Opus 4.7开源/仓库1 个信源在谈推荐理由:法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问,性能提升 28% 的同时成本砍掉 61%,做法律智能体或长链推理的开发者值得一试。原文
22:26阿里通义 Qwen@Alibaba_Qwen83°atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现:编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先,而 Claude Opus 4.7 成本12.15美元提升28%,GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出,尤其在长智能体循环场景中表现出色。AI模型Qwen 3.7-Max智能体Claude Opus 4.7GPT-5.5成本对比推荐理由:Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2,性能提升却翻倍,做 AI 智能体开发的团队值得关注这个性价比之选。原文