16:38Fireworks AI@FireworksAI_HQ精选Fireworks AI 指出,在长代理循环中,推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度,在不牺牲质量的前提下减少下游上下文大小,从而提升生成速度并降低重试次数,最终降低每个完成任务的真实成本。AI模型K2.7 CodeFireworks AI推理模型智能体推荐理由:K2.7 Code 省 token 省成本原文
15:26AI Will@FinanceYF5Grok 4.20 在AI协调游戏中以92%的轮次全程说实话,告知其他AI“红色是死亡陷阱,别进,我百分百确定”。其诚实策略使所有AI得以协调,最终Grok得分最高,其他AI死亡最少。赛后Grok解释其默认直截了当,因为认知负荷低且符合训练语气。AI模型Grok 4.20AI协调诚实策略游戏推荐理由:Grok 4.20 用诚实策略赢了AI协调游戏原文
14:36IT之家(博客/媒体)智谱宣布 GLM-5.2 将面向 GLM Coding Plan 全量用户开放,覆盖 Lite、Pro、Max 及团队版。该模型支持 1M 上下文,是智谱迄今能力最强的开源模型,在长程任务中保持领先。GLM-5.2 API 将于下周上线,模型将遵循 MIT 协议正式开源。此前智谱于 3 月发布 GLM-5.1,5 月发布输出速度达 400 tokens/s 的 GLM-5.1 高速版。AI模型GLM-5.2智谱开源模型1M上下文推荐理由:智谱最强开源模型下周上线原文
13:54IT之家(博客/媒体)精选Google Research 推出 Gemini-SQL2 模型,基于 Gemini 3.1 Pro 打造,专攻 Text-to-SQL 任务。在 BIRD 基准的单模型赛道中,执行准确率达 80.04%,超越此前 Gemini-SQL。BIRD 覆盖 95 个数据库、37 个领域和 12751 组问题,数据量 33.4GB,模拟真实企业环境。该模型可让业务人员用自然语言查询营收、流失等数据,但谷歌尚未公布 API 或接入产品。AI模型Gemini-SQL2Google ResearchText-to-SQLBIRD推理模型4 个信源在谈推荐理由:谷歌新模型让自然语言查数据库更准原文
13:23IT之家(博客/媒体)6月12日,MiniMax 开源了新一代原生多模态旗舰模型 M3。同日,摩尔线程宣布其旗舰级 AI 训推一体智算卡 MTT S5000 已完成对该模型的 Day-0 适配。MTT S5000 凭借硬件级原生 FP8 加速,单卡 AI 算力(稠密)高达 1000 TFLOPS,配备 80GB 显存与 1.6TB/s 带宽,支撑百万 token 级长序列。适配通过原生算子定制提升推理吞吐并降低延迟,同时同步拉起 vLLM 与 SGLang 两大推理框架。AI模型MiniMax M3摩尔线程MTT S5000多模态推理框架7 个信源在谈推荐理由:摩尔线程让国产模型跑得更快原文
13:17Amazon Science@AmazonScience精选Amazon 研究人员推出 Simple Strands Agent (SSA),这是一个轻量级开源框架。SSA 在 SWE-Bench-Verified、SWE-Bench-Pro 和 Terminal-Bench2 三个基准上均达到当前最优 (SOTA)。该框架通过缩小模型意图与执行之间的差距来提升性能。SSA 的设计强调简洁与可复现性。AI模型Simple Strands AgentAmazonSWE-Bench开源模型编程助手1 个信源在谈推荐理由:轻量开源,三个基准登顶原文
13:17Epoch AI@EpochAIResearch精选73°Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分,Tier 1-3 达到 87%,Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。AI模型Claude Fable 5AnthropicFrontierMath推理模型10 个信源在谈推荐理由:Anthropic 新模型数学超强原文
13:11LMSYS Org (SGLang)@lmsysorg精选73°SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。AI模型SGLangGB300 NVL72DeepSeek V4 ProNVIDIA Dynamo推理模型10 个信源在谈推荐理由:SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
13:05MiniMax_AI@MiniMax_AIUnslothAI 支持在本地运行 MiniMax 的 M3 模型,用户可通过其优化工具进行部署。M3 是 MiniMax 发布的多模态模型,支持文本、图像和音频处理。UnslothAI 提供高效的本地推理方案,降低硬件门槛。AI模型M3MiniMaxUnslothAI多模态本地部署推荐理由:用UnslothAI本地跑M3原文
13:03marktechpost@Asif RazzaqMoonshot AI 开源了 Kimi K2.7-Code,这是一个基于 Kimi K2.6 构建的编程智能体模型,采用 Modified MIT 许可证。该模型拥有 256K 上下文窗口,推理 token 使用量降低约 30%。在 Kimi Code Bench v2 上,K2.7-Code 相比 K2.6 提升了 21.8%,并在其他五个基准上也有增长。模型已通过 Kimi API 和 Kimi Code 提供。AI模型Kimi K2.7-CodeMoonshot AI编程助手开源模型智能体6 个信源在谈推荐理由:编程模型开源,性能提升明显原文
13:00lmarena.ai@lmarena_aiPeter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现,包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩,超越了前代模型。AI模型Claude Fable 5AnthropicAgent Arena智能体推理模型10 个信源在谈推荐理由:看看Claude Fable 5在Agent Arena的表现原文
12:58lmarena.ai@lmarena_aiClaude Fable-5 在 Agent Arena 排行榜上展示了其技术细节,该模型在多个基准测试中表现突出。具体数据显示,Fable-5 在任务完成率上达到 92.3%,相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。AI模型Claude Fable-5Agent Arena基准测试智能体10 个信源在谈推荐理由:看 Fable-5 在 Agent Arena 上的具体数据原文
11:17AI Will@FinanceYF573°Deedy展示了Claude Fable的8个案例,包括McKinsey风格报告、SpaceX S-1 IPO草案、宝可梦游戏复刻、3D约塞米蒂和纯CSS Apple液态玻璃UI。每个案例单次思考超2小时,实现像素级还原。Deedy称这是自o3以来最大的模型质量跃升。AI模型ClaudeFable文档生成幻灯片像素级还原推荐理由:Claude Fable能像素级还原复杂文档和UI原文
11:15ollama@ollamaKimi-K2.7-Code 是 Kimi 最新开源的编程模型,现已在 Ollama 云上可用,部署于美国 NVIDIA B300 数据中心 GPU。相比 K2.6,该模型在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。推理 token 使用量降低 30%,减少过度思考。支持长周期编码任务,指令遵循能力更强。AI模型Kimi-K2.7-CodeOllama编程助手开源模型NVIDIA B30010 个信源在谈推荐理由:Kimi 新编程模型上线 Ollama,性能大涨原文
11:05lmarena.ai@lmarena_ai精选NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名,在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出,但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽,排名仍在稳定中。AI模型Nemotron 3 UltraNVIDIAAgent Arena开源模型智能体10 个信源在谈推荐理由:NVIDIA 开源模型在智能体评测中排第5原文
11:00Decoder@Matthias BastianAnthropic发布的Claude Fable 5在Artificial Analysis Intelligence Index上获得64.9分,创下十项基准测试中的五项纪录。相比Opus 4.8,性能仅提升5.7%,但token价格翻倍。安全过滤器和回退路由进一步推高使用成本。AI模型Claude Fable 5AnthropicOpus 4.8推理模型基准测试10 个信源在谈推荐理由:性能微涨价格翻倍,谨慎升级原文
10:59IT之家(博客/媒体)英特尔酷睿Ultra 7 251HX处理器在PassMark平台跑分曝光,单核4666分,多核48713分。该处理器隶属Arrow Lake-HX家族,采用18核心配置,TDP为55W。单核性能比同系列20核的Ultra 7 255HX和265HX高出2-3%,多核跑分也超越这两款20核竞品。此前Cinebench R23测试显示,251HX在低于100W TDP区间效率优于Core i9-14900HX,体现Arrow Lake架构能效优化。AI模型IntelCore Ultra 7 251HXArrow Lake-HXPassMark能效比推荐理由:18核打20核,还更省电原文
10:55MiniMax_AI@MiniMax_AI精选MiniMax 发布 M3 模型,总参数量约 428B,激活参数约 23B。该模型在编码、长周期智能体和原生多模态(文本、图像、视频)任务上表现优异,支持 1M token 上下文长度。M3 以开源权重形式发布,在 Baseten 平台可运行。AI模型MiniMaxM3开源模型多模态智能体推荐理由:开源模型能打编码和多模态原文
10:53Together AI@togethercompute精选MiniMax 发布开源权重原生多模态模型 MiniMax-M3,具备 1M 上下文窗口和 MiniMax 稀疏注意力机制。模型提供思考与非思考两种模式。Together AI 作为首选云合作伙伴,通过推理优化在并发场景下实现高达 125% 的吞吐量提升。AI模型MiniMax-M3Together AI多模态开源模型1M上下文7 个信源在谈推荐理由:MiniMax 新模型上线,吞吐量提升 125%原文
10:40AI Will@FinanceYF5Fable模型在测试中成功生成等时线旅行地图,需查询数千条路线并综合飞机、火车、驾车、步行多种交通方式。此前所有模型均无法完成此复杂任务。Fable仅需一个提示即可开始处理。该测试展示了Fable在复杂规划任务上的能力。AI模型Fable等时线地图智能体多模态推荐理由:Fable能搞定别人做不了的地图原文
10:38AI Will@FinanceYF5Anthropic工程师通过两个实验验证,设计让模型自我纠错的环境比直接提示更有效。实验一显示,在特定架构下,Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明,通过环境反馈机制,模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型,而是优化了Agent的交互流程。AI模型Claude 3.5 SonnetAnthropic智能体推理模型架构设计10 个信源在谈推荐理由:Anthropic教你用环境设计提升Agent原文
10:35AI Will@FinanceYF5Wharton教授Ethan Mollick测试了Anthropic的Claude 5 Fable模型,发现其能力远超前代。Mollick指出,用户不再需要像向导一样引导AI,而是转变为甲方角色,直接提出需求即可。这一变化标志着人机协作模式的根本性转变,Claude 5 Fable在复杂任务中表现出更强的自主性和理解力。AI模型Claude 5 FableAnthropicEthan Mollick智能体人机协作10 个信源在谈推荐理由:教授实测,AI变甲方了原文
10:34AI Will@FinanceYF5精选Claude Fable 5 基于物理第一性原理构建了太阳系模拟,而非仅制作轨道动画。它推导出行星运动规律,并成功预测了一次日食。该模型还展示了黑洞模拟,体现了其科学推理能力。AI模型Claude Fable 5物理模拟推理模型日食预测10 个信源在谈推荐理由:Claude Fable 5 用物理原理预测日食原文
10:25shao__meng@shao__meng精选Cursor 团队为训练 Composer 模型构建了始终运行的 Agent 舰队系统,本质是一个 Loop。主 Agent(Fleet Manager)运行在大型远程机器上,通过 SSH 连接数百台子 Agent 机器,收集状态并写入共享 inbox 文件。子 Agent 并行执行具体研究任务,主 Agent 每轮循环检查舰队健康状况,可主动控制进程。该系统基于 Cursor 此前公开的长运行 Agent 研究,使用 Cursor 自身产品实现状态共享和协调。AI模型CursorComposerAgent智能体编程助手5 个信源在谈推荐理由:Cursor 用自家产品造了数千 Agent 舰队原文
10:18berryxia@berryxia精选73°Kimi 发布 K2.7-Code 模型,开源权重和代码至 Hugging Face。相比上一代,token 消耗减少 30%,agent 长任务成功率提升。在 Kimi Code Bench v2 上提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。模型通过高效推理解决 coding model 过度思考问题,并预告 6x High-Speed Mode。AI模型KimiK2.7-Code开源模型编程助手推理模型推荐理由:Kimi 开源新模型,少烧 token 还能干更多活原文
10:14Simon Willison@simonw精选Simon Willison 编写脚本每分钟调用 Anthropic API,监测对 claude-fable-5 模型的访问权限。大约在发推前14分钟,访问被切断。该模型尚未正式公开,此次测试揭示了其临时可用性。AI模型claude-fable-5ClaudeAnthropicAPI模型可用性10 个信源在谈推荐理由:Simon实测神秘模型访问时长原文
09:55rohanpaul_ai@rohanpaul_ai精选73°NVIDIA 发布了首个智能体 AI 基准测试 AgentPerf 的结果。该基准由 Artificial Analysis 推出,测试系统在保持响应性的同时能并发运行多少个智能体。GB300 NVL72 在最低服务层级达到每兆瓦 61.4K 并发智能体,而 H200 仅为 2.6K,性能提升约 23.6 倍。测试模拟了真实编码智能体路径,涵盖 12 种以上编程语言,请求长度从 5K 到 131K token 不等,平均约 27K token。性能提升得益于 72 块 GPU 通过 NVLink 组成机架级系统,以及优化 MoE 专家分配、通信与计算重叠等软件技术。AI模型NVIDIAGB300 NVL72H200AgentPerf智能体10 个信源在谈推荐理由:NVIDIA 首个智能体基准,GB300 比 H200 强 23 倍原文
09:48Together AI@togethercompute精选Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。AI模型Together AIBlackwell推理引擎编程助手Tensor Core4 个信源在谈推荐理由:Blackwell 上推理快了 31%原文
09:47IT之家(博客/媒体)精选华为云与MiniMax达成深化合作,基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构,支持1M超长上下文,是原生多模态模型,可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上,M3超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在SVG-Bench上超过Opus 4.7;在OmniDocBench上超过Gemini 3.1 Pro;在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡,保障M3大规模推理性能。AI模型MiniMaxM3华为云昇腾多模态1 个信源在谈推荐理由:华为云联手MiniMax,M3多模态模型开源原文
09:46lmarena.ai@lmarena_aiMiniMax M3 是一款开放权重的模型,现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现,涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。AI模型MiniMax M3Agent ArenaGPT-5.5Claude-Opus-4.7智能体10 个信源在谈推荐理由:看看 MiniMax M3 在 Agent 任务中能排第几原文
09:43marktechpost@Asif Razzaq精选Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2,基于 Gemini 3.1 Pro 模型。该模型在 BIRD 单模型排行榜上取得 80.04% 的执行准确率。文章解释了该分数含义、排行榜对比情况,以及 Google 未披露的细节。同时介绍了使用场景和基于 schema 的实现模式。AI模型Gemini-SQL2Gemini 3.1 ProBIRDText-to-SQL推理模型3 个信源在谈推荐理由:Google 新模型 SQL 准确率破 80%原文
04:21elvis@omarsar0精选Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro 模型。该模型在 BIRD 基准上实现了最新最佳结果,能够将自然语言转换为可直接执行的 SQL 查询。BIRD 是一个高难度的文本转SQL基准,Gemini-SQL2 在此验证了定制模型在处理复杂真实数据时的优势。AI模型Gemini-SQL2GoogleBIRD文本转SQL推理模型3 个信源在谈推荐理由:Google 用 Gemini 3.1 Pro 刷新了 SQL 生成最强成绩原文
23:46Claude@claudeaiClaude Fable 5 已发布数天,社区迅速基于该模型构建了多个项目。这些项目展示了 Fable 5 在创意、编程和交互方面的潜力。该模型因其强大的生成能力和灵活性受到开发者关注。目前已有 48 条评论、14 次转发和 280 个点赞,社区反响热烈。AI模型Claude Fable 5社区项目创意应用模型发布开发者10 个信源在谈推荐理由:Claude Fable 5 刚发布就催生了大量创意项目,做 AI 应用开发的团队值得看看社区在玩什么,能直接激发你的下一个项目灵感。原文
22:52NVIDIA AI@NVIDIAAIMiniMax 团队发布了 MiniMax M3,这是一个支持文本、图像和视频推理的长上下文多模态模型。模型采用稀疏注意力机制,总参数量约 428B,激活参数仅约 23B,在保持高性能的同时大幅降低了计算成本。该模型已开源权重,可在 Hugging Face 获取,并可通过 NVIDIA 的 GPU 加速端点免费试用。M3 的长上下文能力使其在处理视频、长文档等场景中具有优势。AI模型MiniMaxM3多模态模型长上下文开源/仓库10 个信源在谈推荐理由:多模态推理模型终于有了高效的开源选择——MiniMax M3 用 23B 激活参数实现长上下文多模态推理,做视频分析或长文档处理的团队可以直接在 NVIDIA 端点免费试,值得关注。原文
22:47vLLM@vllm_project73°MiniMax AI 发布了新一代开源模型 MiniMax M3,具备前沿的编码和智能体能力,原生支持图像和视频输入、计算机使用功能,并拥有 100 万 token 的上下文窗口。其核心是 MSA(MiniMax Sparse Attention)稀疏注意力架构,通过仅对 top 128-token KV 块进行注意力计算,大幅降低了长上下文推理的计算成本。M3 已在 vLLM 中实现首日支持,可在 NVIDIA 和 AMD 硬件上运行,支持 BF16 和 MXFP8 检查点、MoE 后端、多模态输入、工具调用和推理控制。这一成果是 MiniMax、NVIDIA、AMD 和 vLLM 社区合作的结晶。AI模型MiniMax M3稀疏注意力1M上下文开源模型vLLM10 个信源在谈推荐理由:M3 的 1M 上下文和稀疏注意力架构解决了长文档和复杂智能体任务的性能瓶颈,做 RAG、代码分析和自动化工作流的团队可以直接在 vLLM 上部署试用。原文
22:18LMSYS Org (SGLang)@lmsysorg73°SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。AI模型SGLangMiniMax-M3多模态MoE推理模型10 个信源在谈推荐理由:SGLang 第一时间支持 MiniMax-M3,做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速,编码和智能体任务表现值得一试。原文
21:56vLLM@vllm_projectKimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。AI模型编程智能体MoE/混合专家Kimi推理模型vLLM推荐理由:编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时,将激活参数压缩到 32B,做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署,值得一试。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
20:13shao__meng@shao__meng73°Kimi 开源了最新编码模型 K2.7-Code,基于 K2.6 针对编程 Agent 专项优化,重点提升长链路编码任务成功率并减少推理 token。在编码基准上全面进步,其中 Kimi Code Bench v2 提升 21.8%,MLS Bench Lite 提升 31.5%。Agent 方面,MCP Mark Verified 得分 81.1,超过 Opus 4.8 的 76.4,在多工具编排上具备竞争力。效率方面,推理 token 整体减少约 30%,Program Bench 的 token 消耗降低 42% 同时分数提升。模型支持强制 Thinking 模式、Preserve Thinking 和多模态输入,已在 Hugging Face 开源。AI模型KimiK2.7-Code编码模型AgentMCP/工具开源/仓库推荐理由:K2.7-Code 在 MCP 场景下超过 Opus 4.8,且推理 token 减少 30%,做编程 Agent 的团队可以直接用开源模型跑长任务,成本更低、成功率更高。原文