04:28elvis@omarsar0GLM-5.2 在 Design Arena 上跃居第一,Elo 评分达 1360,超越了此前不可用的 Claude Fable 5。该模型相比前代提升了 4 个名次和 27 个 Elo 分,创下 Design Arena 代码类别中最高 Elo 记录之一。模型以开放权重发布,由 @Zai_org 团队推出。AI模型GLM-5.2Design Arena开源模型设计能力2 个信源在谈推荐理由:智谱的 GLM-5.2 刚把 Claude Fable 5 挤下 Design Arena 榜首,开放权重还能自己测,设计能力拉满。原文
04:01elvis@omarsar0GLM 5.2 在 FrontierSWE 基准上排名第 3,得分仅次于 Fable 5 和 Opus 4.8,并超越 GPT-5.5。这是首个缩小 Anthropic/OpenAI 与其他提供商之间差距的模型,同时也是目前最强的开源权重模型。该成绩展示了开源模型在编码任务上的竞争力。AI模型GLM 5.2FrontierSWEGPT-5.5开源模型编码基准10 个信源在谈推荐理由:GLM 5.2 在编码基准上干掉了 GPT-5.5,开源里最强,值得关注。原文
04:01elvis@omarsar072°Z.ai 宣布推出 GLM-5.2 开源权重模型,MIT 许可发布。其在编码和智能体任务上有显著改进,支持 1M 上下文窗口。提供两种推理等级:GLM-5.2 (max) 和 GLM-5.2 (high),后者在性能与 token 效率间取得平衡。API 定价与 GLM-5.1 相同,权重已上架 Hugging Face。AI模型GLM-5.2Z.ai开源模型编码智能体长上下文推荐理由:Z.ai 发了 GLM-5.2,开源权重、MIT 许可,编码和智能体能力提升明显,还支持 1M 上下文,想玩前沿模型的可以试试。原文
03:58lmarena.ai@lmarena_aiGLM-5.2 (Max) 在 Text Arena 总榜排名第25位,与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。AI模型GLM-5.2GLM-5.1智谱Text Arena多轮对话推荐理由:智谱新模型 GLM-5.2 整体排名没变,但在专家问答和多轮对话上进步明显,写创意和医学内容更强了。原文
03:49ollama@ollama精选Z.ai 发布 GLM-5.2,支持 1M token 上下文窗口,专为长程编码和智能体任务设计。提供两种推理模式:GLM-5.2 (max) 和 GLM-5.2 (high),权重以 MIT 许可开源。现已通过 Ollama 云服务在美国 NVIDIA Blackwell GPU 上可用,API 定价与 GLM-5.1 相同。该模型声称是目前最强开源编码模型。AI模型GLM-5.2Z.aiOllama开源模型长上下文10 个信源在谈推荐理由:Z.ai 开源了 GLM-5.2,有 1M 上下文窗口,适合写长代码和搭智能体,在 Ollama 上直接就能用,MIT 许可随便玩。原文
03:46lmarena.ai@lmarena_ai76°GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二,得分比 Claude Opus 4.7 (Thinking) 高 29 分,仅次于 Fable 5。在 Agent Arena 中排名第 10,是排名最高的开源模型,超越 Kimi-K2.6 和 Minimax-M3。在 Brand & Marketing、Reference-Based Design 等 6 个子类别中均排名第一。价格维持 $1.4/$4.4 per input/output MTokens,上下文窗口 1M。与 5.1 相比,排名从 #13 升至 #10,任务成功率和用户评价提升,但 steerability 下降 6%。AI模型GLM-5.2Zai_orgCode ArenaAgent Arena开源模型3 个信源在谈推荐理由:GLM-5.2 在编程和智能体任务上超越 Claude Opus 4.7,是开源模型新标杆,编程能力仅次于 Fable 5。原文
03:40@koltregaskes@koltregaskesOpenAI即将推出新语音模型GPT-Bidi-1(代号可能变更)。该模型专为生成更自然的语音交互设计。消息最早由Dev Mode服务器报道,目前无具体发布日期。AI模型GPT-Bidi-1OpenAI语音模型自然语音10 个信源在谈推荐理由:OpenAI要发新语音模型GPT-Bidi-1,听说声音超级自然,比现在的好不少!原文
03:38@koltregaskes@koltregaskesDeepSeek 4.1 版本预计于本周发布。该版本是 DeepSeek 系列的最新迭代,具体性能数据尚未公布。用户可关注官方渠道获取更新信息。AI模型DeepSeekDeepSeek 4.1模型发布开源模型推荐理由:DeepSeek 要发新版本了,听说这周就上线,看看有什么进步。原文
03:37The Rundown AI@therundownai73°Z AI发布了GLM-5.2,一款开源权重模型,支持1M token上下文窗口。在long-horizon coding基准上得分为74.4,超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1,同样领先GPT-5.5。AIME 2026数学测试得分为99.2,高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一,并以MIT许可证发布。AI模型GLM-5.2Z AIOpus 4.8GPT-5.5开源模型6 个信源在谈推荐理由:Z AI的GLM-5.2开源,百万token上下文,数学和编程全面超过GPT-5.5,值得试玩。原文
03:35@koltregaskes@koltregaskesFable 5 在多个模型排行榜上表现突出,相较此前版本实现罕见的大幅提升。该模型在多项基准测试中显著碾压其他对手,但不是在所有任务上都优秀。这一成绩引发对 OpenAI 等竞争者如何应对的讨论。AI模型Fable 5模型排行榜基准测试10 个信源在谈推荐理由:Fable 5 在排行榜上把其他模型都压下去了,看看它到底强在哪原文
03:28lmarena.ai@lmarena_aiAgent Arena 是一个智能体性能排行榜,现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室(lab)筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。AI模型Agent Arena智能体排行榜基准测试开放模型推荐理由:想比对比不同智能体模型?去Agent Arena排行榜,能按开放模型或实验室筛选,帮你找到合适的。原文
03:05vLLM@vllm_project精选vLLM 发布 0.23.0 版本,为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口,专为长周期编码智能体设计,可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优,支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。AI模型vLLMGLM-5.21M token编程助手推理模型推荐理由:vLLM 刚发的 0.23.0 直接支持了 GLM-5.2,这个模型有 100 万 token 上下文,适合一口气写完整个项目代码,还能跨平台部署,写代码的可以试试。原文
03:05OpenRouter@OpenRouterAI精选智谱AI的GLM-5.2模型已在OpenRouter平台上线。该模型拥有100万token的上下文窗口。它专为长周期、混乱的编码代理任务设计,能保持可靠性。AI模型GLM-5.2Z.aiOpenRouter超长上下文智能体推荐理由:GLM-5.2在OpenRouter上架了,百万级上下文处理复杂编码任务,适合做长周期智能体。原文
03:04OpenRouter@OpenRouterAI精选Z.ai 发布 GLM-5.2 模型,采用 MIT 开源许可。该模型在编码和智能体任务上有显著提升,支持最长 1M 标记的上下文窗口。提供两种推理强度:GLM-5.2 (max) 追求极限性能,GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 保持一致。AI模型GLM-5.2Z.ai开源模型编码助手智能体推荐理由:Z.ai 新出的 GLM-5.2 模型,编码和智能体能力大幅增强,还有 1M 超大上下文,而且开源!API 价格没涨,值得试试。原文
03:03berryxia@berryxia73°NVIDIA开源了SOMA-X v0.2,一个使用单一骨架就能适配各种体型的3D人体模型。该模型具备关节扭转自动修正、骨骼自动缩放、高级姿态反转和超轻量数据特性,采用Apache 2.0许可证。它专为机器人和物理AI设计,可用于机器人训练、物理仿真和动作迁移,解决了不同机器人体型不统一导致动作数据难以复用的问题。AI模型SOMA-XNVIDIA3D人体模型机器人物理AI10 个信源在谈推荐理由:NVIDIA开源了SOMA-X v0.2,单一骨架就能适配不同体型,机器人动作数据复用门槛降低,训练效率提升。原文
03:01lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10,得分接近 Claude-Opus-4.8(非推理模式)。它成为排名最高的开源模型,较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测,可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元,支持1M上下文窗口,权重采用 MIT 许可开源。AI模型GLM-5.2Zai_orgAgent Arena开源模型智能体推荐理由:Zai_org 发了 GLM-5.2,在 Agent 任务榜单上排第10,碾压所有开源模型,而且价格没变。跑复杂工作流、调工具效果明显进步。原文
02:17kimmonismus@kimmonismus77°GLM-5.2 以 MIT 许可证开源,权重开放。该模型支持 1M token 上下文窗口。提供 max 和 high 两种推理模式。专门针对大规模部署、自动化研究、性能优化和复杂调试进行训练。API 定价与 GLM-5.1 保持一致。AI模型GLM-5.2智谱开源模型长上下文推理模型推荐理由:智谱开源了 GLM-5.2,1M 上下文还能选推理模式,做长代码任务更强了。原文
01:59lmarena.ai@lmarena_aiAgent Arena 在其官方博客中介绍了用于智能体评估的因果追踪方法论。该方法可帮助研究人员分析智能体决策背后的因果链路。Agent Arena 平台本身支持多种智能体基准测试。AI模型Agent Arena智能体评估基准因果追踪推荐理由:Agent Arena 的因果追踪方法能帮你搞懂智能体为什么那么做,比单纯看分数更有用。原文
01:57Jim Fan@jimfan76°NVIDIA联合CMU和伯克利推出ENPIRE系统,让AI智能体完全自主控制真实机器人循环,包括重置环境、搜索文献、实现想法、训练部署、自我验证等步骤。该系统在整理别针、安装GPU、绑扎带等灵巧任务上达到99%成功率。机器人通过自提出启发式成功信号进行爬坡优化,无需人类介入。AI模型ENPIRENVIDIA机器人智能体自主循环8 个信源在谈推荐理由:NVIDIA搞了个ENPIRE,让AI自己操控机器人反复试错,真实任务成功率干到99%,连GPU都能自己插。原文
01:31lmarena.ai@lmarena_ai精选MiniMax M3 在全新 Agent Arena 排行榜上位列第18,是排名第5的开源模型。相比 M2.7,M3 从第22名升至第18名,主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位,与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。AI模型MiniMaxM3Agent Arena开源模型智能体推荐理由:MiniMax M3 在 Agent Arena 上排名上升了4位,是最强开源模型之一,能写代码、做PPT、查资料,幻觉控制也顶级。原文
00:59AK@_akhaliqJoyAI发布了JoyAI-VL-Interaction模型,这是一个实时视觉语言交互智能系统。该模型支持实时视觉理解与语言生成,能够处理视频帧序列并生成自然语言响应。目前尚未公布具体基准测试成绩或版本号。AI模型JoyAI-VL-InteractionJoyAI多模态实时交互推荐理由:JoyAI出了个能实时看懂画面并跟你聊天的模型,适合做交互式AI应用。原文
00:10Justine Moore@venturetwinsIdeogram 发布了名为 Ideogram 2.0 的开源权重图像模型,宣称在开放权重类别中排名第一。该模型体积足够小,可在消费级 GPU 上运行,但在设计任务上与 Nano Banana 和 GPT Image 竞争。研究团队由 @mo_norouzi 领导,分享了技术细节和观点。AI模型Ideogram开源模型图像生成消费级GPUGPT Image推荐理由:Ideogram 这个开源权重图像模型能在普通显卡上跑,还能和 GPT Image 掰手腕,适合不想烧钱又想要好效果的人。原文
22:10阿里云 Alibaba Cloud@alibaba_cloud76°阿里云发布Qwen-Robot Suite,包含三个基础模型:Qwen-RobotNav统一5种导航任务(指令跟随、点目标、物目标、目标跟踪、自动驾驶);Qwen-RobotManip在38,100+小时开源语料上预训练,实现异构机器人统一状态-动作空间;Qwen-RobotWorld支持20+具身化身,通过自然语言接口预测物理世界未来。三个模型可独立使用或组合,构成通用具身智能系统的底层工具包。AI模型QwenRobot具身智能机器人导航基础模型推荐理由:阿里云一口气发了三个机器人基础模型:导航、操作、世界模型,每个都能单独用,还能组合。Qwen-RobotManip在3.8万小时数据上预训练,挺实在的。原文
19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
16:34AI Will@FinanceYF583°NVIDIA 发布了 SANA-Streaming 模型,支持对长达一分钟的视频进行实时编辑。用户可以在视频播放过程中更改服装、背景、风格和场景。该模型无需等待渲染,即可直接看到修改结果。AI模型NVIDIASANA-Streaming视频生成实时编辑8 个信源在谈推荐理由:NVIDIA 出了 SANA-Streaming,放视频时就能实时换衣服换背景,一分钟的长视频也能改原文
14:22AlphaSignal@AlphaSignalAI精选CUA-Gym是一个端到端流水线,通过三个协调编码智能体自动生成可验证的计算机使用任务。它构建了94个流行应用的模拟版本,包括Slack、Notion、Salesforce和Gmail克隆,并直接读取状态设计奖励函数。生成的训练数据集包含32,112个验证元组,覆盖110个环境。基于该数据训练的模型在OSWorld-Verified基准上达到72.6%,与Claude Sonnet 4.6持平。一个3B参数的小模型以十分之一参数匹配了17B基座模型的性能。AI模型CUA-GymClaude SonnetOSWorld-Verified智能体开源模型5 个信源在谈推荐理由:CUA-Gym用三个AI智能体自动生成训练数据,省去人工标注。它克隆了94个常用软件,训练出的模型追平了Claude Sonnet 4.6,小模型3B参数达到17B效果,还完全开源。原文
14:08AlphaSignal@AlphaSignalAI研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步,用多个小阻尼步骤替换原始大步骤,使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升,在GPQA上取得+2.01分提升,并在87%的测试组合中保持正向效果。AI模型Looped TransformersMMLU-ProGPQA推理模型无训练优化1 个信源在谈推荐理由:这篇论文教会你一种骚操作:不重新训练,就能让现成模型在推理时多思考几轮,MMLU-Pro和GPQA分数都涨了,值得看看。原文
14:05berryxia@berryxia78°Unsloth团队用Dynamic 2-bit方案将1万亿参数的Kimi K2.7 Code模型压缩48%,重要层保留更高精度。量化后模型仅需325GB RAM/VRAM即可本地运行,推理速度达40+ tok/s。全精度版本需要610GB显存。该优化并非粗暴量化,而是保留了模型的推理效率,尤其适合长程任务、复杂推理和agent工作流。AI模型Kimi K2.7 CodeUnsloth量化本地部署开源模型4 个信源在谈推荐理由:Unsloth把1万亿参数的Kimi K2.7 Code压到325GB本地能跑,速度40+ tok/s,长程推理和agent工作流全闭环,开源社区终于能自己跑了。原文
13:55@hebbia@hebbia71°在Hebbia金融服务业基准测试中,Anthropic的Fable 5模型总分超过所有其他前沿模型。该模型在基于文档的推理任务上提升显著,并在图表与表格解读、问题解决两个子项中取得最高分。测试结果来自Hebbia发布的金融行业专属评测集,涵盖多个复杂金融场景。AI模型Fable 5AnthropicHebbia基准测试金融AI10 个信源在谈推荐理由:Hebbia测了金融场景,Fable 5在文档推理和图表解读上碾压其他模型,搞金融AI的可以看看具体分数对比。原文
13:50@hebbia@hebbia精选73°Hebbia CTO 指出 Claude Opus 4.8 在金融工作流中实现了更强的引用准确性。相比前代,它在处理复杂金融文档时 token 效率显著提升。新模型适用于需要高精度引用的财务分析场景。AI模型Claude Opus 4.8Hebbia金融引用准确率token效率1 个信源在谈推荐理由:Hebbia 的 CTO 亲测说 Claude Opus 4.8 在金融任务上引用更准、省 token,做财报分析的团队可以试试。原文
12:42berryxia@berryxia77°据社交媒体传闻,OpenAI可能于6月23日发布GPT-5.6。该模型运行成本仅为Fable的三分之一,上下文窗口扩展至150万token,智能体编程工作流将全面升级。目前信息仍属未经证实的泄露阶段。AI模型GPT-5.6OpenAI上下文窗口智能体编程10 个信源在谈推荐理由:传GPT-5.6成本更低、上下文超长,还能提升智能体编程,6月23日可能有动作,值得关注后续。原文
12:08shao__meng@shao__meng精选Cua与Snorkel AI联合发布Cua-Bench基准,首个公开数据集聚焦KiCad电子设计自动化工具,包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道(24%),Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现:模型在编辑已有原理图方面表现尚可,但16道从零搭建任务全部失败。失败原因包括导航开销大(约84%)、操作粒度过细(约84%)和布线未完成(约72%),同时自我校验不可靠。AI模型Cua-BenchKiCadGPT-5.5Claude Sonnet 4.5Agent推荐理由:想看看AI Agent在专业软件上到底行不行?Cua-Bench用KiCad的25道真实任务给模型打分,最强的也只过了6道,从零建电路全挂。看完你就知道瓶颈在哪了。原文
10:07Gary Marcus@GaryMarcusAnthropic 发布的 Claude Fable 5 在 Epoch AI 的 Epoch Capabilities Index 上获得 161 分,以 1 分之差超越 GPT-5.5 Pro 的 160 分。这是 Anthropic 一年多来首次在该基准上领先。该指数综合评估模型能力,当前最高分为 161。尽管成绩创下新高,但专家指出进步幅度仍属渐进。AI模型Claude Fable 5GPT-5.5 ProAnthropicEpoch Capabilities Index基准测试10 个信源在谈推荐理由:Claude Fable 5 刚在 Epoch 能力指数上以 161 分微弱领先 GPT-5.5 Pro,这是 Anthropic 一年多来首次登顶,你可以看看它具体强在哪。原文
09:32lmarena.ai@lmarena_ai精选Kimi-K2.7-Code是Kimi新发布的编码模型,在Code Arena: Frontend中排名第3(开源模型),整体第19。相比K2.6,该模型在Kimi Code Bench v2上提升21.8%,Program Bench提升11.0%,MLS Bench Lite提升31.5%。推理效率提升,推理token使用量降低30%。模型已通过Kimi API和Kimi Code开源提供。AI模型Kimi-K2.7-CodeKimiCode Arena开源模型编码模型3 个信源在谈推荐理由:Kimi新出的编码模型K2.7-Code,在Code Arena前端排名第三,比上代提升明显,推理更省token,开源可玩。原文
09:32lmarena.ai@lmarena_aiKimi-K2.7-Code 在 Code Arena: Frontend 基准测试中排名第19位。该基准评估前端代码生成能力。作者提示 Agent Arena 的分数即将发布。AI模型KimiK2.7-CodeCode Arena前端代码智能体推荐理由:Kimi 的新代码模型在前端任务上排到第19,想看Agent成绩的可以蹲一下。原文
09:03berryxia@berryxia精选12B参数的Gemma 4 12B Coder GGUF模型基于Google的gemma-4-12B-it微调,专门针对代码生成和复杂推理。训练数据使用了Composer 2.5的真实通过案例,并由Fable 5辅助补全困难case,确保推理步骤导向可运行代码。模型采用GGUF格式,可在12GB显存的显卡甚至CPU上离线运行。下载量已突破6000,社区反馈在本地代码调试、补全、算法生成等场景表现出色。AI模型Gemma 4 12B Coder GGUFFable 5代码生成本地模型10 个信源在谈推荐理由:Gemma 4 12B Coder 把 Fable 5 的推理链蒸馏到本地,12GB 显卡就能跑顶级代码生成,再也不用担心 API 费用和限制原文
03:16AlphaSignal@AlphaSignalAI卡内基梅隆大学构建SusVibes基准,包含200个真实编程任务,每个任务来自历史上人类曾引入漏洞的开源项目。SWE-Agent(Claude 4 Sonnet)通过功能测试61%,但仅10.5%的解决方案安全,超过80%的工作代码含有漏洞。尝试添加安全警告、让代理识别弱点、揭示漏洞类型三种修复,安全改善甚微,功能准确度下降7个百分点。AI模型SusVibesSWE-AgentClaude 4 Sonnet卡内基梅隆大学代码安全推荐理由:卡内基梅隆的测试发现,编程代理写代码10个里只有1个安全。别信AI代码,一定要做安全审查。原文
03:07Harrison Chase@hwchase17LangChain后训练了一个专用模型,用于检测生产环境中的智能体迹(agent traces)问题。该模型在准确性上达到SOTA,推理成本仅为前沿模型的1/10至1/100。用户可通过Airtable链接直接试用。AI模型LangChain智能体生产环境检测模型低成本推荐理由:LangChain搞了个专门检测Agent问题的模型,又准又便宜,比用GPT-4省太多钱了,快去试试。原文
02:16LMSYS Org (SGLang)@lmsysorg76°LMSYS 发布博客介绍 DFlash 和 Spec V2 推测解码技术。在 8 块 B200 上,针对 HumanEval 基准,DFlash + Spec V2 实现超过 4.3 倍基线吞吐量和 1.5 倍原生 MTP 吞吐量。其核心包括块扩散起草器(一次前向传播生成完整 token 块)和 KV 注入(目标模型特征馈入每层 KV 缓存),以及 Spec V2 重叠调度器带来 33% 端到端提升。该方案现已作为 SGLang 的默认推测解码引擎。AI模型DFlashSpec V2SGLang推测解码推理加速推荐理由:LMSYS 和 Modal 联手推出了 DFlash,让 Qwen 3.5 的推理速度比原生 MTP 快 1.5 倍,比基线快 4.3 倍,代码已开源,玩起来!原文
02:02Jerry Liu@jerryjliu0Karan Goel 团队发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本)两种流式模型。新架构实现了速度和质量的突破,将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。AI模型Sonic-3.5Ink-2语音识别语音合成流式模型推荐理由:Karan Goel 发了两个新模型,Sonic-3.5 做 TTS 排名第一,Ink-2 做 STT 也是第一,说是唯一一家听说都做到顶的。做语音智能体的话看看。原文