13:49Microsoft AI@MicrosoftAI微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2,图像编辑排名第3。该模型能对图像进行精确编辑,例如将雨窗模糊场景转换为清晰街景,同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。AI模型MAI-Image-2.5Microsoft图像生成图像编辑多模态1 个信源在谈推荐理由:微软 MAI-Image-2.5 图像生成排第2、编辑排第3,还能把雨窗变清晰,想用去 Foundry API 或 OpenRouter 试试。原文
13:49Microsoft AI@MicrosoftAI微软AI在推文中介绍了构建编码模型的全流程,包括训练阶段的优化策略、评估方法、性能调优、安全性考量以及收集真实开发者反馈。文章深入展示了从模型设计到部署的每个环节,帮助理解如何让编码模型适配开发者的实际工作场景。AI模型微软AI编码模型模型训练AI安全编程助手推荐理由:微软AI分享了他们训练编码模型的实战细节,从评估到安全都有,做编程助手的人值得看看。原文
13:49阶跃星辰 Stepfun@Stepfun_AIStepFun 的 Step 3.7 Flash 模型已在 AI 平台 ZenMuxAI 上架。该模型支持多模态输入,针对实际工作流优化,推理速度较快。用户可在 ZenMuxAI 上免费使用该模型30天。AI模型Step 3.7 FlashZenMuxStepFun多模态免费试用推荐理由:StepFun 的新模型 Step 3.7 Flash 上线 ZenMux,多模态且快,还能免费用一个月,想试试的别错过。原文
13:49Jasper AI@heyjasperai精选72°Jasper Research 宣布推出 MONET 数据集,从 29 亿张图片中精炼出 1.049 亿张高质量样本,成为全球最大的开放文本-图像数据集。该数据集采用 Apache 2.0 许可,可免费商用。同时发布的 nano-t2i 方案支持在单张 GPU 上训练有竞争力的文生图模型。AI模型MONETJasper Researchnano-t2iApache 2.0多模态推荐理由:Jasper Research 放出了 MONET 数据集,有 1 亿多张图,免费商用,还能用 nano-t2i 在单卡上训练模型,做文生图的值得试试。原文
13:49Together AI@togethercomputeGLM-5.2模型已在Together AI平台上架,并通过OpenRouter快速提供服务。Together AI优化推理路径,使模型在长上下文编码和智能体工作负载中每GPU能处理更多token,同时保持低延迟。该模型展现出强劲性能,适合需要高吞吐的复杂任务。AI模型GLM-5.2Together AIOpenRouter推理模型长上下文1 个信源在谈推荐理由:GLM-5.2跑得快,长上下文和智能体场景下Together的优化让token更多更流畅,试试看。原文
13:49Ethan Mollick@emollickAA-Briefcase评分由@ArtificialAnlys发布,用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示,AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距,封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。AI模型AA-Briefcase开放模型封闭模型AI基准推荐理由:新评测让AI做多周复杂咨询,结果看到开放模型和封闭模型差距挺大,进步也很快。原文
13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
13:48Ethan Mollick@emollick一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包,相当于人类工程师2-17周的工作量,总花费251美元。虽然模型仍不完美,但进步速度显著。AI模型Opus 4.7编程助手编码能力AI基准测试推荐理由:Opus 4.7只用14小时和251块就干完了人类几周的活,虽然还有瑕疵,但进步真的快。原文
13:48岚叔@lufzzlizGPT-5.5-Cyber 在安全基准 CyberGym 上击败了 Mythos 5,取得领先成绩。使用该模型需向官方申请权限,个人和企业均可,用途限定为授权防御场景,如漏洞研究、红队、渗透测试、恶意软件分析、威胁情报、事件响应。此外,Codex 推出了新插件,可利用 gpt-5.5(reasoning 设 high/xhigh)进行代码安全扫描与修复。AI模型GPT-5.5-CyberMythos 5CyberGym安全模型Codex3 个信源在谈推荐理由:GPT-5.5-Cyber 在安全基准 CyberGym 上直接碾压了 Mythos 5,想搞红队或漏洞分析的话可以申请权限试试。原文
13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
11:51Browser Use@browser_useBrowser Use 团队对 Opus 4.7 和 GLM 5.2 进行前端设计基准测试。测试使用 Browser Use v4 工具,从 LLM Arena 数据集中选取一个 prompt。每个模型根据该 prompt 生成网站并自动评分。结果对比了这两款模型在代码生成和界面设计上的能力。AI模型Opus 4.7GLM 5.2Browser UseLLM Arena前端生成推荐理由:Browser Use 团队拿 Opus 4.7 和 GLM 5.2 比前端设计,一个 prompt 生成网站打分,看看谁画页面更强。原文
08:15AK@_akhaliqDiffusionBench是一个专门针对扩散变换器(Diffusion Transformers)的全面评估基准。它涵盖了生成质量、推理效率、模型鲁棒性等多个关键维度。该基准基于ImageNet等公开数据集提供了标准化测试协议。它为不同扩散变换器架构的性能比较建立了统一框架。AI模型DiffusionBench扩散变换器评估基准图像生成推荐理由:想了解不同扩散变换器到底谁更强?试试这个新基准DiffusionBench,评估维度很全,结果很直观。原文
06:45Clement Delangue@ClementDelangueDeepSeek 推出加速模型集合,其中 Gemma-4-12B 可能包含视觉能力。该模型在其 12B 参数量级别中,本地运行性能显著优于同类竞品。该集合未包含 Qwen 3.5,推测因 DeepSeek 未采用线性注意力机制。AI模型DeepSeekGemma-4-12B加速模型本地模型视觉推荐理由:DeepSeek 把 Gemma-4-12B 加速了,还带视觉,本地跑起来应该是同尺寸里最强的之一。原文
06:18Gary Marcus@GaryMarcusGLM 5.2 被称作开源界的 Claude 时刻,在 Databricks 平台上需求惊人。Yuchen Jin 指出,该模型遵循已知公式,导致技术壁垒消失、市场趋同、价格战开始,利润率趋小或为负。越来越多公司将转向基于开源模型进行后训练并拥有权重。GaryMarcus 认为这是其三年来论证的无技术护城河、价格战、低利润率趋势的最终体现。AI模型GLM开源模型价格战DatabricksAI市场推荐理由:GLM 5.2 开源版火了,Databricks 上抢着用,价格战要来了,想用低成本模型得看看这个趋势。原文
03:06AK@_akhaliq百度发布的Unlimited-OCR模型在Hugging Face模型排行榜上位列第一,超越其他模型。该模型专注于OCR文字识别任务,具体基准成绩尚未公布。其排名基于社区下载量和交互数据,反映出较高的关注度。AI模型baidu/Unlimited-OCRHugging FaceOCR文字识别1 个信源在谈推荐理由:百度这个OCR模型居然冲到Hugging Face第一了,想搞文字识别的可以看看它有什么本事。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
00:36Yangyi@YangyixxxxNous Research 的 Hermes Agent 发布 MoA(Mixture-of-Agents)预置虚拟模型,允许在不同时刻为同一 Agent 路由不同模型,类似快慢脑逻辑。在新基准测试中,该方案比 Opus 4.8 高出 8%,比 GPT 5.5 高出 11%。多 Agent 场景下效果更显著,延续了 Hermes 的工程化优势。AI模型HermesNous Research智能体推理模型MoA推荐理由:Nous Research 让 Agent 在不同时刻自动切换不同模型,比单一模型更强,新基准上比 Opus 4.8 高8%、比 GPT 5.5 高11%。原文
00:21berryxia@berryxia精选73°DeepSeek开源了DSpark投机解码框架,用于推理优化。DSpark通过并行backbone加顺序Markov head解决传统投机解码的后缀衰减问题,并引入置信度调度和负载感知调度器。在DeepSeek-V4生产环境中,单用户生成速度比MTP-1基线快60-85%,不同场景吞吐提升1.5x到5x。开源内容包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark模型checkpoint以及MIT协议的DeepSpec训练代码。AI模型DeepSeekDSparkDeepSeek-V4投机解码推理优化推荐理由:DeepSeek开源了DSpark框架,能让你的V4模型推理提速60%以上,且不影响质量。它解决了投机解码在真实部署中的难题,已经稳定跑在生产环境。原文
23:45Aadit Sheth@aaditshElon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型,并加入 Cursor 代码数据进行补充训练,已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型,RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者,多数因使用 Claude 开始使用 Cursor。AI模型Grok 4.5CursorSpaceXOpus代码生成10 个信源在谈推荐理由:Grok 4.5 用 Cursor 数据训练,性能直逼 Opus,而且 SpaceX 要每月发新模型,代码圈和 AI 圈都该看看。原文
21:39小互@imxiaohu71°马斯克透露Grok 4.5基于1.5T参数的V9基础模型,并在补充训练中加入了Cursor数据。该模型已在SpaceX和Tesla进入早期测试阶段。初步评估显示其性能接近甚至可能超过Anthropic的Opus模型。马斯克还表示强化学习持续提升模型性能,今年将每月发布完全从头训练的新模型。AI模型Grok 4.5马斯克XAI1.5T V9推理模型10 个信源在谈推荐理由:马斯克刚发了Grok 4.5,基于1.5T参数的V9模型,还加了Cursor数据,测试阶段就快超过Opus了,值得关注。原文
19:16@elonmusk@elonmuskGrok 4.5 基于 xAI 的 1.5T V9 基础模型,并使用 Cursor 数据进行补充训练。该版本目前已在 SpaceX 和 Tesla 内部私测。早期评估显示其性能接近甚至超过 Opus。RL 训练仍在持续改进模型,Grok Build 工具每日提升。xAI 计划今年每月发布完全从头训练的新模型。AI模型Grok 4.5CursorSpaceX模型更新7 个信源在谈推荐理由:Musk 说 Grok 4.5 私测版已经接近 Opus,而且后面每月都会出新模型,想追动态可以瞅一眼。原文
15:45Geek@geekbbHermes MoA 是一种混合智能体(Mixture of Agents)模式,当前仅 Hermes CLI 支持使用,Hermes Studio 尚未集成。该模式允许用户添加多个辅助模型协同回答,但每增加一个辅助模型就会额外消耗大量 token。体验者称短期玩玩尚可,长期使用即使白嫖也难以承受 token 消耗。AI模型HermesMoACLI混合智能体token消耗推荐理由:你想试试多模型协作吗?Hermes 出了个 MoA 模式,CLI 已经能用了,加几个辅助模型就多费多少 token,白嫖党慎入。原文
12:39berryxia@berryxia精选Google Research在2024年ICML发布了时间序列基础模型TimesFM,2025年9月推出2.5版本。参数从500M降至200M,上下文从2048扩展到16K,新增30M分位数预测头可输出10%-90%置信区间。该模型在跨领域数据上预训练后,能零样本预测任意新序列。2026年4月增加通过HuggingFace Transformers和PEFT的LoRA微调能力。TimesFM已集成BigQuery ML、Google Sheets和Vertex AI,开源版本可用两行Python代码调用。AI模型TimesFMGoogle Research时间序列预测预训练模型零样本推荐理由:Google搞了个时间序列神器TimesFM,零样本预测,参数200M一张GPU就能跑,还能在Google Sheets里用,pip install两行代码搞定,做预测的别错过。原文
10:49Guillermo Rauch@rauchg智谱AI发布的新模型在安全漏洞发现任务中与Claude Mythos性能相当。该模型可搭配deepsec等工具进行自动化漏洞扫描。如果对手获得类似攻击能力,可能对美国公司构成严重威胁。AI模型Zhipu AIClaude Mythos安全漏洞漏洞发现推荐理由:智谱AI新模型找漏洞能力不输Claude Mythos,做安全的小伙伴快试试!原文
07:07Suhail@Suhail精选Hamish Ivison等人发布了Tmax,一个基于强化学习的开源终端智能体模型。在默认设置和65k token预算下,Tmax优于之前的开源终端使用工作。团队公开了所有训练数据、模型权重和rollouts,方便复现和进一步研究。AI模型TmaxRLterminal agent开源模型智能体推荐理由:Tmax把终端智能体的RL训练配方全开源了,65k token里就跑赢之前的工作,想自己训智能体的可以抄作业。原文
05:49Marc Andreessen@pmarcaMarc Andreessen在X上援引多位AI内部人士观点,称GLM-5.2是首个匹配并经常超越美国大模型的中国AI模型。该推文获得3553次查看。另有5个点赞和1次转发。AI模型GLM-5.2智谱AI推理模型1 个信源在谈推荐理由:有AI圈内人说GLM-5.2性能已经不输美国主流模型了,而且是智谱AI做的,可以关注一下。原文
05:01ollama@ollama精选Ollama 宣布支持运行 Ornith 1.0 系列模型,包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4,Terminal-Bench 2.1 得分 77.5,多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练,采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源,支持商业和研究用途。AI模型OllamaOrnithSWE-Bench编程助手开源模型2 个信源在谈推荐理由:Ollama 现在可以直接跑 Ornith 编程智能体了,从 9B 到 397B 都有,SWE-Bench 拿了 82.4 分,本地搞智能体编码超方便。原文
00:49Geek@geekbb73°DeepSeek 在 Pro Max 模式下于多个编码/工程基准取得领先成绩:LiveCodeBench 93.5%、Codeforces Rating 3206、SWE Verified 80.6%,超越 GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 等闭源模型。这些结果来自 X 用户 @geekbb 的推文,并关联到 DeepSeek 的 Hugging Face 仓库。目前该模型尚未开放本地部署,引发社区期待。AI模型DeepSeekPro Max编码基准开源模型推荐理由:DeepSeek 拿 Pro Max 模式在 LiveCodeBench 等三大编码基准上直接碾压 GPT-5.4 和 Claude Opus 4.6,分数拉满,但还没开放下载,先来围观一下。原文
23:12歸藏(guizang.ai)@op7418Seedance 2.0 原生支持 4K 分辨率生成视频,文字清晰度远超 1080P 超分效果。在 Codepilot 宣传片测试中,材质质感也明显更好。这一改进解决了以往 AI 视频文字模糊的问题。AI模型Seedance 2.0Codepilot4K视频生成文字渲染推荐理由:Seedance 2.0 直接跑 4K,文字和材质细节比超分强太多,做视频宣传片很实用。原文
21:12LMSYS Org (SGLang)@lmsysorg精选英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。AI模型GLM-5.2NVFP4NVIDIASGLang推理模型5 个信源在谈推荐理由:英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。原文
21:12LMSYS Org (SGLang)@lmsysorg精选Liquid AI 发布了 LFM2.5-230M 模型,参数规模仅 230M,是其最小模型。该模型基于 LFM2 架构,专为设备端部署设计,推理速度极快。它可在云端 GPU 和低成本 CPU 上运行,并支持工具调用和结构化数据提取。性能超过两倍参数量的模型,且已获 SGLang 的 Day 0 支持。AI模型LFM2.5-230MLiquid AISGLang推理模型设备端部署推荐理由:Liquid AI 新出的 230M 小模型,跑得飞快,还能干工具调用的活,比两倍大的模型还强。原文
13:54vLLM@vllm_project精选NVIDIA发布GLM-5.2的NVFP4检查点,在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行:vllm serve nvidia/GLM-5.2-NVFP4。AI模型GLM-5.2NVFP4vLLMNVIDIA推理模型4 个信源在谈推荐理由:想省显存又不想降精度?GLM-5.2的NVFP4版在vLLM上线了,比FP8省一半内存,推理编码长文本都稳。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
13:13elvis@omarsar084°OpenAI 宣布了 GPT-5.6 系列,包括前沿模型 Sol、均衡模型 Terra 以及快速廉价模型 Luna。目前仅提供有限预览,少数用户可访问。评论者担忧这种策略不利于行业,呼吁开源AI取胜。AI模型GPT-5.6OpenAISolTerraLuna开源模型10 个信源在谈推荐理由:OpenAI 刚出了三个 GPT-5.6 模型,有强有快有便宜,但只给少数人用,引起争议。原文
13:06lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名,比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2,HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。AI模型GLM-5.2Code ArenaClaude Opus 4.8开源模型编程助手2 个信源在谈推荐理由:GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus,你可以在前端任务中试试它的单次生成效果。原文
12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:55Cohere@cohere88°OpenAI计划在未来几周内广泛发布GPT-5.6的三个变体Sol、Terra和Luna。应美国政府要求,目前仅在Codex和API中对少数可信合作伙伴开放有限预览。OpenAI表示相信广泛访问,但需确保安全。AI模型OpenAIGPT-5.6AI安全编程助手10 个信源在谈推荐理由:OpenAI要发GPT-5.6了,有三个版本(Sol、Terra、Luna)。现在只有政府批准的合作伙伴能试,几周后全面开放。想尝鲜可以关注Codex和API的预览。原文
12:53lmarena.ai@lmarena_aiAgent Arena排行榜已正式上线,用户可通过链接访问页面查看详情。排行榜支持按开放模型或实验室(lab)进行筛选过滤。目前该页面已有400次浏览,由xgo.ing提供技术支持。AI模型Agent Arena智能体评测基准开源模型实验室推荐理由:想看看谁家的智能体最强?Agent Arena排行榜刚上线,可以按开源模型和实验室筛选,挺方便。原文
12:48ChatGPT@ChatGPTapp86°OpenAI 推出 GPT-5.6 系列,包括前沿模型 GPT-5.6 Sol、平衡模型 GPT-5.6 Terra 和快速经济模型 GPT-5.6 Luna。Sol 面向复杂推理任务,Terra 优化日常效率,Luna 适合高吞吐量工作。该系列目前处于有限预览阶段。AI模型GPT-5.6OpenAIGPT-5.6 SolGPT-5.6 TerraGPT-5.6 Luna10 个信源在谈推荐理由:OpenAI 一口气发了三个 GPT-5.6 变体:Sol 强在推理、Terra 平衡、Luna 快又便宜,看你需要哪个。原文
12:43berryxia@berryxia83°OpenAI正式推出GPT-5.6系列,包含旗舰版Sol、性价比版Terra和低成本高吞吐版Luna。Sol在复杂命令行工作流和网络安全长时程任务上表现大幅领先;Terra性能接近GPT-5.5但成本减半。此次发布应美国政府要求,仅限受信任合作伙伴有限预览,普通用户暂不可用。AI模型GPT-5.6OpenAISolTerraLuna10 个信源在谈推荐理由:OpenAI出了GPT-5.6三个版本,Sol的智能体编程和安全任务很强,但只有美国批准的才能用,普通人还得等几周。原文