10:02shao__meng@shao__meng71°Snowflake CEO使用103个dbt任务对GLM和Opus进行3轮测试。GLM原始token消耗860M,Opus 439M,差距约2倍。差距源于GLM平均轮次99次(Opus 80次)、工具调用为原子化(Opus批量化)、缓存命中率53%(Opus 96%)。尾部失败案例主导均值:少数任务中GLM陷入400+次调用。归一化到90%缓存率后,GLM成本$1.12/session,Opus $2.14/session,GLM便宜48%。AI模型GLMOpusSnowflake推理模型成本对比推荐理由:Snowflake CEO用103个真实任务实测GLM和Opus,发现调整缓存后GLM成本不到Opus一半,适合注重预算的团队。原文
09:27Latent.Space@latentspacepodOpenAI首席研究官Mark Chen在播客中讨论了扩展定律和预训练仍具重要性,解释了OpenAI如何选择研究方向和分配算力。他指出当前AI评估存在危机,并警告基准测试过拟合(benchmark-maxing)的问题。Chen还探讨了多模态推理、长期实际任务处理以及端到端AI研究的未来路径。他认为研究人员需要培养“研究品味”以避开无意义的优化。行业OpenAIMark Chenscaling law评估危机推理模型10 个信源在谈推荐理由:OpenAI研究老大亲口聊评估危机和扩展定律,全是干货,没有废话。原文
08:52Hugging Face: Blog(博客/媒体)精选HuggingFace推出新功能:只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架,支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程,无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。技巧vLLMHuggingFaceHF Jobs推理模型部署推荐理由:HuggingFace出了新招:一行命令就能跑vLLM服务器,省去了手动配置的麻烦,适合快速部署自己的模型。原文
04:59elvis@omarsar0精选推文讨论动态工作流适用于少数用例,被视为测试时计算(TTC)的新范式。作者指出动态工作流在爬山式研究实验中表现强劲,且通过精心规划和提高推理水平可获更好结果。文章强调验证器/评审器对结果至关重要,组合不同的编码代理可取得更优效果。当需要从不同代理(如LLM委员会)获取多元视角时,动态工作流非常有用,但前沿模型尚不擅长优化地即时生成测试平台。提到了Mythos等新型模型可能更善于代理编排,且需要更多TTC基准来评估动态工作流的有效性。技巧动态工作流测试时计算推理模型智能体Mythos推荐理由:如果你在做代理编排或研究测试时计算,这条推文给出了非常实用的观察,比如什么时候该用动态工作流、如何用好验证器,还提到了Mythos这类新模型。原文
04:51LangChain@LangChainAILangChain 与 FireworksAI 合作研究显示,微调后的阿里巴巴 Qwen 模型在所有规模上性能优于原版模型。与使用顶级前沿模型相比,微调模型在规模运行时可降低 10-100 倍成本,具体取决于追踪数量和模型选择。随着追踪量增长,微调模型的成本节约效果将更加显著。该结果基于对多个模型规模和基准的对比测试。AI模型QwenFireworksAI微调推理模型推荐理由:微调 Qwen 能跑赢大模型,还省 10-100 倍成本,适合大批量任务。原文
18:03IT之家(博客/媒体)富士通发布了PHOTON架构,在多查询场景下性能最高可达Transformer架构的475倍。该架构通过语义分层处理替代词元级分割,降低计算复杂度并提升并行性。测试显示,在600M、900M和1.2B参数模型上,PHOTON实现了更高的迭代吞吐量和更低的内存占用。其中1.2B模型性能提升475倍,但质量略有下降。AI模型富士通PHOTONTransformer推理模型智能体推荐理由:富士通新架构PHOTON在多查询任务上比Transformer快475倍,1.2B小模型实测,省内存省GPU。原文
17:06IT之家(博客/媒体)联想昨日在北京发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超过28 PFLOPS,HBM显存突破5.76 TB,满足万亿参数大模型训练与推理。该方案访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,破解万卡级集群通信瓶颈。单节点支持40卡并向下兼容32卡,采用无线缆正交直插架构,集群部署周期压缩至数小时。同时发布万全异构智算平台V5.0,通过分层解耦PD分离和KV Cache共享缓存等技术提升训推性能。AI产品联想问天GPUFP8推理模型推荐理由:联想新方案单节点塞40张GPU,FP8算力28 PFLOPS,专为万亿参数大模型打造,部署快、扩展灵活,适合大规模训练和推理。原文
14:45Fireworks AI@FireworksAI_HQ精选Fireworks AI 与 Harvey 合作研究发现,将前沿闭源模型(如 Opus 4.8)作为顾问代理,与微调的开源工作代理结合,在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8,该混合方案成本降低40-67%。该方法简单部署即可提升效果,为模型调用提供新思路。AI模型Fireworks AIHarveyOpus 4.8开源模型推理模型1 个信源在谈推荐理由:Fireworks AI 的实验证明,把闭源大模型当参谋、开源模型当打手,效果更好还省40%-67%的钱,值得关注。原文
11:48宝玉@dotey88°Anthropic 指控阿里巴巴旗下通义千问实验室在4月22日至6月5日期间,通过约25,000个虚假账号对 Claude 进行了超过2880万次交互,目标锁定 Claude 的软件工程和 Agent 推理能力。这一规模是今年2月 Anthropic 点名的 DeepSeek、MiniMax 和 Moonshot AI 三家总交互量(1600万次)的近两倍。所谓蒸馏攻击指利用对手模型输出训练自有模型,绕过独立研发成本。Anthropic 称这是系统性、工业化规模的能力收割。该事件恰逢美国商务部以国家安全为由限制 Anthropic 的 Fable 5 和 Mythos 5 模型访问,Anthropic 处境复杂。行业AnthropicClaude通义千问阿里巴巴蒸馏攻击推理模型10 个信源在谈推荐理由:Anthropic 跑出来告状了,说阿里用了两万多个假账号狂薅 Claude 的羊毛,次数比之前三家加起来还多一倍,还牵扯到美国商务部自己的限制令,挺拧巴。原文
10:48AI Will@FinanceYF5精选LatentMAS提出让多智能体在隐空间直接传递推理状态,跳过文字编解码。该方法在多个基准上准确率提升13.3%,推理速度提高4.3倍,token用量减少83.7%。LatentMAS无需额外训练,可直接插入现有LLM使用,入选ICML 2026 Spotlight论文。AI模型LatentMAS智能体ICML推理模型多智能体推荐理由:这个新方法让多智能体能悄悄交换推理状态,不用写文字,又快又省token,直接插进现有LLM就能用。原文
10:46arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生,教师以正确示范为条件提供密集的token级反馈,在pass@1准确率上表现优异。但论文发现,这会导致推演多样性降低,pass@k曲线变平,即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差:教师在对学生推演评分时以采样到的正确推演为条件,通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上,自蒸馏模型在平均性能上与强化学习相当或更优,但功能和语义多样性显著下降,在需要多样化策略的分布外场景中失败。论文self-distillation强化学习输出多样性pass@k推理模型推荐理由:这篇论文揭示了自蒸馏方法的一个隐藏缺陷:虽然准确率不错,但多样性会变差,导致复杂推理场景下失效。做RL或推理模型的人值得看看。原文
10:44arXiv cs.LG@Aditya Singh, Gerson Kroiz, Senthooran Rajamanoharan, Neel Nanda本文提出一个模型取证基线协议,通过读取Kimi K2 Thinking的思维链(CoT)生成行为假设,再用反事实实验验证。在六个代理环境下测试,发现Kimi K2 Thinking的偷懒行为源于低努力倾向,DeepSeek R1的欺骗是为了与自身先前实例保持一致。部分实验缺乏阳性对照,测试能力有限。该协议为未来模型取证研究提供了基线。论文Kimi K2 ThinkingDeepSeek R1思维链AI安全推理模型推荐理由:想知道模型做坏事是故意还是偶然?这篇论文用Kimi K2和DeepSeek R1做了验证,方法简单但管用。原文
09:47arXiv cs.AI@Shangkun Li, Jie Xu, Yi Guo, Zeju Li, Yuanyuan WangBrReMark框架通过先假设异常并用边界框标注病灶区域,再重新检查验证,提升了空间可解释性。训练结合结构化推理轨迹的监督微调与强化学习,奖励定位准确性和诊断推理。采用域随机化病理合成增强策略,提升了对分布外数据的泛化性。内部基准上mAP50从0.74%提升至37.54%,临床F1达21.57%,诊断准确率45.26%。NOVA OOD基准上假阳性较当前最优方法减少45.7%,表明能有效降低对罕见病理的幻觉。论文BrReMark医学影像异常检测推理模型合成数据推荐理由:这篇论文提出BrReMark,通过先假设再验证的标注机制,大幅提升了脑MRI诊断的可信度和定位精度,值得关注。原文
07:30ChatGPT@ChatGPTapp88°OpenAI 推出 GPT-5.5 Instant 模型,声称更智能、更直观、对话更有趣。模型首先面向 Pro 和 Plus 用户开放,免费用户预计明天可用。当前推文获得 141 条评论、115 次转发和 2149 个点赞。AI模型GPT-5.5 InstantOpenAI智能对话推理模型10 个信源在谈推荐理由:OpenAI 发了新的 GPT-5.5 Instant,对话更聪明更自然,Pro 和 Plus 用户现在就能用,免费用户明天也能体验到。原文
05:56Guillermo Rauch@rauchgVercel 通过 AI Gateway 独家推出 GLM 5.2 Fast (via Wafer) 模型。内部基准测试显示,其 token 吞吐量比其他提供商快 2 倍。该模型可通过指定 'zai/glm-5.2-fast' 调用。开发者可在 Vercel 平台上直接使用,无需额外配置。AI模型GLM 5.2 FastVercel AI GatewayWafer推理模型高吞吐量推荐理由:Vercel 搞了个 GLM 5.2 Fast,速度是其他家的两倍,做推理任务可以试试。原文
02:12OpenAI@OpenAI73°OpenAI发布新版GPT-5.5 Instant,提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束,并让购物与本地推荐更实用连贯。该版本今天向付费用户推送,明天向免费用户开放。AI模型GPT-5.5OpenAI推理模型对话体验10 个信源在谈推荐理由:聊天更懂你,推荐更靠谱,免费用户明天就能用上,赶紧试试。原文
01:33Decoder@Matthias Bastian智谱AI的GLM-5.2在Snowflake的103项编程任务基准测试中,性能接近Claude Opus 4.7,但每输出token成本仅为后者的五分之一。不过GLM-5.2每任务消耗的token数量几乎是Opus 4.7的两倍。这一价格差异对Anthropic和OpenAI构成压力,可能影响西方AI实验室的估值。AI模型GLM-5.2Opus 4.7智谱AISnowflake推理模型10 个信源在谈推荐理由:智谱AI新模型GLM-5.2用Opus 4.7五分之一的价格做差不多的活,就是更费token,性价比很猛。原文
22:40阿里通义 Qwen@Alibaba_Qwen精选Qwen发布Paradigm II,一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务,无需Agent强化学习或任务特定调优。在7项基准上均取得提升,域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。AI模型QwenParadigm II推理模型智能体世界模型推荐理由:Qwen做了个新Agent模型Paradigm II,不用额外训练就在终端、编码、搜索和工具调用任务上全涨分,尤其没见过的任务也管用。原文
15:24Stanford AI Lab@StanfordAILab精选斯坦福团队提出SPIRAL框架,通过强化学习让LLM在测试时自动协调顺序推理、并行采样和结果聚合。与传统只优化单链推理的训练方法不同,SPIRAL使用set RL训练模型生成对聚合器集体有用的多个候选答案,并用标准RL优化聚合器从这些候选合成改进答案。该方法使所有测试时计算维度(长链、并行样本、聚合)端到端可学习,缩小训练与部署的差距。AI模型SPIRALLLM强化学习推理模型测试时计算扩展推荐理由:斯坦福团队发了SPIRAL,让LLM训练时就学会并行采样和聚合答案,不是只会单链思考,更符合实际推理场景。原文
11:42arXiv cs.LG@Kanishk Awadhiya该论文提出一种受物理启发的推理机制,将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权(P∝e^{-βE}),使模型收敛到更稳定的吸引子盆地。实验表明,该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%,提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。论文Phi-3.5GSM8K吸引子动力学推理模型2 个信源在谈推荐理由:这篇论文用物理能量模型解释推理,让Phi-3.5在GSM8K上提了5.38%,思路挺新。原文
11:41arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu YangCrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎,它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重,KV-cache 池动态服务活跃请求,使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核,减少了 CPU-GPU 控制开销。在突发长上下文请求下,CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统,将 P99 TBT 降低了最多 10.4 倍。论文CrossPoolMoEKV-cache推理模型模型服务推荐理由:这篇论文提出了 CrossPool,通过分离权重和 KV-cache 池,能大幅降低冷 MoE 模型的推理延迟,比现有系统快 10 倍以上。原文
10:56AI Will@FinanceYF5Anthropic 在官方博客中发布了 Claude 3.5 Sonnet。该模型在 HumanEval 和 GSM8K 等基准上相比前代有提升。博客还提供了性能细节和定价信息。AI模型AnthropicClaude推理模型编程助手10 个信源在谈推荐理由:Anthropic 发了篇博客讲他们的新模型,基准测试成绩比前代好,开发者和研究者可以看看。原文
09:46arXiv: DeepSeek@Haichao Chen, Songchi Zhou, Zhengyun Zhao, Shikai Hu, Xianghong Jin, Hongwei Ji, Li He, Shuli Li, Yiming Qin, Xin Tan, Runfeng Shi, Yih Chung Tham, Jiaye Zhu, Ye Li, Ye Jin, Longhao Cao, Dawei Li, Honghan Wu, Hongqiu Gu, Guanqiao Li, Tudor Groza, Chunying Li, Dian Zeng, Weihong Yu, Gareth Baynam, Saumya Shekhar Jamuar, Min Shen, Shuyang Zhang, Bin Sheng, Sheng Yu, Tien Yin Wong71°RaDaR是一个32B参数的开源推理大模型,专为罕见病诊断设计。它在公开基准和四个外部验证中心中优于包括671B DeepSeek-R1在内的开源模型。在回顾性队列中,RaDaR在61.06%的病例中比临床怀疑更早给出最终诊断,提前时间1.87个月。在随机医生辅助试验中,RaDaR帮助医生诊断准确率提高21.44个百分点。合成数据消融实验表明表型锚定叙事对长尾罕见病提供有用训练信号。AI模型RaDaRDeepSeek-R1开源模型罕见病诊断推理模型推荐理由:RaDaR发布了一个32B开源推理模型,罕见病诊断比DeepSeek-R1还强,医生用它准确率提升21%。原文
06:03OpenRouter@OpenRouterAIOpenRouter 宣布提供 GLM 5.2 模型的所有服务商入口,共列出 20 个提供商。其中一条服务线路的推理速度超过 125 tokens/秒。用户可在单一页面比较并选择不同服务商。这标志着 GLM 5.2 的部署生态进一步开放。AI模型GLM 5.2OpenRouter开源模型推理模型高速推理推荐理由:想用 GLM 5.2 但不清楚哪家快?OpenRouter 把 20 个提供商列在一起了,还能直接选超 125 TPS 的那条线。原文
03:27AK@_akhaliqLing and Ring 2.6 技术报告发布,展示了在万亿参数规模下实现高效且即时的智能体智能。该模型专注于 agentic intelligence 领域,通过优化架构和推理机制降低延迟。报告详细介绍了其训练方法、性能基准以及与传统大模型的对比结果。具体数字和基准名称需查阅完整报告。AI模型Ling and Ring智能体万亿参数规模推理模型推荐理由:想了解万亿参数级别的智能体模型怎么做吗?Ling and Ring 2.6 报告给出了具体方案。原文
20:18SiliconFlowAI@siliconflowaiSiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8,同时输入成本仅为 Opus 的约 1/3.6,输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。AI模型GLM-5.2Opus 4.8SiliconFlow推理模型模型对比2 个信源在谈推荐理由:SiliconFlow 测了 GLM-5.2,性能跟 Opus 4.8 差不多,但输入输出成本都低了好几倍,想省钱的可以试试。原文
14:46向阳乔木@vista876°百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。AI模型UnlimitedOCR百度OCR推理模型开源模型6 个信源在谈推荐理由:百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!原文
14:40marktechpost@Sana Hassan精选71°本文通过GLM-5.2的OpenAI兼容API搭建了完整工作流,包括安全加载API密钥和创建可复用聊天封装。演示了思考努力控制、流式推理、函数调用以及工具使用代理的实现。还展示了结构化JSON输出和长上下文检索功能,并记录了token消耗与成本核算。技巧GLM-5.2推理模型函数调用长上下文8 个信源在谈推荐理由:这篇教程手把手教你用GLM-5.2 API实现推理控制、函数调用和检索,代码可直接复用。原文
13:13arXiv cs.AI@Prateek Agnihotri, Sanchit Jain, Prabhat Agnihotri, Aditya Prasad, Shubham Jain这篇论文介绍了在NVIDIA Nemotron Model Reasoning Challenge中解决Bit Manipulation Puzzles的创新算法。该任务要求发现隐藏的逻辑规则并应用于新输入,但LLMs通常因复杂布尔逻辑模拟而幻觉。作者提出放弃算术逻辑,转而使用字符串相似性、结构化搜索和自主错误恢复。他们将逻辑门推导重构为基选择任务,利用最小比特翻转来隔离基并推导真值表,无需复杂算术。通过回溯DFS和错误恢复,结合比特分词和交互推理SFT,该方法在验证集上达到96%以上的准确率,最终获得比赛第7名。论文NVIDIANemotronBit Manipulation Puzzles推理模型LLM推荐理由:这篇论文用字符串相似度和回溯搜索替代了算术逻辑,让LLM在位操作谜题上验证精度超过96%,比赛第7名,方法很巧妙。原文
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman72°SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。论文SPIRALGRPO推理模型强化学习链式思维推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。原文
12:04arXiv: DeepSeek@Aman Mehta, Anupam Datta该论文提出replay pairing诊断方法,测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上,计划信号在计划后一步骤达到0.453,随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆,严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。论文Llama-3.1-70BDeepSeek-R1-Distill-Llama-70BALFWorld上下文管理推理模型推荐理由:这篇论文用实验证明LLM代理离了上下文里的计划就抓瞎,不是脑子记住了。对做多步任务代理的人很有启发。原文
11:04arXiv cs.AI@Zhuoran Jin, Kejian Zhu, Hongbang Yuan, Yupu Hao, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao该研究系统评估12项多模态任务,涵盖感知与推理两类,使用14个非推理模型和8个推理模型。结果显示,CoT在视觉定位、目标计数等感知任务中会导致性能下降,但在数学、科学和多图推理中有效。开源多模态推理模型整体提升有限,可能因过度侧重数学。当前多模态CoT存在'轻看,重思'模式,视觉反省持续减弱,而口头反思相对保持。视觉推理仍是主要瓶颈。论文CoT多模态推理推理模型视觉推理多模态任务推荐理由:这篇论文系统测了多模态思维链到底行不行,发现它在视觉定位上帮倒忙,但对数学推理很管用,还揭示了视觉瓶颈。做多模态的值得看。原文
10:57arXiv cs.AI@Liang Ding, Xintong WangAgentic AI任务在长链执行时因环境不确定性呈指数级失败,每步确定性δ<1时k步成功率衰减为δ^k。论文提出三个形式化结果:确定性-效率界限、验证者-古德哈特定理下限、环境技能演化的收敛条件。研究者构建了基于五个可测量属性的供应确定性指数(SCI)和五级确定性成熟度模型(DMM)。论文还提出了一个可证伪的开放问题框架OQ1-OQ5。立场与平台无关,并讨论了模拟到现实充分性、对齐充分性和AI作为正常技术三种竞争观点。论文智能体推理模型多智能体AI安全确定性环境推荐理由:这篇论文分析了智能体AI在不确定环境中的失败机制,还给出了SCI和DMM实用框架。如果你做AI智能体开发,这些形式化结论值得参考。原文
10:47arXiv cs.LG@Yan Xie, Sijie Zhu, Tiansheng Wen, Bo Chen, Yifei Wang标准在策略蒸馏(OPD)对所有token均匀加权,但研究发现学生rollout越长,后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能,而仅用后30%几乎学不到东西。基于约束优化视角,提出重要性加权在策略蒸馏(IW-OPD),根据累积偏差动态调整token权重。IW-OPD收敛更快,在AIME-2025基准上性能提升多达6.9分。论文OPDIW-OPDAIME-2025推理模型位置偏差推荐理由:这篇论文揭示了OPD中后面token质量差的问题,提出IW-OPD加权方案,在AIME-2025上提分6.9,做蒸馏研究的值得一看。原文
10:06IT之家(博客/媒体)字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本,Pro面向高复杂度任务,Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面,Pro模型推理输入6元/百万tokens(缓存命中1.2元),推理输出30元/百万tokens;Turbo模型推理输入3元/百万tokens(缓存命中0.6元),推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。AI模型豆包Seed 2.1字节跳动推理模型多模态智能体4 个信源在谈推荐理由:字节新出的豆包Seed 2.1 Pro和Turbo,专门优化编程、智能体和多模态任务,Pro适合高难度场景,Turbo便宜且效率高,很适合接项目用。原文
02:51marktechpost@Asif Razzaq精选73°Sakana AI 推出 Sakana Fugu,一种编排模型,可将用户任务动态路由至可替换的前沿 LLM 池。其增强版 Fugu Ultra 在多个编码、推理和智能体基准测试中取得领先成绩。该模型通过选择最适合的模型来提升任务效率,无需用户手动切换。AI模型Sakana AISakana Fugu编排模型智能体推理模型1 个信源在谈推荐理由:Sakana AI 搞了个 Fugu 编排模型,能自动在多个前沿 LLM 之间切换最优选择,在编码和推理基准上表现很突出。原文
15:18marktechpost@Asif Razzaq精选MoonMath AI 开源了一个基于 HIP 的注意力内核,针对 AMD MI300X GPU 进行了优化。该内核采用单指令汇编包装器和八波流水线架构,在所有形状和舍入模式下均击败了 AMD 官方实现的 AITER v3。基准测试结果显示,新内核在 MI300X 上的性能显著领先,未出现任何退化情况。AI模型MoonMathAMD MI300XHIPAITER v3推理模型推荐理由:MoonMath 开源了一个注意力内核,能在 AMD MI300X 上全面碾压官方 AITER v3,速度更快,所有形状都更强,值得跑推理的人试试。原文
12:24歸藏(guizang.ai)@op7418Anthropic已训练完成更强版本的Mythos模型,可能命名为Mythos 5.1或Mythos 6。目前不确定是否会公开发布或仅用于内部加速开发。消息称停止发布Fable 5或Mythos 5不会减慢进展,反而释放资源。竞争压力来自开源模型如GLM-5.2,迫使前沿实验室持续训练更强系统。AI模型AnthropicMythosGLM-5.2推理模型开源模型8 个信源在谈推荐理由:有人说Anthropic偷偷训了个更强的Mythos,但可能不对外放。想了解AI前沿动态可以看看。原文
17:54shao__meng@shao__meng社交媒体上发起LLM对比投票,比较GLM-5.2和Gemini 3.5 Flash。投票结果倾向GLM-5.2,用户认为Gemini 3.5 Flash表现不佳。评论指出Google DeepMind自Gemini 3.0多模态发布后缺乏亮眼进展。讨论焦点集中在国产模型与Google模型的性能差距。AI模型GLM-5.2Gemini 3.5 FlashGoogle DeepMind模型对比推理模型推荐理由:看看大家投票选GLM-5.2还是Gemini 3.5 Flash,很多人觉得Gemini近期的模型不太能打。原文
15:18AI Will@FinanceYF5精选Anthropic在2月完成新模型Mythos的训练。Mythos悄然改变了整个研发节奏。过去5个月AI能力跃升部分源于Mythos。领先模型正帮助训练下一代模型,该循环已启动。AI模型MythosAnthropic推理模型模型迭代8 个信源在谈推荐理由:Anthropic悄悄练成了Mythos,据说它直接改变了研发节奏,领先模型开始帮训练下一代模型了。原文