07:36marktechpost@Asif RazzaqLiquid AI 发布了 LFM2.5-8B-A1B,一款面向端侧设备的混合专家(MoE)模型。该模型总参数量为 8.3B,但每次推理仅激活 1.5B 参数,大幅降低了计算和内存需求。它支持 128K 上下文长度,具备推理和工具调用能力,可在消费级硬件上运行。这标志着端侧 AI 模型在效率与能力之间取得了重要平衡,为移动设备和边缘计算场景提供了新的选择。AI模型端侧模型MoELiquid AI推理模型工具调用推荐理由:端侧部署大模型一直受限于算力和内存,LFM2.5-8B-A1B 用 1.5B 激活参数实现 128K 上下文和工具调用,做移动端 AI 应用或边缘推理的开发者可以直接评估其性能。原文
06:54IT之家(博客/媒体)83°Anthropic 于 5 月 29 日发布旗舰模型 Claude Opus 4.8,重点提升编程、智能体和知识工作能力。相比 Opus 4.7,新模型在复杂任务中更稳定,能主动提问、识别错误,并减少无依据结论。官方评估显示,其放任代码缺陷的概率降低约 4 倍,同时亲社会行为指标创新高。claude.ai 新增 effort 程度控制,用户可平衡质量与响应速度。定价不变,快速模式速度提升 2.5 倍,成本降至 1/3。AI模型Claude Opus 4.8编程助手智能体推理模型可靠性10 个信源在谈推荐理由:做 AI 编程和智能体开发的团队终于有了更可靠的模型——Opus 4.8 减少无依据结论,主动标出不确定性,建议在复杂多步骤任务中直接试用。原文
10:57IT之家(博客/媒体)精选科技媒体报道,谷歌针对Antigravity用户抱怨简单任务消耗过多Token,推出Gemini 3.5 Flash (Low)版本。该版本通过调整推理投入强度,比Medium版本节省约45% Token,且在软件工程任务上优于更早的Gemini 3 Flash。谷歌同时重置了所有免费和付费Gemini计划的配额,保证用户本周有足够额度。AI模型AntigravityGemini 3.5 Flash谷歌推理模型推荐理由:谷歌新出省Token版Gemini,比Medium省45%原文
08:41IT之家(博客/媒体)88°Anthropic 的最强模型 Claude Mythos 预览版在 Claude Code 和 Claude Security 中短暂出现后被撤下,暗示即将公开上线。该模型定位为面向计算机安全任务的前沿模型,相比 Opus 4.7 在代码推理和自主执行方面显著提升。Anthropic 此前警告 Mythos 能自动开发专业级网络攻击手段,因此迟迟未全面开放。同时,Anthropic 推进名为 Glasswing 的项目,联合其他公司保护关键软件系统,已使用 Mythos Preview 帮助 50 家组织。这一动态表明 Anthropic 在平衡模型能力与安全风险后,可能准备向更广泛用户开放。AI模型AnthropicClaude Mythos推理模型代码推理安全10 个信源在谈推荐理由:Anthropic 最强模型 Mythos 即将公开,做安全研究和代码自动化的开发者值得关注——它既能大幅提升效率,也带来新的安全挑战,建议提前了解其能力边界。原文
10:20pandaily@contact@pandaily.com (Pandaily)精选76°DeepSeek V4 已全面适配华为昇腾芯片,标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程,使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险,同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说,这意味着更稳定的算力供应和更低的合规成本。AI模型DeepSeek V4华为昇腾国产 AI 栈推理模型芯片适配推荐理由:DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题,做国产化部署的团队可以直接用这套方案,建议关注后续性能评测。原文
16:25Decoder@Jonathan Kemper精选75°来自马里兰大学、Google、Meta等机构的研究者使用AutoTTS框架,让Claude Code自主发现AI推理控制算法。该算法相比标准自一致性方法,在保持相同准确率的同时,计算量减少约70%。整个搜索过程仅花费40美元,耗时160分钟。论文智能体推理模型大模型AutoTTSClaude Code推荐理由:AI自己设计算法,省钱又高效原文
15:43marktechpost@Asif Razzaq精选70°NVIDIA 发布 Gated DeltaNet-2,一种线性注意力层,将 Delta 规则中的擦除和写入操作解耦为通道级擦除门 b_t 和写入门 w_t。在 1.3B 参数、100B FineWeb-Edu 令牌训练下,它在语言建模、常识推理和长上下文检索任务上超越 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3。最大提升出现在 RULER S-NIAH 和多键针检索基准上。AI模型大模型推理模型MambaNVIDIA线性注意力4 个信源在谈推荐理由:NVIDIA 新线性注意力,解耦擦写门原文
17:51marktechpost@Asif Razzaq精选阿里巴巴 Qwen 团队在 2026 年阿里云峰会上推出 Qwen3.7-Max,这是其最先进的智能体模型。该模型拥有 100 万 token 的上下文窗口和扩展思考模式,专为长周期任务设计,包括编程、调试和多步骤工作流自动化。在 Artificial Analysis Intelligence Index 上得分为 56.6,在专有模型中排名第五。AI模型Qwen3.7-Max推理模型智能体百万上下文编程助手推荐理由:百万 token 上下文窗口让长代码库分析和复杂工作流自动化成为可能,做 AI 智能体或编程工具的开发者值得关注,可以直接用于长周期任务。原文
08:05IT之家(博客/媒体)83°OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想,这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制,而是通用推理系统,能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证,避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。AI模型推理模型数学证明OpenAI几何猜想科研突破10 个信源在谈推荐理由:AI 首次自主攻克数学核心难题,对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法,做基础研究的团队值得关注。原文
07:57SuperTechFans(博客/媒体)精选OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集,推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文,是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果,认为 AI 已具备原创性和执行力。AI模型OpenAI单位距离问题数学证明推理模型10 个信源在谈推荐理由:AI 首次独立证明数学猜想原文
09:35SuperTechFans(博客/媒体)83°谷歌发布了 Gemini 3.5 系列模型,其中 3.5 Flash 版本在多项基准测试中表现优异,输出速度是其他前沿模型的 4 倍,特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线,开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度(FP4/FP8)和较少活跃参数,在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破,有望推动 AI 在复杂场景中的广泛应用。AI模型Gemini 3.5 Flash推理模型低延迟代理任务谷歌推荐理由:Gemini 3.5 Flash 解决了高智能与低延迟的矛盾,做多步骤代理和编码的开发者可以直接用上,成本还更低,值得一试。原文
08:00IT之家(博客/媒体)83°谷歌在 2026 I/O 开发者大会上宣布,Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用,官方称其进步非常强,但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速,Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升,值得开发者和 AI 从业者关注。AI模型Gemini 3.5 Pro谷歌推理模型多模态AI 模型发布1 个信源在谈推荐理由:谷歌 Gemini 系列模型迭代节奏加快,3.5 Pro 内部使用已获「进步超强」评价,做多模态或推理应用的开发者值得提前关注,下月发布后可直接上手体验。原文
07:59IT之家(博客/媒体)在 AMD AI 开发者日活动上,CEO 苏姿丰表示 AI 进步令人难以置信,预计未来五年将有 50 亿人每日使用 AI。她强调不存在单一应用满足需求,需要多样化的模型和工作流。苏姿丰称这是她 30 多年科技生涯中最兴奋的时刻,AI 在最近几个月加速发展,推理型 AI 更普遍,企业 CEO 们都在讨论如何利用 AI。她指出 AI 技术需要推理、学习和数据流能力,智能体是关键,未来 GPU 将无处不在,AMD 将提供端到端计算能力。行业AMD苏姿丰AI 趋势推理模型智能体推荐理由:苏姿丰的发言揭示了 AI 从技术到落地的关键转折点——未来五年 50 亿用户意味着巨大的应用和基础设施机会,做 AI 开发或企业决策的人值得关注 AMD 的端到端计算布局。原文
07:54OpenAI@OpenAI (@OpenAI)OpenAI在一条推文中指出,AI系统正变得能够进行长而困难的推理链,连接不同领域的想法,并发现研究者可能未探索的路径。他们认为这些能力将很快加速生物学、物理学、工程学和医学领域的工作。同时强调,人类的判断力仍然至关重要,专业知识将变得更有价值,AI负责搜索、建议和验证,而人类选择重要问题、解释结果并决定下一步方向。AI模型推理模型科研加速OpenAI人机协作AI能力10 个信源在谈推荐理由:科研人员和工程师将看到AI从工具变为协作伙伴——长链推理能力让AI能跨领域连接想法,做科研的团队值得关注这一趋势,思考如何将AI融入工作流。原文
07:51OpenAI@OpenAI (@OpenAI)精选76°OpenAI 宣布其通用推理模型成功证明了一个数学难题,该模型并非专门为数学问题设计,而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑,展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成,而非针对特定问题优化的系统,凸显了 AI 推理能力的泛化性。AI模型推理模型数学证明OpenAI通用AI里程碑10 个信源在谈推荐理由:通用推理模型攻克数学难题,证明了 AI 在数学推理上的泛化能力,数学研究者和 AI 开发者值得关注这一突破。原文
13:40IT之家(博客/媒体)88°阿里千问今日正式发布 Qwen3.7-Max,定位为面向智能体时代的旗舰模型,即将通过阿里云百炼 API 提供服务。该模型在编程、办公自动化、长周期自主执行等智能体任务上表现突出,例如在长达 35 小时、超 1000 次工具调用的内核优化实验中保持连贯推理。在多项基准测试中,Qwen3.7-Max 在编程智能体(如 SWE-Pro 60.6)、通用智能体(如 MCP-Mark 60.8)和推理(如 GPQA Diamond 92.4)上均取得领先或与顶尖模型相当的成绩。此外,它支持跨框架部署,兼容 Claude Code、OpenClaw 等,并具备多语言理解与翻译能力。AI模型智能体编程助手MCP/工具推理模型Qwen3.7-Max7 个信源在谈推荐理由:Qwen3.7-Max 在长周期自主执行和跨框架兼容性上展现出实用价值,做自动化办公或复杂编程的开发者可以直接通过 API 体验,值得关注。原文
01:46IT之家(博客/媒体)76°在 2026 年谷歌 I/O 大会上,谷歌宣布推出 Gemini 3.5 Flash 模型,该模型在多项基准测试中超越前代 3.1 Pro。其输出速度达到每秒 289 tokens,是 Claude Opus 4.7 和 GPT-5.5 xhigh 的 4 倍。谷歌内部还展示了 Antigravity 工具,用 93 个子智能体在 12 小时内从零构建了一个可运行的操作系统核心,生成了 26 亿个 tokens。这一发布标志着谷歌在 AI 模型速度和效率上的重大突破,尤其适合需要高吞吐量的应用场景。AI模型Gemini 3.5 Flash谷歌推理模型输出速度智能体推荐理由:速度翻倍意味着更低的延迟和更高的吞吐量,做实时 AI 应用或大规模推理的开发者值得关注,可以直接用起来提升效率。原文
08:33IT之家(博客/媒体)72°阿里云千问最新模型 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 已上线 Qwen Chat 和 Arena AI,预计在 5 月 20 日阿里云峰会正式发布。在文本领域,Qwen3.7-Max-Preview 综合排名第 13,其中数学第 7、编程第 10,阿里通义千问在实验室中排第 6。视觉领域 Qwen3.7-Plus-Preview 综合排名第 16,阿里通义千问在视觉榜位列第 5。该模型在专家级应用和软件 IT 领域也表现不俗,展示了千问系列在多模态和推理能力上的持续进步。AI模型千问Qwen3.7Arena AI多模态推理模型推荐理由:千问新模型在数学和编程榜单上冲进前十,做技术选型或对比评测的开发者值得关注,可以直接去 Arena AI 体验。原文
00:54IT之家(博客/媒体)精选73°蚂蚁集团旗下百灵大模型正式开源 Ring-2.6-1T,这是一款面向真实复杂任务场景的万亿级旗舰思考模型。该模型引入了可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度,开发者可根据任务复杂度灵活控制模型思考深度。high 模式适合高频 Agent 工作流,具备更低 Token 开销与更快多步执行能力;xhigh 模式面向数学、科研、复杂逻辑分析等高难任务。开源链接已在 Hugging Face 和 ModelScope 上提供,方便开发者、研究者与企业进行验证、适配和二次开发。AI模型开源/仓库推理模型智能体蚂蚁集团Ring-2.6-1T推荐理由:万亿级思考模型开源,可调节推理强度让开发者按需平衡效果与成本,做 Agent 工作流或复杂推理的团队可以直接上手试。原文
21:36Simon Willison’s Weblog(博客/媒体)LLM 命令行工具发布 0.32a2 版本,核心更新是支持 OpenAI 最新的 /v1/responses 端点,替代旧的 /v1/chat/completions。这意味着 GPT-5 等推理模型可以在工具调用时展示推理过程,用户运行提示时能看到彩色推理 token。新增 -R 或 --hide-reasoning 参数可隐藏推理输出。该版本还包含其他多项改进,适合使用 LLM 与 OpenAI 模型交互的开发者。AI产品LLMOpenAI推理模型命令行工具GPT-52 个信源在谈推荐理由:LLM 用户终于能直观看到 GPT-5 等模型的推理过程了,做 AI 工具链和命令行调用的开发者值得升级体验。原文