13:37百川智能 Baichuan@BaichuanAI百川AI发布了Baichuan-M3技术报告,该模型专为临床决策支持设计,而非通用问答。它基于真实门诊工作流(问诊→检查→诊断)进行优化,旨在提升医疗场景下的AI辅助能力。报告和模型权重已公开,用户可在线试用。AI模型百川Baichuan-M3临床决策支持医疗AI开源/仓库推荐理由:医疗AI从业者终于有了一个真正对齐临床工作流的模型——从问诊到诊断全链路优化,做医疗信息化或AI辅助诊断的团队值得深入研究。原文
13:37百川智能 Baichuan@BaichuanAI百川AI在HealthBench、Hard、Hallucination和ScanBench等多项基准测试中取得领先成绩,其中HealthBench得分65.1,Hard得分44.4,幻觉率仅3.5%低于ChatGPT,ScanBench全站排名第一。这显示了百川AI在医疗、推理和抗幻觉方面的显著进步,对AI应用开发者具有重要参考价值。AI模型百川AI基准测试医疗AI抗幻觉推理模型推荐理由:百川AI在多个关键基准上超越ChatGPT,做医疗AI或高可靠性应用的团队值得关注其低幻觉率表现。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。AI模型DeepSeek推理模型智能体模型发布API推荐理由:做智能体开发或需要强推理能力的团队,DeepSeek 这次直接给了两个新选择——V3.2 可立即上手,Speciale 适合追求极致推理的 API 用户,值得关注技术报告里的细节。原文
13:37深度求索 DeepSeek@deepseek_ai78°DeepSeek 发布了 V4 Preview 版本,包含 Pro 和 Flash 两个模型,均支持 1M 上下文长度。Pro 版本总参数量 1.6T,激活参数 49B,性能对标全球顶级闭源模型;Flash 版本总参数量 284B,激活参数 13B,主打高效经济。模型权重和技术报告已开源,API 同步更新。这标志着开源大模型在长上下文和性价比上迈出重要一步。AI模型DeepSeek-V4开源/仓库长上下文推理模型性价比推荐理由:长上下文和低成本是当前 AI 应用的两大痛点,DeepSeek-V4 同时解决这两个问题,做 RAG、文档分析或长对话的开发者可以直接上手试试。原文
13:36xAI@xaixAI 发布了 Grok 4.3 模型,已在其 API 上可用。该模型在代理工具调用和指令遵循方面领先 @ArtificialAnlys 排行榜,并在 @ValsAI 的企业领域(如判例法和公司金融)中排名第一。Grok 4.3 支持 100 万 token 上下文窗口,输入价格为每百万 token 1.25 美元,输出价格为 2.50 美元。开发者可以立即创建 API 密钥开始使用。AI模型Grok 4.3xAI推理模型API企业应用推荐理由:Grok 4.3 在代理工具调用和企业场景(如法律、金融)中表现突出,做智能体或企业级应用的开发者可以直接用 API 体验,性价比也不错。原文
11:24berryxia@berryxia精选ExaAILabs完成了一项关键实验,在强化学习阶段训练LLM的搜索能力。一组使用Google数据,另一组使用Exa搜索API。结果显示,使用Exa API的模型性能更高,同时训练算力节省了70%。这一发现挑战了“堆算力才能提升AI搜索”的传统认知,表明搜索工具的质量和效率比算力数量更关键。对AI Agent、RAG和带搜索能力的大模型团队有重要启示。AI模型强化学习搜索能力Exa API算力效率AI Agent推荐理由:这个实验直接挑战了“堆算力才能提升AI搜索”的行业共识,做AI Agent、RAG或训练搜索模型的团队,看完会重新思考工具选型——建议点开原文看完整blog。原文
09:20berryxia@berryxia70°Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型的训练过程,仅花费460万美元。在8模型实时编程大战中,Kimi K2排名第一,超越GPT-5.5和Claude Opus 4.7。视频重点介绍了极致优化、线性注意力、子代理等硬核架构,展示了小团队如何通过聪明架构抹平资源差距。杨植麟本人是Transformer-XL和XLNet共同作者,背景深厚。这段视频对AI代理开发者和2026年大模型赛道入场者极具参考价值。AI模型Kimi K2Moonshot AI训练优化AI代理小团队逆袭1 个信源在谈推荐理由:杨植麟用460万美元和极致架构打脸烧钱竞赛,做AI代理或准备2026年入场的团队,看完会重新思考资源分配策略——建议存下来周末细看。原文
01:10Noam Shazeer@NoamShazeerGoogle 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。AI模型Gemini语音智能体函数调用多语言推理模型推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。原文
01:00Microsoft Research@MSFTResearch精选微软研究院推出GridSFM,一个小型基础模型。该模型能在毫秒内预测AC最优潮流(ACOPF),显著提升电网运行效率。GridSFM为运营商直接提供拥堵、稳定性和系统健康的可视性,并有望帮助降低运营成本。AI模型GridSFM微软基础模型电力系统优化推荐理由:电网优化新利器原文
20:25AK@_akhaliq精选商汤科技推出 SenseNova-U1,基于 NEO-unify 架构实现多模态理解与生成的统一。该模型将视觉与语言任务整合至单一框架,无需分离。NEO-unify 架构通过共同表示学习,兼顾高效推理与生成质量。SenseNova-U1 在多个多模态基准上取得竞争力表现。AI模型SenseNova-U1NEO-unify商汤多模态统一模型推荐理由:商汤新模型,统一看和写原文
18:18berryxia@berryxiaInterfaze 提出了一种全新混合架构,将任务专用的 DNN/CNN 编码器与全能 Transformer 融合,在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活,大幅提升速度和性价比。在 9 个硬核基准上全面领先,尤其在高频场景中速度和成本优势明显。作者认为,未来真实生产力任务不需要越来越大的通用模型,而是需要这种“专为确定性任务而生”的混合架构。AI模型Interfaze混合架构OCR视觉模型确定性任务推荐理由:做 OCR、视觉或音频处理的团队,终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了,建议直接看博客跑一下自己的用例。原文
15:51阿里通义 Qwen@Alibaba_Qwen阿里巴巴 Qwen 团队宣布 Qwen3.6-Plus 模型已上线 NousResearch 的 Nous Portal 平台,并限时免费开放使用。该模型与 Hermes Agent 结合,为开发者提供更强大的智能体能力。此举降低了高端模型的使用门槛,适合 AI 应用开发者快速体验和集成。AI模型Qwen3.6-PlusNous PortalHermes Agent智能体限时免费推荐理由:做智能体开发的团队可以零成本试用 Qwen3.6-Plus 的 Hermes Agent 能力,限时免费窗口值得抓紧体验。原文
15:51Perplexity@perplexity_ai精选Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。AI模型推理模型PerplexityQwen3NVIDIA GB200MoE推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。原文
08:42阶跃星辰 Stepfun@StepFun_aiStepfun 发布了 Step Image Edit 2,一个 3.5B 参数的图像模型,在指令式图像编辑基准 KRIS-Bench 上排名第一,涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型,支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快,文本到图像仅需 0.7 秒,每次编辑 1.6 秒,每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线,模型 ID 为 step-image-edit-2。AI模型图像编辑文本到图像多模态Stepfun开源/仓库推荐理由:该模型以极小参数量在图像编辑基准上取得领先,推理速度快且成本低,为图像编辑和生成任务提供了高效的新选择。原文
02:41NVIDIA AI@NVIDIAAINVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容,来自Nemotron Labs。该模型是Nemotron系列的最新进展,专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景,强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。AI模型NVIDIANemotron边缘推理模型压缩多模态推荐理由:对于关注边缘AI部署和模型压缩的开发者,Nemotron系列的技术细节具有实际参考价值,尤其适合了解NVIDIA在小模型领域的最新动态。原文
23:56François Chollet@fcholletFrançois Chollet 在推文中澄清,符号学习(Symbolic learning)并非要取代编程智能体,而是作为梯度下降和神经网络的替代方案。他将其描述为一种低层次、完全通用且极其可扩展的新型学习基底。这一观点重新定义了符号学习的定位,表明它可能在未来AI系统中扮演更基础的角色,为模型优化提供不同于反向传播的新途径。AI模型符号学习梯度下降神经网络AI研究学习范式推荐理由:重塑对符号学习的认知,明确其作为底层学习范式的潜力,对AI研究者和从业者理解未来方向有参考价值。原文
21:55Together AI@togethercompute75°DeepSeek V4 Pro在Together AI无服务器平台上发布,具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。AI模型推理模型开源/仓库Together AI长上下文编程推荐理由:DeepSeek V4 Pro在长上下文推理和编程任务上的表现达到SOTA,同时其高效服务技术栈的公开分析对AI部署实践有重要参考价值。原文
18:00Ethan Mollick@emollickOpenAI推出了gpt-realtime-2语音模型,该模型原生处理语音而非转录为文本,因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平,而新版被形容为“更聪明”,但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升,但缺乏具体指标也引发了对透明度的讨论。AI模型语音模型gpt-realtime-2OpenAI实时交互2 个信源在谈推荐理由:gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代,直接提升交互体验。但由于缺乏基准对比,开发者需自行评估其实际性能。原文
17:19歸藏(guizang.ai)@op7418OpenAI 推出了GPT-image-2.0图像生成模型,同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升,支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展,为创意行业和内容生产提供了更强大的工具。AI模型图像生成视频生成GPT-image-2.0Seedance 2.0多模态3 个信源在谈推荐理由:对于AI生成领域从业者,GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展,值得关注其在实际应用中的表现和潜在影响。原文
17:19歸藏(guizang.ai)@op741875°前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态,并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联,它将所有模态统一在一个模型中,实现任意模态下的实时交互,用户可以随时打断、补充,AI 会持续关注用户状态并输出结果。模型由前台交互模型(每200毫秒处理输入并输出)和后台推理模型(处理复杂推理和长任务)两部分组成,最终提供实时交互和重度任务处理的能力。AI模型多模态交互模型Thinking Machines实时4 个信源在谈推荐理由:该模型打破了传统 AI 交互的固定对话模式,实现了真正的多模态实时交互,可能重新定义人机交互的标准。对于从事 AI 产品和交互设计的从业者而言,这是一个值得关注的技术方向。原文