5月15日
5月14日
16:33
百川智能 Baichuan@BaichuanAI
37
百川智能正式开源了新一代医疗大模型Baichuan-M3,该模型在HealthBench上取得65.1分,并在HealthBench Hard上以44.4分夺冠。在医疗领域,Baichuan-M3全面超越了GPT-5.2。这一开源举措将推动医疗AI的普及和进步,为医疗行业开发者提供强大的工具。

推荐理由:医疗AI开发者终于有了开源且超越GPT-5.2的模型——Baichuan-M3在HealthBench上夺冠,做医疗诊断或健康咨询的团队可以直接拿来用,建议点开看看具体性能。
13:37
深度求索 DeepSeek@deepseek_ai
78
DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。

推荐理由:做智能体开发或需要强推理能力的团队,DeepSeek 这次直接给了两个新选择——V3.2 可立即上手,Speciale 适合追求极致推理的 API 用户,值得关注技术报告里的细节。
13:26
arXiv: DeepSeek@Zhongkai Yu, Yichen Lin, Chenyang Zhou, Yuwei Zhang, Kun Zhou, Junxia Cui, Haotian Ye, Zhengding Hu, Zaifeng Pan, Ruiyi Wang, Yujie Zhao, Hejia Zhang, Jingbo Shang, Jishen Zhao, Yufei Ding
精选65
ChipMATE是首个自训练的多智能体RTL代码生成框架,解决了现有API系统依赖黄金测试平台、无法在气隙环境中部署、不能利用厂商私有代码库的问题。它通过Verilog智能体与Python参考模型智能体相互验证,无需黄金标准即可实现正确性。采用回溯推理工作流防止错误传播,两阶段训练先独立训练再联合协作。在VerilogEval V2上,4B和9B模型分别达到75.0%和80.1%的pass@1,超越所有自训练模型甚至1600B参数的DeepSeek V4。代码和权重已开源。
推荐理由:芯片设计团队终于有了可私有化部署的RTL生成方案——ChipMATE不依赖闭源API、无需黄金测试平台,还能用厂商内部代码训练,做数字IC设计的开发者可以直接试。
01:10
Noam Shazeer@NoamShazeer
65
Google 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。
推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。
5月13日