6月3日
5月26日
5月23日
5月21日
5月19日
5月18日
17:12
17:12AlphaSignal@AlphaSignalAI
76°
本周(5月11日至17日)GitHub 热门仓库包括 DeepSeek 4 Flash 本地推理引擎(支持 Metal 和 CUDA)、更稀疏快速的 Transformer 语言模型、利用 WiFi 信号实现空间感知的 RuView、面向法律工作流的 Claude 插件套件,以及 X 平台开源的 feed 排序算法。这些项目覆盖了模型推理、架构优化、环境感知、行业应用和算法透明化等多个方向,值得开发者关注。
推荐理由:做本地推理或模型优化的开发者可以看看 DeepSeek 4 Flash 和稀疏 Transformer 项目,前者直接提升 Metal/CUDA 部署效率,后者可能改变模型架构设计思路。法律从业者或对行业 AI 应用感兴趣的人,Claude 插件套件提供了现成的 workflow 参考。
5月14日
16:33
16:33百川智能 Baichuan@BaichuanAI
百川智能正式开源了新一代医疗大模型Baichuan-M3,该模型在HealthBench上取得65.1分,并在HealthBench Hard上以44.4分夺冠。在医疗领域,Baichuan-M3全面超越了GPT-5.2。这一开源举措将推动医疗AI的普及和进步,为医疗行业开发者提供强大的工具。

推荐理由:医疗AI开发者终于有了开源且超越GPT-5.2的模型——Baichuan-M3在HealthBench上夺冠,做医疗诊断或健康咨询的团队可以直接拿来用,建议点开看看具体性能。
13:26
13:26arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara
精选
EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。
推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。