17:15IT之家(博客/媒体)百川智能与清华大学联合发布医疗增强大模型 Baichuan-M4。该模型在 HealthBench 综合得分 68.6,超越 GPT-5.5 超 10 分,幻觉率低至 3.3%。在 SCAN-bench 动态问诊评测中初诊 79.0、复诊 74.7,均领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。M4 还具备全病程记忆功能,长上下文临床记忆得分 86.9,较上一代 M3 提升 21.1 分。其证据锚定机制使循证引用精度达到 90.0,远超 GPT-5.5 的 54.7。AI模型Baichuan-M4百川智能HealthBench医疗大模型循证医学10 个信源在谈推荐理由:百川发了医疗增强大模型 M4,在 HealthBench 碾压 GPT-5.5,幻觉率仅 3.3%,看病问诊更靠谱。原文
17:03量子位@量子位的朋友们阿里发布了视频生成模型HappyHorse 1.1,在分辨率、时长、运动一致性、视觉质量和推理速度五个维度进行了升级。新版本较上一代在生成稳定性和细节表现上有所提升。该模型面向创意视频制作场景,可生成更流畅的长视频片段。具体升级幅度和对比数据尚未公布。AI模型HappyHorse阿里视频生成模型AI视频推荐理由:阿里刚发了HappyHorse 1.1,视频生成模型又升级了,想知道具体提升了哪些方面可以看看。原文
16:45IT之家(博客/媒体)71°京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction,这是全球首个全栈开源的interaction模型和系统,获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流,自主判断何时响应,而非被动等待用户提问。在58个真人盲评案例中,JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入,并具备后台智能体委托能力。AI模型JoyAI-VL-Interaction京东多模态智能体开源模型推荐理由:京东开源了JoyAI-VL-Interaction,能实时看视频主动说话,安防、直播都能用,盲评胜率比豆包和Gemini高一大截。原文
16:33Decoder@Matthias BastianSakana AI推出了Fugu系统,该系统能动态协调多个大型语言模型(如GPT-4、Claude等),在Fable和Mythos基准测试上达到与Anthropic的Fable 5相当的性能。Fugu通过实时路由和模型组合,减少了对单一AI提供商的依赖。测试中,Fugu在Fable基准上得分超过Anthropic的Fable 5,并在Mythos基准上表现出色。AI模型Sakana AIFuguAnthropicFable多模型协作10 个信源在谈推荐理由:日本AI公司Sakana AI搞了个新系统叫Fugu,能让不同模型一起干活,不用只靠一家供应商。效果还跟Anthropic的Fable 5差不多,值得看看怎么做到的。原文
15:18marktechpost@Asif Razzaq精选MoonMath AI 开源了一个基于 HIP 的注意力内核,针对 AMD MI300X GPU 进行了优化。该内核采用单指令汇编包装器和八波流水线架构,在所有形状和舍入模式下均击败了 AMD 官方实现的 AITER v3。基准测试结果显示,新内核在 MI300X 上的性能显著领先,未出现任何退化情况。AI模型MoonMathAMD MI300XHIPAITER v3推理模型推荐理由:MoonMath 开源了一个注意力内核,能在 AMD MI300X 上全面碾压官方 AITER v3,速度更快,所有形状都更强,值得跑推理的人试试。原文
15:06IT之家(博客/媒体)72°特斯拉Semi电动重卡在加州森尼韦尔被拍到搭载基准真值校验设备(ground truth validation)。该设备用于监督式算法训练,旨在为8级纯电动重卡完善FSD模型。特斯拉此前在Cybertruck上因摄像头高度异常,FSD功能延迟部署,一周前才推送智能召唤(ASS)功能。Semi的FSD若能落地,将缓解法规对卡车司机驾驶时长的限制,提升物流效率,但技术挑战类似Cybertruck。AI模型特斯拉SemiFSD自动驾驶电动重卡推荐理由:特斯拉正在给Semi重卡刷FSD,用专业校准设备训练,比乘用车版更难搞,搞定了能解决卡车司机疲劳问题。原文
14:57IT之家(博客/媒体)阿里巴巴今日发布视频生成模型 HappyHorse 1.1,较 1.0 版本在动态表现力、主体一致性、指令遵循等维度系统性升级。模型单次生成时长 3 到 15 秒,支持 720p 和 1080p 分辨率和自由宽高比。官方同步宣布联合虎鲸文娱集团举办 “Horsepower” AI 影像大赛,优胜者获百万商单合作,导演张纪中担任评委。即日起可通过 HappyHorse 官网、阿里云百炼和千问云使用最新版本。AI模型HappyHorse阿里巴巴视频生成AI影像大赛张纪中推荐理由:阿里刚发了视频生成模型 HappyHorse 1.1,动态和一致性更强了,还搭了百万大奖的比赛,玩 AI 视频的可以试试。原文
14:09IT之家(博客/媒体)郭明錤透露,谷歌在 TPU v9(Humufish)基础上推出升级改款 Triggerfish,针对 AI 推理优化,由联发科独家代工。Triggerfish 片内 SRAM 缓存规模为 Humufish 的 2~3 倍,可降低数据传输开销;片外 DRAM 从 HBM4 升级至 HBM4E。该芯片旨在缓解“CPU 墙”与“内存墙”问题,预计2027年底投产,2028年底放量,生命周期出货 100~200 万颗,单价较 Humufish 高出约三成。还引入“simulation die”,可能用于本地 TPU 管理、训推切换等功能。AI模型谷歌TPU v9联发科推理芯片AI芯片推荐理由:谷歌和联发科联手要做 TPU v9 推理升级版 Triggerfish,缓存翻倍、内存升级,2027 年就能看到成品了。原文
12:54量子位@思邈清华大学团队开源的空间智能模型被ECCV 2026接收。该模型在空间理解基准上得分超过Gemini。它能够处理120分钟的长视频并保持上下文。模型权重和代码已开源。AI模型空间模型ECCV2026清华Gemini开源模型推荐理由:清华这套空间模型在ECCV 2026上把Gemini比下去了,还能边看两小时长视频边记,玩空间理解的同学可以试试。原文
10:48Pandaily@contact@pandaily.com (Pandaily)ByteDance Seed与学术合作伙伴提出SpatialTree,这是一个分层框架,旨在重新定义多模态大模型(MLLM)对空间的理解与推理能力。该工作已被计算机视觉顶级会议CVPR 2026接收。SpatialTree通过层级结构显著提升MLLM在空间任务上的表现。AI模型SpatialTreeByteDance SeedCVPR 2026多模态空间智能4 个信源在谈推荐理由:字节跳动Seed搞了个SpatialTree框架,专门提升多模态模型的空间推理能力,还被CVPR 2026接受了,值得一看。原文
09:30IT之家(博客/媒体)精选闪迪新专利(US 12,430,274 B2)提出将搭载CMOS键合阵列的NAND闪存存储裸片堆叠在主计算裸片下方,主计算裸片可为AI加速器或GPU。与HBM DRAM共存于同一中介层,HBM负责低延迟高优先任务,NAND闪存承担大容量读写。单组HBF堆叠容量最高4TB,而HBM单堆仅32~64GB。宽通道互联降低传输延迟、硬件成本和功耗。该架构尚在专利阶段,量产面临功耗和制造成本挑战。AI模型闪迪NAND闪存HBM3D堆叠存储架构推荐理由:闪迪把海量NAND闪存直接堆到GPU底下,单堆容量冲到4TB,比HBM大几十倍,延迟还低,存储瓶颈的新解法来了。原文
07:12marktechpost@Asif Razzaq精选Cisco Foundation AI开源FAPO,由Claude Code驱动,自动优化多步骤LLM流水线。FAPO评估整个链条,在步骤级别归因失败原因,并提出提示、参数和链结构层面的变体。在18个模型-基准对比中,FAPO击败GEPA 15次。每个变体经独立审批评证后集成到优化循环中。AI模型FAPOClaude CodeCisco提示优化流水线推荐理由:Cisco开源了FAPO,能自动修多步LLM管线的提示,比GEPA强在15/18个测试里,想搞提示优化的快去试试。原文
05:58marktechpost@Michal SutterNous Research为其开源智能体框架Hermes Agent新增了Blank Slate模式。该模式默认仅启用provider、model、File Operations和Terminal四项基础功能。用户通过platform_toolsets.cli和disabled_toolsets命令行接口手动添加其他工具集,实现从零开始配置。这种设计避免了预装过多工具,提升了Agent的灵活性和可控性。AI模型Hermes AgentNous Research智能体工具集开源模型推荐理由:想精细控制Agent工具?Nous Research给Hermes Agent加了Blank Slate模式,从零选工具,不预装一堆,清爽又可控。原文
19:56量子位@听雨由三位00后开发者耗时两个月打造的流式音视频社交模型,在推理速度上达到SOTA水平。相比谷歌的Veo 3,其速度提升7倍,成本降低至1/2000。模型支持实时音视频交互,适用于社交场景。AI模型Veo 3流式模型音视频社交SOTA推荐理由:三个00后做的音视频社交模型,速度比谷歌Veo 3快7倍,成本低到吓人,适合实时互动场景。原文
17:42IT之家(博客/媒体)74°LM Studio 与苹果在 WWDC 2026 期间合作,用四台 Mac Studio 集群成功运行月之暗面万亿参数大模型 Kimi K2.6。Kimi K2.6 总参数达 1 万亿,采用 MoE 架构,激活参数 320 亿,支持长上下文、多模态输入和智能体任务。四台 Mac Studio 通过 Thunderbolt 5 RDMA 内存共享形成约 1.5TB 统一内存,实现模型推理。演示还展示 LM Link 功能,用户可从 MacBook Neo 或 iPhone 安全远程访问集群模型,数据保持本地处理。在类似配置下,模型生成速度约 28 tokens/s,功耗低于传统 GPU 集群。AI模型Kimi K2.6LM StudioMac Studio本地部署推理模型推荐理由:LM Studio 用四台 Mac Studio 跑起万亿参数的 Kimi K2.6,还能用 iPhone 远程调用,给消费级本地部署开了个好头。原文
16:46Pandaily@contact@pandaily.com (Pandaily)智谱AI的GLM 5.2在Design Arena的HTML网页设计基准测试中超越Claude Fable 5,获得第一名。该模型在第三方库利用方面表现更优,同时具备成本优势。Design Arena基准专门评估AI生成HTML代码的设计质量和功能性。AI模型GLM 5.2Claude Fable 5Zhipu AIDesign Arena网页设计7 个信源在谈推荐理由:智谱AI的GLM 5.2在网页设计上干掉了Claude Fable 5,库支持更好还更省钱。原文
16:21IT之家(博客/媒体)上海交通大学等机构在arXiv发布研究,提出BabelTele压缩方法。该方法将文本压缩至原大小的27.9%,仍保持99.5%的语义准确性。人类阅读压缩文本后问答准确率显著下降,但Gemini 3.1 Pro准确率稳定。在MeetingBank和QuALITY基准上,同等压缩率下BabelTele优于LLMLingua-2。多智能体通信测试中,减少约40%通信Token,任务完成度超过96%。AI模型BabelTeleGemini 3.1 Pro文本压缩多智能体语义保留推荐理由:上海交大团队搞了个BabelTele,AI之间能说人类看不懂的语言,压缩四分之三文本还差不多全对,省token神器。原文
14:30IT之家(博客/媒体)82°OpenAI 预计下周发布 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,输出质量提升明显。上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码和 Codex 响应速度。消息称在智能体编码工作中,GPT-5.6 已超越 Anthropic 的 Mythos 系列。定价方面,OpenAI 当前 token 价格约为 Anthropic 的一半,计划进一步降价。AI模型GPT-5.6OpenAIMythosAnthropic智能体10 个信源在谈推荐理由:OpenAI 要发 GPT-5.6 了,上下文拉到 150 万 tokens,编码能力还干翻了 Anthropic 的 Mythos,价格还更便宜,开发者可以关注一下。原文
11:09IT之家(博客/媒体)x86生态系统咨询小组(EAG)于2024年由英特尔和AMD联合成立,旨在统一x86架构演进。EAG近日发布ACE规范1.15版本,定义了一套针对AI计算的指令集,核心优化矩阵乘法运算和低精度数据格式处理。ACE支持INT8、FP16、BF16、FP8等多种数据格式,并引入图块寄存器(tile register)状态。AMD明确Zen 6将添加新AI数据类型支持,Zen 7配备新矩阵引擎与AI数据格式扩展。AI模型英特尔AMDACEx86AI算力推荐理由:英特尔和AMD联手推出了ACE规范1.15,专门给x86芯片加AI加速指令,未来Zen 6和Zen 7都会用上,搞深度学习的朋友可以关注。原文
10:18pandaily@contact@pandaily.com (Pandaily)小米发布并开源了Miloco 2.0全屋AI系统,具备多模态感知能力,可识别用户行为和场景。该系统支持主动智能,能预测需求并执行持续任务,如自动调节灯光温度。Miloco 2.0拥有家庭记忆功能,可记住家庭成员的偏好和习惯。该系统被比作钢铁侠的JARVIS管家,面向中国家庭提供个性化服务。AI模型小米Miloco 2.0智能家居多模态开源模型推荐理由:小米开源了Miloco 2.0,一个像JARVIS一样有记忆能主动帮忙的智能家居AI,多模态和家庭记忆功能很实用。原文
08:54IT之家(博客/媒体)Anthropic 国际董事总经理 Chris Ciauri 在韩国首尔发布会上表示,有信心在未来几天内向美国之外地区重新开放 Claude Mythos 和 Claude Fable 5 模型。此前这两个模型因美国白宫安全指令被临时封锁访问权限。Anthropic 计划深化对韩投资,已组建商业、技术、政策和运营团队,韩国是其全球第 12 大市场。其安全倡议 Project Glasswing 已有约 150 个合作伙伴,包括谷歌、英伟达、微软、苹果、三星电子等。AI模型AnthropicMythosFable 5AI安全韩国10 个信源在谈推荐理由:Anthropic 的最强模型 Mythos 和 Fable 5 很快要重新开放了,面向美国之外,韩国市场也在快速扩张。原文
08:09IT之家(博客/媒体)72°智谱 GLM-5.2 在 Design Arena 单轮 HTML 网页设计评测中总分第一,超越 Claude Fable 5、Opus 4.6 等模型。相比前代 GLM 5.1,名次提升 5 位。推理价格为每百万 tokens 1.40/4.40 美元,低于 Fable 5 的 10/50 美元。GLM 5.2 在 91% 会话中使用 TailwindCSS,调用第三方库使胜率提升 6.0 个百分点。AI模型GLM-5.2智谱Claude Fable 5Design Arena网页设计8 个信源在谈推荐理由:智谱的 GLM-5.2 刚登顶设计榜单,比 Claude Fable 5 便宜很多,还能用好第三方库,做网页设计的可以试试。原文
06:57marktechpost@Asif RazzaqNVIDIA AI推出了SpatialClaw,这是一个无需训练的智能体。它通过编写Python代码在持久内核中执行,将代码作为动作接口。SpatialClaw能够组合多种感知工具,实现3D空间推理。这种设计免去了传统微调或训练步骤。AI模型SpatialClawNVIDIAPython智能体3D空间推理2 个信源在谈推荐理由:NVIDIA搞了个叫SpatialClaw的智能体,不用训练,直接用写Python代码的方式做3D空间推理,挺创新的。原文
06:15marktechpost@Asif RazzaqVibeThinker-3B是一个3B参数的MIT许可证推理模型,基于Qwen2.5-Coder-3B构建。该模型采用Spectrum-to-Signal后训练流水线。在可验证基准上,它匹配了DeepSeek V3.2和Kimi K2.5的性能。AI模型VibeThinker-3BQwen2.5-Coder-3BDeepSeek V3.2Kimi K2.5推理模型2 个信源在谈推荐理由:3B参数就能比肩DeepSeek V3.2和Kimi K2.5,基于Qwen2.5-Coder-3B开源,适合资源受限场景的推理任务。原文
22:18Decoder@Maximilian Schreiner一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型,也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。AI模型基准测试知识工作AI性能推荐理由:这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作,别看平时吹得厉害。原文
21:53爱范儿@莫崇宇OpenAI 旗下的 Codex 模型迎来大更新。Codex 更新后可以学习用户电脑操作,将操作数据转化为训练素材。此次更新将 Codex 的能力从代码领域扩展到系统操作自动化。AI模型CodexOpenAI智能体10 个信源在谈推荐理由:嘿,OpenAI 的 Codex 又更新了,这次它能学习你在电脑上的操作,以后重复任务完全可以交给它,省心!原文
18:36marktechpost@Asif RazzaqLiquid AI推出两个350M参数的多语言检索模型:LFM2.5-Embedding-350M(稠密双编码器)和LFM2.5-ColBERT-350M(后期交互模型),支持11种语言。模型专为边缘设备设计,可快速执行跨语言搜索。其ColBERT架构在保持高精度的同时,能处理句子级交互匹配。AI模型LFM2.5-Embedding-350MLFM2.5-ColBERT-350MLiquid AI多语言搜索边缘检索推荐理由:Liquid AI出了两个轻量模型,350M参数就能做11种语言的搜索,还能装到手机等边缘设备上跑。原文
15:39IT之家(博客/媒体)银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5,参数量达8040万,使用2万小时人类动作数据训练。该模型采用GPT风格因果Transformer架构,将全身控制重构为连续序列预测问题。实验数据表明,训练数据从200万帧扩展到20亿帧时,模型成功率从83.26%提升至92.58%,零样本跟踪误差持续下降,首次验证机器人运动控制的Scaling Law效应。AstraBrain-WBC 0.5支持毫秒级全身数十自由度协同控制,实现高动态平衡与扰动抵抗。AI模型AstraBrain-WBC 0.5银河通用人形机器人运动控制Scaling Law推荐理由:银河通用首发人形机器人小脑大模型,2万小时数据训练,成功率随数据量暴涨,跟GPT一样有规模定律,值得技术控关注。原文
14:30Latent Space (swyx)(博客/媒体)GLM-5.2在主观体验测试中表现优异,得到社区好评。Z.ai 预测开源项目 Open Fable 将于12月推出。这标志着开源模型在性能上逐步接近前沿水平。AI模型GLM-5.2Z.aiOpen Fable开源模型推荐理由:GLM-5.2这次主观评价不错,开源模型终于开始追上GPT了。Z.ai预测年底会有新开源项目,值得关注。原文
13:36量子位@衡宇73°北京通用人工智能研究院发布全球首个人形机器人通用小脑,基于2万小时人类动作数据训练。该模型在未经微调的情况下,能零样本泛化到多种新任务和场景。相比传统方法,它减少了90%的调试时间,使机器人动作更自然。AI模型通用小脑人形机器人零样本泛化动作数据推荐理由:北通院搞了个通用小脑,用两万小时人类动作数据训练,机器人不用重新学就能干新活,比传统方法省时省力。原文
03:29Decoder@Matthias BastianOpenAI发布了ChatGPT的医疗功能升级,基于GPT-5.5 Instant模型。在内部对比测试中,该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。AI模型GPT-5.5ChatGPTOpenAI医疗AI10 个信源在谈推荐理由:OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好,准确率提升了71%,值得试。原文
02:10OpenAI Blog(博客/媒体)OpenAI 推出 GPT-5.5 Instant,用于增强 ChatGPT 在健康和 wellness 领域的回复质量。新模型在推理、上下文理解、沟通清晰度上均有提升,并引入 physician-informed 评估方法。该改进旨在提高医疗健康场景下 AI 回复的准确性和可信度。AI模型GPT-5.5 InstantChatGPTOpenAI健康推理模型10 个信源在谈推荐理由:GPT-5.5 Instant 让 ChatGPT 的健康建议更靠谱了,医生参与评估的设计值得关注。原文
17:43IT之家(博客/媒体)小米发布并开源 Xiaomi Miloco 2.0,基于自研 MiMo 大模型,以 Agent 形式接入 OpenClaw,实现从 Miloco 1.0 到主动智能的升级。新方案具备通用常识,可识别孩子玩刀具、老人跌倒等危险并预警。通过人脸与体态识别家庭成员,支持主动注册新成员及个性化操作。系统能沉淀家庭成员的长期习惯,在用户开口前主动执行如提醒休息、推荐场景联动等任务。硬件要求内存≥4GB、存储≥256GB,推荐 Mac mini 运行,需要米家设备和多模态大模型 API Key。AI模型Xiaomi Miloco 2.0MiMoOpenClaw智能体主动智能1 个信源在谈推荐理由:小米把全屋智能 Agent 开源了,基于 MiMo 大模型,能认人、记习惯、主动干活,自己搭一套试试。原文
16:09Pandaily@contact@pandaily.com (Pandaily)腾讯元宝在2026年高考数学中取得150/150满分,展示了其推理能力。该模型还具备AI agent功能,可辅助学生进行高考志愿填报。这一成绩标志着中国大语言模型在数学推理和智能体应用上的进步。测试中元宝能理解多步复杂问题并给出准确答案。AI模型YuanbaoTencent推理模型智能体高考推荐理由:腾讯元宝高考数学考了满分,还能帮你填志愿,比很多真人老师还靠谱。原文
13:58IT之家(博客/媒体)76°英伟达GEAR实验室联合负责人Jim Fan宣布首次在物理世界中启用AutoResearch。ENPIRE是编码智能体框架,将8个Codex智能体配备多个机器人、GPU分配和Token预算,设定任务目标。机器人学会寻找视觉线索、系扎带、整理钉子以及把显卡插到主板上。Jim Fan表示机器人可整夜自我改进,并计划开源该技术。AI模型英伟达ENPIRECodex机器人开源2 个信源在谈推荐理由:英伟达的机器人自己学会了装显卡,还能整夜自我训练,以后在家也能托管一个机器人实验室了。原文
12:35IT之家(博客/媒体)73°阿里与人大联合开源 LOGOS,这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量,在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质(28.9B tokens)、抗体(3.0B tokens)、小分子(2.1B tokens)等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token,无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。AI模型LOGOSNatureLM开源模型科学大模型多模态推荐理由:阿里开源的 LOGOS 模型,用 1/56 参数就碾压了微软 NatureLM,还统一了蛋白质、小分子等科学对象的语言,搞科研的可以看看源码和论文,开箱即用。原文
11:09IT之家(博客/媒体)72°华为昇腾宣布0 Day支持智谱GLM-5.2,昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一,拥有1M上下文能力,长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA,并已适配华为昇腾等国产算力平台。AI模型GLM-5.2华为昇腾推理优化开源模型代码生成推荐理由:华为昇腾0 Day适配智谱GLM-5.2,推理优化让长上下文编程更高效,开源模型性能比肩Claude Opus。原文
10:35marktechpost@Michal Sutter精选OpenAI推出LifeSciBench,包含750个专家撰写任务,覆盖7个工作流和7个生物学领域,由173位博士科学家构建,使用19,020条评分标准评估推理与决策。当前最佳模型GPT-Rosalind得分仅36.1%,在人工制品、精确输出和操作决策上仍有较大提升空间。该基准旨在测试AI的真实研究能力而非单纯记忆。AI模型LifeSciBenchOpenAIGPT-Rosalind基准测试生命科学10 个信源在谈推荐理由:想看看AI搞科研到底多强?OpenAI出了个750道专家题的LifeSciBench,GPT-Rosalind才36.1%,差距大到让你吃惊。原文
08:21IT之家(博客/媒体)73°苹果在WWDC26特别讲座中演示了在4台Mac Studio上通过LM Studio本地运行1万亿参数的Kimi K2.6模型。工程师仅用单条提示词生成了WWDC badge tracker应用,该应用具备3D动画和全息视觉效果。演示使用了低延迟RDMA over Thunderbolt技术,苹果在macOS Tahoe 26.2中引入。Kimi K2.6由月之暗面于2026年4月20日发布,升级了代码编写和Agent集群能力。AI模型Kimi K2.6Mac StudioLM Studio月之暗面本地部署2 个信源在谈推荐理由:苹果用4台Mac Studio跑万亿参数Kimi K2.6,本地低延迟,一条提示词生成App,开发者必看。原文
08:15Simon Willison’s Weblog(博客/媒体)精选73°中国AI实验室Z.ai于6月16日开源GLM-5.2,采用MIT许可证。该模型753B参数、40激活参数(MoE),上下文窗口从GLM-5.1的20万提升至100万。在Artificial Analysis Intelligence Index v4.1上以51分领先MiniMax-M3(44)和DeepSeek V4 Pro(44)。在Code Arena WebDev前端编码排行榜上排名第二,仅次于Claude Fable 5。OpenRouter上输入价格$1.40/百万token,输出$4.40/百万token。AI模型GLM-5.2Z.aiOpenRouter开源模型编程助手4 个信源在谈推荐理由:Z.ai开源了GLM-5.2,纯文本模型在智能和编码基准上超过DeepSeek V4和Kimi K2.6,价格只有GPT-5.5的五分之一。原文