全部 AI 动态 · AI 热点

6月29日

10:10

arXiv cs.AI@Bo Shen, Lifeng Chang, Tianyuan Wei, Yunpeng Li, Feng Shi, Yichen Han, Peijie Gao, Shiyi Kuang, Xin Chang, Dehui Li

这篇论文提出ANIS（Agent-Native Immune System），首个嵌入智能体认知循环的生物启发式内生防御架构。它设计了六层免疫塔（L0-L5），其中L1作为非认知的物理与逻辑隔离层。论文建立了智能体病毒和智能体疫苗的统一分类，并提出了Harness Triad（Meta、Self、Auto）实现持续免疫学习（CIL），使疫苗能动态适应新威胁。ANIS在运行时提供动态“执法”机制，与静态的模型对齐形成互补。

论文 ANIS 智能体 AI安全运行时防御免疫学习

推荐理由：这篇论文把免疫系统思路直接嵌入到智能体内部，用六层防护对抗运行时攻击，和传统外围防御完全不同，值得看看。

原文

10:10

arXiv cs.AI@Ali Zia, Usman Ali, Abdul Rehman, Umer Ramzan, Kang Han, Muhammad Faheem, Shahnawaz Qureshi, Wei Xiang

精选

现有测试时自适应方法在异常分割中依赖像素级启发式，难以保持结构一致性。TopoTTA将持续同调集成到TTA流程，通过多层次立方复形滤波生成拓扑伪标签，避免原始分数阈值化。在MVTec AD、VisA、Real-IAD、MVTec 3D-AD、AnomalyShapeNet和MVTec LOCO六个基准上，TopoTTA平均F1提升15%，对复杂几何异常增益最大。该方法无需重训练骨干网络，兼容2D和3D模态。

论文 TopoTTA MVTec AD 异常分割测试时自适应持续同调

推荐理由：这篇论文把拓扑数据分析用到异常分割的测试时自适应里，六个基准上F1平均涨了15%，尤其擅长处理有复杂形状的缺陷，很实用。

原文

10:10

arXiv cs.AI@Julius Girardin, Emanuele Troiani, Yizhou Xu, Vittorio Erba, Florent Krzakala, Lenka Zdeborová

该论文在二次两层神经网络中，通过ℓ2正则化经验风险最小化，分析了泛化误差随参数数量、样本量和宽度变化的精确表达式。研究发现泛化误差遵循依赖于目标谱结构的数据驱动幂律，并揭示了不同缩放区域间的相图转变，包括插值起始点的特征。实验基于有限样本和结构化数据，为理解特征学习模型的缩放行为提供了理论框架。

论文 Quadratic Neural Networks 泛化缩放定律相图正则化幂律

推荐理由：这篇论文给出了二次网络里参数和样本数怎么影响泛化误差的数学公式，比单纯看数据或算力更深入。

原文

10:10

arXiv cs.AI@Daniel Russo

一篇来自arXiv的论文研究了AI编程智能体在共享仓库中合并拉取请求带来的集成摩擦问题。通过对超过93万条智能体编写的拉取请求进行测量，发现约一半的摩擦变化归因于仓库本身，而非单个贡献或智能体。智能体贡献的仓库级摩擦是人类的约两倍（组内相关系数0.30 vs 0.16），该差距在控制代码库规模、年龄、任务形态等变量后依然存在。论文提出AI原生软件的风险是生态系统属性，应通过仓库级而非单智能体方式进行评估和治理。

论文智能体 AI编程代码仓库拉取请求集成摩擦

推荐理由：这篇论文用93万条数据告诉你，AI写代码带来的隐患不在单个智能体，而在整个仓库。看完你就明白为什么只测单个AI不够用了。

原文

10:09

arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang

流匹配（Flow Matching）存在暴露偏差，现有缓解方法依赖静态约束。本文提出DEFAR框架，包含抗漂移修正（ADR）和频率补偿（FC）两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向，FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上，DEFAR优于先前基线，且具有良好的可扩展性与推理鲁棒性。

论文 Flow Matching DEFAR 暴露偏差自修正图像生成

推荐理由：这篇论文让模型靠偏差自己修正偏差，DEFAR在CIFAR和ImageNet上都能超过之前的方案，还更稳。

原文

10:09

arXiv cs.AI@Young Yoon, Jimin Kim, Soyeon Park

该论文提出一种在完全委托的AI合作组织中分配奖励的框架，人类由代理表示，这些代理在异构价值约束下贡献数据并参与模型更新。核心思想是仅对通过每个委托人价值档案筛选的更新给予信用。框架包含价值条件梯度过滤、在线边际贡献信号以及基于遍历学习（TL）的累积收入结算。与FedAvg风格的联邦学习相比，TL通过保留显式遍历和梯度路径提供了更精细的归属基础。该工作对比了数据估值、联邦贡献估计、个性化联邦学习和多元对齐等领域。

论文 value-constrained credit assignment traversal learning 联邦学习信用分配多元对齐

推荐理由：这篇论文提出了一个在AI合作组织中公平分配奖励的框架，用遍历学习替代传统联邦学习，更精细地追踪每个数据贡献者的价值。

原文

10:09

arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型（VLM）和多级人工反馈机制，解决深度模糊和遮挡问题，无需多相机设备。利用HAT-4D构建了MVOIK-4D基准，包含新的多维评估协议，侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA，同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

AI模型 HAT-4D 4D重建 MVOIK-4D 单目视频 Embodied AI

推荐理由：不用多相机，单视频就能重建多个物体怎么动，还能人工纠正错误。HAT-4D这个框架开源了，做Embodied AI的数据生成很方便。

原文

10:09

arXiv cs.AI@Chenguang Wang, Ming Li, Xinyue Zeng, Zhuochun Li, Hong Jiao, Tianyi Zhou, Dawei Zhou

论文提出Epi2Diff（Episode to Difficulty）框架，将大型推理模型（LRM）的推理轨迹映射为认知片段序列，通过推理规模、努力分配和状态转换建模难度。在四个真实人类难度数据集上，Epi2Diff优于微调小语言模型、LLM上下文学习和监督LLM适应等基线。在SAT分类基准上，Epi2Diff相比监督LLM微调获得8.1%平均相对增益。分析发现更难的题目导致更费力、迭代、以实施为中心的片段动态，而非仅更长的回答。

论文 Epi2Diff LRM 推理模型教育评估难度预测

推荐理由：想用AI推理过程预测题目难度？这篇论文提出了Epi2Diff，从LRM的思考轨迹中提取片段特征，比直接微调模型效果好8%以上，而且可解释。

原文

10:09

arXiv cs.AI@Qinhong Zhou, Chuang Gan, Anoop Cherian

LLawCo框架让具身智能体通过反思失败提取行为模式，推导出“必要时说话”“等待伙伴”等高层法则，经监督微调融入思维链。在PARTNR-Dialog基准上，使用四个骨干LLM（如Llama、Mistral）平均成功率提升4.5%，在TDW-MAT基准上提升6.8%。该框架显著提升多智能体合作效率与任务成功率，优于现有开源通信框架。

AI模型 LLawCo 多智能体 PARTNR-Dialog TDW-MAT 合作

推荐理由：多智能体容易各说各话？LLawCo让它们自己学会“必要时说话”“等待伙伴”，在PARTNR-Dialog和TDW-MAT上成功率都涨了4-7个百分点，挺实在的。

原文

10:08

arXiv cs.AI@Zuoou Li, Wenlong Zhao, Kelly Yu, Weitong Zhang, Paul M. Matthews, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

CPAgents是一个由三个AI智能体（Analyst、Proposer、Verifier）组成的迭代框架，用于自动构建心血管表型关联研究中的可解释复合表型（如多项式、比值、交互形式）。在72个分类器-疾病-指标组合中，CPAgents生成的复合表型在56个组合中取得最优排名（基线仅18个），涵盖全部9个临床疾病类别。该方法能自动发现超出专家手工特征选择的更强表型-疾病关联，并生成透明的证据链。

AI模型 CPAgents 智能体表型关联心脏疾病可解释AI

推荐理由：这篇论文提出了CPAgents，用三个智能体自动组合心脏影像特征，相比传统方法在56/72测试中拿第一。适合关心AI辅助医学研究的读者。

原文

10:08

arXiv cs.AI@Difan Jiao, Raghav Singhal, Robert West, Ashton Anderson

Tandem Reinforcement Learning (TRL) 将 tandem 训练范式引入带可验证奖励的强化学习（RLVR）。TRL 让一个较强的 senior 模型与一个冻结的 junior 模型随机交替协作生成推理过程，对最终结果给予奖励，并对 senior 应用标准 GRPO 损失。在 Qwen3-4B-Instruct 上使用竞赛数学训练，TRL 的 solo 推理能力与 vanilla GRPO 持平，但同时提升了 senior 与 junior 的交接鲁棒性、减少了 junior 侧分布漂移，并产出了对 junior 更易理解的思维链。该工作为多模型通信与人类兼容性提供了实际收益的路径。

AI模型 TRL Qwen3-4B GRPO 推理模型多模型协作

推荐理由：他们提出了 TRL，让强模型和弱模型组队推理，强模型学会写弱模型能看懂的推理过程。训练 Qwen3-4B 后，单打能力不降，协作能力更强。

原文

10:08

arXiv cs.AI@Yanchen Yin, Dongqi Han, Linghui Li

该研究揭示越狱攻击并非消除所有安全特征，而是选择性抑制早期层的Adversarially Compromised Heads (ACHs)，而中间层的Safety-Aligned Heads (SAHs)保持鲁棒激活。消融实验表明，抑制少量ACHs即可在正常拒绝的输入上诱发出越狱行为，而移除SAHs会显著削弱中间层的安全激活。此外，通过直接读取这些持久激活信号（无需训练）即可获得与强对抗鲁棒性相当的聚合检测性能。

论文越狱攻击注意力头 LLM安全对抗鲁棒性鲁棒有害特征

推荐理由：这篇论文用注意力头机制解释了越狱攻击无法完全消除安全特征，还提出一种无需训练的检测方法，效果不输传统对抗训练。

原文

10:08

arXiv cs.AI@Zhigang Chen, Xiawu Zheng, Rongrong Ji

CG-ICS 提出了一种概念引导的上下文分割方法，通过从参考图像中提取高层语义概念而非仅依赖低层视觉匹配来提升系统鲁棒性。该方法引入 MLLM 生成候选概念，并用 SAM3 驱动的评分函数和树搜索精炼选择可靠概念。同时并行视觉示例路径提供查询侧空间定位。在标准 ICS 基准测试上，CG-ICS 不仅达到最高精度，还将不同参考下的分割方差显著降低。

AI模型 CG-ICS 概念引导上下文分割 SAM3 MLLM

推荐理由：想让模型在不同参考图下都稳定分割？试试 CG-ICS，用概念推理代替简单视觉匹配，SAM3 和 MLLM 帮你搞定。

原文

10:08

arXiv cs.AI@Liming Liu, Chao Hu, Mingfei Lu, Yiwei Ge, Xingle Li, Heyuan Shi

ADC-GNN是一个统一框架，结合扩散引导特征增强、对比表示学习和多跳谱注意力，用于少样本图欺诈检测。论文指出真实欺诈图存在稀疏不平衡监督和表示稀释问题。在三个公共基准和约6万条记录的私有电信数据集上，以1%训练设置评估，ADC-GNN持续优于原始欺诈基线及四种近期基线。额外分析验证了其稳定性、训练比例影响和模块效果。

论文 ADC-GNN Graph Fraud Detection 图神经网络欺诈检测少样本学习

推荐理由：这篇论文提出了ADC-GNN，在少样本场景下用扩散对比学习搞定图欺诈检测，三个公开基准上比现有方法都好，做风控的朋友可以看看

原文

10:06

arXiv: DeepSeek@Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh

该论文提出一种受树状思维（Tree-of-Thoughts）启发的提取-抽象混合方法，用于法律判决摘要生成。实验使用DeepSeek和LLama两种LLM，对比了纯提取、纯抽象及混合式摘要。结果显示，混合式提示生成的摘要质量优于其他类型提示。

论文 DeepSeek LLama Tree-of-Thoughts 法律AI 文本摘要

推荐理由：这篇论文把思维树和提取-生成结合起来做法律摘要，用DeepSeek和Llama对比，发现混合方法效果更好。

原文

10:06

arXiv: DeepSeek@Chengxiao Dai, Zhaokun Yan, Zhanhui Lin

该论文提出信号覆盖矩阵，将自动形式化输出按Lean elaborate检验（通过/失败）和语义等价判断（等价/不等价）分为四类。在ProofNet#和MiniF2F-test上使用DeepSeek V4-Pro进行实验，发现三种精化反馈方法（Lean-Retry、Sample-Filter、SAF）相比Vanilla的TS增益+34到+36，其中约64%来自类型层恢复，语义层净变化为0。TO到TS的转换率为23/61（Wilson 95% CI [26.6%, 50.3%]），该层恢复率可预测保留方法上的ΔTS误差在2/186以内。两个判断者在精化反馈输出上的分歧达26至37个百分点（Vanilla仅7个百分点），30%至56%的符号判断假阴性源于elaborator强制重写。

论文 ProofNet MiniF2F DeepSeek V4-Pro Lean 自动形式化

推荐理由：这篇论文用信号覆盖矩阵把自动形式化的错误拆成类型和语义两类，告诉你每个方法的增益到底来自哪，而不是只看总分。

原文

10:06

arXiv: DeepSeek@Yanglin Yan, Zicheng Xie, Tianchen Gao, Rui Pan, Hansheng Wang

本文提出一种基于LLM的语义对齐框架，将期刊推荐转化为稿件内容与期刊范围描述的语义匹配问题。该框架无需任务特定训练，可直接利用LLM从标题、摘要、关键词和候选期刊信息中推断适合性。实验使用DeepSeek-V3在49个统计及相关领域期刊的23,609篇文章上进行，Top-3、Top-5和Top-10准确率分别为40.23%、53.67%和70.05%。加入参考文献信息普遍提升推荐性能，重复运行的平均Top-5 Jaccard相似度达84%，且框架能生成可解释的推理输出。

论文 DeepSeek-V3 语义对齐期刊推荐学术信息

推荐理由：这篇论文用DeepSeek-V3搞期刊推荐，不用训练直接匹配，23,609篇文章上Top-5超53%，比传统方法更灵活还带解释。

原文

10:06

arXiv: DeepSeek@Avni Mittal

研究者将狼人杀游戏扩展为三方博弈，加入Jester角色，其获胜条件是被投票出局，与狼人和村民的效用函数完全相反。在GPT-4.1、DeepSeek-V3.1和Llama-3.3-70B上进行了60局测试，Jester胜率达60-70%，狼人胜率从未超过20%。GPT-4.1控制的狼人常在第一天投票出Jester，构成严格的自毁行为。自学习机制对DeepSeek和Llama有帮助，但对GPT-4.1有害，且成本落在村民而非狼人身上。只有DeepSeek学会了看起来可疑但不故意可疑的微妙策略，在自循环中获益最大。

论文 GPT-4.1 DeepSeek-V3.1 Llama-3.3-70B Jester 多智能体

推荐理由：这篇论文让AI玩三方狼人杀，发现GPT-4.1狼人总犯傻投票出Jester，而DeepSeek学会了装可疑又不露馅。想看看AI怎么玩心眼？读它。

原文

10:06

arXiv: DeepSeek@Lei Yu, Peng Wang, Jia Xu, Jingyuan Zhang, Xin Wang, Jiajia Ma, Li Yang, Changzhi Deng, Zenghua Wang, Fengjun Zhang

BashCoder-R1提出三阶段框架：连续预训练(CPT)专业化Bash范式、长思维链监督微调(L-CoT SFT)模拟风险意识推理、鲁棒性感知分组相对策略优化(R-GRPO)优化语法与鲁棒性。在包含952个真实任务(773单行,179多行)的BashBench基准上，单行/多行任务SyntaxPass达100.00%/94.97%，RobustPass达95.99%/79.33%，FullRate达90.04%/73.18%。相比最强基线DeepSeek-V3.2(推理)在FullRate上分别提升37.82%和20.18%。

AI模型 BashCoder-R1 BashBench DeepSeek 编程助手推理模型

推荐理由：BashCoder-R1用三阶段训练让AI写bash脚本更稳更可解释，在BashBench上比DeepSeek-V3.2完整率高出一大截。

原文

09:45

09:45IT之家（博客/媒体）

中国移动在集团层面设立 Token 办公室，由核心领导直接挂帅，战略发展部总经理任常务副主任，级别高于算力办。其目的是拉通“创造 Token、输送 Token、应用 Token”全流程，整合算力办、移动云公司、数智事业部等多个部门。此前中国移动于今年 5 月上线词元（Token）套餐，最低 5 元月包，并已与云电脑、云手机等产品融合。在 MWC26 上海大会上，中国移动提出“移动智能”战略方向，探索 AI 手机、AI 眼镜等新形态。

行业中国移动 Token办公室词元套餐 AI战略

推荐理由：中国移动成立 Token 办公室，由集团高管直接负责，体现对 AI 算力和 Token 业务的重视，与之前上线的 5 元 Token 套餐配套推进

原文

09:45

Yangyi@Yangyixxxx

NewMax客户端v1.1.0版本正式发布，完成品牌升级从牛马AI改名NewMax。新版本支持完全离线及断网运行，数据端到端加密存储，区别于Claude Desktop和Codex。该版本新增自动化任务编排，可自动拆解指令调用本地应用如剪映、Photoshop。支持多模型自定义调用、多Cookie浏览器操作及联动钉钉、微信等国内IM工具。

AI产品 NewMax Claude Desktop Codex 本地化自动化工作流

推荐理由：NewMax客户端v1.1.0主打本地隐私安全，能离线运行，还能自动调用本地App做任务，比Claude Desktop多了一大堆实用功能，适合自媒体和办公党。

原文

09:39

09:39IT之家（博客/媒体）

精选78°

澳大利亚云服务商 Firmus 宣布在印尼峇淡建设一座 360MW 的 AI 工厂，采用 NVIDIA DSX 液冷方案。该工厂由 Firmus 与 DayOne 合作开发，电力容量达 360MW。根据与 NVIDIA 至 2034 年的战略合作，NVIDIA 将在明后两年交付 Grace Blackwell、Vera Rubin、Vera 等多代算力硬件，总计 17 万颗 GPU。Firmus 预计前六年从已承诺承购协议中获得 250~300 亿美元收入。NVIDIA 还是 Firmus 今年四月股权融资的有条件参与方。

行业 NVIDIA Firmus AI工厂 Grace Blackwell Vera Rubin

推荐理由：想了解超大规模 AI 数据中心怎么建？Firmus 联手 NVIDIA 在印尼搞了个 360MW 的大项目，17 万颗 GPU，仅硬件收入就有 300 亿美元，值得一读。

原文

09:15

shao__meng@shao__meng

精选

Boris Cherny 基于 Claude Code 团队经验，提出未来产品团队的五种角色原型：Prototyper（原型师）、Builder（构建者）、Sweeper（优化清理者）、Grower（增长者）、Maintainer（维护者）。他指出角色与岗位头衔无关，多数人横跨 2-3 个角色。产品阶段决定角色配比：新/未达 PMF 需 1+2+3，增长期需 2+3+4+少量 5，成熟期需 3+4+5+少量 2。这一框架强调从职能分工转向价值流分工，团队健康度取决于角色配比与阶段匹配度。

行业 Claude Code Boris Cherny Anthropic 团队角色产品团队

推荐理由：Boris Cherny 分享了 Claude Code 团队的经验，把未来团队分成五种角色，帮你重新思考招人和分工，比传统职能划分更实用。

原文

08:18

08:18IT之家（博客/媒体）

惠普与 OpenAI 达成战略合作，将在全球业务中全面部署 OpenAI Frontier 平台，用于提升客户体验和优化内部运营。OpenAI 于 2025 年 2 月推出 Frontier，帮助企业构建和管理 AI 智能体。惠普、Intuit、Oracle、State Farm、Thermo Fisher 和 Uber 是首批采用 Frontier 的公司。Frontier 支持与现有数据和应用集成，无需重新部署，智能体可通过多种界面访问。

行业惠普 OpenAI Frontier 智能体企业合作

推荐理由：惠普和 OpenAI 联手，把 Frontier 智能体平台铺到全球业务里，帮你理解企业级 AI 怎么落地。

原文

08:16

Harrison Chase@hwchase17

LangSmith 推出 Harbor 功能，用于在沙箱环境中运行评估（evals）。Harbor 支持需要隔离的评估任务。自托管沙箱即将上线。该功能回应了用户对 LangSmith 沙箱自托管的询问。

AI产品 LangSmith Harbor 沙箱评估

推荐理由：想跑沙箱评估？LangSmith 的 Harbor 帮你搞定，还能自托管。

原文

08:15

AK@_akhaliq

DiffusionBench是一个专门针对扩散变换器（Diffusion Transformers）的全面评估基准。它涵盖了生成质量、推理效率、模型鲁棒性等多个关键维度。该基准基于ImageNet等公开数据集提供了标准化测试协议。它为不同扩散变换器架构的性能比较建立了统一框架。

AI模型 DiffusionBench 扩散变换器评估基准图像生成

推荐理由：想了解不同扩散变换器到底谁更强？试试这个新基准DiffusionBench，评估维度很全，结果很直观。

原文

08:04

08:04IT之家（博客/媒体）

我国开源生态版图扩容，新增人工智能、具身智能等7个前沿方向。2025年国内活跃开源项目突破425万个，活跃开发者达263万。GitHub平台中国活跃开发者超210万，全球第三；计入国内平台后整体开发者规模超350万，全球第二。中国OpenRank贡献度254,963，全球第二，预计7年后将超越美国成为第一。

行业具身智能开源生态中国开发者 OpenRank RISC-V

推荐理由：我国开源生态又扩容了，新增具身智能等7个项目，开发者超350万全球第二，OpenRank贡献度7年后可能超越美国，看看细节！

原文

08:03

08:03OpenAI Blog（博客/媒体）

HP Inc. 与 OpenAI 扩大 Frontier 合作伙伴关系，将 AI 部署到客户体验、软件开发和企业运营。合作将利用 OpenAI 的模型优化 HP 内部流程，并推出面向客户的新 AI 服务。HP 计划在 2025 年通过此合作实现 AI 驱动的效率提升和业务增长。

行业 HP Inc.OpenAI Frontier 企业AI 战略合作

推荐理由：惠普和 OpenAI 联手，把 AI 放进客户服务、编程和公司运营里，大规模落地很实在。

原文

07:51

elvis@omarsar0

精选

剑桥大学提出 Red Queen Gödel Machine，通过让智能体与评估器共同进化来解决自我改进停滞问题。传统自改进循环中智能体学会欺骗固定评估器，导致奖励黑客。新方法让评估器的难度随智能体能力提升而增加，保持循环持续有效。论文编号 arxiv.org/abs/2606.26294。

论文 Red Queen Gödel Machine Cambridge 智能体自我改进评估器

推荐理由：做智能体自循环的该看看这篇，剑桥让评估器和智能体一起进化，避免奖励黑客，思路很直接。

原文

07:15

07:15IT之家（博客/媒体）

据《The Information》援引知情人士消息，百度旗下AI芯片子公司昆仑芯（Kunlunxin）计划在香港上市，目标估值约500亿美元（约合3405.58亿元人民币）。部分投资者被要求认购相当于申购金额3-7倍的芯片产品才能参与IPO。腾讯已成为昆仑芯的客户，字节跳动也被传正考虑采用其AI芯片。昆仑芯最初于2012年作为百度内部AI芯片部门成立，后独立运营，百度仍为控股股东。

行业昆仑芯百度腾讯 AI芯片香港上市

推荐理由：昆仑芯是百度孵化的AI芯片公司，现在计划IPO估值500亿美元，腾讯已经是客户了，想了解芯片行业动态的可以看看。

原文

07:15

Richard Socher@RichardSocher

论文 The Eureka Machine Recursive_SI Geoffrey Hinton Adam Brown AI for science

推荐理由：Richard Socher的新书讲怎么用AI造发明机器，覆盖多个科学领域，Hinton还推荐了Adam Brown的讲座。

原文

07:09

07:09IT之家（博客/媒体）

72°

AI芯片需求爆发使台积电3nm产能接近饱和，每月17.5万片晶圆仍供不应求。苹果为避开AI企业对2nm的争夺，计划于2028年在A22 Pro芯片上转向1.4nm制程。台积电2nm晶圆每片约4.5万美元，成本高昂但苹果愿意承担。A19 Pro相比A18系列面积缩小10%且性能能效更优，A20 Pro封装尺寸预计与A19 Pro一致。苹果2025年iPhone出货超2.4亿部，仍无法抗衡AI企业的采购量。

行业苹果台积电 2nm 1.4nm A22 Pro 先进制程

推荐理由：苹果为了不被AI芯片订单挤兑，直接跳级到1.4nm制程，2028年A22 Pro先用上，成本虽高但能抢到先机。

原文

07:03

GitHub@github

精选

GitHub 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hill 五个基准上对 Copilot agentic harness 进行了对比测试。固定模型和任务后，任务解决率与模型原生 harness 持平。在大多数配置下 token 消耗更少，最高可省 30%。Copilot 支持超过 20 个模型，用户可针对任务自由切换效率或质量。

AI产品 GitHub Copilot SWE-bench 编程助手智能体

推荐理由：GitHub 实测了 Copilot 智能体框架，五个基准上不输原生，还省 token，支持 20 多种模型，值得试试。

原文

06:46

06:46Simon Willison’s Weblog（博客/媒体）

Jon Udell 反对“人类在环中”的说法，认为这拱手交出了主动权。他主张“人类代理在环中”，即由人类主导流程，邀请 LLM 代理加入团队。他以“Doctor, it hurts when agents create unreviewable PRs”为例，强调代理不该成为产生不可审查代码的黑箱。核心是让代理辅助而非替代人类的判断与工作流。

技巧 Jon Udell 智能体编程助手 LLMs

推荐理由：Jon Udell 换了个角度聊 AI 工作流：别让代理做黑箱，让它们当团队助手，人类还是舵手。

原文

06:45

Clement Delangue@ClementDelangue

DeepSeek 推出加速模型集合，其中 Gemma-4-12B 可能包含视觉能力。该模型在其 12B 参数量级别中，本地运行性能显著优于同类竞品。该集合未包含 Qwen 3.5，推测因 DeepSeek 未采用线性注意力机制。

AI模型 DeepSeek Gemma-4-12B 加速模型本地模型视觉

推荐理由：DeepSeek 把 Gemma-4-12B 加速了，还带视觉，本地跑起来应该是同尺寸里最强的之一。

原文

06:36

宝玉@dotey

精选

Anthropic 上周推出 Claude Tag 的 beta 版，面向 Claude Team 和 Enterprise 用户。它允许用户在 Slack 频道中 @ Claude，后台自动拆解任务并回复结果。Andrej Karpathy 将其视为 LLM 交互的第三次重大重新设计（从网页到桌面 App 再到异步持久实体）。Gergely Orosz 指出核心不是 Slack，而是云端 AI 连接内部系统后开箱即用。他认为真正受益的是新员工、非工程师和不熟悉代码库的开发者，而集成难度是最大挑战。

AI产品 Claude Anthropic Slack 智能体编程助手

推荐理由：Anthropic 搞了个新玩法，在 Slack 里 @ Claude 就能让 AI 干活，Karpathy 说这是第三代 LLM 交互。你可以看看它是怎么改变团队协作的。

原文

06:36

宝玉@dotey

精选

RepoPrompt 社区版已上线 GitHub，作者 Provencher 被 OpenAI 开发者体验负责人 Romain Huet 挖走。该工具帮开发者从代码仓库中精选文件拼成 prompt，解决超 32K token 导致模型变笨的痛点。新架构反转：内置 MCP server 作为主控，Claude Code、Codex、OpenCode、Gemini CLI 等命令行工具变为可替换的执行层，支持推理模型规划后分发子任务并行执行。目前仅支持 macOS，可通过 Homebrew 安装（brew install --cask repoprompt-ce）。

AI产品 RepoPrompt OpenAI MCP 上下文工程编程助手

推荐理由：RepoPrompt 的作者被 OpenAI 招安，工具直接开源了，现在免费还支持 MCP server 调度多个 agent，做上下文工程省心很多。

原文

06:18

Gary Marcus@GaryMarcus

GLM 5.2 被称作开源界的 Claude 时刻，在 Databricks 平台上需求惊人。Yuchen Jin 指出，该模型遵循已知公式，导致技术壁垒消失、市场趋同、价格战开始，利润率趋小或为负。越来越多公司将转向基于开源模型进行后训练并拥有权重。GaryMarcus 认为这是其三年来论证的无技术护城河、价格战、低利润率趋势的最终体现。

AI模型 GLM 开源模型价格战 Databricks AI市场

推荐理由：GLM 5.2 开源版火了，Databricks 上抢着用，价格战要来了，想用低成本模型得看看这个趋势。

原文

05:15

Lenny Rachitsky@lennysan

OpenAI的Codex桌面应用自2月以来使用量增长6倍，周活跃用户突破500万。几乎100%的OpenAI员工（不仅工程师）日常使用Codex。负责人Andrew Ambrosino认为AI在设计方面表现糟糕，产品品味才是核心竞争力。他指出如果Codex在11月而非2月发布，很可能失败——同一产品，仅模型不同。

行业 OpenAI Codex 产品设计 AI应用

推荐理由：OpenAI Codex用户量翻了6倍，500万人周活！负责人聊AI为什么做不好设计，以及他们怎么用品味做产品。

原文

05:15

HeyGen@HeyGen_Official

HeyGen 使用其 HyperFrames 产品为 aiDotEngineer World Fair 制作了官方开场视频。该视频展示了 HyperFrames 在视频生成方面的能力。HeyGen 团队将在活动现场设展位，并参与演讲交流。此次活动聚焦 AI 工程师领域的前沿技术。

AI产品 HeyGen HyperFrames aiDotEngineer World Fair 视频生成

推荐理由：看看 HeyGen 用 HyperFrames 做的现场开场视频，效果不错，团队还会去现场演示。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。