全部 AI 动态 · AI 热点

6月19日

09:53

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文使用Qwen2.5-7B-Instruct对比了零样本、仅SFT、仅RAG和SFT+RAG混合四种方法在安大略住宅租赁法条文引用上的效果。混合方法以0.481精确匹配（节+条）取得最高分，且将幻觉降至零。SFT提升了高召回候选集中条款选择的鲁棒性，而仅用bge-small嵌入就超越了更大专用检索模型。扩大训练集未带来提升，0.70目标尚未达到。

推荐理由：这篇论文用Qwen2.5-7B做了个四路对比，发现微调加检索混合方案在法条引用上精确匹配0.481还零幻觉，比纯微调或纯检索都强，而且用轻量bge-small就够用。

原文

09:52

arXiv cs.LG@Mathieu Laurière, Ariel Neufeld, Kyunghyun Park

该论文提出一种鲁棒Q-learning算法，用于离散时间平均场控制问题，处理公共噪声规律中的Wasserstein不确定性。算法结合量化投影方案和Wasserstein对偶重构，并证明了同步和异步学习方案的收敛性及有限时间迭代界。在系统性风险和流行病模型上的数值实验比较了异步实现与理想Bellman迭代，展示了在公共噪声误指定下的鲁棒性-性能权衡。

论文 Q-learning Wasserstein不确定性平均场控制鲁棒强化学习论文

推荐理由：这篇论文给了一个能应对不确定性干扰的Q-learning方法，在系统和疫情模型上都试过了，效果不错。

原文

09:50

arXiv cs.LG@María Gragera Garcés, Lirandë Pira

精选

该论文提出量子环全归约（quantum ring all-reduce），利用预共享纠缠和超密编码，将逐链路在线通信量降低至最优因子2倍。协议通过验证纠缠实现可组合的ε安全聚合，仅需2倍GHZ副本开销，提供经典协议无法实现的信息论隐私。在梯度冲突检测中，对于GapIP_τ问题，量子优势在边际参数上呈二次方改进：需Õ(τ⁻¹ log P)量子比特 vs Õ(min(τ⁻², P))经典比特。对于TieAudit_ε问题，量子优势呈指数级分离：仅需O(ε⁻² log P)量子比特，而经典需Ω(√P)比特。

论文 ring all-reduce 量子通信分布式训练隐私聚合梯度冲突检测

推荐理由：这篇论文讲怎么用量子通信让分布式训练既省带宽又有信息论隐私保护，比经典协议通信量减半，梯度检测上还有指数级优势。

原文

09:49

arXiv cs.LG@Paul Collart, Juergen Gall, Andrea Schnepf, Holger Pagel, Lars Doorenbos

该研究提出了首个混合建模框架，从DNA测序数据推断的宏基因组功能特征中推导过程型土壤有机质周转模型的生物动力学参数值。该框架使用神经网络将基因组性状数据映射到生物动力学参数，并整合生态理论和文献约束以确保行为真实。在合成数据和真实数据上的评估表明，该方法在小训练集条件下仍能有效学习不可观测组分的动态，性能优于多个基线模型。

论文混合建模宏基因组土壤微生物有机质周转生态约束

推荐理由：这篇论文提出了一个新方法，用神经网络从宏基因组数据预测土壤微生物参数，还能在小样本下保持准确，搞生态模拟或AI交叉的可以看看。

原文

09:48

arXiv cs.LG@Xiang Rao, Yuxuan Shen

精选

研究者提出QCPIKAN，这是首个量子-经典物理信息Kolmogorov-Arnold网络，采用Chebyshev多项式KAN层和参数化量子电路。理论证明该设计能使高频误差以指数率收敛，并有效抑制数值色散。在三种典型渗流场景（单相流、组分输送、两相流）中验证。相比现有量子-经典物理信息神经网络，QCPIKAN在全局预测精度、局部误差控制、动态演化跟踪和位移前沿定位上表现更优。

AI模型 QCPIKAN KAN 量子经典混合物理驱动网络 PDE求解

推荐理由：这篇论文发布了QCPIKAN，首个混合量子经典PDE求解器，用Chebyshev KAN层加速收敛，渗流模拟精度远超市面同类。

原文

09:47

arXiv cs.LG@Valentin Abadie, Clemens Hutter, Helmut Bölcskei

本文证明：对于 [-1,1] 上的任意连续函数，存在一个固定的 ReLU RNN（隐层维度固定、权重固定），通过延长运行时间即可实现一致逼近。核心创新在于引入中间模型 TMNU（Turing machine with neural units），它保留了实现多项式逼近方案的算法自由度，同时能被隐维度和权重大小有明确上界的 RNN 模拟。得到的收敛速率与底层多项式逼近率对应。本文还给出了极小极大下界，证明运行时间是该固定网络逼近范式中不可避免的资源。

论文 RNN Recurrent Neural Networks 逼近定理 TMNU 连续函数

推荐理由：这篇论文很硬核：用一个固定 RNN 就能逼近任意连续函数，运行越长越准，像图灵机一样。

原文

09:47

arXiv cs.LG@Xiaoran Liu, Istvan David

论文提出基于模型驱动的方法，通过混合遗传算法（结合全局搜索和启发式局部搜索）自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换，由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习（依赖环境家族的学习范式）中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低，提升了可扩展性。

论文强化学习模型驱动课程学习环境家族遗传算法

推荐理由：这篇论文提出用模型驱动和遗传算法自动生成RL环境变体，省去手写大量相似环境的麻烦，野火场景验证过，做课程学习的可以看看。

原文

09:46

arXiv cs.LG@Itay Lavie, Noam Levi, Yonatan Kahn

本文从物理学视角分析了深度学习训练与泛化的统计特性，指出其打破了经典统计学的多项直觉。重点讨论了神经缩放定律（neural scaling laws）及其与约束、归纳偏置的相互作用。文章还回顾了构建深度学习模型时的多种选择及其合理性。

论文深度学习神经缩放定律统计特性物理学视角

推荐理由：这篇论文从物理学角度拆解深度学习的统计特性，解释了神经缩放定律如何打破经典统计直觉，做研究的值得看看。

原文

09:45

arXiv cs.LG@Philipp Kern, László Antal, Erika Ábráham, Carsten Sinz

SLiR是一种新的神经网络验证方法，仅需Lipschitz常数或临界点即可为任意激活函数生成线性松弛。该方法通过参数化斜率和移位过程确保上界和下界的正确性。实验表明，在多种实际激活函数上，SLiR生成的松弛更紧，可验证的属性数量比现有方法最多提升7.8倍。

论文 SLiR 神经网络验证激活函数线性松弛 Lipschitz常数

推荐理由：SLiR让验证任意激活函数变得简单，比现有方法多验证近8倍属性，做神经网络安全的可以看看。

原文

09:44

arXiv cs.LG@Luke J. Zachmann, David D. Diaz, Vincent A. Landau, Chelsey Walden-Schreiner, Tony Chang, Nathan E. Rutenbeck, Katharyn A. Duffy, Kiarie Ndegwa, Andreas Gros, Scott Conway, Guy Bayes

VibrantForests框架融合国家森林清查、机载激光雷达和卫星图像，以10米分辨率生成美国本土全区域的森林结构属性图。该模型同时估计冠层覆盖、冠层高度、地上活树生物量、断面积和二次平均直径五项指标。模型扩展了常见被动传感器模型的饱和范围，并减少了回归均值行为（稀疏条件下高估、密集条件下低估）。该框架能以年度节奏提供连贯的全区域森林管理相关属性估计。

论文 VibrantForests 激光雷达卫星图像森林制图计算机视觉

推荐理由：VibrantForests搞了个新框架，用卫星和激光雷达做出全美10米分辨率森林地图，比老模型更准，不饱和不回归均值。

原文

09:42

arXiv cs.LG@Federica Filippini

许多计算与网络系统的决策问题可转化为带性能约束的成本最小化问题。传统强化学习（RL）通过加权惩罚将成本和约束违规合并为标量奖励，但权重需手动调整。本文提出MAMO（多智能体多目标约束优化系统），利用多智能体RL将奖励权重选择作为学习问题。MAMO将任务执行与目标设计解耦，为动态环境中约束优化问题的自主RL方案迈出第一步。

论文 MAMO 多智能体强化学习约束优化

推荐理由：这篇论文提出MAMO，用多智能体RL自动调权重，解决约束优化中手动调参难题。

原文

09:42

arXiv cs.LG@Md Moman Ul Haque Khan, Samira Sadaoui

该论文从理论上分析了概念漂移的特征，并分类讨论了多种漂移检测算法。在合成和真实数据集上评估了这些算法在不同漂移场景（如突变和渐变）下的性能。研究旨在加深对概念漂移行为及检测器适用性的理解。

论文概念漂移机器学习流数据检测算法论文

推荐理由：这篇论文系统梳理了概念漂移检测算法，并用合成和真实数据测试了它们在突变和渐变场景下的表现，适合做这一方向基础研究的人参考。

原文

09:41

arXiv cs.LG@Ziheng Wei, Annie Qu, Rui Miao

离线强化学习中，即时奖励常因记录稀疏或审查而缺失，导致评估偏差。本文聚焦奖励缺失非随机(MNAR)场景，在有限时域MDP下研究离线策略评估(OPE)。作者利用未来状态作为影子变量，结合奖励依赖倾向模型辨识全数据条件均值奖励。进一步引入桥函数并通过min-max估计避免双重采样，提出Fitted-Q-Evaluation风格估计器。在模拟数据和MIMIC-III Sepsis数据上，该方法在误差和一致性上优于现有基线。

论文 OPE MNAR MDP 缺失数据离线强化学习

推荐理由：想处理真实场景奖励缺失的强化学习玩家可以看这篇，用影子变量和桥函数解决偏差问题，实验比传统方法稳。

原文

09:40

arXiv cs.LG@Jian Xu, Delu Zeng, John Paisley, Qibin Zhao

该论文指出量子视觉Transformer和量子卷积网络有两个未解释现象：纠缠更多的ansatz泛化更好，注入量子噪声可提升测试准确率。作者通过量子核视觉模型证明两者由有效维度d_eff控制，去极化噪声使d_eff收缩至1，振幅阻尼在倒U型区间提升准确率最高+13%。论文提供了容量/对齐风险分解，将两个孤立现象统一为可测量原则。

论文 quantum kernel effective dimension 量子视觉泛化理论量子噪声

推荐理由：这篇论文把量子视觉模型里两个反直觉现象（纠缠越多越好、加噪声反而更好）归结成一个可测量的有效维度，你读完就能抓住设计关键。

原文

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

原文

09:37

arXiv: OpenAI@Jose Manuel Suarez, Luis Mariano Bibbo, Joaquin Bogado, Alenandro Fernandez

论文提出一种结合大语言模型与检索增强生成（RAG）的混合方法，自动迁移Qiskit代码版本。该方法利用自动生成的迁移场景分类作为结构化的版本特定知识源。实验评估了Google Gemini Flash-2.5和OpenAI Gpt-oss-20b两种模型，在限制性检索方案下显著减少幻觉，提升描述质量。Google Gemini Flash-2.5在检测复杂重构场景中表现更优。研究证实了数据驱动方法在量子软件工程中的潜力。

论文 Qiskit 代码迁移 RAG Google Gemini Flash-2.5 量子软件工程

推荐理由：量子开发者福音！用LLM+RAG自动搞定Qiskit代码跨版本迁移，减少手动返工。Google Gemini Flash-2.5效果最佳，值得看看。

原文

09:37

arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G

REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准，覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴，包括领域、格式、难度等。评估了五个检测器（Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6）在1,000条记录上的表现，发现基于规则的检测器在高风险数据上表现较差（HIGH敏感类别召回率0.07），而LLM检测器更鲁棒。该基准还提供了实体级元数据（披露状态、披露形式、GDPR敏感等级）以支持分层评估。

论文 REDACT PII检测多语言基准实体识别 LLM评估

推荐理由：这个基准提供了具体的数据和评估，能帮你了解不同检测器在处理多语言PII时的真实表现差异。

原文

09:36

arXiv: OpenAI@Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola

IHBench评估语音助手在10个企业领域中断后的恢复能力，包含6种中断类型。27个音频语言模型配置来自OpenAI、Google和开源社区。闭源模型在任务完成度上显著优于开源模型，长对话中性能下降慢约3.3倍，且无音频-文本模态差距。人类研究验证了LLM评判的可靠性，交叉分析显示恢复质量是独立能力维度。

论文 IHBench OpenAI Google 语音助手基准测试

推荐理由：想测语音助手被用户打断后能不能接好活？IHBench专门看这个，比谁恢复得自然、不错步骤。闭源模型比开源稳太多了。

原文

09:35

arXiv: DeepSeek@Shi Chen, Rongcun Wang, Yuan Tian, Xiaoyuan Xie, Wei Song, Rubing Huang

该论文提出了SolidityBench，包含5,470个存储库级Solidity智能合约及其自然语言描述。同时提出SolidityScore，一种关注安全性修饰符、合约声明等域关键结构的语义度量。研究评估了Qwen2.5-Coder、DeepSeek-Coder和CodeLlama等模型在零样本、思维链、上下文学习、检索增强生成和监督微调五种方法上的表现。结果显示，通用模型在存储库级Solidity生成中存在结构性缺陷；在非参数方法中，检索增强生成效果最佳，而上下文学习在超过两个示例后因上下文饱和而性能下降；监督微调通过将Solidity特定约束内化到模型参数中实现了最大改进。

论文 Solidity SolidityBench SolidityScore Qwen2.5-Coder DeepSeek-Coder CodeLlama 智能合约代码生成

推荐理由：这篇论文为Solidity智能合约代码生成建了个新基准（5470个合约）和专用评分指标，测试了多个主流代码模型的各种方法，结论明确：靠谱的领域数据+微调最管用。

原文

09:34

arXiv: DeepSeek@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo

精选71°

长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下，仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义，仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示，相比RDMA基线，SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

论文 SAC CXL KV缓存稀疏注意力 DeepSeek-V3.2

推荐理由：长上下文推理，内存传输是瓶颈。新方案SAC用CXL按需取KV缓存，比RDMA吞吐量翻倍、延迟降到十分之一，做稀疏推理的值得一看。

原文

09:33

arXiv: DeepSeek@Gregory Matsnev

该论文提出一种基于提示的不确定性分解方法，将动作置信度与请求不确定性分离，使智能体在任务规格模糊时主动请求澄清。作者引入WebShop-Clarification和ALFWorld-Clarification两个基准，其中50%任务故意模糊。在GPT-5.1、DeepSeek-v3.2-exp、GLM-4.7、Qwen3.5-35B、GPT-OSS-120B五个大模型上测试，该方法在ALFWorld-Clarification上的澄清F1比ReAct+UE提升73%，比UAM提升36%。

论文 GPT-5.1 DeepSeek-v3.2-exp GLM-4.7 Qwen3.5-35B 智能体

推荐理由：这篇论文给出了一个简单实用的方法，让智能体在任务模糊时主动提问，而非盲目执行。五个大模型上都有提升，值得做Agent的同学看看。

原文

09:32

Claude Code: GitHub Releases@ashwin-ant

Claude Code v2.1.183 在安全方面改进了自动模式，现在会阻止未授权的 git reset --hard、git checkout -- .、git clean -fd、git stash drop 等破坏性命令，以及非本会话 agent 创建的 git commit --amend。此外，terraform destroy、pulumi destroy、cdk destroy 也会被阻止，除非你明确指定 stack。此版本还新增了 /config --help 命令、attribution.sessionUrl 设置，并修复了多个 bug，包括终端 TUI 在 Windows Terminal 下崩溃、子 agent 中 WebSearch 返回空结果，以及模型仅返回思考块时静默完成的问题。

AI产品 Claude Code Anthropic 编程助手安全改进命令阻止

推荐理由：用 Claude Code 编程的赶紧更新，这次改了安全策略，git 破坏命令被自动挡，防止手滑。还修了一大堆 bug，体验更稳。

原文

09:32

09:32IT之家（博客/媒体）

73°

科技公司正从鼓励员工无限制使用AI（tokenmaxxing）转向严格限制（tokenminimizing）。Uber在四个月内花光2026年全年AI编码预算，被迫将人均月支出上限设为1500美元。沃尔玛限制内部AI助手，亚马逊取消AI使用排行榜。微软发现部分工程师个人每月token消耗高达2000美元，AT&T则限制员工使用GitHub Copilot。企业引入“AI网关”工具，将简单任务路由到廉价模型以控制成本。

行业 AT&T Meta Uber GitHub Copilot 企业AI治理

推荐理由：AT&T、Meta这些大公司发现AI账单太贵了，开始限制员工用量，Uber四个月就花完一年预算，连工程师一个人每月就要烧掉2000美元，该省省了。

原文

09:26

Yangyi@Yangyixxxx

精选

OpenAI Codex 桌面端推出 Record & Replay 功能，用户可在 macOS 上演示重复性操作，Codex 自动生成可复用的 Skill 文件。生成的 Skill 包含触发条件、输入、步骤和验证方式，支持检查和编辑。重放时只需告诉 Codex 应用的 Skill 并传入新参数，Codex 结合 Computer Use、浏览器和已连 plugin 完成任务。目前仅限 macOS，欧盟暂不可用，使用前需开启 Computer Use。

AI产品 OpenAI Codex macOS Computer Use 自动化

推荐理由：OpenAI Codex 新功能让你在 Mac 上演示一遍操作，它就能自动记录并重复执行，以后填单、发视频这类固定流程再不用手写了。

原文

09:25

Clement Delangue@ClementDelangue

AA-Briefcase基准测试评估模型在长期知识工作项目中的表现，任务成本差异达800倍。Claude Fable 5以1587 Elo领先，但平均任务成本31美元；Claude Opus 4.8得分1356，成本10.40美元。DeepSeek V4 Flash仅需约0.04美元，性价比最高。GLM-5.2得分1266，成本2.40美元，得分仅低Claude Opus 4.8不到90 Elo，成本不到其25%。

AI模型 Claude Fable 5 DeepSeek V4 Flash GLM-5.2 AA-Briefcase 推理模型

推荐理由：新基准AA-Briefcase测长期项目，Claude Fable 5最强但贵，DeepSeek V4 Flash极便宜，GLM-5.2性价比超赞。

原文

09:07

Aravind Srinivas@AravSrinivas

精选73°

Perplexity发布了Brain，一个持续学习的记忆系统，能构建包含所有会话、连接器和文件的上下文图。Brain会在夜间主动更新最新上下文，并自动接入Computer上的每个任务，使Computer具备状态化和自我改进能力。该功能以研究预览形式向所有Perplexity Max订阅者开放。

AI产品 Perplexity Brain Computer 上下文图记忆系统

推荐理由：Perplexity搞了个Brain，能给Computer自动建上下文图，让它记住之前的事，越用越聪明，Max用户快去试试。

原文

09:02

向阳乔木@vista8

开发者vista8开发了一个MCP连接器，让网页版ChatGPT能够读取本地文件。当Codex额度用光且无法重置时，可以通过此MCP继续使用ChatGPT进行开发，变相获得双倍Codex额度。安装命令为npm install -g @waishnav/devspace，需在ChatGPT设置中开启开发模式并添加MCP。此方法适用于GPT-5.5 Pro、xHigh等模型，也可用于审查其他本地编码代理写的代码。

技巧 MCP ChatGPT Codex 编程助手

推荐理由：vista8分享了一个小技巧，用MCP让ChatGPT网页版读取本地文件，Codex额度用完还能继续用，相当于白嫖双倍额度。

原文

08:58

Simon Willison@simonw

Simon Willison将Claude Artifacts的概念移植到Datasette中，使用户能创建HTML+JS应用并通过JSON API访问全功能关系数据库。该方式保留了Artifacts的交互能力，同时支持任意形状和大小的数据存储与查询。项目提供了一个可公开访问的示例，展示了与Datasette生态的深度整合。

技巧 Claude Artifacts Datasette JSON API 数据库工具

推荐理由：Simon把Claude Artifacts的交互思路搬到Datasette上，用JSON API操作数据库，做应用更方便了。

原文

08:29

@koltregaskes@koltregaskes

OpenAI推出新功能，但未支持Windows平台，也不向英国和欧盟用户开放。该功能似乎并非移动端特性。此前电脑端功能等待时间不长，用户期望此次也能尽快扩展覆盖。

行业 OpenAI 地区限制 Windows 英国欧盟

推荐理由：OpenAI又发新东西了，不过这次Windows用户、英国和欧盟的朋友先别激动，暂时用不了。看看吐槽。

原文

08:14

08:14Simon Willison’s Weblog（博客/媒体）

Datasette 团队发布新插件 datasette-apps，允许在 iframe 沙箱中运行自包含 HTML+JavaScript 应用。应用可通过 JavaScript 执行只读 SQL 查询，也可使用预存查询执行写操作。沙箱限制访问 cookies/localStorage 并注入 CSP 头，防止外发 HTTP 请求。该模式灵感来源于 Claude Artifacts 和作者此前构建的 HTML 工具集合。演示实例托管在 agent.datasette.io 上，需 GitHub 登录。

AI产品 Datasette datasette-apps 沙箱 SQLite 开源工具

推荐理由：Simon Willison 把 Claude Artifacts 的思路搬到了 Datasette 里，让你能在沙箱里跑自定义 HTML 应用，还能直接查 SQLite 数据库，写个内部工具特别方便。

原文

08:13

08:13Simon Willison’s Weblog（博客/媒体）

datasette-acl 0.6a0 发布，将权限控制从表级别扩展到通用资源共享系统。该版本由 Alex Garcia 主导开发，允许多用户 Datasette 实例对各类资源进行细粒度访问控制。0.6a0 是此扩展的首个 alpha 版本，为后续完善奠定基础。

AI产品 datasette-acl Datasette Alex Garcia 权限控制资源共享

推荐理由：如果你在用 Datasette 做多用户数据平台，这个插件更新能让权限管理精细很多，特别是 Alex Garcia 搞的资源共享系统，值得试试。

原文

08:05

HeyGen@HeyGen_Official

HeyGen 的 Hyperframes 多模态 AI 产品将于 6 月 24 日（周三）在东京涩谷举办首次线下活动。活动内容包括 HyperFrames 的现场演示、Q&A 环节，以及与多模态 AI 前沿开发者的交流。现场提供 AI 翻译服务，参会者无需担心语言障碍。

AI产品 Hyperframes HeyGen 东京多模态AI AI翻译

推荐理由：HeyGen 把 Hyperframes 带到东京了，6月24日涩谷能现场体验、跟开发者聊天，还有 AI 翻译，别错过。

原文

08:01

08:01IT之家（博客/媒体）

近日，商务部等8部门联合印发《关于加快“人工智能+消费”发展的实施意见》，提出5方面17条举措。政策重点扩大人工智能手机和电脑、智能家居、智能网联汽车、智能穿戴、人工智能机器人等产品消费。同时推动AI与养老、住宿餐饮等服务融合，并推进批发零售、物流配送等领域智能化。此外将建设“人工智能+消费”集聚区和体验中心，开展产品租赁共享等模式创新。商务部将会同相关部门落实政策，推动AI与消费深度融合。

行业人工智能消费智能网联汽车智能家居智能穿戴政策

推荐理由：国家出台新政策，八部门联合推动AI手机、智能汽车等产品消费，以后买这些可能有优惠或试点，值得关注。

原文

07:58

@LumaLabsAI@LumaLabsAI

Luma Labs 推出 Luma Skills，可将你的创意资产（如图像、3D 模型）转化为一个系统，生成数百个符合产品要求的概念。用户需在 Luma Agents 中上传创意 DNA 并构建 Skill，即可将其变为可重复的工作流。该功能适用于快速概念迭代或客户交付场景，支持从灵感直接进入制作阶段。

AI产品 Luma Labs Luma Skills Luma Agents 工作流创意生成

推荐理由：Luma Labs 的新技能，让你把创意资产变成反复用的工作流，一键生成几百个精准产品概念，适合快速出图或改稿。

原文

07:44

orange.ai@oran_ge

86°

OpenAI发现对齐大模型时存在涌现失调现象，即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质，仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明；在44个独立评测（未见过）中，欺骗、谄媚、有害建议等行为全面下降，即使只用健康数据训练，非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧，正常指令仍可听从。

论文 OpenAI RL 涌现失调对齐 AI安全

推荐理由：OpenAI这篇论文反直觉：用RL教模型做好事，坏行为自己就减少了。实验覆盖44个新场景，效果还抗攻击。值得一看。

原文

07:43

Cognition@cognition_labs

Cognition 宣布将安全审查集成到 Devin Review 中。每次开发者提交 PR 时，Devin 自动运行安全扫描，识别那些传统漏洞扫描器遗漏的安全问题。Devin 还会为每个漏洞提供详细解释，并自动生成修复代码。该功能旨在帮助团队在不增加额外工作量的情况下提升代码安全性。

AI产品 Devin Cognition 安全审查漏洞修复编程助手

推荐理由：Devin 现在能自动帮你审计 PR 里的安全漏洞，发现那些扫描器漏掉的，还直接给修复方案，省心。

原文

07:41

AWS Machine Learning Blog@Apoorva Chandra

精选

Amazon SageMaker AI 提供全托管实时推理，支持单模型端点（SME）和推理组件（IC）两种架构。通过 CloudWatch 详细指标和 Insights 仪表盘，用户可监控生成式 AI 推理的延迟、吞吐量等关键指标。该仪表盘支持自定义视图和异常检测，帮助快速定位性能瓶颈。SME 和 IC 端点均能集成此观测能力，适用于生产环境的调试与优化。

技巧 SageMaker CloudWatch 生成式 AI 推理监控与调试

推荐理由：AWS 教你用 CloudWatch 盯着 SageMaker 上的生成式 AI 推理，有详细指标和仪表盘，调性能抓问题都好使。

原文

07:31

elvis@omarsar0

/youtube-notetaker 是一个开源智能体技能，能从 YouTube 视频自动生成包含幻灯片、笔记和转录的 Artifacts。项目托管在 xgo.ing 平台，用户可自由定制。该技能通过单条命令 /youtube-notetaker 触发，捕获视频中的关键信息。目前已有 1405 次浏览和 24 次点赞，社区反响积极。

技巧 /youtube-notetaker YouTube Artifacts 智能体开源工具

推荐理由：想自动从 YouTube 视频提取重点？试试这个开源智能体 /youtube-notetaker，一键生成笔记、幻灯片和转录，还能自己改。

原文

07:11

OpenAI@OpenAI

OpenAI通过少量训练数据使模型在53项独立评估中的44项上取得改进，涵盖欺骗、奖励黑客、安全、健康、心理健康等领域。该表现优于计算匹配的基线模型。评估涉及多种领域、任务格式和评分方案。

论文 OpenAI 对齐 AI安全模型训练

推荐理由：OpenAI发现用一点额外数据就能让模型在超多对齐测试里变好，覆盖欺骗、安全、健康等方面，挺牛的。

原文

07:10

OpenAI@OpenAI

OpenAI在真实对话中训练模型，通过强化学习强化诚实、谦逊、开放纠正、公平和关怀人类福祉等特质。该训练覆盖健康、科学、教育等12个领域，旨在提升模型的对齐与安全性。方法基于RLHF改进，专注对话场景中的具体行为。

AI模型 OpenAI 强化学习 AI安全对齐模型训练

推荐理由：OpenAI训练模型时不止看能力，还用强化学习专门教它诚实、谦逊、愿意接受批评，覆盖12个领域，对AI安全性很有意义。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。