10:34arXiv cs.LG@Shengchao Zhao, Yongchao Liu论文提出VRA-FedSGD算法,针对联邦学习中重尾梯度噪声和通信噪声问题。该算法采用动量方差缩减配合非线性映射减轻重尾梯度噪声,并使用方差缩减聚合机制抑制重尾通信噪声。在非凸目标函数下,均方收敛率为O(K^{-(p-1)/(2p-1)}),其中p为尾指数;在强凸目标函数下,几乎必然收敛率为O~(K^{-(1-1/(p-ε))})。在逻辑回归问题上的仿真实验验证了算法有效性。论文VRA-FedSGD联邦学习方差缩减重尾噪声非凸优化推荐理由:这篇论文搞了个VRA-FedSGD,专门对付联邦学习里常见的重尾噪声,收敛速度有理论保证,实验也跑通了,值得看看。原文
10:33berryxia@berryxia百度开源的 Unlimited OCR 模型采用 R-SWA 注意力机制,支持 32K 上下文窗口,一次前向推理即可完成几十页文档的转录。其核心卖点是 One-Shot Long-Horizon Parsing,无需分页处理,KV Cache 大小恒定。技术报告提到该模型融合了来自 DeepSeek-OCR 的高压缩编码器,且部分核心贡献者与 DeepSeek 有渊源。AI模型Unlimited OCR百度R-SWAOCR开源模型6 个信源在谈推荐理由:百度搞了个挺牛的 OCR 模型,能一口气读几十页,不像以前那样一页一页循环。开源了,谁都能试试。原文
10:33arXiv cs.LG@Junshu Sun, Wanxing Chang, Qingming Huang, Shuhui Wang本文提出AdaR,一种自适应递归图模型,解决预训练图模型与固定架构不匹配问题。理论分析证明步骤依赖是自适应递归收敛的充要条件。AdaR通过编码归一化步骤信息和表示-目标关系实现自适应推理,并利用梯度监督信号确保递归收敛。在归纳和直推设置下,AdaR在多项图学习中优于现有强基线模型。AI模型AdaR图学习测试时计算自适应推理递归图模型推荐理由:AdaR让图模型在测试时自己调整推理步数,不用重新训练,效果比传统图神经网络好。原文
10:32arXiv cs.LG@Mathieu Delcluze, Léa Briand, Benjamin Chapus, Deniz Mekik, Guillaume Salha-GalvanDeezer在2025年部署了基于大型语言模型(LLM)的自动播放列表标注系统。该系统为Daily Mix功能生成自然语言描述,覆盖数百万用户。部署后用户参与度显著提升,表明语义描述如何影响用户对个性化推荐的感知。论文发表于arXiv,编号2606.22460v1。论文DeezerLLM播放列表生成推荐系统用户参与度推荐理由:Deezer用LLM给每日推荐写标题,百万用户真用上了,参与度还涨了——不是PPT,是上线产品。原文
10:24arXiv: OpenAI@Moran Koren该论文提出一种以验证为先的LLM辅助经济理论协议,并实例化为三种方法:单次严谨通道、对抗性验证器对(Claude Opus 4.8提议,OpenAI Codex反驳,作者仲裁)以及带评审门控的结构化多智能体项目。作者在一个开放示例——为Gans-Kominers等级膨胀模型设计Groves/Pigouvian激励相容机制——上评估该协议,三个运行均未产生严格直接揭示VCG/Clarke机制,对抗性通道自身证实了该点。结果揭示三个反复出现的现象:收敛发现、对抗验证的有效性、以及抛光不等于严谨。论文LLM经济理论验证协议多智能体Claude Opus10 个信源在谈推荐理由:这篇论文为你演示了如何用LLM做经济理论研究,重点不是让模型生成答案,而是设计验证流程来确保结果可靠,三种方法对比很清楚。原文
10:23Pandaily@contact@pandaily.com (Pandaily)72°Intel的CPU复苏、Broadcom的定制ASIC扩张以及云巨头自研芯片正重塑AI算力格局。这些挑战者试图从不同角度分食NVIDIA在AI训练和推理市场的份额。具体包括Intel的Xeon处理器提升AI性能,Broadcom为谷歌等客户设计的TPU持续迭代,以及亚马逊Trainium、谷歌TPU等云自研芯片逐步规模化。行业NVIDIAIntelBroadcomAI芯片算力竞争8 个信源在谈推荐理由:Intel、Broadcom和云巨头都在动NVIDIA的蛋糕,这篇梳理了各家具体动作,让你看清AI芯片战局。原文
10:22Pandaily@contact@pandaily.com (Pandaily)中国互联网巨头字节跳动、腾讯、京东健康和蚂蚁集团掀起新一轮AI医疗投资。这些公司利用人工智能技术推动智能诊断、健康管理及药物研发等应用落地。巨头们通过搭建AI医疗平台、孵化初创项目或整合自身数据资源,加速布局这一赛道。行业ByteDanceTencentJD HealthAnt GroupAI医疗2 个信源在谈推荐理由:四大互联网巨头一起往AI医疗里砸钱,字节腾讯京东蚂蚁全上了,想看看他们怎么抢这个市场可以读。原文
10:21Pandaily@contact@pandaily.com (Pandaily)精选AI芯片热设计功耗(TDP)已突破1000W,传统散热方案难以应对。人造金刚石因其2000W/(m·K)的超高导热率,成为最理想的散热材料。中国生产全球95%的人造金刚石,年产量超100亿克拉,有望主导AI芯片散热供应链。采用人造金刚石散热方案可使芯片温度降低15-20°C,显著提升性能与寿命。行业人造金刚石AI芯片散热技术中国制造推荐理由:中国的人造金刚石要火了!AI芯片功率超过1000W,全靠它散热,全球95%产量在中国,这波机会抓得住。原文
10:20pandaily@contact@pandaily.com (Pandaily)73°字节跳动与中兴努比亚联合发布第二代Doubao AI手机,主打隐私保护,通过强化设备端AI处理减少数据上传。新手机支持Agent-to-Agent协议,实现不同应用间的智能体协作。该手机将于本月正式上市,定位AI原生体验。AI产品Doubao AI phone字节跳动中兴努比亚智能体协作隐私保护1 个信源在谈推荐理由:字节和中兴搞的第二代AI手机,端侧处理隐私更放心,还能让不同App的智能体互相配合干活。原文
10:19pandaily@contact@pandaily.com (Pandaily)星动纪元(Star Dynasty)完成新一轮融资,金额超过40亿元人民币。这家由清华大学教授创办的人形机器人公司将产品部署到顺丰速运的物流中心。人形机器人将用于快递分拣和搬运,顺丰计划在多个省份的枢纽站投入使用。此次融资是2025年中国人形机器人领域单笔最大融资之一。行业星动纪元顺丰人形机器人融资清华推荐理由:清华系的人形机器人公司星动纪元融了40亿,还把机器人真用到了顺丰的物流中心,不是PPT,是实打实落地。原文
10:06IT之家(博客/媒体)字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本,Pro面向高复杂度任务,Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面,Pro模型推理输入6元/百万tokens(缓存命中1.2元),推理输出30元/百万tokens;Turbo模型推理输入3元/百万tokens(缓存命中0.6元),推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。AI模型豆包Seed 2.1字节跳动推理模型多模态智能体4 个信源在谈推荐理由:字节新出的豆包Seed 2.1 Pro和Turbo,专门优化编程、智能体和多模态任务,Pro适合高难度场景,Turbo便宜且效率高,很适合接项目用。原文
10:00IT之家(博客/媒体)74°Groq 去年底与英伟达签署 200 亿美元的 LPU 推理技术授权协议,部分团队加入英伟达。2026 年 6 月 22 日,Groq 宣布完成新一轮 6.5 亿美元融资,将转型为 AI 推理云服务供应商。目前其在全球运营 13 座数据中心,服务超 500 万开发者和数千家 AI 企业,Token 周消耗量以万亿计。Groq 计划到 2027 年底拥有 200MW 算力资源,部署最新推理技术和 NVIDIA LPX 系统。行业Groq英伟达LPUAI推理融资9 个信源在谈推荐理由:Groq 刚拿了 6.5 亿美元,转型做 AI 推理云,背后有英伟达的 LPU 技术和团队支持,目标是 2027 年搞定 200MW 算力。原文
09:48IT之家(博客/媒体)76°NVIDIA 宣布 Vera Rubin NVL4 平台将于 2026Q4 上市。该平台集成 4 颗 Rubin GPU 和 2 颗 Vera CPU,采用第六代 NVLink 协议和 NVLink-C2C 互连。与 Grace Hopper 相比,其科学计算模拟性能提升 4 倍,科学 AI 训练性能提升 6 倍,科学 AI 推理性能提升 8 倍。系统兼容液冷 NVIDIA MGX 模块化服务器,专为现代超级计算优化。AI产品NVIDIAVera RubinNVL4Grace Hopper超级计算4 个信源在谈推荐理由:NVIDIA 发了 Vera Rubin NVL4,2026 年底上市,科学计算比 Grace Hopper 快 4 倍,AI 训练快 6 倍,搞超算和 AI 的可以盯一下。原文
09:26IT之家(博客/媒体)Momenta 于 6 月 23 日披露港交所聆讯后资料集,将成为“物理 AI 第一股”。2023 年至 2025 年,其营收从 7.43 亿元增长至 24.13 亿元,年均复合增长率超 80%。截至 2025 年底,现金储备超百亿元。公司估值约 90 亿美元(约 610.82 亿元人民币),计划通过 IPO 募资约 10 亿美元(约 67.87 亿元人民币)。行业Momenta港交所自动驾驶IPO物理AI推荐理由:Momenta 要上市了,营收三年翻三倍,估值 90 亿美元,物理 AI 第一股即将登陆港交所。原文
09:23IT之家(博客/媒体)海尔空调负责人在新浪科技访谈中表示,新国标APF能效门槛提升加速低端产能出清,行业进入高能效、健康化、AI智能、全周期低碳四维综合竞争阶段。针对铜铝之争,海尔高端产品及卡萨帝全系坚持全铜配置,认可铝代铜在基础场景的适用性。他预判未来两年家用主动智能空调将全面普及,空调将从单一硬件进化为全屋空气中枢。此外,2026年空调市场整体销量稳步增长,老旧家电换新成为消费主力。行业海尔空调卡萨帝铜铝之争智能家居节能空调推荐理由:海尔空调聊行业趋势很实在:高端用全铜,未来两年空调会变身会思考的全屋空气中枢,不再只是制冷制热。原文
09:12IT之家(博客/媒体)高通据传正就收购 AI 芯片公司 Modular Inc. 开展深度洽谈,交易估值约 40 亿美元。9 个月前 Modular 在一轮融资中估值仅 16 亿美元,此次估值大幅跃升。Modular 成立于 2022 年,累计融资 3.8 亿美元,其中去年 9 月获 2.5 亿美元。高通正寻求扩展数据中心、自动驾驶芯片等新业务,以降低对手机市场的依赖。交易或于数周内官宣,但仍有破裂风险。行业高通ModularAI芯片收购估值推荐理由:高通要花 40 亿美元买 Modular,估值比 9 个月前翻了一倍多。想从手机芯片转型的巨头盯上 AI 芯片新秀,这盘子看着有戏。原文
09:03IT之家(博客/媒体)AMD通过26.6.2驱动正式为Radeon RX 7000系列显卡提供FSR超分辨率4.1支持,比原定7月提前。FSR 4.1在RX 7000上相较原生渲染提升帧率,画质优于FSR 3.1,帧率表现也超过FSR 4.0.2c社区MOD。AMD高级副总裁Jack Huynh表示正在为基于RDNA 3微架构的APU开发轻量级机器学习模型,以扩展FSR 4.1支持。当前验证覆盖RX 7600至7900XTX的数百种配置,RX 7500等更低端显卡效果待测试。AI产品AMDRadeon RX 7000FSR 4.1RDNA 3超分辨率推荐理由:AMD给RX 7000显卡推送官方FSR 4.1了,帧率和画质都更强,还预告核显要上轻量级模型。原文
08:42berryxia@berryxia成峰开源的剪辑Skills已有2000+ GitHub Star,接入Anthropic的Codex后实现从口播素材到成片的自动化。Agent通过/剪口播命令生成带字幕视频,再通过/口播成片命令生成HTML分镜核对页,用户可直接反馈修改。Codex使用Computer Use自动调整时间线,最终由HyperFrames合成MP4。该流程将视频生产从手动执行转为流程编排。技巧Codex剪辑Skills智能体视频生成10 个信源在谈推荐理由:用Codex加开源剪辑Skills,丢入口播素材和稿子,Agent直接帮你剪好带字幕的视频,还能自动做动画和分镜,省掉手动时间线操作。原文
08:23Simon Willison’s Weblog(博客/媒体)Charles Ye、Jasmine Cui和Dylan Hadfield-Menell的论文发现,LLM在区分角色标签(如<system>、<think>、<assistant>)与用户输入时,更关注文本的书写风格而非实际语义。通过将攻击文本“去风格化”(destyling)改写,使其看起来与特权文本格式不同,平均攻击成功率从61%骤降至10%。该研究表明,当前模型缺乏真正的角色感知,持续提示注入防御仍是难题。论文prompt injection角色混淆LLM安全论文解读推荐理由:这篇论文揭示了一个反直觉的发现:LLM会被文本的风格欺骗,而不是内容。研究者用简单的'去风格化'就能把攻击成功率从61%打到10%,对理解AI安全很有启发。原文
08:12Simon Willison’s Weblog(博客/媒体)Simon Willison在Hacker News发现Moebius 0.2B图像修复模型,声称拥有10B级性能,原本需PyTorch与CUDA。他决定利用Claude Code在终端辅助下,通过ONNX Runtime Web的WebGPU后端将该模型移植到浏览器中运行。最终成功制作出demo(地址simonw.github.io/moebius-web/),用户可上传图片、涂抹区域并一键修复。整个过程仅用数小时,且与Datasette项目并行开发。技巧MoebiusClaude CodeWebGPU图像修复浏览器推理推荐理由:Simon用Claude Code把0.2B参数的Moebius图像修复模型跑在浏览器里,无需显卡就能涂掉图片里的东西自动补全,挺酷的。原文
08:09IT之家(博客/媒体)谷歌 DeepMind 向独立电影公司 A24 投资 7500 万美元(约合 5.09 亿元人民币),双方将联合开发影视制作 AI 工具。DeepMind 称这是“业内首创”的合作模式,会吸纳创作者反馈。A24 出品过《瞬息全宇宙》《后室》等影片。DeepMind 联合创始人哈萨比斯表示与创作者直接协作能开发出更好的工具。行业谷歌 DeepMindA247500万美元影视AI工具合作推荐理由:谷歌砸 7500 万美元和拍《瞬息全宇宙》的 A24 一起搞 AI 拍电影,想知道会做出什么工具吗?原文
08:05berryxia@berryxia百度开源了Unlimited OCR模型,采用R-SWA(参考滑动窗口注意力)机制,一次前向推理即可处理32K上下文的文档,数十页PDF无需分块。与传统逐页处理的OCR不同,其KV Cache大小恒定,不随长度增长。模型灵感源于人类抄书行为,仅维护近128个状态。技术报告核心贡献者中,技术总监YY疑为DeepSeek前员工。AI模型Unlimited OCR百度DeepSeekR-SWA文档理解6 个信源在谈推荐理由:百度开源的Unlimited OCR能一口气读完几十页PDF,不用切块,快又准。技术总监YY可能是DeepSeek出走的,有意思。原文
07:54IT之家(博客/媒体)苹果iOS 27 Beta 2为钱包应用新增洞察功能,支持用户连接多个金融账户查看消费详情和余额。写作工具升级为Write with Siri,用户可通过自然语言指令生成、校对或改写文本。RCS对话增加行内回复功能,长按消息可针对性回复,同时图片视频表情回应改为叠加显示。Home应用支持远程更新Apple TV固件,AirPods Max 2恢复测试版固件安装。系统稳定性提升,修复Beta 1崩溃问题。AI产品iOS 27Apple WalletWrite with SiriRCSAirPods Max 2推荐理由:苹果iOS 27 Beta 2来了,钱包能管多账户支出,Siri帮你写东西,RCS也能行内回复了,值得试试。原文
07:51IT之家(博客/媒体)科技媒体 AppleInsider 测试了 iOS 27 照片应用中的 Extend 扩图工具,该工具基于 Apple 智能分析图片内容并补全外部区域。在测试小猫窗台照片时,iOS 27 补充了窗帘、枯植物和窗户等元素,生成效果自然。而在夜景照片中,扩图生成的路桩、立杆大体合理,但路牌背面形状异常。罗马苹果商店楼梯照片中,AI 补出了更多台阶和玻璃,但现实场景其实有门。罗马机场照片中,AI 扩图甚至生成了现实中不存在的悬浮卡车。AI产品iOS 27Apple 智能Extend工具AI扩图图像编辑推荐理由:苹果在 iOS 27 里加了一个 AI 扩图功能,能把照片边缘补全。实测补出来的画面挺自然,但别指望它还原真实场景——有些东西是瞎编的。原文
07:48IT之家(博客/媒体)三星电子推出UFS 5.0存储解决方案,最高带宽达10.8GB/s。连续读取速度10.8GB/s、写入速度9.5GB/s,均为上代UFS 4.1的两倍以上。能效提升超40%,体积缩小16.7%至7.5mm×13mm×0.9mm。产品将于2024年第四季度量产,提供最高1TB容量。其性能可加速端侧AI大语言模型运行,降低延迟。AI产品三星UFS 5.0端侧AI存储方案推荐理由:三星新UFS 5.0存储速度翻倍,读写达10.8GB/s和9.5GB/s,带宽提升两倍,功耗还降40%。端侧AI跑大模型更流畅,手机厂商的下一代旗舰有福了。原文
07:26IT之家(博客/媒体)Meta 已暂停名为“模型能力计划(MCI)”的 AI 训练项目,该项目记录员工键盘敲击和鼠标操作轨迹。因数据泄露,包含员工私人对话、工作绩效数据在内的敏感信息被意外开放给全体员工查看。这是 Meta 在 2025 年 6 月继 3 月 AI 智能体擅自操作、本月黑客利用 AI 客服劫持 Instagram 账号后的又一起安全事件。行业Meta数据泄露AI训练内部监控企业安全推荐理由:Meta 监控员工键盘鼠标的 AI 项目因数据泄露叫停了,之前还有两起AI安全事件,想了解来龙去脉可以看看。原文
07:23IT之家(博客/媒体)电商分析师尤奥扎斯·卡济乌凯纳斯透露,亚马逊已成为入驻 OpenAI 广告业务最知名的零售企业之一,在 ChatGPT 投放广告引导用户跳转至亚马逊店铺。但亚马逊不愿向 OpenAI 开放用户数据,并限制 AI 爬虫抓取商品、定价及库存数据。去年亚马逊停止向谷歌购物板块提供数据推送,今年还通过法院禁令阻止 Perplexity 抓取数据。这一策略暴露亚马逊 AI 战略的矛盾:既愿付费触达 ChatGPT 流量,又严防自家数据被 AI 系统使用。行业亚马逊ChatGPTOpenAI广告数据保护10 个信源在谈推荐理由:亚马逊一边在ChatGPT上投广告引流,一边封禁OpenAI的爬虫不让抓数据,这波操作有点意思,值得看看背后的博弈。原文
07:09IT之家(博客/媒体)Anthropic 于 6 月 17 日更新隐私政策,7 月 8 日生效,新增条款要求部分 Claude 用户在账号被标记时上传护照或驾照等政府签发证件,并采集自拍照片及人脸几何模板以验证年龄和身份。公司合作身份核验服务商 Persona(总部旧金山),数据留存时长未明确,参考 Roblox 核验后立即清除影像资料。该政策仅针对申诉流程优化,不影响 Fable、Mythos 产品上线。Anthropic 月活跃用户达数千万,但未披露触发核验的具体比例。行业AnthropicClaude身份核验隐私政策AI合规10 个信源在谈推荐理由:Anthropic 要让部分 Claude 用户上传证件核验身份了,还采集自拍和人脸数据。担心隐私的可以看看具体规则和合作方 Persona 的背景。原文
06:42Latent Space (swyx)(博客/媒体)Zico Kolter(OpenAI董事会成员)和Matt Fredrikson(Gray Swan CEO)在Latent Space播客中讨论了AI安全的独特性。他们强调,AI安全不是'网络安全加上AI',而是需要新的方法论。Gray Swan专注于AI安全测试,红队测试在部署前至关重要。该访谈深入剖析了当前AI安全的挑战与误区。行业OpenAIGray Swan红队测试AI安全10 个信源在谈推荐理由:想听两位大佬聊聊AI安全为什么不一样?Zico Kolter和Matt Fredrikson告诉你红队测试的真正作用。原文
06:40Claude Code: GitHub Releases@ashwin-ant精选Claude Code v2.1.186 新增了 `claude mcp login` 和 `claude mcp logout` 命令,支持从 CLI 认证 MCP 服务器。`/workflows` 代理详情视图新增状态过滤(按 f 键)。`/plugin Installed` 标签页增加了“Skills”部分。修复了机器从睡眠唤醒后流请求失败、子代理滚动位置污染主会话等问题。改进了内存管理,当 MEMORY.md 索引接近大小限制时会提醒代理进行压缩。AI产品Claude CodeAnthropicMCP/工具编程助手10 个信源在谈推荐理由:Claude Code 新版来了,能直接命令行登录 MCP 服务器,工作流视图加过滤,插件多了技能页,还修了一堆 bug,升级很值。原文
05:24LangChain@LangChainAIPatlytics 是一个专门为专利全生命周期设计的企业级法律AI平台。它使用LangSmith来编排从提示管理到工作流评估的端到端AI堆栈。该平台旨在提升专利流程的效率和质量。Patlytics 被LangSmith Spotlight 收录,展示了其在法律AI领域的应用。AI产品patlyticsLangSmithLangChain法律AI专利生命周期推荐理由:Patlytics 用 LangSmith 搭建了专利全流程 AI 平台,从提示到评估都管,法律行业可以看看。原文
05:06LangChain@LangChainAI精选Deep Agents v0.6 新增代码解释器,代理可在运行时调用工具。中间结果保留在模型上下文之外,仅传回相关输出。这减少了往返次数和 token 浪费。该版本由 LangChain 发布。AI产品Deep AgentsLangChain代码解释器智能体工具调用推荐理由:Deep Agents v0.6 出代码解释器了!运行时调工具,中间结果不占上下文,省 token 还少跑几趟。看详情。原文
05:03Harrison Chase@hwchase17精选LangChain创始人hwchase17对比了模型路由(route to one best model)和模型合议制(pass to many models并聚合响应),认为前者主要为了成本,后者提升前沿性能。他引用@OpenRouter的Fusion和@SakanaAILabs的fugu作为合议制案例,并提到@nlarusstone将其用于棘手生物问题。作者对模型路由效果存疑,认为prompt caching和用户反馈缺失是问题,更倾向先实施成本控制(如LangChain的按模型设置支出上限)。Dax补充了用户需培养模型感知的观点。行业model routingmodel councilOpenRouterSakanaAILabs成本控制推荐理由:hwchase17聊了模型路由和合议制的区别,吐槽路由被夸大,推荐先做成本控制。适合想了解多模型调度策略的人。原文
04:42marktechpost@Michal Sutter精选71°xAI 在 Grok Build 中引入 /goal 模式,允许用户交付单一目标后由代理自主规划、执行进度列表并验证结果,直至目标完成。该模式针对多步骤编码任务设计,内置验证机制确保每一步正确性。Grok Build 由此获得长期运行、无人监督的自动化能力。AI产品xAIGrok Build/goal编程助手智能体推荐理由:你只需要说一个目标,Grok 自己规划、执行、验证,特别适合写复杂代码。原文
04:27Philipp Schmid@_philschmidGoogle 更新了 Gemini API 文档,并发布了 GitHub 上的 Skill 示例。该示例展示了如何使用 Gemini API 构建自定义技能。文档和代码均在 ai.google.dev 和 github.com/google-gemini 上公开。开发者可以据此快速集成 Gemini 到工作流中。技巧Gemini APIGoogleSkillGoogle Generative AI教程推荐理由:Google 刚放出了 Gemini API 的 Skill 示例代码,想自己动手接入 Gemini 的可以抄作业了。原文
04:26Lenny Rachitsky@lennysan78°Anthropic工程师一年内代码输出量增长8倍,验证成为最大挑战,团队采用“bad vs sad”追踪框架区分不可恢复错误与可恢复痛点。工程师因独立工作出现孤独感,团队引入配对编程午餐缓解。Anthropic构建了统计用户对Claude Code说脏话频率的仪表盘,作为体验评估代理指标。产品机会来源于非编码用户的潜在需求,如用Claude Code分析MRI或恢复婚礼照片。团队从半年规划转为月度规划,并赋予成员“杀死无效流程”的权限。行业Claude CodeAnthropic编程助手智能体工程实践10 个信源在谈推荐理由:Anthropic的Claude Code团队负责人分享了他们如何让工程师效率提升8倍、用脏话计数衡量体验,还提到非程序员用Claude Code做MRI分析等趣事,全是实战干货。原文
04:09Philipp Schmid@_philschmidGoogle Gemini 的 Interactions API 已正式发布(GA)。安装 Skill 后,编码代理能自动获得 Interactions API 的内置规则、正确 SDK 模式及当前模型版本。支持 Antigravity、Claude Code、Cursor 等代理。一条提示即可将现有应用迁移至新 API。迁移指南中的所有 API 变更由 Skill 自动应用。技巧GeminiInteractions API编程助手API迁移7 个信源在谈推荐理由:Google 出了Gemini Interactions API 的官方 Skill,装上后你的编码代理一个提示就能自动迁移 API,支持 Claude Code、Cursor 等。原文
03:57Greg Brockman@gdb精选73°OpenAI推出了Codex Security插件,专为安全团队设计。该插件支持深度代码扫描、自动验证发现结果,并能够追踪攻击路径。它还可以构建威胁模型,生成针对代码库的特定补丁用于审查。此外,支持将分析结果导出到其他安全工具中。AI产品CodexOpenAI安全代码扫描AI安全10 个信源在谈推荐理由:OpenAI给安全团队出了个Codex插件,能深度扫描代码、自动验证漏洞、画攻击路径,还生成专属补丁,省事儿不少。原文
03:55lmarena.ai@lmarena_ai精选Arena排行榜基于全球社区的真实任务动态更新,而非静态基准。评估流程包括内部基准测试、模型接入、社区投票、分数稳定化和公开发布。团队采用Bradley-Terry模型确保分数稳定性,并区分Expert和Hard难度以细化评估维度。视频还介绍了代码名称、身份泄露过滤及投票质量控制等机制。技巧ArenaLMSYS模型评测基准测试Bradley-Terry推荐理由:想了解AI模型评测怎么运作的?Arena团队亲自拆解从内测到上线的完整评估流程,还讲了Bradley-Terry分数如何保证公平,干货满满。原文
03:54Harrison Chase@hwchase17精选该建议指出,用于智能体工程的计划、研究等上下文文档应放在仓库外,而非版本控制系统中。原因包括:文档无需合并语义,线性历史即可满足99.9%场景;存入仓库将导致文档在不同分支间丢失。推荐系统通过FS工具访问、可发现、可持久化归档且支持协作。该讨论由LangChain创始人Harrison Chase转发,引发对智能体开发最佳实践的思考。技巧Agent工程文档管理版本控制上下文工程推荐理由:LangChain创始人分享了一个文档管理的小技巧:把智能体工程文档放VCS外面,用FS工具访问,避免分支迷失。原文