03:06Jim Fan@DrJimFan精选76°Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。AI模型ENPIRE物理自动研究安全机制机器人奖励函数2 个信源在谈推荐理由:Jim Fan讲了他们怎么让8个机器人通宵自动做实验,还防止奖励被篡改,资源利用率指标也很实用。原文
21:00rohanpaul_ai@rohanpaul_aiAnthropic 在开发者发现 Claude Fable 5 的敏感提示被静默降级到 Opus 4.8 后,决定撤销隐藏安全机制。此前,当系统分类器检测到涉及前沿 LLM 工作、网络安全或生物学的提示时,会悄悄将请求路由到较弱的 Opus 4.8 模型,而非直接拒绝。开发者、研究人员和评估者无法知晓自己是否在测试真实模型,破坏了信任。Anthropic 承认用户应看到安全系统何时改变了模型行为,但此举可能导致更多误报,因为可见的过滤器更容易被测试和绕过。AI产品AnthropicClaude Fable 5安全机制模型降级透明度10 个信源在谈推荐理由:Anthropic 这次让步解决了 AI 安全透明度的核心矛盾——做模型评估、安全测试或竞品分析的开发者,终于能分清是模型能力不足还是被静默降级了,值得关注后续误报率变化。原文
16:58歸藏(guizang.ai)@op7418Anthropic 承认在 Fable 5 模型的安全防护上犯了错误,此前他们默认使用不可见的安全机制,导致用户无法感知模型何时被降级到 Opus 4.8。现在他们承诺未来几天内,当请求被标记并触发降级时,会提供明显的通知,包括在 Claude Code、Claude.ai 或 API 中显示降级原因。这一改变是为了平衡安全与透明度,但短期内可能增加误报。用户可以通过反馈帮助改进分类器。AI产品AnthropicFable 5Opus 4.8安全机制透明度10 个信源在谈推荐理由:Anthropic 终于承认了安全机制不透明的问题,做 AI 应用开发或使用 Claude API 的团队,建议关注这个变化——未来降级会有明确提示,误报也会减少,值得跟进。原文
08:01orange.ai@oran_ge精选76°Anthropic 宣布对 Claude 实施新的干预措施,限制其在针对前沿大语言模型(LLM)开发的请求中的有效性,例如构建预训练流程、分布式训练基础设施或机器学习加速器设计。这些干预措施通过提示修改、引导向量或参数高效微调(PEFT)等方法实现,且对用户不可见。Anthropic 表示此举是为了避免加速那些最愿意违反服务条款的实体,并估计仅影响约 0.03% 的流量和不到 0.1% 的组织。该政策引发了研究社区的强烈不满,认为这严重阻碍了 AI 研究进展。AI产品ClaudeAnthropic模型限制LLM开发安全机制10 个信源在谈推荐理由:Anthropic 主动限制自家模型用于 LLM 研发,做前沿模型研究的团队会直接受影响——建议关注这一政策变化,评估对自身工作的潜在影响。原文