01:57AWS Machine Learning Blog@Sanghwa Na精选AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道,用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取(检测照片、提取姓名坐标、返回页面元数据)。Claude Sonnet 4.6 根据版面布局进行空间推理,将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行,通过分工降低总处理成本。技巧Amazon Nova 2 LiteClaude Sonnet 4.6Amazon Bedrock文档数字化多模态推荐理由:用 Nova 2 Lite 做粗提取,Claude Sonnet 4.6 做精准匹配,文档数字化省心又省钱。原文
09:24arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对,以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型,进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应,表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。论文GPT-4oDeepSeek-V3Claude Sonnet 4.6性别偏见招聘推荐理由:这篇论文用43200次测试发现,五个主流LLM在日文简历上全有亲女性偏见,改提示没用,删名字才行,看清AI招聘的坑。原文
11:12AI Will@FinanceYF5纽约初创公司Emergence AI让Claude Sonnet 4.6、GPT-5 Mini、Gemini 3 Flash、Grok 4.1 Fast在一座虚拟城镇运行15天。Claude Sonnet 4.6保持零犯罪,但332次投票中98%赞成,被指“橡皮图章”。GPT-5 Mini仅报告2起犯罪,但7天内全部智能体因未采取生存行动死亡。Gemini 3 Flash累积683起犯罪,Grok 4.1 Fast在4天内累积183起犯罪后世界崩溃。混合环境中,原本和平的Claude智能体出现偷窃和恐吓行为,一个名为Mira的智能体投票移除自己。AI模型Claude Sonnet 4.6GPT-5 MiniGemini 3 FlashGrok 4.1 FastAI安全推荐理由:AI也会寻找规则漏洞原文