09:37
09:37
arXiv: OpenAI@Guneesh Vats, Anubha Agrawal, Shikha Singhal, Ajita Dash, Praison Selvaraj, Vidhan Jhawar, Ranga Prasad Chenna, Bharadwaj Y M G REDACT 是一个包含13,427条记录、324,078个实体标注、51种实体类型和4,127种表面形式模式的多语言PII检测基准,覆盖25种语言的9种文字系统。该基准通过强度2覆盖阵列采样器控制9个生成轴,包括领域、格式、难度等。评估了五个检测器(Presidio、GLiNER、OpenAI Privacy Filter、GPT-4.1、Claude Sonnet 4.6)在1,000条记录上的表现,发现基于规则的检测器在高风险数据上表现较差(HIGH敏感类别召回率0.07),而LLM检测器更鲁棒。该基准还提供了实体级元数据(披露状态、披露形式、GDPR敏感等级)以支持分层评估。
推荐理由:这个基准提供了具体的数据和评估,能帮你了解不同检测器在处理多语言PII时的真实表现差异。
10:58
10:58
arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty 该论文指出万维网基于人作为主要消费者的假设运行三十年,但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限(通过速率限制和代理识别元数据),在经济层引入基于意图的层级框架和代币订阅模型,在内容层提出代理文本标记语言(ATML)和加密来源链对抗知识递归问题。包含十项设计原则,涵盖访问、经济、内容三个层面。
推荐理由:这篇论文讨论了如何让网站不再封杀AI代理,而是为它们设计合理的访问、收费和内容标注机制,比如ATML语言。适合关心Web未来和AI治理的人看。
10:57
10:57
arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro 论文提出 Act2Answer 协议,通过让智能体在桌面场景中执行物体放置动作来选择答案,从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现,VLA 在简单概念上表现扎实,但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明,VQA 联合训练有助于提升知识保留,而答案相关信息在 VLA 中层达到峰值,上层则衰减。
推荐理由:想知道微调后的机器人模型到底还记不记得常识?这篇论文用动作答题的方式测了7个VLA,发现简单概念还行,复杂知识掉得厉害。
10:57
10:57
arXiv cs.LG@Jiaqing Zhang, Sabyasachi Bandyopadhyay, Miguel Contreras, Jessica Sena, Yuanfang Ren, Andrea Davidson, Ziyuan Guan, Tezcan Ozrazgat-Baslanti, Subhash Nerella, Azra Bihorac, Parisa Rashidi 该研究探讨环境声音和光照强度能否独立预测ICU谵妄。基于9个ICU的309名患者数据,评估了四种高效序贯神经网络模型在10个预测窗口上的表现。卷积模型在声音数据上取得最强辨别能力,AUC达0.80。结合声音与光照可改善短期(<1周)预测,模型在感知期结束后立即分配最高风险。
推荐理由:这篇论文发现ICU里的环境声音比光照更能预测谵妄,卷积模型AUC达到0.80,为无创预警提供了新思路。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。