6月18日
10:58
10:58arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty
该论文指出万维网基于人作为主要消费者的假设运行三十年,但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限(通过速率限制和代理识别元数据),在经济层引入基于意图的层级框架和代币订阅模型,在内容层提出代理文本标记语言(ATML)和加密来源链对抗知识递归问题。包含十项设计原则,涵盖访问、经济、内容三个层面。
推荐理由:这篇论文讨论了如何让网站不再封杀AI代理,而是为它们设计合理的访问、收费和内容标注机制,比如ATML语言。适合关心Web未来和AI治理的人看。
6月17日
09:37
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis
新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。
推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。
6月16日