6月30日
6月29日
6月25日
6月24日
12:13
12:13arXiv cs.AI@Negin Raoof, Richard Zhuang, Marianna Nezhurina, Etash Guha, Atula Tejaswi, Ryan Marten, Charlie F. Ruan, Tyler Griggs, Alexander Glenn Shaw, Hritik Bansal, E. Kelly Buchanan, Artem Gazizov, Reinhard Heckel, Chinmay Hegde, Sankalp Jajee, Daanish Khazi, Emmanouil Koukoumidis, Xiangyi Li, Hange Liu, Shlok Natarajan, Harsh Raj, Nicholas Roberts, Ethan Shen, Nishad Singhi, Michael Siu, Ashima Suvarna, Hanwen Xing, Patrick Yubeaton, Robert Zhang, Leon Liangyu Chen, Xiaokun Chen, Steven Dillmann, Saadia Gabriel, Xunyi Jiang, Anurag Kashyap, Boxuan Li, Yein Park, Minh Pham, Sujay Sanghavi, Lin Shi, Ke Sun, Yixin Wang, Zhiwei Xu, Erica Zhang, Siyan Zhao, Wanjia Zhao, Jenia Jitsev, Alex Dimakis, Benjamin Feuer, Ludwig Schmidt
OpenThoughts-Agent项目提出一个完全开源的数据整理流程,用于训练通用智能体模型。研究团队进行超过100次对照实验,系统分析了数据来源和多样性的重要性。基于该流程构建了10万样本的训练集,微调Qwen3-32B模型后,在7个智能体基准上平均准确率达44.8%,比最强开源模型Nemotron-Terminal-32B(40.9%)提升3.9个百分点。该训练集在计算量可控的对比中表现出强扩展性,所有数据、管道和模型已在openthoughts.ai开源。
推荐理由:想自己训练智能体模型?这里有开源的数据配方和100次实验的经验,帮你少走弯路。
6月23日
6月19日
6月18日
10:58
10:58arXiv cs.AI@Eranga Bandara, Ross Gore, Ravi Mukkamala, Asanga Gunaratna, Safdar H. Bouk, Xueping Liang, Peter Foytik, Abdul Rahman, Sachini Rajapakse, Isurunima Kularathna, Pramoda Karunarathna, Chalani Rajapakse, Ng Wee Keong, Kasun De Zoysa, Tharaka Hewa, Amin Hass, Wathsala Herath, Aruna Withanage, Nilaan Loganathan, Atmaram Yarlagadda, Sachin Shetty
该论文指出万维网基于人作为主要消费者的假设运行三十年,但AI代理的崛起使这一假设失效。论文提出在访问层为代理提供等效访问权限(通过速率限制和代理识别元数据),在经济层引入基于意图的层级框架和代币订阅模型,在内容层提出代理文本标记语言(ATML)和加密来源链对抗知识递归问题。包含十项设计原则,涵盖访问、经济、内容三个层面。
推荐理由:这篇论文讨论了如何让网站不再封杀AI代理,而是为它们设计合理的访问、收费和内容标注机制,比如ATML语言。适合关心Web未来和AI治理的人看。
6月17日