AITOP6月11日 15:28
精选
过去 24 小时,从 357 条中筛出 12 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月10日
12:42
12:42
arXiv cs.AI@Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu
精选
推荐理由:做 LLM 智能体训练的团队终于有了一个无需外部环境反馈的自我进化方案——Role-Agent 让模型自己当裁判和教练,平均提效 4%+,值得在复杂任务场景中试试。
11:04
11:04
arXiv cs.LG@Weixian Xu, Shilong Liu, Mengdi Wang
精选
推荐理由:做 LLM 智能体部署的团队终于有了处理真实异构数据流的方案——EEVEE 的提示学习框架能自动适应多任务流,建议做 Agent 落地的开发者关注。
6月9日
11:52
11:52
arXiv cs.AI@Wesley Pegden
精选
推荐理由:Trellis 解决了自动形式化中可靠性与成本之间的平衡问题,做定理证明或形式化验证的开发者可以直接用这个工作流来生成 Lean 证明,值得关注其开源实现。
10:28
10:28
arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun
精选
推荐理由:做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略,比手工调提示更系统,在博弈场景中效果显著,值得在类似任务中尝试。
6月5日
11:38
11:38
rohanpaul_ai@rohanpaul_ai
精选72°
推荐理由:这篇论文戳破了“越大越好”的直觉,做智能体自我进化的团队会发现,把预算花在求解器上比花在进化器上更划算,值得重新审视你的架构设计。
6月4日
19:10
19:10
rohanpaul_ai@rohanpaul_ai
精选72°
推荐理由:做AI智能体开发的团队会立刻警觉——你精心设计的记忆系统可能在悄悄退化。这篇论文用实验数据戳破了「自动总结记忆」的幻觉,建议所有用LLM做长期任务的开发者点开看看,别让记忆成为瓶颈。
6月3日
10:13
10:13
arXiv cs.AI@Yingqi Zhang
精选72°
推荐理由:做LLM智能体工程化的团队终于有了一个正经的运行时方案——Agent libOS把智能体当进程管理,解决了长期运行、权限控制和审计的痛点,做智能体框架或生产部署的开发者值得细读。
6月2日
12:06
12:06
arXiv: Anthropic@Hiskias Dingeto, Will Leeney
精选72°
推荐理由:做LLM智能体安全或SaaS集成开发的团队,终于有了一个能真实反映生产环境威胁的测试基准和可用的防护模型,建议直接看论文和开源代码。
6月1日
00:09
AITOP6月1日 00:09
5月29日
13:58
13:58
arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim
精选
推荐理由:做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率,建议做Web Agent的开发者点开看看具体指标差异。
13:03
13:03
arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem
精选72°
推荐理由:做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益,临床场景提升显著,建议做智能体可靠性的开发者点开看看。
09:17
09:17
arXiv: Anthropic@James P. Balhoff, Hilmar Lapp
精选
推荐理由:做生物信息学或本体工程的研究者终于有了可扩展的自动化方案——LLM智能体直接对标人类专家水平,建议点开看具体实现和评估细节。
5月28日
11:28
11:28
arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang
精选72°
推荐理由:FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点,做复杂任务自动化的开发者可以直接参考其开源实现,提升智能体的长期记忆和适应能力。
5月27日
10:28
10:28
arXiv cs.AI@Huawei Lin, Peng Li, Jie Song, Fuxin Jiang, Tieying Zhang
精选
推荐理由:做智能体开发或研究自主系统的团队,MUSE-Autoskill 给出了一个可落地的技能管理闭环——从创建到评估再到跨任务复用,值得直接参考其设计思路。
5月22日
11:12
11:12
arXiv cs.AI@Girish Narayanswamy, Maxwell A. Xu, A. Ali Heydari, Samy Abdel-Ghaffar, Marius Guerard, Kara Vaillancourt, Zhihan Zhang, Jake Garrison, Levi Albuquerque, Dimitris Spathis, Hong Yu, Hamid Palangi, Xuhai "Orson" Xu, David G. T. Barrett, Joseph Breda, Jed McGiffin, Yubin Kim, Yuwei Zhang, Naghmeh Rezaei, Samuel Solomon, Karan Ahuja, Tim Althoff, Jake Sunshine, Ming-Zher Poh, Benjamin Yetton, Ari Winbush, Nicholas B. Allen, James M. Rehg, Isaac Galatzer-Levy, Yun Liu, John Hernandez, Anupam Pathak, Conor Heneghan, Yuzhe Yang, Ahmed A. Metwally, Pushmeet Kohli, Mark Malhotra, Shwetak Patel, Xin Liu, Daniel McDuff
精选72°
推荐理由:这项研究解决了可穿戴数据标注稀缺和个体差异大的核心难题,做健康AI或可穿戴设备开发的团队可以直接参考其预训练方法和少样本学习策略,值得关注。
5月21日
09:46
09:46
arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin
精选
推荐理由:做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数,省掉重复调用LLM的高昂成本,做流程自动化的开发者可以直接用起来。
5月20日
10:53
10:53
arXiv: DeepSeek@Aman Desai
精选
推荐理由:高能物理研究者终于有了一个能用自然语言操作 Root 数据的智能体,省去手动写脚本的繁琐,做粒子物理分析的团队可以直接试试。
5月19日
14:38
14:38
arXiv cs.AI@S. Bensalem, Y. Dong, M. Franzle, X. Huang, J. Kroger, D. Nickovic, A. Nouri, R. Roy, C. Wu
精选
推荐理由:这篇论文从结构层面揭示了当前LLM智能体安全方案的致命缺陷——单一护栏永远不够,做智能体部署的团队必须理解三层架构的必要性,建议所有关注AI安全的开发者仔细阅读。
14:32
14:32
arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu
精选
推荐理由:做 LLM 智能体系统或工具链的开发者会发现,技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点,值得用来检验自己的管线。
5月18日
12:07
12:07
arXiv cs.AI@Arquimedes Canedo
精选
推荐理由:做AI论文阅读工具或学术自动化智能体的开发者,这个约定能解决子声明引用和范围误判的痛点,值得直接参考或贡献。
10:35
10:35
arXiv cs.LG@Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman
精选
推荐理由:做LLM智能体系统设计的工程师和研究者会看到具体数据:什么设计真正有效、什么只是烧token。这篇论文给出了可操作的优先级——先做好状态抽象和任务分解,再考虑推理增强,值得点开对照自己的设计。
5月17日
23:44
23:44
rohanpaul_ai@rohanpaul_ai
精选72°
推荐理由:做智能体系统或记忆管理的开发者,这篇论文戳中了记忆重写的致命缺陷——原始经验比精炼总结更可靠,看完你会重新思考记忆存储策略。
