6月2日
12:03
12:03arXiv cs.AI@Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen
精选72°
MCP-Persona 是首个专门评估 LLM 智能体在真实个人化 MCP 工具上表现的基准。它覆盖了 Reddit、小红书、飞书、Slack 等主流社交和协作平台,测试智能体与个人账户和本地数据库交互的能力。实验发现,当前最先进的智能体在处理个人化工具时表现挣扎,凸显了该基准在识别和解决这些局限性的关键作用。该基准已开源,可供开发者直接使用。

推荐理由:MCP-Persona 填补了现有基准忽视个人化工具交互的空白,做智能体开发和 MCP 工具集成的团队可以直接用它来测试和优化自己的模型。
11:07
11:07arXiv cs.AI@Lukas Johanns, Marilin Moor, Davide Panzeri, Yu Zhou, Xinyi Chen, Nora F. K. Pauly, Zixuan Pan, Matthias Gunzer, Andreas Müller, Yiyu Shi, Hedi Peterson, Jianxu Chen
精选
Agentic-J 是一个容器化的多智能体AI助手,专为ImageJ/Fiji设计,使生物学家能用自然语言指定分析任务,如细胞核分割、细胞追踪和多条件量化。该智能体生成可执行的脚本并组织成有文档的项目结构,确保每个分析决策可追溯,工作流可复现或共享。其专门子智能体负责插件管理、代码生成、调试、质量保证和统计报告。论文展示了系统设计、真实生物显微镜图像分析工作流及技术实现细节。
推荐理由:生物图像分析研究者终于有了一个能理解自然语言并自动生成可复现工作流的工具——Agentic-J 解决了跨工具集成和编程门槛的痛点,做细胞生物学或显微镜分析的团队值得一试。
6月1日
10:47
10:47arXiv cs.AI@Weitong Qian, Beicheng Xu, Zhongao Xie, Bowen Fan, Guozheng Tang, Jiale Chen, Xinzhe Wu, Mingtian Yang, Chenyang Di, Jiajun Li, Lingching Tung, Peichao Lai, Yifei Xia, Ziyi Guo, Yanwei Xu, Yanzhao Qin, Shaoduo Gan, Xupeng Miao, Bin Cui
精选
AutoSci 是一个基于大语言模型的智能体系统,旨在自动化科学研究的完整生命周期,包括文献理解、想法生成、实验、论文撰写和审稿回复。它通过四个核心模块实现:SciMem 提供结构化研究记忆,区分长期知识记忆和项目级活动记忆;SciFlow 执行五阶段生命周期流程;SciDAG 用有向无环图增强复杂技能;SciEvolve 通过反馈信号持续优化系统。该系统解决了现有科研智能体无法统一支持全流程、缺乏持久记忆和自进化能力的问题。代码已开源,为科研自动化提供了可扩展的框架。
推荐理由:做科研自动化的团队终于有了一个能覆盖全流程、带记忆还能自我进化的系统——AutoSci 把文献、实验、写作、审稿串起来了,搞学术自动化的开发者可以直接用它的开源代码试试。
5月28日
11:31
11:31arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang
精选72°
MemTrace 提出了一种新框架,将大语言模型的记忆管道转化为可执行的记忆演化图,实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准,涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统,系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因,发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化,形成闭环系统,自动修正错误并提升端任务性能最高达7.62%。代码已开源。
推荐理由:做LLM记忆系统或长上下文推理的开发者,终于有了一个能自动定位记忆错误根因的工具,还能自动优化提示提升性能,值得试试这个开源方案。
11:28
11:28arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang
精选72°
现有记忆增强型LLM智能体通常将记忆视为静态仓库,在动态环境中表现脆弱。为此,研究者提出FluxMem框架,将记忆建模为异构图,并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中,FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度,并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中,FluxMem均取得最先进性能,展现出强大的适应性和泛化能力。代码已开源。

推荐理由:FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点,做复杂任务自动化的开发者可以直接参考其开源实现,提升智能体的长期记忆和适应能力。
5月27日
5月26日
5月25日
5月22日
5月21日