AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:多模态智能体×
6月30日
11:43
11:43arXiv cs.AI@Wenjia Jiang, Zongyuan Cai, Yuanhang Shao, Chenru Wang, Boyan Han, Zhixue Song, Keyu Chen, Shengwei An, Xu Yang, Zhou Yang
ManimAgent是一个基于大语言模型的自进化多模态智能体,能从学术论文段落生成Manim库的Python代码以渲染数学动画。它通过双通道情节记忆库(M+和M-)跨任务保存反思经验,无需权重更新或人工种子。在固定探针评估中,相比无记忆、匹配预算的检索增强生成和混洗记忆基线,盲人Pass@1随记忆增长而上升,反思轮次下降。
论文ManimAgentManim多模态智能体代码生成视觉教育

推荐理由:这篇论文提出了ManimAgent,它能通过经验记忆自我进化,生成数学动画代码时效果比基线方法好很多。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
09:08
09:08arXiv cs.AI@Tao Hu, Jiaxin Ai, Licheng Wen, Xueheng Li, Shu Zou, Siqi Li, Nianchen Deng, Xinyu Cai, Hongbin Zhou, Pinlong Cai, Daocheng Fu, Yu Yang, Hairong Zhang, Botian Shi, Xuemeng Yang
IterCAD 是一个统一的多模态智能体框架,用于闭环、交互式的计算机辅助设计(CAD)生成与编辑。它通过多轮交互将智能体与可执行的 CAD 沙箱连接,支持图纸到代码、文本到代码和交互式编辑三种任务。研究团队开发了数据合成流水线,融入先进工业制造特征,生成符合标准的多视图工程图纸和复杂编辑任务。通过渐进式监督微调和几何感知强化学习优化智能体,显著提升了代码可执行性和几何精度。实验表明,IterCAD 在多个基准测试中表现优异,尤其在闭环迭代优化方面超越现有方法。
论文CAD生成多模态智能体闭环迭代几何精度强化学习

推荐理由:CAD 工程师和设计自动化研究者终于有了一个能闭环迭代的智能体——IterCAD 解决了传统一次生成与真实迭代流程脱节的问题,做工业设计和 AI 辅助制造的团队可以直接用其数据合成和评估方法。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
12:02
12:02arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu
精选72°
多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。
论文多模态智能体CAPTCHA基准测试人机交互自动化

推荐理由:CAPTCHA 是 AI 替代人类操作的最后一道门槛,做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力,结果可能会让你重新评估部署策略。
原文
5月15日
10:02
10:02arXiv cs.AI@Shaoan Zhao, Huanlin Gao, Qiang Hui, Ting Lu, Xueqiang Guo, Yantao Li, Xinpei Su, Fuyuan Shi, Chao Tan, Fang Zhao, Kai Wang, Shiguo Lian
精选
MediaClaw 是一个基于 OpenClaw 生态构建的多模态智能体平台,旨在解决 AIGC 落地中的碎片化能力、异构接口、生产流程割裂和高质量工作流复用难等痛点。其核心采用三层架构:统一抽象层将全品类 AIGC 能力抽象为统一调用模型,插件化扩展层支持热插拔能力扩展,工作流编排层通过面向任务的 Skills 将复杂生产过程转化为可复用资产。该技术报告重点阐述了 MediaClaw 的架构设计理念、核心能力模型的设计逻辑以及实现中的关键工程权衡,为构建多模态能力平台提供了可复用的实践参考。
论文多模态智能体AIGC平台架构工作流编排OpenClaw

推荐理由:做多模态 AI 应用或 AIGC 平台架构的团队,可以直接参考 MediaClaw 的三层抽象和插件化设计,解决能力碎片化和工作流复用难题,建议点开看看工程权衡细节。
原文
精选全部日报登录