AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 924 条中筛出 57 条
全部模型产品行业论文技巧
标签:AI 代理×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
14:17
14:17Gary Marcus@GaryMarcus
精选
Gary Marcus 针对 Anthropic 近期关于接近递归自我改进(RSI)的暗示提出质疑。他引用了一项名为 Meta-Agent Challenge(MAC)的基准测试,该测试要求 AI 代理在没有人类设计帮助的情况下,自主构建另一个能完成隐藏测试任务的代理。结果显示,当前 AI 代理在数学、科学问答、竞赛编程、软件修复等五个领域,通常无法超越人类设计的强代理方案,仅有少数闭源前沿模型(如 Claude)表现尚可。Marcus 指出,真正的自主不仅需要工具使用,还需预算意识、失败恢复、压力下的克制以及设计迭代的纪律,而当前代理只是强大的执行者,缺乏工程所需的可靠判断力。
AI模型RSIMeta-Agent ChallengeAnthropicAI 代理自主开发

推荐理由:Gary Marcus 用 Meta-Agent 挑战戳破了 Anthropic 的 RSI 叙事,关心 AI 自主性和工程可靠性的开发者值得一读,看完会对当前代理的局限性有清醒认识。
原文
6月4日
15:19
15:19Geek@geekbb
精选
微软官方推出了 Windows Terminal 的实验分支,这是一款智能终端,原生集成了 ACP 兼容的 AI 代理,默认使用 GitHub Copilot CLI。用户只需按 Ctrl+Shift+. 即可呼出侧边代理面板,AI 能自动读取当前 Shell 的输出并给出建议,无需手动复制粘贴。这极大提升了终端操作的效率,尤其适合开发者日常使用。该功能目前处于实验阶段,值得关注。
AI产品微软Windows TerminalGitHub Copilot CLIAI 代理智能终端

推荐理由:微软把 AI 代理直接塞进终端,省去手动复制粘贴的麻烦,做开发的团队可以试试这个实验分支,提升日常命令行效率。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月26日
00:15
00:15Geek@geekbb
精选
Clauge 是一款基于 Tauri(Rust + Svelte)构建的桌面应用,它将编程 AI 代理、API 客户端、SQL/NoSQL 编辑器、SSH 终端、远程文件浏览器和项目管理看板整合在一个界面中。开发者无需在多个应用之间切换,即可完成开发、调试、数据库管理和项目管理等任务。该项目已在 GitHub 开源,适合追求高效工作流的开发者。
AI产品桌面应用AI 代理API 客户端数据库编辑器开源/仓库

推荐理由:Clauge 解决了开发者频繁切换工具的痛点,将 AI 编程、API 调试、数据库操作和远程管理整合在一起,做全栈开发的团队可以直接试用,能大幅减少上下文切换成本。
原文
5月25日
12:49
12:49Simon Willison’s Weblog(博客/媒体)
精选
datasette-agent 0.1a4 版本发布,利用 Datasette 1.0a30 新增的 makeJumpSections() JavaScript 插件钩子,将“启动新代理聊天”界面集成到 Jump 菜单中。用户只需在任意页面按 / 键即可调出该菜单,快速启动 AI 代理对话。该功能通过 agent.datasette.io 提供试用,需使用 GitHub 账号登录。这一更新让 AI 代理功能更易触达,提升了 Datasette 平台的交互体验。
AI产品datasettedatasette-agentAI 代理插件钩子Jump 菜单

推荐理由:Datasette 用户现在可以直接从 Jump 菜单启动 AI 代理聊天,省去额外操作步骤。做数据探索和自动化查询的团队值得试试这个新交互方式。
原文
5月22日
08:06
08:06Simon Willison@simonw
精选
Simon Willison 发布了 Datasette Agent,这是一个基于 AI 的代理工具,允许用户通过自然语言查询 SQLite 数据库。该工具结合了 Datasette 的数据浏览能力和大语言模型的推理能力,用户只需用中文或英文描述需求,即可自动生成 SQL 查询并返回结果。Datasette Agent 旨在降低数据分析门槛,让非技术人员也能轻松探索数据库。项目已在 GitHub 开源,并提供了详细的博客文章和演示。
AI产品Datasette AgentAI 代理SQLite自然语言查询开源/仓库

推荐理由:数据分析师和开发者终于可以用自然语言直接查询 SQLite 数据库了,Datasette Agent 让数据探索变得像聊天一样简单,值得所有 Datasette 用户和数据分析爱好者试试。
原文
5月21日
08:00
08:00Thomas Wolf@Thom_Wolf
精选
Terminal-Bench 是一个评估 AI 模型在计算机上使用工具(如命令行)达成目标能力的基准。现在它扩展到了科学领域,推出 T-Bench Science,专门评估 AI 在真实科研工作流中的表现。该基准面向生命科学、物理、地球科学、数学等领域的科学家,并开放任务贡献至 2026 年 8 月。贡献的科研工作流越多样,越能推动下一代 AI 模型更好地辅助日常研究工作。这不是训练数据集,而是用于评估前沿模型性能的基准。Anthropic、OpenAI 和 Google DeepMind 已使用 Terminal-Bench 评估 AI 编程能力,现在科学领域也加入其中。
AI产品基准测试AI for ScienceTerminal-Bench科研工作流AI 代理

推荐理由:做科研的 AI 用户终于有了专门评估 AI 辅助科研能力的基准——T-Bench Science 直接面向真实工作流,科学家可以贡献自己的流程来推动模型进步,值得关注和参与。
原文
5月13日
19:12
19:12arXiv cs.AI@Eilam Shapira, Moshe Tennenholtz, Roi Reichart
精选
该研究探讨了 AI 代理如何在有限交互中预测陌生对手的下一步决策,例如买家代理面对未知卖家或采购助理与供应商谈判。研究通过受控谈判游戏将问题建模为目标自适应文本表格预测,每个决策点结合结构化游戏状态、报价历史和对话。模型基于表格基础模型,并引入 LLM-as-Observer 作为额外表示层:冻结的小型 LLM 读取决策时刻状态和对话,其隐藏状态作为决策导向特征,而非直接预测。在 13 个前沿 LLM 代理上训练并测试 91 个保留代理,该模型在响应预测 AUC 上提升约 4 点,报价预测误差降低 14%,证明隐藏的 LLM 表示能暴露直接提示无法获取的决策信号。
论文AI 代理对手建模谈判游戏文本表格预测LLM-as-Observer

推荐理由:做多代理系统或谈判 AI 的开发者,这篇论文提供了一个实用的对手建模框架——用有限交互预测对方决策,比直接提示更准。建议点开看看他们的 LLM-as-Observer 方法,可能帮你省掉大量试错成本。
原文
精选全部日报登录