精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:02

12:02

arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

精选72°

多模态智能体正被期望替代人类操作界面，但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线，而非仅靠图像识别。测试覆盖多种验证类型，并引入杂乱网页、困难变体等现实压力因素。结果显示，当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板，性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

论文多模态智能体 CAPTCHA 基准测试人机交互自动化

推荐理由：CAPTCHA 是 AI 替代人类操作的最后一道门槛，做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力，结果可能会让你重新评估部署策略。

6月1日

06:16

06:16

rohanpaul_ai@rohanpaul_ai

精选

MIT、斯坦福、纽约大学和普林斯顿联合发表论文，发现人们在使用AI时会产生“效率增益错觉”——即使实际效率提升很小甚至为负，仍感觉AI节省了大量时间。在2691名参与者的三项预注册实验中，人们高估了AI对简单任务（如算术、拼写、回忆、短改写）的节省时间，平均预期节省55.7秒，实际仅7.5秒。研究指出，AI使用的隐性成本在于界面摩擦（写提示、等待、检查等），而非智能不足。更关键的是，AI使用会自我强化：仅使用两次后，参与者就更倾向于再次使用AI，即使自己完成更快。这种依赖并非戏剧性的，而是悄无声息地重新校准了人们对自身能力的判断。

论文效率错觉 AI依赖人机交互认知偏差 MIT

推荐理由：这篇论文戳破了AI“效率神话”的泡沫——你以为省了1分钟，实际只省了7秒，做AI产品、写提示词、或者日常依赖AI的开发者，看完会重新审视自己的使用习惯。

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月15日

11:13

11:13

arXiv cs.LG@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

精选

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习（IIL）在接管时存在人机指令不匹配，导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法，将人类纠正意图与自主策略执行融合，避免手势跳跃。实验表明，相比直接遥操作接管，HandITL 减少接管抖动 99.8%，降低抓取失败率 87.5%，平均完成时间缩短 19.1%。在三个长时灵巧任务上，用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

论文灵巧操作 VLA模型人机交互干预学习机器人

推荐理由：灵巧操作是机器人领域的硬骨头，HandITL 解决了人机干预时的“手势跳跃”痛点，做机器人操作或 VLA 模型微调的团队可以直接参考实验方法，减少训练数据收集中的噪声。