全部 AI 动态 · AI 热点

AITOP

6月24日

12:12

arXiv cs.AI@Blade Frisch, Will Wade, Dylan Gaines, Michelle Kinsella, Betts Peters, Tamara Broderick, Keith Vertanen

该论文分析了6个AAC（辅助与替代沟通）问题空间的复杂性。AI可以增强AAC用户的能力，但当前评估指标难以捕捉用户的多方面需求。作者提出了更鲁棒的评估方法以考虑用户的交叉性细微差别。论文还讨论了跨问题空间的更广泛问题及解决思路。

论文 AAC AI 辅助技术人机交互评估方法

推荐理由：这篇论文深入探讨了AI增强AAC界面评估的挑战，提出了新的评估方法，对研究人机交互和辅助技术的人很有启发。

原文

6月18日

10:57

arXiv cs.AI@Biswadeep Sen, Yi-Chieh Lee

一项针对120人的实验比较了社交聊天机器人三种纠错策略：网页撤回、自我纠正和专家聊天机器人纠正。结果显示三种策略均能纠正错误，但只有自我纠正不损害聊天机器人的可信度（信任度和专业感知评分更高）。用户与聊天机器人的社交连接强度（社交吸引力、自我披露）显著预测信念改变幅度，但仅在自我纠正时成立。外部来源纠正会切断社交连接与信念改变之间的关联。

论文社交聊天机器人用户信任错误纠正人机交互

推荐理由：这篇论文发现聊天机器人自己认错比让别人纠正更能维护信任，而且和用户关系越好效果越好，实测120人，结果很实用。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:47

arXiv cs.AI@Marianna Bergamaschi Ganapini, Massimo Chiriatti, Enrico Panai, Giuseppe Riva

这篇论文分析了三种理解AI认知与认识论后果的框架：三系统理论、思维框架和System 0。作者认为System 0具有独特的理论地位，无法被前两者完全替代。论文提出了“认知殖民”概念，指AI系统能将外部利益嵌入用户自我架构中，且用户难以察觉。由于这类系统已广泛部署，理解这些无形的影响成为紧迫的哲学和实践任务。

论文认知科学 AI伦理 System 0 认知殖民人机交互

推荐理由：这篇论文揭示了AI对个体认知的深层影响，做AI伦理、认知科学或人机交互的研究者值得一读，能帮你理解AI如何潜移默化地改变你的思维方式。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:33

arXiv cs.AI@Pooja Prajod

一项针对34名新闻读者的对照实验发现，新闻中详细标注AI参与程度（如人工审核、编辑责任等）反而会降低读者信任，而简短的一行标注虽不引发此问题，却导致读者主动搜寻AI迹象以填补信息缺口。读者并未拒绝透明度，而是提出按需详情、AI比例可视化、媒体级别信号及明确“无AI”标签等用户主导的设计。研究指出，从业者认为负责任的披露方式与用户实际需求之间存在脱节，这是人机交互领域的设计问题。

论文 AI透明度新闻业用户信任人机交互披露设计

推荐理由：新闻编辑室引入AI后面临信任危机，这篇论文用实验数据戳破了“越透明越信任”的迷思，做AI产品设计或新闻业的朋友值得看看，避免好心办坏事。

原文

6月2日

12:05

arXiv: DeepSeek@Jiashen Huang, Yu Jia, Xu Pan

一项针对405名中国用户的研究发现，对国内机构的信任显著影响用户对国产AI模型（如DeepSeek）的信任，而对ChatGPT等全球模型的影响较弱。研究提出“机构棱镜”框架，认为AI信任不仅是技术性能的反映，更是机构信任的折射。高机构信任增强用户对国产AI的情感信任，并使其认知评价更积极；低机构信任则削弱这一优势。该研究揭示了宏观治理与微观心理在AI信任形成中的关联，为理解不同国家AI信任差异提供了新视角。

论文机构信任 AI信任 DeepSeek ChatGPT 人机交互

推荐理由：做AI产品出海或研究人机信任的团队，这篇论文揭示了机构信任如何成为AI采纳的关键变量——理解这一点，比单纯优化模型性能更能解释用户选择。建议点开看看框架和问卷设计。

原文

12:02

arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

精选72°

多模态智能体正被期望替代人类操作界面，但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线，而非仅靠图像识别。测试覆盖多种验证类型，并引入杂乱网页、困难变体等现实压力因素。结果显示，当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板，性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

论文多模态智能体 CAPTCHA 基准测试人机交互自动化

推荐理由：CAPTCHA 是 AI 替代人类操作的最后一道门槛，做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力，结果可能会让你重新评估部署策略。

原文

11:59

arXiv cs.AI@Haimin Hu

该论文提出了一种基于共形预测的算法，用于验证交互式机器人中信念空间安全过滤器（BeliefSF）的高概率安全性。传统安全过滤器仅考虑物理空间，而BeliefSF在运行时结合推理主动降低机器人对人行为的不确定性，从而减少过滤的保守性。然而，由于运行时推理误差和神经网络近似的高维性，提供形式化安全保证极具挑战。作者通过聚焦于推理可靠区域进行验证，保留了共形预测的简单性和样本复杂度，同时显著降低了安全过滤器的保守性。在模拟人车交互基准测试中，该方法比标准共形预测基线验证了更宽松的安全过滤器。

论文安全过滤器共形预测人机交互信念空间机器人安全

推荐理由：做交互式机器人安全验证的团队终于有了兼顾宽松性和形式化保证的方法——BeliefSF结合共形预测，在减少保守性的同时保持样本效率，做自动驾驶或人机协作的开发者值得关注。

原文

5月15日

11:13

arXiv cs.LG@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

精选

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习（IIL）在接管时存在人机指令不匹配，导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法，将人类纠正意图与自主策略执行融合，避免手势跳跃。实验表明，相比直接遥操作接管，HandITL 减少接管抖动 99.8%，降低抓取失败率 87.5%，平均完成时间缩短 19.1%。在三个长时灵巧任务上，用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

论文灵巧操作 VLA模型人机交互干预学习机器人

推荐理由：灵巧操作是机器人领域的硬骨头，HandITL 解决了人机干预时的“手势跳跃”痛点，做机器人操作或 VLA 模型微调的团队可以直接参考实验方法，减少训练数据收集中的噪声。

原文