全部 AI 动态 · AI 热点

6月17日

09:39

arXiv cs.AI@Bojie Li

PreAct 是一种让计算机使用代理（如屏幕点击、打字）在重复任务上更快的新方法。首次成功时，PreAct 将运行编译为小状态机程序，后续重放直接执行，无需逐步骤调用语言模型，速度提升8.5-13倍。重放时每步检查屏幕状态，若不一致则交回代理处理。在移动、桌面和Web基准上，存储时检查机制确保编译程序可靠，避免错误积累，平均多完成1.75-2.6个任务。

AI模型 PreAct Computer-Using Agents 智能体效率优化

推荐理由：想让你那个傻傻的屏幕操作AI学会重复干活不重来？PreAct把第一次成功步骤变成程序，后面直接快10倍，还不容易翻车。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

6月3日

10:32

arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

72°

大型推理模型（LRM）在链式思维（CoT）上通过可验证奖励强化学习（RLVR）取得了显著进展，但长CoT中固有的试错和冗余探索被强化，导致过度思考问题。现有方法主要偏向较短轨迹，但学习信号仍基于结果，无法减少长CoT中的冗余记忆。为此，研究者提出ThoughtFold框架，通过细粒度偏好学习来缓解冗余探索，实现高效推理。它采用内省策略识别正确轨迹中的冗余，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索，鼓励模型直接连接关键推理段，从而折叠推理链。实验表明，ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%，同时保持最先进的准确性。

论文推理模型链式思维偏好学习效率优化 DeepSeek-R1

推荐理由：ThoughtFold解决了LRM过度思考的痛点，做推理模型优化的团队可以直接参考其内省偏好学习方法，能大幅降低计算成本而不牺牲精度。

原文

6月2日

11:07

arXiv cs.AI@Ümit Mert Çağlar, Alptekin Temizel

LALE 是一种专为遥感图像语义分割设计的轻量级Transformer架构，通过分辨率分叉编码器：轻量ConvMixer处理高分辨率局部特征，Transformer处理低分辨率全局上下文，将自注意力的二次复杂度限制在深层下采样特征图上。全MLP多尺度解码器结合RMSNorm和StarReLU进一步降低计算量和参数量。在ARAS400k基准上，最小变体（仅1.6M参数）在F1分数上仅比最佳基线UPerNet低2.6点，但参数量减少4.5倍，存储减少7倍，计算量减少17倍，吞吐量提升1.8倍。该工作为资源受限场景下的遥感分割提供了高效解决方案。

论文遥感分割轻量Transformer ConvMixer 效率优化 ARAS400k

推荐理由：遥感图像分割从业者终于有了兼顾精度和效率的轻量方案——LALE用1.6M参数达到接近大模型的效果，做边缘部署或实时处理的团队可以直接参考。

原文

5月29日

12:32

arXiv cs.LG@Alaa Khamis, Alaa Maalouf

精选

测试时微调（TTFT）是一种新兴范式，通过检索相关序列并更新模型来适应每个提示，但现有方法在速度和效果间存在权衡。HullFT 提出几何方法，利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合，生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集，并利用梯度重用技术摊销重复微调的计算成本。实验表明，HullFT 在更低总运行时间下实现了更低的 bits-per-byte，优于当前最先进的 TTFT 方法。

论文测试时微调凸优化梯度缓存 LLM 效率优化

推荐理由：HullFT 解决了测试时微调中检索和微调的双重瓶颈，做 LLM 推理优化的开发者可以直接尝试，能显著提升效率。

原文

5月21日

09:46

arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin

精选

AutoRPA是一个新框架，能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线，把硬编码的ReAct动作转为软编码过程，并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段，采用混合修复策略，结合RPA执行和ReAct回退进行迭代优化。实验表明，AutoRPA生成的RPA函数在解决相似任务时，token使用量减少82%到96%，显著提升了运行时效率和可复用性。

论文 RPA LLM智能体 GUI自动化代码合成效率优化

推荐理由：做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数，省掉重复调用LLM的高昂成本，做流程自动化的开发者可以直接用起来。

原文

5月20日

10:33

arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin

精选

ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统，通过残差量化k-means和形式概念分析构建模糊概念图，显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上，ContextRAG仅需30次LLM调用和22,073个token完成索引，而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%，多跳任务F1为36.8%。分析表明，检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。

论文 RAG 图构建多跳问答形式概念分析效率优化

推荐理由：做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销，多跳问答效果还更好，做知识密集型问答的开发者值得一试。

原文

5月13日

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75°

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

原文