AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:效率优化×
6月17日
09:39
09:39arXiv cs.AI@Bojie Li
PreAct 是一种让计算机使用代理(如屏幕点击、打字)在重复任务上更快的新方法。首次成功时,PreAct 将运行编译为小状态机程序,后续重放直接执行,无需逐步骤调用语言模型,速度提升8.5-13倍。重放时每步检查屏幕状态,若不一致则交回代理处理。在移动、桌面和Web基准上,存储时检查机制确保编译程序可靠,避免错误积累,平均多完成1.75-2.6个任务。
AI模型PreActComputer-Using Agents智能体效率优化

推荐理由:想让你那个傻傻的屏幕操作AI学会重复干活不重来?PreAct把第一次成功步骤变成程序,后面直接快10倍,还不容易翻车。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
09:39
09:39arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu
大型语言模型生成的代码虽语法正确,但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率,但未能显式编码高效代码的结构模式。为此,研究者提出EffiSkel框架,通过三种互补策略提取并学习效率骨架(抽象的可复用结构模式),并采用多任务学习联合优化代码生成与骨架预测。实验表明,在Mercury基准上,基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO,效率比分别提升11.11%和3.71%,平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。
论文代码生成效率优化结构模式多任务学习LLM

推荐理由:做代码生成或LLM推理优化的开发者,EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化,训练时就注入效率骨架,值得关注其开源实现。
原文
6月3日
10:32
10:32arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen
72°
大型推理模型(LRM)在链式思维(CoT)上通过可验证奖励强化学习(RLVR)取得了显著进展,但长CoT中固有的试错和冗余探索被强化,导致过度思考问题。现有方法主要偏向较短轨迹,但学习信号仍基于结果,无法减少长CoT中的冗余记忆。为此,研究者提出ThoughtFold框架,通过细粒度偏好学习来缓解冗余探索,实现高效推理。它采用内省策略识别正确轨迹中的冗余,生成候选子轨迹谱,并引入掩码偏好优化目标,显式惩罚冗余探索,鼓励模型直接连接关键推理段,从而折叠推理链。实验表明,ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%,同时保持最先进的准确性。
论文推理模型链式思维偏好学习效率优化DeepSeek-R1

推荐理由:ThoughtFold解决了LRM过度思考的痛点,做推理模型优化的团队可以直接参考其内省偏好学习方法,能大幅降低计算成本而不牺牲精度。
原文
6月2日
11:07
11:07arXiv cs.AI@Ümit Mert Çağlar, Alptekin Temizel
LALE 是一种专为遥感图像语义分割设计的轻量级Transformer架构,通过分辨率分叉编码器:轻量ConvMixer处理高分辨率局部特征,Transformer处理低分辨率全局上下文,将自注意力的二次复杂度限制在深层下采样特征图上。全MLP多尺度解码器结合RMSNorm和StarReLU进一步降低计算量和参数量。在ARAS400k基准上,最小变体(仅1.6M参数)在F1分数上仅比最佳基线UPerNet低2.6点,但参数量减少4.5倍,存储减少7倍,计算量减少17倍,吞吐量提升1.8倍。该工作为资源受限场景下的遥感分割提供了高效解决方案。
论文遥感分割轻量TransformerConvMixer效率优化ARAS400k

推荐理由:遥感图像分割从业者终于有了兼顾精度和效率的轻量方案——LALE用1.6M参数达到接近大模型的效果,做边缘部署或实时处理的团队可以直接参考。
原文
5月29日
12:32
12:32arXiv cs.LG@Alaa Khamis, Alaa Maalouf
精选
测试时微调(TTFT)是一种新兴范式,通过检索相关序列并更新模型来适应每个提示,但现有方法在速度和效果间存在权衡。HullFT 提出几何方法,利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合,生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集,并利用梯度重用技术摊销重复微调的计算成本。实验表明,HullFT 在更低总运行时间下实现了更低的 bits-per-byte,优于当前最先进的 TTFT 方法。
论文测试时微调凸优化梯度缓存LLM效率优化

推荐理由:HullFT 解决了测试时微调中检索和微调的双重瓶颈,做 LLM 推理优化的开发者可以直接尝试,能显著提升效率。
原文
5月21日
09:46
09:46arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin
精选
AutoRPA是一个新框架,能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线,把硬编码的ReAct动作转为软编码过程,并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段,采用混合修复策略,结合RPA执行和ReAct回退进行迭代优化。实验表明,AutoRPA生成的RPA函数在解决相似任务时,token使用量减少82%到96%,显著提升了运行时效率和可复用性。
论文RPALLM智能体GUI自动化代码合成效率优化

推荐理由:做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数,省掉重复调用LLM的高昂成本,做流程自动化的开发者可以直接用起来。
原文
5月20日
10:33
10:33arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin
精选
ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统,通过残差量化k-means和形式概念分析构建模糊概念图,显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上,ContextRAG仅需30次LLM调用和22,073个token完成索引,而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%,多跳任务F1为36.8%。分析表明,检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。
论文RAG图构建多跳问答形式概念分析效率优化

推荐理由:做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销,多跳问答效果还更好,做知识密集型问答的开发者值得一试。
原文
5月13日
19:12
19:12arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang
精选75°
大语言模型在复杂推理中常出现“过度思考”问题,导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链,但高质量样本在探索空间中极为稀疏,形成采样瓶颈。受认知科学启发,研究者从理论上证明,参考答案引导的后验分布比先验分布具有更高期望效用,可突破高质量样本的采样瓶颈。为此,他们提出VPG-EA框架,将高效推理形式化为变分推断问题,引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略,通过交叉视图评估过滤伪高效路径,再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示,VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。
论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由:这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案,做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法,值得细读。
原文
精选全部日报登录