全部 AI 动态 · AI 热点

6月17日

09:39

arXiv cs.AI@Bojie Li

PreAct 是一种让计算机使用代理（如屏幕点击、打字）在重复任务上更快的新方法。首次成功时，PreAct 将运行编译为小状态机程序，后续重放直接执行，无需逐步骤调用语言模型，速度提升8.5-13倍。重放时每步检查屏幕状态，若不一致则交回代理处理。在移动、桌面和Web基准上，存储时检查机制确保编译程序可靠，避免错误积累，平均多完成1.75-2.6个任务。

AI模型 PreAct Computer-Using Agents 智能体效率优化

推荐理由：想让你那个傻傻的屏幕操作AI学会重复干活不重来？PreAct把第一次成功步骤变成程序，后面直接快10倍，还不容易翻车。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

17:57

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云等机构在论文中提出NLAH框架，用可执行自然语言替换刚性代码工具集（Agent Harness）。在相同任务上，NLAH性能与代码方案持平，但Token消耗从60k降至2.9k，降幅达95%。其模块化设计可精准归因每一步的值，并识别出多候选搜索等“负资产”环节。该工作将智能体构建从“胶水代码”转向科学策略。

论文 NLAH AgentHarness 智能体自然语言效率优化

推荐理由：看这篇论文，阿里云用自然语言写智能体工具，token省了95%，还能揪出拖后腿的环节。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

16:33

Pandaily@contact@pandaily.com (Pandaily)

UniSound 发布了其通用基础模型 U2，该模型以效率优先为特色，在保持竞争力的同时将 token 消耗降低了 25%。U2 的推出标志着 UniSound 正式进入中国大模型的第一梯队。该模型通过优化架构和训练策略，实现了更低的推理成本，对于需要大规模部署 LLM 的企业来说是一个重要进展。U2 的发布也反映了中国大模型领域从单纯追求参数规模转向注重实际应用效率的趋势。

AI模型 UniSound U2 大模型效率优化 token 节省

推荐理由：U2 的 25% token 节省直接降低了企业调用大模型的成本，做 AI 应用开发和模型部署的团队值得关注这个效率标杆。

原文

6月8日

09:39

arXiv: DeepSeek@Yu Yu, Zhihong Sun, Jia Li, Yao Wan, Chuanyi Li, Hongyu Zhang, Ruyun Wang, Tao Huang, Zhi Jin, Ge Li, Chen Lyu

大型语言模型生成的代码虽语法正确，但运行速度通常远慢于人类优化代码。现有方法通过后迭代优化或微调模型来提升效率，但未能显式编码高效代码的结构模式。为此，研究者提出EffiSkel框架，通过三种互补策略提取并学习效率骨架（抽象的可复用结构模式），并采用多任务学习联合优化代码生成与骨架预测。实验表明，在Mercury基准上，基于DeepSeek-Coder (7B)的EffiSkel相比EffiCoder和CodeDPO，效率比分别提升11.11%和3.71%，平均加速比分别提升0.36和0.22。该工作为提升LLM生成代码的运行时性能提供了新思路。

论文代码生成效率优化结构模式多任务学习 LLM

推荐理由：做代码生成或LLM推理优化的开发者，EffiSkel直接解决了生成代码跑得慢的痛点——不用等后优化，训练时就注入效率骨架，值得关注其开源实现。

原文

6月3日

10:32

arXiv: DeepSeek@Ziyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

72°

大型推理模型（LRM）在链式思维（CoT）上通过可验证奖励强化学习（RLVR）取得了显著进展，但长CoT中固有的试错和冗余探索被强化，导致过度思考问题。现有方法主要偏向较短轨迹，但学习信号仍基于结果，无法减少长CoT中的冗余记忆。为此，研究者提出ThoughtFold框架，通过细粒度偏好学习来缓解冗余探索，实现高效推理。它采用内省策略识别正确轨迹中的冗余，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索，鼓励模型直接连接关键推理段，从而折叠推理链。实验表明，ThoughtFold将DeepSeek-R1-Distill-Qwen-7B的token使用量减少约56%，同时保持最先进的准确性。

论文推理模型链式思维偏好学习效率优化 DeepSeek-R1

推荐理由：ThoughtFold解决了LRM过度思考的痛点，做推理模型优化的团队可以直接参考其内省偏好学习方法，能大幅降低计算成本而不牺牲精度。

原文

6月2日

12:55

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型通过 MFA 和 AFD 技术，从设计之初就注重效率，而非事后优化。这些技术显著降低了 KV-cache 成本，使模型运行更经济高效。Fireworks AI 提供了便捷的一键部署支持，开发者可以快速上手。该模型特别适合构建智能体应用，体现了“效率优先”的设计哲学。

AI模型 Step 3.7 Flash KV-cache 效率优化智能体 Fireworks AI

推荐理由：Step 3.7 Flash 通过原生效率设计解决了 KV-cache 成本痛点，做智能体应用的开发者可以直接用 Fireworks AI 一键部署，值得试试。

原文

11:07

arXiv cs.AI@Ümit Mert Çağlar, Alptekin Temizel

LALE 是一种专为遥感图像语义分割设计的轻量级Transformer架构，通过分辨率分叉编码器：轻量ConvMixer处理高分辨率局部特征，Transformer处理低分辨率全局上下文，将自注意力的二次复杂度限制在深层下采样特征图上。全MLP多尺度解码器结合RMSNorm和StarReLU进一步降低计算量和参数量。在ARAS400k基准上，最小变体（仅1.6M参数）在F1分数上仅比最佳基线UPerNet低2.6点，但参数量减少4.5倍，存储减少7倍，计算量减少17倍，吞吐量提升1.8倍。该工作为资源受限场景下的遥感分割提供了高效解决方案。

论文遥感分割轻量Transformer ConvMixer 效率优化 ARAS400k

推荐理由：遥感图像分割从业者终于有了兼顾精度和效率的轻量方案——LALE用1.6M参数达到接近大模型的效果，做边缘部署或实时处理的团队可以直接参考。

原文

6月1日

07:55

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 的 Step 3.7 Flash 模型在智能体效率方面取得了新突破，通过优化推理速度和资源占用，显著提升了智能体任务的执行效率。该模型特别适合需要快速响应的自动化场景，如代码生成、数据处理等。开发者可以借助它构建更高效的智能体应用，降低延迟和成本。这一进展为智能体技术的实际落地提供了有力支持。

AI模型 Step 3.7 Flash 智能体效率优化推理模型自动化

推荐理由：做智能体开发的团队会关注——Step 3.7 Flash 直接解决了效率瓶颈，建议试试看能否优化你的自动化流程。

原文

02:25

阶跃星辰 Stepfun@Stepfun_AI

精选

在 ClawCon Macao 上，阶跃星辰开发者业务总经理 EileenTal 阐述了智能体发展的下一阶段，并发布了 Step 3.7 Flash 模型。该模型强调在保持智能水平的同时大幅提升效率，旨在让 AI 真正落地到实际工作中。Step 3.7 Flash 针对开发者场景优化，降低了推理成本与延迟，使得复杂任务可以更快完成。这一发布标志着阶跃星辰从追求模型智能转向关注实际应用效率的战略转变。

AI模型阶跃星辰 Step 3.7 Flash 智能体效率优化开发者

推荐理由：阶跃星辰把 AI 从「炫技」拉回「干活」——Step 3.7 Flash 在保持智能的同时大幅提升效率，做 AI 应用落地的开发者值得关注，能直接降低推理成本。

原文

5月30日

11:15

Geek@geekbb

精选

Nous Research 为其 Hermes Agent 引入了 Tool Search 功能，使智能体能够按需加载所需工具，而非一次性加载全部。这一改进提升了资源利用效率和响应速度，尤其适合复杂任务场景。该功能通过动态工具选择机制，减少了不必要的计算开销。对于构建高效智能体的开发者而言，这是一项实用的优化。

AI产品智能体工具调用 Nous Research Hermes Agent 效率优化

推荐理由：Hermes Agent 的 Tool Search 解决了智能体工具冗余加载的痛点，做 Agent 开发的团队可以直接参考实现，提升任务执行效率。

原文

5月29日

18:55

rohanpaul_ai@rohanpaul_ai

一篇新论文提出“效率前沿”框架，系统比较 LLM 在不同部署场景下的上下文策略。研究发现，在保持答案质量的前提下，选择合适的方法可将 token 消耗降低约 25%，在重复使用记忆的场景下甚至可节省超过 50%。该框架将答案质量与 token 成本联合优化，而非分开评估。实验基于 5000 个 HotpotQA 问题，结果表明：低复用场景轻量检索最优，高复用场景记忆压缩更佳，而全上下文提示仍是追求最高准确率的必要手段。

论文 LLM 上下文管理效率优化 token成本检索增强

推荐理由：做 LLM 部署优化的团队终于有了量化工具——这篇论文告诉你何时该用检索、何时该用记忆压缩，直接帮你省 token 成本，建议做推理优化的工程师点开看具体方法。

原文

12:32

arXiv cs.LG@Alaa Khamis, Alaa Maalouf

精选

测试时微调（TTFT）是一种新兴范式，通过检索相关序列并更新模型来适应每个提示，但现有方法在速度和效果间存在权衡。HullFT 提出几何方法，利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合，生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集，并利用梯度重用技术摊销重复微调的计算成本。实验表明，HullFT 在更低总运行时间下实现了更低的 bits-per-byte，优于当前最先进的 TTFT 方法。

论文测试时微调凸优化梯度缓存 LLM 效率优化

推荐理由：HullFT 解决了测试时微调中检索和微调的双重瓶颈，做 LLM 推理优化的开发者可以直接尝试，能显著提升效率。

原文

08:22

elvis@omarsar0

精选

Omar 宣布他构建了一个独立的编码代理解决方案，该方案可与任何编码代理后端配合使用。他特意这样设计，是为了测试来自不同提供商子代理之间的动态工作流。他指出，这些动态工作流的效率是一个真实存在的问题。该方案旨在解决多代理协作中的效率瓶颈。

AI产品编码代理动态工作流多代理协作效率优化 Omar

推荐理由：如果你正在构建或使用多代理工作流，Omar 的方案直接点出了效率痛点并提供了跨后端的解决思路，做代理编排的开发者值得关注。

原文

5月21日

10:48

Yangyi@Yangyixxxx

杨毅在推文中指出，当业务有正向现金流但效率不足时，除了招人，AI时代还有另一种选择：提升AI在工作链路中的效果。他提出两个具体方法：一是“降低抽卡”，即优化指令让AI从多次尝试减少到1-2次成功；二是“提高覆盖”，即让AI从覆盖2个环节扩展到3-4个环节。他强调AI在少数场景可端到端，多数仍需人类最后一公里，但用好可带来1-2倍效率提升，且AI是基座，有乘法效应。而招人则面临边际效率递减和沟通摩擦，这解释了当前就业环境差的原因。

行业 AI提效业务增长创业思考效率优化杨毅

推荐理由：杨毅用实战经验点破了AI提效的两个关键动作，做业务增长或团队管理的创业者、产品经理可以直接拿来用，看完会重新思考招人还是调AI。

原文

09:46

arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin

精选

AutoRPA是一个新框架，能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线，把硬编码的ReAct动作转为软编码过程，并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段，采用混合修复策略，结合RPA执行和ReAct回退进行迭代优化。实验表明，AutoRPA生成的RPA函数在解决相似任务时，token使用量减少82%到96%，显著提升了运行时效率和可复用性。

论文 RPA LLM智能体 GUI自动化代码合成效率优化

推荐理由：做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数，省掉重复调用LLM的高昂成本，做流程自动化的开发者可以直接用起来。

原文

5月20日

10:33

arXiv cs.AI@Roman Prosvirnin, Sergei Kuznetsov, Seungmin Jin

精选

ContextRAG 提出了一种无需大模型进行实体和关系抽取的图RAG系统，通过残差量化k-means和形式概念分析构建模糊概念图，显著降低了索引阶段的token消耗和延迟。在130任务的UltraDomain子集上，ContextRAG仅需30次LLM调用和22,073个token完成索引，而对比方法HiRAG在20任务上就需要870次调用和354万token。ContextRAG在整体F1上达到33.6%，多跳任务F1为36.8%。分析表明，检索到格派生节点的查询比未检索到的F1高出3.9个百分点。该方法为构建高效、低成本的图RAG系统提供了新思路。

论文 RAG 图构建多跳问答形式概念分析效率优化

推荐理由：做RAG系统优化的团队终于有了一个不依赖LLM抽取的图构建方案——ContextRAG用30次调用替代了数百万token的索引开销，多跳问答效果还更好，做知识密集型问答的开发者值得一试。

原文

5月14日

18:29

Meta AI@AIatMeta

精选

Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈，包括改进模型架构、优化和数据整理，Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法，展示了 Muse Spark 在效率上的显著提升，旨在构建个人超级智能。

AI模型 Muse Spark Llama 4 预训练缩放定律效率优化

推荐理由：Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上，做模型训练或资源优化的团队值得关注其缩放定律方法，可以直接借鉴来评估自己的模型效率。

原文

5月13日

21:36

21:36Moonshot AI: Kimi Blog（资讯）

Moonshot AI 提出了一种名为 MoBA（混合块注意力）的新机制，旨在高效处理长文本序列。该机制将注意力计算划分为多个块，并动态选择相关块进行计算，从而大幅降低计算复杂度。实验表明，MoBA 在保持模型性能的同时，显著提升了长文本处理效率，尤其适用于需要处理超长上下文的场景。这一创新为长文本大模型的实际应用提供了新的解决方案。

论文 MoBA 长文本注意力机制 Moonshot AI 效率优化

推荐理由：MoBA 解决了长文本大模型计算效率低下的痛点，做 NLP 或大模型应用的开发者可以直接参考其设计思路，提升模型处理超长文本的能力。

原文

19:12

arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang

精选75°

大语言模型在复杂推理中常出现“过度思考”问题，导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链，但高质量样本在探索空间中极为稀疏，形成采样瓶颈。受认知科学启发，研究者从理论上证明，参考答案引导的后验分布比先验分布具有更高期望效用，可突破高质量样本的采样瓶颈。为此，他们提出VPG-EA框架，将高效推理形式化为变分推断问题，引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略，通过交叉视图评估过滤伪高效路径，再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示，VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。

论文推理模型效率优化变分推断过度思考知识蒸馏

推荐理由：这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案，做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法，值得细读。

原文