全部 AI 动态 · AI 热点

6月24日

13:13

13:13

vLLM@vllm_project

vLLM 项目宣布支持 DFlash 投机解码，用户只需将 EAGLE-3 检查点替换为 DFlash 检查点即可启用，无需修改代码。该功能通过开源 Speculators 库将 DFlash 草案模型与目标模型的隐藏状态连接。在单块 Blackwell Ultra GPU 上运行 Gemma-4 31B 模型，Math500 基准取得 5.8 倍吞吐量提升，GSM8K 提升 5.3 倍，HumanEval 提升 5.6 倍，MBPP 提升 4.4 倍。

AI模型 DFlash vLLM Gemma-4 NVIDIA 推理优化

推荐理由：vLLM 和 NVIDIA 合作推出 DFlash 投机解码，Gemma-4 31B 推理速度提升近 6 倍，配置只需改一行 checkpoint 路径。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:27

10:27

arXiv cs.AI@Quentin Fuxa, Dominik Macháček

AlignAtt4LLM 是 IWSLT 2026 同声传译任务的参赛系统，支持英语到德语、意大利语和中文的实时翻译。它采用同步级联架构：Qwen3-ASR 通过强制对齐生成逐步更新的源文本，Gemma-4 E4B-it 在 MT 侧使用 AlignAtt 策略进行翻译。这是首次将 AlignAtt 应用于纯解码器 LLM，解决了缺少编码器-解码器交叉注意力的问题，通过显式源跨度提示、离线选择翻译专用注意力头、选择性 qk-fast replay 和运行时查询/键捕获实现。在 IWSLT 2026 开发集上，该系统在低延迟（约2秒）和高延迟（低于4秒）场景下，对欧洲目标语言（英译德、英译意）均优于基线，对英译中结果较复杂，但方法不限于 Gemma-4，可复用于更强的翻译解码器 LLM。

论文同声传译 AlignAtt 纯解码器LLM 实时翻译 Gemma-4

推荐理由：做同声传译或实时翻译系统的团队，终于有了一个在纯解码器 LLM 上跑 AlignAtt 的可行方案，低延迟场景下效果显著，值得参考实现。