全部 AI 动态 · AI 热点

6月23日

11:08

11:08

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

论文将自然语言到DSL代码生成定义为Text2DSL新问题，并引入PolkitBench数据集，含4204对自然语言-Polkit规则对。实验在GigaChat-10B-A1.8B（18亿活跃参数）和Nemotron-3-Nano-30B-A3B（30亿活跃参数）两个MoE模型上测试。提供结构化上下文（BNF语法、API说明、允许标识符词汇）后，语法有效性达98.6-99.4%，结构有效性提升9.7-35.5个百分点，CodeBLEU分数提升60-95%。

论文 Text2DSL PolkitBench DSL 代码生成 LLM

推荐理由：这篇论文定义了Text2DSL任务，带了一个4204条规则的数据集PolkitBench，还发现喂给模型语法规则能让代码生成质量暴增，不用微调。

11:07

11:07

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

该研究扩展了Text2DSL自动生成领域特定语言代码的工作，用DeepSeek-V4-Flash作为教师模型，在结构化上下文（BNF语法、API规范、词汇表）下生成数据，经AST验证（使用esprima）和运行时验证（polkitd与pkcheck）的流水线，将PolkitBench语料从4,204对扩充到10,073对，其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件（C0-C7）评估发现：无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%，完整上下文C7在所有指标上最优，词汇表对语义质量贡献最大（组合得分+0.198），API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。

论文 Text2DSL DeepSeek-V4-Flash GigaChat-10B-A1.8B PolkitBench 模型蒸馏

推荐理由：这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则，并通过消融实验证明结构化上下文不是锦上添花，词汇表才是提升语义质量的关键。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？