全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

13:59

13:59

arXiv: OpenAI@Rohan Shravan

精选

研究者发布了BrahmicTokenizer-131K，一个131072词汇量的字节级BPE分词器，专门优化了印度婆罗米系语言的压缩效率，同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现：先裁剪o200k_base中不相关的书写系统，再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上，它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token，其中奥里亚语压缩比达4.31倍。在非印度语内容上，其英语词元率（1.235 vs 1.232）与o200k_base持平，并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案，已以Apache 2.0协议开源。

论文分词器多语言NLP 印度语 BPE 开源/仓库

推荐理由：做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省，建议做LLM训练或推理优化的开发者试试。

5月14日

13:26

13:26

arXiv cs.LG@Kaiwen Shi, Carlos Oliver

精选

蛋白质结构分词器（PST）是蛋白质语言建模和功能预测的重要工具，但现有方法只捕捉静态结构的局部几何信息，忽略了蛋白质构象集合中的相关运动和替代状态。研究者提出 Ensembits，这是首个对蛋白质构象集合进行分词的方法，通过残差 VQ-VAE 和帧蒸馏目标在大型分子动力学语料上训练。Ensembits 在 RMSF 预测上优于所有相关方法，在基于 token 的方差分析测试中成为最强的独立结构分词器，并在 EC、GO、结合位点/亲和力预测以及零样本突变效应预测上匹配或超越静态分词器。蒸馏目标还允许从单个预测结构预测动态 token，缓解了动力学数据稀疏问题，为将动力学引入蛋白质语言建模和设计提供了离散词汇。

论文蛋白质语言模型构象集合分词器分子动力学 Ensembits

推荐理由：做蛋白质结构预测和语言建模的团队终于有了能处理动态构象的工具——Ensembits 从单个结构就能预测运动模式，比静态分词器更贴近真实生物学，做功能预测和突变效应分析的可以直接用。