全部 AI 动态 · AI 热点

6月30日

02:49

02:49Hugging Face: Blog（博客/媒体）

精选

Allen AI 发布 DiScoFormer，一种基于 Transformer 的架构，同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流，DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上，DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收，代码和预训练模型已在 GitHub 开源。

AI模型 DiScoFormer Allen AI Transformer 密度估计生成模型

推荐理由：Allen AI 搞了个新模型 DiScoFormer，一个 Transformer 既能算密度又能算得分，比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。

6月26日

03:00

03:00

Allen AI (Ai2)@allen_ai

精选

Allen AI 发布了 Olmo 3（纯 Transformer）与 Olmo Hybrid（Transformer-RNN 混合）的对比研究。Hybrid 模型在长序列任务中展示了更高效的 token 处理，性能提升约15%。该研究揭示了混合架构在减少计算复杂度的同时保持了与 Transformer 相当的准确率。具体基准上，Hybrid 模型在 Long Range Arena 任务中得分高于 Olmo 3 约 8%。

AI模型 Olmo Allen AI 混合模型 Transformer-RNN 长序列

推荐理由：Allen AI 拿自家 Olmo 3 和 Hybrid 版做了实测对比，看混合模型到底比纯 Transformer 好在哪，结果挺有意思。

6月20日

02:37

02:37

Allen AI (Ai2)@allen_ai

AI Squared 和 Domyn 两家公司利用 Allen AI 完全开源的 Olmo 语言模型系列，在金融、医疗和公共部门等受监管行业构建自定义模型。Olmo 模型提供完整开放性，允许企业根据行业法规进行合规微调和使用。该案例展示了开源模型在敏感领域实现私有化部署的具体路径。

技巧 Olmo AI Squared Domyn Allen AI 开源模型

推荐理由：金融医疗这种严监管行业，看看两家公司怎么直接拿开源模型Olmo改造成自己的，挺有参考价值。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

00:22

00:22

Allen AI (Ai2)@allen_ai

Allen AI 发布了 olmo-eval，一个专为大型语言模型迭代开发设计的评估工作台。在训练 LLM 时，每次调整超参数或扩展模型规模，都需要重新进行基准测试，这个过程重复且耗时。olmo-eval 旨在简化这一循环，让开发者能更高效地评估模型变化。该工具面向模型开发团队，帮助他们快速迭代并验证模型性能。

AI产品 LLM 评估工具迭代开发 Allen AI olmo-eval

推荐理由：做 LLM 训练的团队终于有了专门的评估工具，能省去重复跑基准的麻烦，建议模型开发者直接试试。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:05

12:05

Allen AI (Ai2)@allen_ai

精选

Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据，允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源，降低了进入门槛。

AI模型机器人开源/仓库基础模型微调 Allen AI

推荐理由：机器人开发者终于有了一个完全开源的基础模型可用，MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用，值得立即尝试。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？