全部 AI 动态 · AI 热点

6月23日

22:09

22:09

LangChain@LangChainAI

精选76°

LangChain与Fireworks AI合作，微调阿里Qwen模型构建了trace judge，用于检测生产trace中的“感知错误”。该judge在性能上匹敌或超越前沿模型，同时运行成本降低100倍。相关研究成果已发表在LangChain Labs博客。

AI产品 LangChain Fireworks AI Qwen 微调 AI评估

推荐理由：LangChain搞了个低成本trace judge，用阿里Qwen微调，性能不输顶级模型还便宜100倍，做trace监控的可以看看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

12:47

12:47

Logan Kilpatrick@OfficialLoganK

Logan Kilpatrick 在 X 上发帖指出，目前创建高质量公开 AI 基准测试（benchmarks）存在巨大的信息优势（alpha）。他认为这是一个被低估的机会，因为当前公开基准测试的质量参差不齐，而好的基准测试能有效推动模型评估和行业进步。该帖引发广泛讨论，获得 31 条评论、176 个点赞和 8044 次浏览，反映出社区对这一观点的共鸣。

行业基准测试 AI评估公开数据信息优势 Logan Kilpatrick

推荐理由：做 AI 评估或模型开发的团队，现在投入公开基准测试能抢占先机——Logan 点出了这个被忽视的蓝海，建议关注并尝试创建自己的测试集。