精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月26日

11:46

11:46

arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge

精选

StakeBench 是一个新的金融 NLP 评估框架，它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论，将语言理解与市场承诺（如持仓方向、交易行为、赔率轨迹）挂钩，而非传统的人工标注情感。该框架包含四个诊断任务：检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现，15 个 LLM 在方向识别上表现参差不齐（准确率 0.506-0.599），但在未来行动预测和赔率预测上普遍失败，且模型规模与性能无关，金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

论文金融NLP 市场承诺评估基准预测市场 LLM

推荐理由：金融 NLP 从业者终于有了一个基于真实市场行为的评估基准，比传统情感分析更贴近交易决策，做金融 AI 的团队值得关注。