精选 AI 资讯 · AI 热点

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

09:50

09:50

arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng

精选

VESTA 是一个全自动化的 LLM 智能体安全评估框架，能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示，难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试，发现平均安全风险率高达 47.1%，部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。

论文 LLM 智能体安全评估自动化测试风险维度 VESTA

推荐理由：做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景，直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看，结果可能会让你重新审视现有模型的风险。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月27日

10:29

10:29

arXiv cs.AI@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia

精选72°

GENESIS是一个AI智能体框架，旨在解决6G无线接入网（RAN）研发中六个结构性瓶颈，包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范，且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语（智能体、技能、钩子）和持久知识层SYNAPSE，将意图（如规范条款、遥测异常）转化为经过空中实验验证的解决方案，并回馈到知识库。该框架使能力随运行次数累积，显著压缩R&D周期。

论文 6G RAN AI智能体自动化测试知识库

推荐理由：GENESIS解决了6G RAN研发中手动迭代耗时的核心痛点，做通信系统开发或6G标准研究的团队可以直接用这个框架加速从规范到验证的全流程。