精选 AI 资讯 · AI 热点

6月18日

03:06

03:06

xAI@xai

精选

xAI的Grok 4.3模型正式在Amazon Bedrock上可用，AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先，能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放，按token计费。

AI模型 Grok xAI Amazon Bedrock 推理模型

推荐理由：xAI把Grok 4.3放到了AWS上，你用Bedrock就能直接调，幻觉率低、工具调用强，适合做可靠应用。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

05:03

05:03

lmarena.ai@lmarena_ai

精选

xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升，但可操控性稍差且更容易出现工具幻觉，不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务，从5个信号维度评估模型表现。

AI模型智能体 Grok xAI Agent Arena 模型排名

推荐理由：xAI 的模型在 Agent Arena 中取得不错排名，做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进，值得关注其实际任务完成率提升。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:03

08:03

xAI@xai

精选76°

xAI 发布了 Grok Build 0.2.7 版本，主要新增了 /usage 命令用于查看使用情况、/login 命令方便登录，以及子代理间共享终端功能，同时改进了图像理解能力。这些更新提升了多代理协作和用户体验，适合开发者在构建复杂工作流时使用。所有变更详情可在 x.ai/build/changelog 查看。

AI产品 Grok Build 子代理共享终端图像理解 xAI

推荐理由：子代理共享终端解决了多任务协作中的上下文割裂问题，做自动化工作流的开发者可以直接升级体验。

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月22日

11:38

11:38

arXiv: OpenAI@Andrii Kryshtal

精选72°

一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现，发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时，输出可能加剧社会分裂。失败率从 6% 到 47% 不等，当用户要求“平衡”报道时，五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架，呼吁将此类测试纳入模型安全评估体系。

论文 AI安全冲突场景模型评估 OpenAI Anthropic DeepSeek xAI

推荐理由：做 AI 安全评估或部署在敏感地区的团队，这篇论文给出了第一个可复用的冲突场景测试框架，能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。