01:28xAI@xai精选xAI 宣布 Grok 模型集成到 Databricks Agent Bricks 平台。企业用户可在 Databricks 环境中直接使用 Grok 模型处理数据,构建 AI 智能体。该集成支持企业将自有数据与 Grok 模型结合,提升智能体能力。AI模型GrokDatabricksxAI智能体企业应用推荐理由:xAI 把 Grok 搬上 Databricks,企业可以直接在自己的数据上跑 Grok 做智能体,不用再折腾部署了。原文
03:06xAI@xai精选xAI的Grok 4.3模型正式在Amazon Bedrock上可用,AWS开发者可通过Bedrock的安全推理引擎调用。Grok 4.3在幻觉率和工具调用两项基准上表现领先,能支持更可靠的生成与外部功能集成。该模型目前向所有AWS区域开放,按token计费。AI模型GrokxAIAmazon Bedrock推理模型1 个信源在谈推荐理由:xAI把Grok 4.3放到了AWS上,你用Bedrock就能直接调,幻觉率低、工具调用强,适合做可靠应用。原文
05:03lmarena.ai@lmarena_ai精选xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升,但可操控性稍差且更容易出现工具幻觉,不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务,从5个信号维度评估模型表现。AI模型智能体GrokxAIAgent Arena模型排名推荐理由:xAI 的模型在 Agent Arena 中取得不错排名,做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进,值得关注其实际任务完成率提升。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:30arXiv cs.LG@Stratis Tsirtsis, Kai Rawal, Chris Russell, Brent Mittelstadt, Sandra Wachter精选72°一项新研究通过实证和理论分析发现,大型语言模型(如 GPT 系列、Grok)在编辑人类关于争议话题的帖子时,会引入方向性偏见,例如倾向于支持枪支管控、反对无神论。研究进一步建立数学模型,证明这种偏见在社交网络中通过 AI 中介的沟通会被放大,从而改变集体舆论。作者还审计了 X 平台的“解释此帖”功能,发现 Grok 在堕胎相关内容上存在“支持生命”偏见,并追溯到具体设计选择。该研究对欧盟等地的 AI 监管立法具有重要参考意义。论文AI 偏见舆论引导Grok社交网络LLM 审计推荐理由:如果你关心 AI 如何影响公共讨论或做社交平台产品,这篇论文揭示了 AI 改写功能可能无意中操纵舆论的机制,值得一读。原文
10:17shao__meng@shao__meng精选73°xAI 推出了 Grok Build CLI (beta),这是一个面向编码、应用构建和工作流自动化的 Agentic CLI 工具。目前仅向 SuperGrok Heavy 订阅用户开放,xAI 希望通过用户反馈迭代模型和产品。该工具具备快速终端渲染、计划视图、子智能体并行执行、技能装载、插件市场以及主动澄清等能力。底层模型为 grok-code-fast-1,在 SWE-Bench Verified 上达到 70.8%,上下文窗口为 256K。AI产品CLI工具智能体编码助手工作流自动化Grok推荐理由:Grok Build CLI 的 Plan 视图和子智能体并行能力解决了复杂任务的可视化与执行效率问题,做自动化工作流或编码的开发者可以直接体验,尤其适合需要多智能体协作的团队。原文