01:37OpenAI@OpenAI (@OpenAI)OpenAI 在官方博客发布“How agents work”指南,详细拆解 Agent 的核心组成:模型调用(以 GPT-4o 为例)、工具集成(代码解释器、函数调用等)、持久化记忆(向量数据库)以及编排模式(链式与多步)。指南对比了简单查询与复杂多步骤 Agent 的设计差异,并给出基于 Assistants API 的代码示例。文章未公布新的基准分数,但提供了可立即实现的架构建议。技巧AgentOpenAIGPT-4o工具使用指南10 个信源在谈推荐理由:OpenAI 手把手教你做智能体,从原理到代码都有,适合想自己搭 Agent 的同学。原文
20:53IT之家(博客/媒体)麻省理工学院一项4月发布、持续4周、67人参与的研究发现,过度依赖聊天机器人可能削弱批判性思维。参与者借助基于GPT-4o的AI助手判断新闻真假,准确率提高21%,但第四周无AI帮助时独立判断能力下降15.3%。研究指出,AI直接给出答案而非引导思考,长期会削弱用户识别错误信息的能力。约四分之一参与者误以为能力提高,实际表现已变差。论文麻省理工学院GPT-4oChatGPT批判性思维AI伦理推荐理由:麻省理工用67人做了4周实验,发现依赖ChatGPT越久,你自己辨别假新闻的能力反而下降15%——别把脑子外包给AI。原文
19:46Decoder@Jonathan Kemper爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试10 个信源在谈推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。原文