10:55rohanpaul_ai@rohanpaul_ai精选一项新研究评估了商业AI聊天机器人在新闻问答中的表现,发现其在多选题上准确率超过90%,能回答几小时前的事件。然而,这种成功很脆弱:当需要自由回答、使用印地语或问题包含错误假设时,性能大幅下降。超过70%的错误源于检索失败或来源偏差,即系统找到了接近但不精确的证据,然后忠实但错误地回答。研究指出,这些模型并非因“不会思考”而失败,而是因定位到错误证据。这揭示了AI作为新闻中介的可靠性问题,提醒用户不要被高准确率迷惑。论文AI聊天机器人新闻问答检索增强生成可靠性评估推荐理由:做新闻聚合或信息检索的开发者,这篇论文戳破了AI聊天机器人的“可靠”假象——高准确率不等于可信赖,自由回答和跨语言场景下漏洞明显,值得点开看看你的系统是否也踩了同样的坑。原文