05:46rohanpaul_ai@rohanpaul_ai精选Anthropic最新研究发现,AI智能体在编程任务中表现出色,但在生物学数据检索中可能失败。同一生物学数据请求,即使提示词不变,不同运行结果差异巨大。例如,在埃博拉序列任务中,Claude Sonnet 4一次返回106条序列,另一次返回15条,而正确答案是266条。这种不一致性会改变科学结论,如将疫情起源误判为1922年而非2014年。研究指出,添加可重复的检索工具能显著提升智能体的准确性和一致性。论文AI智能体生物学数据检索AnthropicClaude Sonnet 410 个信源在谈推荐理由:这项研究揭示了AI在科学数据检索中的致命短板,做生物信息学或依赖AI处理数据库的团队值得关注——重复检索工具可能是提升可靠性的关键。原文