14:54Epoch AI@EpochAIResearchClaude Fable 5 在 Epoch Capabilities Index (ECI) 上取得 161 分的新高,比 GPT-5.5 Pro 高出 1 分。这是 Anthropic 一年多来首次在 ECI 上领先。该指数衡量模型综合能力,Claude Fable 5 的表现重新夺回了榜首位置。AI模型Claude Fable 5GPT-5.5 ProAnthropic基准成绩10 个信源在谈推荐理由:Claude Fable 5 在 ECI 上拿 161 分,超 GPT-5.5 Pro 一分,Anthropic 终于又领先了。原文
10:07Gary Marcus@GaryMarcusAnthropic 发布的 Claude Fable 5 在 Epoch AI 的 Epoch Capabilities Index 上获得 161 分,以 1 分之差超越 GPT-5.5 Pro 的 160 分。这是 Anthropic 一年多来首次在该基准上领先。该指数综合评估模型能力,当前最高分为 161。尽管成绩创下新高,但专家指出进步幅度仍属渐进。AI模型Claude Fable 5GPT-5.5 ProAnthropicEpoch Capabilities Index基准测试10 个信源在谈推荐理由:Claude Fable 5 刚在 Epoch 能力指数上以 161 分微弱领先 GPT-5.5 Pro,这是 Anthropic 一年多来首次登顶,你可以看看它具体强在哪。原文
13:05Greg Brockman@gdbEthan Mollick 在 X 上分享使用 GPT-5.5 Pro 进行事实核查的体验,称其能准确追踪整章内容中的关键引用。该模型擅长捕捉细微差别,但会频繁指出“大致正确但忽略细节 X”的问题。这表明 GPT-5.5 Pro 在学术写作、内容审核等需要高精度事实验证的场景中具有实用价值。AI产品GPT-5.5 Pro事实核查学术写作内容审核OpenAI7 个信源在谈推荐理由:做学术写作或内容审核的团队,GPT-5.5 Pro 能帮你省下大量人工核查时间,建议试试整章投喂的体验。原文
01:46Ethan Mollick@emollickGPT-5.5 Pro 面临一项高难度学术任务:基于一篇分析哪些词对有趣及其原因的研究,自主生成搞笑词对。模型产出了诸如“scrotum snorkel”、“tuba subpoena”、“waffle coffin”等创意组合。这些结果展示了 AI 在幽默生成方面的能力,但也引发了对模型理解幽默机制的讨论。该测试旨在评估 AI 的创造性和语义理解深度,对自然语言处理研究具有参考价值。AI模型GPT-5.5 Pro幽默生成学术挑战自然语言处理创意AI推荐理由:幽默生成是 AI 理解语言细微差别的试金石,做 NLP 或创意 AI 的开发者可以看看 GPT-5.5 Pro 的脑洞有多大。原文