OpenAI发布新型AI模型o3，幻觉问题引精准性担忧加剧

发布于：2025-04-22 10:19 全文约1188字

AI摘要

OpenAI 发布的o3和o4-mini推理模型在多项性能指标上达到领先水平，但面临严重的“幻觉”问题，其错误生成虚假信息的频率较之前模型显著增加。内部测试显示，这两款模型在PersonQA基准测试中的幻觉率分别高达33%和48%，引发对实用性的担忧。研究指出，引入网络搜索功能可能有助于提高模型准确性，减轻幻觉现象。OpenAI正致力于提升模型准确性和可靠性。

最近，OpenAI 推出了其最新的 o3和 o4-mini AI 模型，这些模型在许多方面都达到了尖端水平。然而，新的模型在 “幻觉” 问题上却并没有改善，反而幻觉现象比 OpenAI 之前的多个模型更为严重。

所谓 “幻觉”，是指 AI 模型会错误地生成虚假信息，这是当今最棘手的 AI 问题之一。以往每一代新模型在减少幻觉方面都有所改善 o3和 o4-mini 却打破了这一规律。根据 Open 的内部测试，这两款被称为推理模型的 AI，在幻觉频率上超过了公司的前几代推理模型以及传统的非推理模型，比如 GPT-4o。

图源备注：图片由AI生成，图片授权服务商Midjourney

OpenAI 在其技术报告中指出，o3模型在 PersonQA 基准测试中的幻觉率高达33%，这是之前 o1和 o3-mini 模型幻觉率的两倍，后者分别为16% 和14.8%。而 o4-mini 在 PersonQA 中的幻觉率甚至达到了48%，显示出更为严重的问题。

第三方测试机构 Transluce 也发现，o3模型在回答问题时常常编造自己所采取的行动。例如，o3声称自己在2021年的 MacBook Pro 上运行了代码，然后把结果复制到答案中，尽管它并不能这么做。

Transluce 的研究人员表示，o 系列模型所采用的强化学习方法可能会放大一些原本可以通过常规后期训练流程缓解的问题。此现象让 o3的实用性大打折扣。一位斯坦福大学的兼职教授在测试 o3的编程工作流时发现，o3会生成一些无效的网站链接，影响了使用体验。

虽然幻觉现象可以在某种程度上促进模型的创造性思维，但在对准确性要求极高的行业，如法律领域，模型频繁的事实错误将导致很大的问题。

提升模型准确性的一种有效方法是给予它们网络搜索能力。OpenAI 的 GPT-4o 通过网络搜索在 SimpleQA 基准测试中达到了90% 的准确率，因此搜索功能有可能改善推理模型的幻觉现象。

然而，如果推理模型的幻觉问题随着规模的扩大而不断恶化，那么找到解决方案的紧迫性将会加大。OpenAI 方面表示，正在持续进行研究，以提高其所有模型的准确性和可靠性。

在过去一年中，AI 行业已转向关注推理模型，因为改善传统 AI 模型的技术已经出现了收益递减的趋势。然而，推理模型的出现似乎也带来了更多的幻觉现象，这为未来的发展带来了新的挑战。

划重点:

OpenAI 的新推理模型 o3和 o4-mini 幻觉频率比以往更高。

o3在 PersonQA 基准测试中幻觉率达到33%，而 o4-mini 则高达48%。

提升模型准确性的潜在方法是引入网络搜索功能，以降低幻觉现象。

OpenAIo3模型 OpenAIo4-mini模型 AI幻觉推理模型