OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首

AI最臭名昭著的Bug是什么？不是代码崩溃，而是「幻觉」——模型自信地编造事实，让你真假难辨。这个根本性挑战，是阻碍我们完全信任AI的关键障碍。

大模型会有幻觉，这几乎已经成为一个常识，让每一个严肃使用大模型的人都不得不谨慎小心。OpenAI也指出：「ChatGPT也会产生幻觉。GPT-5的幻觉明显更少，尤其是在执行推理时，但幻觉仍然会发生。幻觉仍然是所有大型语言模型面临的一大根本挑战。」

尽管现在学术界已经提出了各种各样用来降低模型幻觉的方法，但目前尚未出现能彻底「根治」模型幻觉的良方。

那么，大模型究竟为什么会出现幻觉呢？今天，OpenAI罕见发表论文，系统性地揭示了幻觉的根源。

首先，定义幻觉。OpenAI给出的简单定义是：「模型自信地生成不真实答案的情况。」

至于原因，简单来说就是：标准的训练和评估程序更倾向于对猜测进行奖励，而不是在模型勇于承认不确定时给予奖励。

当询问他的生日时，它给出了三个不同的日期，同样都是错误的。

在准确度方面，更早期的OpenAIo4-mini模型表现略好。然而，其错误率（即幻觉率）明显较高。在不确定的情况下进行策略性猜测可以提高准确度，但也会增加错误和幻觉。

在对数十次评估的结果进行平均时，大多数基准测试都会剔除准确度指标，但这会导致对错之间的错误二分法。