OpenAIの最新モデルであるGPT o3とo4-miniは、以前のバージョンと比べて「幻覚」(事実誤認や虚偽の発生)が増加している。これらのモデルはより高度な推論を行うように設計されているが、その結果、誤情報の発生率も上昇している。
GPT o3では、有名人のベンチマークの約3分の1に誤情報が含まれており、これは前世代モデルo1の誤り率の2倍である。より小型のo4-miniでは、さらに高い48%のエラー率が報告されている。一般的な知識を問うSimpleQAベンチマークでは、o3は51%、o4-miniは79%の錯誤を示した。
OpenAIは、幻覚の増加が必ずしもパフォーマンスの低下を意味するとは考えていないが、回答の冗長性や推測の傾向が誤情報の温床になる可能性があることは認めている。弁護士による誤答の事例も示しているように、このような誤答が実社会で深刻な結果をもたらすことが懸念される。信頼性の確保は、今後のAI活用における重要な課題である。
参考:ChatGPT is getting smarter, but its hallucinations are spiraling
コメント