Openaiは、最新の人工知能でマイルストーンを越えたと主張しています。しかし、この研究は予期しない弱点を明らかにしています。最新のモデルは、前任者よりもさらに多くのエラーを生成します。

l '人工知能すぐに進化しますが、それは欠陥は持続します。 Openaiは、データを公開したばかりですその新しいO3およびO4-MINIモデルは、これまでで最も効率的であると考えられています。ただし、これらのAIはaを提示します増加からマークされています幻覚。この現象は指定しますエラー深刻な場所AI事実を発明します、の研究または先取特権。この情報のように思えるので、心配な問題です信頼できるあまり疑わしいユーザーのために。それらの番号は依然として重要な基準ですモデルの信頼性を評価します。
数字は最終です。 Openaiはそれを示しますo4-miniハルシン症例の48%内部PersonQAツールでテストされています3倍何O1モデル。O3モデル、さらに大きく、より信頼性が高いはずですが、エラーも生成します回答の33%、前の2倍。この開発は驚くべきことです。なぜなら、原則として、モデルの新しい世代の各モデルはこれらの問題を軽減する傾向があるからです。ここで、全体的な精度の進歩にもかかわらず、取得するリスク誤った情報が増加します。
O3およびO4-MINIモデルは、推論能力の増加にもかかわらず、より多くの幻覚をモデル化します
Openaiは、最近のモデルを設計し、推論を外部委託し、より透明性のために反射の段階を表示しています。このアプローチは、有望ですが、誤った情報の出現を妨げません。の独立したレポート翻訳しますO3を明らかにしました発明する時々彼が持っていない能力、プロの架空のMacBookでコードを実行するようなものです。さらに悪いことに、ユーザーの修正に直面しても、後者彼の間違いに続く。これは、これらのツールの真の信頼性に疑問を投げかけますが、より厳格なものとして提示されました。
専門家は、この現象を説明するためにいくつかの仮説を進めています。のデザインの選択、結果に基づく結果として、可能です幻覚を悪化させますs。さらに、Openaiは、モデルの開発を加速するために安全試験段階を削減していました。この戦略は、それが許可されている場合革新、ユーザーをに公開しますもっと間違ったコンテンツ。より良い解決策を保留するまで、注意は依然として不可欠です。最も高度なAIでさえ、批判的な外観で使用する必要があります。