研究者たちは、単純な論理の問題について多くの人工知能モデルをテストしてきましたが、そのほとんどすべてが失敗しました。答えは見つかりますか?

あなたの意見では、人工知能は人間より優れているのか?これは、哲学バカロレアのプレビューの主題ではありませんが、このテクノロジーの目覚ましい進歩を見たときに、私たちが正当に自問できる質問です。地域によっては、恐ろしいことさえあります。AIは医学部を楽々卒業たとえば、すでに次のような役割を果たしています多くの専門家が見つけられない病気を特定する。とても簡単です:人工知能は私たちよりも人間らしいかもしれない。
ただし、1 つは勉強LAION 組織の現状は、私たちがまだ達成には程遠いことを示しています。機械の支配。多くの言語モデルがテストされています。GPT-3、GPT-4などGPT-4o d'OpenAI、3 作品を閉じる人間性、ジェミニはグーグル、ゴールフレーム、ミストラル・ミストラル… テストプロトコルは、いわゆる「応答」を含むため、非常に単純です。「不思議の国のアリス」の問題。ほぼすべてが失敗しました。
AI はこの単純な論理的な質問に正しく答えることができません
ここでの質問は次のとおりです。アリスには [X] 人の兄弟と [Y] 人の姉妹がいます。アリスの弟には何人の姉妹がいますか?”。いくつかのバリエーションが使用されており、AI の応答は驚くべきものです。 Meta の Llama 3 には「」の権利が与えられました。アリスには4人の兄弟と1人の妹がいますそして彼は、各兄弟には…妹が 1 人だけ、アリス自身がいると説明します。それ以外はそれぞれ2つずつあります, アリスともう一人の姉妹は言いました。最悪の部分はそれですAIは説明を深く理解します 確信を持って。
こちらもお読みください –このAIは26秒で歩くロボットを作ることができます、ターミネーターが近づいていますか?
研究では次のように述べられています。「[…]モデルはまた、しばしば不合理な説明を提供しながら、欠陥のある解決策に対する過信を表します。[…]明らかに間違った回答の正当性を正当化し、支持し、それをもっともらしいものにするため”。結局は一人でGPT-4o は 65% のケースで正しく応答し、優れた成績を収めます。、選択した配合に応じて異なります。これらの結果はさらに驚くべきものです。テストされた言語モデルは良好な MMLU スコアを達成しました、「マルチタスク言語理解」の場合、AI の問題解決能力を評価します。研究者らはこの矛盾については説明していないが、測定値を見直す必要があると指摘している。