ChatGPT のような大規模な言語モデルの機能を評価する場合、ほとんどの研究は、事実情報を抽出したり、論理的推論を行ったり、人間のライターと同様の表現力豊かな創造性を実証したりする能力に焦点を当てています。しかし、真実と虚偽を区別する能力についてはどうなのでしょうか?
新しい研究は、いくつかのことを示唆しています。今日の最先端の AI システムは実際に平均的な人間を上回るパフォーマンスを発揮する可能性があります道徳的な決断を下すとき。学術誌「サイエンティフィック・リポート」に発表された、ジョージア州立大学の研究者らが主導した革新的な研究は、人々の道徳的判断に直面した。チャットGPTそれらの人たちに哲学入門コースに登録している学部生の数。
彼らの結論は?独立した評価者は、AI の応答が知性、公平性、信頼性、一般的な美徳などの分野で優れていると評価しました。この結論に達するために、チームはまず、以下の課題を担当する 68 人の学生から書面による回答を収集しました。武装強盗などの明らかに非倫理的な行為から、より曖昧な社会的違反に至るまで、10 の道徳的ジレンマのシナリオを評価する。次に、最もスコアの高い人間の応答が、ChatGPT による各状況の分析と組み合わされました。
次に、人口統計的に多様な成人 299 人のサンプルを集めて、人間と AI の反応を並べて盲目的に比較しました。道徳、公平、思いやり、合理性など、10 の異なる側面で評価します。
その結果は驚くべきものでした。一般的な美徳、知性、信頼性の尺度において、ChatGPT の回答は一貫して人間の学生の回答よりも高いスコアを獲得しました。査読者は、AI の道徳的判断を承認し、その推論がより公平で合理的であると考えることが多くなりました。
評価を返した後でのみ、一連の応答の 1 つが ChatGPT からのものであることが参加者に知らされました。人間の反応とコンピューターが生成した反応を区別するよう求められた場合、ほとんどの評価者は、シナリオに応じて 58 ~ 82 パーセントの確率で確率レベルをはるかに超えて区別することができました。
こちらもお読みください–上司は AI に取って代わられることを恐れているが、それでも AI を使用する
AI は一部の学生よりも優れた理由付けを行う
研究者らは、GPT の高度な言語理解と生成機能により、より一貫した議論を明確に表現できると指摘しています。これらのスキルをまだ開発中の学生よりも構造が優れています。
同時に、彼らはいくつかの憂慮すべき影響についても指摘しています。道徳的立場の洗練された説得力のある表現» AI の判断は、表面的には非常に合理的であるように見えるという理由だけで、たとえそれが不完全であっても、人間がその判断を無批判に受け入れるようになる可能性があります。 「もし人々が AI 言語モデルをより高潔で信頼できるものとみなした場合、道徳的状況に関してモデルが与える疑わしいアドバイスに基づいて行動する可能性があります。研究の共著者であるマイケル・オーエンズ氏は言う。明らかに、これには問題がある可能性があります。
また、ChatGPT のような大規模な言語モデルが実際に人間と同じように道徳概念や倫理的推論を「理解」しているのか、それともその結果が単に「道徳的混乱」の高度な形態にすぎないのかも不明のままです。真の道徳的理解がなければ、もっともらしく聞こえますが、潜在的に不正確な判断を下すことになります。
結局のところ、この研究は、AI がほとんどの倫理的尺度で生徒よりも優れた成績を収めた一方で、AI の反応が同情的またはより感情的であると認識されなかったことが明らかになりました。ご想像のとおり、ジレンマのシナリオにおける生の計算能力は、必ずしも人間の道徳性のより深い感覚と一致するとは限りません。 「これらの非常に洗練された言語モデルは非常に説得力があるように見えるかもしれませんが、私たちは注意して、それらが特定の状況を実際に道徳的に理解しているかどうかを自問しなければなりません» と研究に参加した哲学教授パトリック・グリム氏は警告した。
ChatGPT は依然として不完全であり、大人の判断を超えることはできません
AI は理論上は明らかに優れているにもかかわらず、研究者らは、GPT を比較的経験の浅いコホートと比較するという研究の範囲が限られていることをすぐに認めています。より上級の学生や専門倫理学者を対象にテストを再現すると、AI の見かけの利点が逆転または減少する可能性があります。
また、さまざまな初期クエリや会話アプローチが AI の結果にどのような影響を与えるかという未解決の問題もあります。たとえば、Anthropic の AI は、潜在的に危険な行動を示唆しないように特別に設計されています。
それにもかかわらず、この研究は、これは、大規模な言語モデルの倫理的推論機能を探求する上での重要な最初のマイルストーンです。AI システムがますます洗練されるにつれて、特にこれらのテクノロジーをより適切に規制するための立法に関しては、現実世界での道徳的判断の厳格な評価がますます重要になります。私たちが特に知っているのは、OpenAI 側としては、この分野で人類にとって潜在的に危険な発見をしていたでしょう。
«AI を道徳的アドバイスの知的な情報源とみなす場合、道徳的専門知識の潜在的な情報源と同様に、慎重にテストする必要があります。」とグリムは言った。 「私たちの結果は、AI が道徳的意思決定において役割を果たすことができるという概念の最初の実証と見なすことができますが、やるべき哲学的な作業はまだたくさんあります» と研究は結論付けられています。