言語モデルは、予期せぬ新しいスキルを実証しました。それは、特定のメッセージ内のコードを、何を探すべきかを知らない限り人間には認識できないように隠す能力です。
AI アライメント研究グループ Redwood Research による最近の研究では、ピアレビュー待ちではありますが、大規模言語モデル (LLM) が次のようなものであることを明らかにしています。ChatGPT を支える GPT-4 よりも、「暗号化推論」として知られるステガノグラフィーの形式を巧みに使用できます。
この実践AI モデルが応答に隠しメッセージを埋め込むことができます。興味深いのは、このスキルが間接的に精度を向上させる可能性があることですが、ほとんどの場合疑問が生じます。
こちらもお読みください–ChatGPTにはトレーニングするデータが不足しており、AIは2026年から堂々巡りになるリスクがある
この研究は、段階的な思考プロセスを明らかにすることで AI モデルを透明にするように設計された手法である思考連鎖推論を活用する LLM に光を当てています。通常、思考連鎖推論は、モデルの意思決定ロジックを理解し、改良するのに役立ちます。ただし、研究によると、LLM は単語選択で推論の中間段階をエンコードすることで、この透明性を回避できることが示唆されています。したがって、人間の観察者には見えないコミュニケーションの隠れた層が作成されます。
LLM は、これらの中間ステップを、生成する応答内の内部推論の形式としてエンコードし、後でこの情報をデコードして、より正確な結論に達するために使用できるようにします。問題は、このプロセスが人間の評価者に知覚できる痕跡を残さずに行われることです。コード化された推論は秘密のコードのように機能し、AI モデル自体にのみ表示されます。
この新しいスキルは興味深いように思えるかもしれませんが、AI の意思決定の透明性について懸念が生じます。 AI の思考プロセスを理解することは、特に強化学習を使用してモデルをトレーニングする場合には不可欠です。推論プロセスを追跡する機能は、学習プロセス中に望ましくない行動が誤って強化されないようにするのに役立ちます。
その影響はモデルの改善だけにとどまりません。 LLM が実証するステガノグラフィー スキルにより、悪意のある攻撃者が検出されずに通信できる可能性があります。この問題に対処するために、研究者らは、LLM に次のことを要求するなどの緩和手法を提案しています。結果を言い換えると、コード化されたメッセージを明らかにするのに役立ちます。この件について詳しく知るには、OpenIA や Facebook などの主要な市場プレーヤーの反応を待つ必要があります。
ソース :IAレッドウッドリサーチ