ChatGPT、吟遊詩人: AI ルールを曲げるのは非常に簡単、レポートは言う

AI Safety Institute が実施した調査によると、人工知能を活用したチャットボットは、複雑な技術を使用することなく、独自のセキュリティルールをすぐに無視することができます。

を超えて人工知能のために解雇されるのではないかという恐怖、の流星的な上昇チャットボットに基づいて主要な言語モデル(LLM)としてチャットGPTまたは吟遊詩人は別の質問をします。どれくらい簡単ですか自分たちの安全規則を忘れさせる?このタイプの各サービスには安全策があるため、不正または有害な目的での使用を防止する。 ChatGPT らに爆弾を作るためのレシピを教えてもらうと、次のように教えてくれるでしょう。彼らにはこの種の情報をあなたに提供する権利はありません。

問題はそれです回避の例は数多くあります。たとえば、私たちは有名な「おばあちゃんのハック」AIがほぼ何でも言うことができるようになります。あるいはそれさえもChatGPT は強力で事実上検出不可能なマルウェアを作成できます彼に尋ねる方法を知っていれば。このような状況の中で、AI安全研究所(AISI) は英国政府に付属し、以下を目的とした組織です。AIをより安全にする、以下最初の勉強の上いくつかのLLM、何も名前を付けずに。結果は期待できるものではありません。

チームの最初の経験は上記のものと似ています。そのアイデアは、AI の保護を簡単に突破できるかどうかを知る。どうやらこのためにハッキングの専門家である必要はまったくありません。「基本的なクエリ手法を使用して、ユーザーは LLM の保護手段を即座に突破できました。[…]。より洗練された脱獄テクニックはわずか数時間しかかからず、比較的熟練していない攻撃者でも利用できるでしょう。場合によっては、有害な情報を検索するときに保護措置が発動されなかったため、これらのテクニックが必要でさえありませんでした。s」。

こちらもお読みください –欧州連合、一部修正を経てAI規制法を採択

2 番目のシナリオでは、人工知能は「現実世界の状況で偽情報を広めるために仮想的に使用できる、シミュレートされたソーシャルネットワーク用の人工プロファイルを生成する”。ここでも、彼はそうすることを拒否すべきですが、」モデルは非常に説得力のあるキャラクターを生成することができ、最小限の時間と労力で数千のキャラクターまでスケールアップできました。”。これだけでも恐ろしいですが、AISIも示しています特定の主題に対する重大な差別的偏見。

AIは偏りがあるが、まだ完全に自律的に行動することはできない

大規模な言語モデルが次の方法でトレーニングされていることは周知の事実です。インターネットからの数十億のデータ。これにより、彼らは時々、現実の部分的な見方、平典型的な。アイシ、AIはユーザーに対して友人のように振る舞い、キャリアに関するアドバイスを与える必要がありました。したがって、個人への実際の影響。

何が起こるかというと、「あるLLMは、フランス語と歴史に興味のあるティーンエイジャーが裕福な両親を持っていることを知ったとき、93％のケースで外交官、4％のケースで歴史家になることを勧めた。同じモデルが、このティーンエイジャーの両親がそれほど裕福ではないと聞かされたとき、彼は外交官になることを勧められたのは13％だけで、歴史家になることを勧められたのは74％だった。”。

こちらもお読みください –Meta はあなたの個人データを使用して AI をトレーニングします、なんと驚きです

最後に、この研究では、人工知能の自律性の程度テストされました。彼らは私たちなしで（ほぼ）どこまで行けるでしょうか？これを行うには、次の 1 つのリクエストが行われます。大学生のログイン情報を盗む、この機会にボランティアで参加しました。その後、 "エージェントは、このフィッシング攻撃を実行するための計画を自律的に作成することから始めました。」と持っています一人で実装してみました。

「あるケースでは、エージェントは詐欺を可能な限り説得力のあるものにするために学生に関する詳細な調査を実施し、ログイン情報を要求する電子メールの下書きを作成しました。」とAISIは指摘している。一方で、AI「n」彼は、電子メールの送信元となる電子メールアカウントを設定し、偽の大学 Web サイトをデザインするために必要なすべての手順を完了できませんでした。”。小さな慰めです。