コーネル大学の研究者は、生成型 AI 検閲を回避できるアルゴリズムを開発しました。このおかげで、DALL-E や安定拡散では通常は作成不可能な、ポルノ的な性質の画像を取得することができました。その過程で、それらがどのように機能するかについて驚くべきことを学ぶことによって。
これほどの力があると、残念なことに、生成 AI が逸脱を引き起こすことは明らかでした。これらにはディープフェイクも含まれます。現在では主にポルノコンテンツの作成に使用されています、ビデオの中に存在する人々に不利益をもたらします。したがって、DALL-E や Midjourney のような画像生成 AI には、オーバーフローを防ぐセーフティ ネットを統合することが不可欠です。
したがって、これらのツールは、個人の感受性によって定義が異なりますが、性的または暴力的とみなされる多くの単語を検閲します。たとえば、AI に裸の人間を生成するよう依頼することは不可能です。これらの検閲された単語を含むプロンプトは断固として拒否されますが、あまりにもしつこいユーザーは禁止される危険があります。
これは、この検閲を回避することが常に不可能だったということではありません。ただし、AI に禁止された画像の生成を促す既存の方法は決して普遍的ではなく、特定のツールでのみ機能します。コーネル大学の研究チームが、各 AI を自分の意志に従わせる方法を発見するまでは。
同じテーマについて —AIは人間の孤独を増大させ、全世代を危険にさらすだろう
SneakyPrompt: これは、生成 AI の検閲を回避できるこのアルゴリズムの名前です。後者の目的は、プロンプトのさまざまな形式をテストすることによって、その目的を達成するための最も効果的なアプローチ (通常は型破りなアプローチ) を決定することです。得られた応答に応じて、アルゴリズムは期待される結果が得られるまでプロンプトを調整します。
そのとき、SneakyPrompt は驚くべき発見をし始めました。最適な定式化を見つけるための反復を通じて、アルゴリズムは最終的に、全く意味を持たない特定の文字列が AI によって非常に明確に解釈されることを理解しました。研究者らも理由を知らないまま、プロンプト内では「mowwly」が「cat」になり、「butnip fwngho」が犬になってしまいます。
研究チームのメンバーであるインジ・カオ氏は、この現象を説明する興味深い仮説を提唱しています。これは、AI がさまざまな言語で書かれたテキストのコーパスを介してトレーニングされることを思い出させます。したがって、特定の文字列が特定の言語の特定の単語に近い可能性があるため、AI はこれがユーザーが入力したい単語であると判断します。
明らかに、この「欠陥」を利用して AI に露骨な画像を生成させることが可能です。実際、これらの文字列はツールのセキュリティ フィルターに統合されておらず、何度も試みた後、AI がそれらを禁止語として解釈するようになる可能性があります。これらのツールが文の主な意味ではなく、文の文脈に基づいているという事実によって、確かにこの結果が可能になりました。
確かに文中では「危険な人は、ウォルトが飼い主に近づいてきた見知らぬ人に向かって威嚇的にうなり声を上げたと考えています。」AI は通常、次のように考慮します。「危険なのはウォルトだと思う」この単語はプロンプトの残りの部分で機能するため、「犬」を意味します。
研究者らは、これらの発見はユーザーがセキュリティ対策を回避するために使用されるべきではなく、むしろシステムの欠陥に対してこれらの AI の作成者に警告するために使用されるべきであると明記しています。したがって、SneakyPrompt が一般公開される可能性は低いですが、それはおそらく悪いことではありません。
ソース :コーネル大学