Sora (OpenAI): テキストからビデオを生成する AI について知っておくべきことすべて

Sora は、テキストプロンプトをビデオに変換できる OpenAI の人工知能モデルです。芸術創作における革命となる可能性のあるソラは多くの疑問を提起しますが、私たちはここでそれに答えようと努めています。

テキストジェネレーターで比類のない熱狂を呼び起こした後チャットGPTおよびその DALL-E 画像生成器、OpenAIがSoraを発表、そのビデオジェネレーター。他のプラットフォームと同様に、これは人工知能ベースのツールであり、テキスト形式のプロンプトからコンテンツを作成できます。 Sora は、インターネットやその他の分野での多くのクリエイティブな用途に革命を起こすことを約束します。Sora について知っておくべきことは次のとおりです。

ソラはどのように機能しますか？

Sora は GPT モデルと同様に、変圧器のアーキテクチャ。ニューラルネットワークでは、トランスフォーマーはその研究分野を使用してシーケンスのコンポーネント間の関係を確立し、入力シーケンスを出力シーケンスに変更し、プロンプトに対する応答を生成できるようにします。このシステムでは、AI が質問を理解し、適切な回答を作成しようとしているように見えますが、実際には推論スキルは関与していません。これらは、概念を相互に関連付けるために数学的表現を使用するアルゴリズムです。

大規模言語モデル (LLM) がその操作でトークンを使用する場合、Sora は OpenAI がトークンと呼ぶものを使用します。「パッチ」(視覚的な修正)。この手法は、データ視覚化の分野ですでに実証されています。ビデオは圧縮によってパッチに変換され、これらのパッチはトークンとして機能します。これらは、トランスフォーマーを使用してビデオ (または画像) を再構築するために使用できます。

「Sora は、静的なノイズのように見えるビデオから開始してビデオを生成し、いくつかの段階でノイズを除去することで徐々にビデオを変換するストリーミングモデルです。」、OpenAIについて説明します。単一のプロンプトから一度にビデオを作成したり、複数のプロンプトを使用してビデオを延長したり修正したりすることができます。

モデルも同じものを使用しています要約テクニックDALL-E 3 によって使用されます。これは、豊富なビジュアルトレーニングデータベースを開発するための、非常に詳細で説明的な凡例の生成で構成されます。したがって、モデルはこのデータベースから抽出して、生成されたビデオ内のユーザーのテキスト指示にさらに忠実に従うことができます。

テキストプロンプトに加えて、Sora は静止画像を含む処理命令をサポートします。次に、この画像の内容に基づいてアニメーションを作成します。プロンプトは、ソラが拡張したり、不足しているシーンを追加したりできるビデオを提案することもできます。

今のところ、Sora は最大 1 分間のビデオを生成できます。この制限は、ユーザーの指示と望ましい視覚スタイルを厳密に尊重するビデオを作成するために必要なリソースの量によるものです。 OpenAI はビデオの生成に必要な処理時間については明らかにしていません。最初のユーザーが戻ってきたことは、Sora で 1 分の動画を作成するのに約 1 時間かかるとのこと。このような遅延はサービスにとって大きな弱点となり、ユーザーが新しいプロンプトでビデオを効果的に修正してビデオを最適化し、より関連性の高い結果を得ることができなくなります。

Sora の画質はどのくらいですか?

Sora はビデオを生成します最大 1920 x 1080p、つまりフル HD の解像度。また、最大 1080 x 1920p の垂直形式でビデオを生成し、任意の比率に適応させることもできます。このタイプの他のサービスとは異なり、ビデオの 1 秒あたりのフレーム数は不明です。

ソラが作れるのは超リアルなレンダリング、プロンプトで説明されているリクエストに応じて、より抽象的なシーンも含まれます。 DALL-E による画像生成と同様に、画像に不自然さや異常が現れ、幻覚現象に気づく場合があります。動きのエラーや、キャラクター間または設定とオブジェクトとの相互作用でもエラーが発生する可能性があります。しかし、OpenAI によって公開された最初の例は印象的であり、Sora はすでにインターネットやテレビで放送される広告スポットを生成する準備ができていると考えられます。

OpenAI 自身も認めていますが、Sora にはまだ改善の必要があります。「複雑なシーンの物理を正確にシミュレートするのは困難であり、原因と結果の特定のケースを理解できない可能性があります。」と同社は認めている。たとえば、人がクッキーをかじった場合、噛み跡がない場合があります。割れたガラスの管理も、OpenAI が直面する困難です。プロンプトの空間指示では、パターンが混乱する可能性があり、たとえば、左と右が混在する可能性があります。また、特定の軌道やカメラアングルなど、シーンの方向指示に従うのが難しい場合もあります。

一方、Sora は、被写体と背景の正確な詳細を含むシーンを作成したり、感情を表現したり、ビジュアルスタイルを尊重したり、1 つのビデオ内でショットを何度も変更したり、特定のフィルム形式を採用したりすることができます。 35mmなど。 3D の一貫性はすでに習得されています。 Sora は動的なカメラの動きを伴うビデオを生成できます。「カメラが動いたり回転したりすると、シーン内の人物や要素が 3 次元空間で一貫して動きます。」、私たちは学びます。

同様に、OpenAI は、ビデオ全体の時間的一貫性とオブジェクトの永続性の点で Sora のパフォーマンスに満足しています。「私たちのモデルは、人、動物、物体が隠れていたり、フレームから外れていたりした場合でも、保存することができます。単一のサンプルで同じキャラクターの複数のショットを生成し、ビデオ全体でその外観を維持できます。」と同社は言う。

ソラを試すにはどうすればよいですか？

Sora はメンバーのみがアクセスできます。OpenAI レッドチーミングネットワーク。これは、ツールの機能をテストすることを使命とする、慎重に選ばれたユーザーのグループです。目的は、技術的、法的、倫理的問題を OpenAI に報告し、より広範なリリースの前に解決できるようにすることです。ディープフェイクの問題は、ビデオ生成ソリューションのパブリッシャーを特に懸念させます。この点に関しては障壁を築かなければなりません。著作権の尊重も考慮すべき重要な問題です。

「私たちはまた、モデルを発展させる方法についてのフィードバックを得るために、多くのアーティスト、デザイナー、映画制作者にアクセスを許可し、それがクリエイティブな専門家にとって可能な限り役立つようにしています。」、OpenAIも報告しています。同社は現在、その進捗状況を共有し、できるだけ多くのフィードバックを得てツールを改善するために、OpenAI 以外の数人の人々に Sora への扉を開いています。 Sora がいつ一般公開されるのか、またどのような形で公開されるのかはまだわかりません。

Sora は ChatGPT に統合されますか?

OpenAI が Sora を一般大衆にどのように配布するつもりなのかは現時点ではわかりません。同社が最近行った戦略的決定に依存する場合、そのツールが独自のユーザープラットフォームを持っているかどうかは定かではありません。 DALL-E 2 は独自のインターフェイスで新しいクライアントを受け入れなくなりましたが、DALL-E 3 にアクセスするには ChatGPT の有料バージョンまたは開発者バージョンを経由する必要があります。したがって、DALL-E 3 が起動されると、Sora は直接統合されると想像できます。チャットGPTプラス。 Sora のリリース時に、限定的であっても無料で利用できるかどうかは定かではありません。

Sora にはどのようなセキュリティ対策が組み込まれていますか?

Sora が一般公開される前に、OpenAI はこの強力なツールの悪用リスクを軽減するための一連の措置をすでに発表しています。同社は現在ツールを開発中です「誤解を招くコンテンツの検出を支援するため」、特にソラによって生成されたビデオの検出を可能にする分類システムを挙げています。また、モデルが将来 OpenAI 製品に統合される場合、チームはC2PAメタデータ。このオープンスタンダードは、DALL-E 3 によって生成された画像にすでに使用されており、コンテンツの出所を追跡して、AI によって作成されたかどうかを知ることができます。

Sora は、他のサービスにすでに実装されているセキュリティ機能からも恩恵を受けることができます。予定されているのは、テキスト分類子その役割は、OpenAI の使用ポリシーに違反するプロンプトをチェックして拒否することです。極端な暴力、性的コンテンツ、嫌がらせ的な画像、有名人や第三者の IP アドレスへの類似を表示するコンテンツをリクエストするプロンプトは禁止されています。さらに、画像分類器は、生成された各ビデオの画像を検査して、これらの有名な使用ポリシーに違反するビデオがないことを確認します。

ソラのライバルは誰ですか？

テキストと画像の生成モデルに続いて、世代別人工知能分野の主要企業はビデオ生成モデルの開発に真剣に取り組んでいます。 Google は、Gemini と ChatGPT および GPT-4 の主な競合他社の 1 つであり、また、Lumiereを使った動画制作。 Google Lumiere も一般人はアクセスできませんが、現在は 5 秒の動画に制限されています。プロンプトにはテキストだけでなく画像も含めることができます。

デジタル界の重鎮の中でも、メタ氏もこのテーマに興味を持っており、特にエミュビデオを使用すると、テキストのみのプロンプト、画像のみのプロンプト、またはその両方の組み合わせからビデオを作成できます。 Runway の Gen-2 を例に挙げると、テキストや画像だけでなく、別のビデオからもビデオを作成できます。 Stable Video Diffusion と Pika も、この市場では有力な競争相手です。