電話アンドロイド

OpenAI は、わずか 15 秒の音声録音でトレーニングすることで、非常にリアルな合成音声を作成する機能という、革新的な新機能を発表しました。

Voix IA
クレジット: 123RF

OpenAI がベールを脱いだところですVoice Engine は、わずか 15 秒間聞くだけでどんな声でも真似できるまったく新しい AI です。音声エンジン システムは、2022 年末に OpenAI によって初めて開発されたものであり、最初のバージョンはすでに同社の人気音声アシスタント ChatGPT AI の音声合成機能に使用されているため、まったく新しいものではありません。しかし、Open AIがそれについて公に語るのは今回が初めてだ。

最近の OpenAI ブログ投稿で説明されているように、Voice Engine を使用すると、ユーザーは提供されたテキストを「感情的かつ現実的な方法で」読み上げることができる、驚くほどリアルな合成音声を作成できます。同社は、音声クローンのいくつかの例を共有しました。それらは印象的な自然さを示していますが、一部にはまだわずかに人工的なエッジがあります。

OpenAI は音声エンジンで市場に革命を起こしたいと考えています

OpenAI は、このテクノロジーの有望な現実世界のユースケースをいくつか挙げています。教育ツール、ポッドキャストの新しい言語への翻訳、遠隔地コミュニティへのアクセス、さらには言語能力のない人々へのコミュニケーション支援まで。同社はすでに、早期アクセスを受けた厳選されたパートナーとの「小規模プレビュー」を開始している。

教育会社の Age of Learning は、Voice Engine を使用してスクリプト化されたナレーションを生成し、AI ビジュアル ストーリーテリング アプリ HeyGen を使用すると、ユーザーは元の話者の声とアクセントを使って音声の流暢な翻訳を作成できます。

最も顕著な例は間違いなく、次のようなことができた研究者たちです。脳腫瘍で言葉を失った若い女性の「声を取り戻す」、古い録音のわずか 15 秒で音声エンジンをトレーニングすることによって。

OpenAIはすでにそのようなテクノロジーの危険性を警告している

しかし、これらの潜在的に革命的なユースケースにもかかわらず、OpenAI は音声クローン システムのさらなる普及に関して意図的に慎重な姿勢をとっています。会社が呼び出すのは、悪意のある目的でのテクノロジーの悪用を防ぐことが緊急に必要である、 のようなユーザーの同意なしに虚偽の情報を拡散したり音声クローンを作成したりすること。

有名人からの偽のメッセージをソーシャル ネットワーク上で拡散してすぐに楽しむ人もいるだろうということは想像できます。私たちもすでに見てきました詐欺師は AI を利用してあなたの愛する人を真似し、電話でお金を要求します

偽情報キャンペーンに音声クローン AI を使用することの影響は特に重大です米国で大規模な選挙が行われることを考えると、そして今年はイギリスでも。生成 AI ツールがオーディオ、テキスト、画像、ビデオの分野でますます洗練されるにつれて、本物のコンテンツと人工的なコンテンツを区別することがますます困難になっている。たとえば、最近見たのは、ソラ、OpenAI の別の AI非常にリアルなビデオをすぐに生成できます。

OpenAI は、これらのテクノロジーによってもたらされる課題に直面して、「社会の回復力」の構築を開始することが不可欠であると認識しました。彼女は次のような措置を奨励した。機密性の高いアカウントに対する音声認証の段階的な放棄そして個人の声を保護する政策を求めた。AI の機能について一般の人々を教育します。

現在、OpenAI パートナーによって作成されたすべての音声エンジン サンプルには、その起源を追跡できるように電子透かしが入れられています。同社はまた、元の発言者からの明示的な同意が必要であり、選挙期間中に政治候補者の音声を再現することは許可されていないと述べた。