メタが人間のあらゆる声を再現できる AI「Voicebox」を発表

Meta は、音声合成に特化した人工知能である Voicebox を正式に発表しました。このモデルは、テキストを音声ファイルに変換し、わずか 2 秒のサンプルに基づいて音声を生成することができます。

meta voicebox
クレジット: 123RF

ご存知のとおり、テクノロジー業界の主要企業が AI の競争に参入しています。 2022 年末の ChatGPT の開始後、MicrosoftがOpenAIスタートアップに100億投資、ウェブの巨人は独自の人工知能の発表を急いでいます。

Google が際立っていたのは、吟遊詩人、その会話型AI、一方メタは2023年4月からAIを開発することを確認した。ここ数カ月間、Menlo Park 社は LLaMA (Large Language Model Meta AI) をはじめとする多数の AI モデルを公開しました。オープンソース言語モデル

少し前に、カリフォルニアの会社も明らかにしましたジェパ、特に抽象的な概念や概念を分析して理解することによって、人間の思考を再現することを目的としたモデル。まったく別の分野で、Meta も発表しました。ミュージックジェネ、基本的なテキストの説明を通じて音楽を作成できる AI です。

クレジット: メタ

Metaが人間の声を模倣できるAI「Voicebox」を発表

しかし、2023 年 6 月 16 日、メタは「音声生成 AI の分野における新たなブレークスルーです。」このAIはVoiceboxです。要約すると、この最先端の AI モデルは次のことに特化しています。音声合成。言い換えれば、次のようなことが可能です。オーディオ ファイルを作成、編集、またはスタイル設定します。

まず、Voicebox の最も興味深い (そしておそらく最も問題のある) 機能に取り組んでみましょう。コンテキスト内でのテキスト読み上げ合成。わずか 2 秒の音声抽出に依存することで、Voicebox は音声を生成できます。抜粋で聞こえる人の声とフレーズをシミュレートします。

このようにして、Voicebox は愛する人、歌手、政治家の声をシミュレートできるようになります。将来的には、Voicebox や他の同様の生成 AI モデルで次のことが可能になるだろうとメタ氏は述べています。音声アシスタントに自然な声を与えるまたはメタバースの NPC に。さらに、視覚障害者が友人の声で書かれたメッセージを聞くこともできるようになる。

クレジット: メタ

こちらもお読みください:Dall-E と Midjourney に続き、この新しい AI によりテキストからビデオを生成できるようになります。

音声ファイルの編集と即時翻訳

ただし、Voicebox には他の機能も用意されているため、それだけではありません。

  • オーディオ編集とノイズリダクション: Voicebox は、新しい音声全体を録音することなく、ノイズによって中断された音声の一部を再作成したり、傷ついた単語や発音が間違った単語を置き換えたりすることができます (音声用の Google の魔法の消しゴムのようなもの)。
  • 多言語翻訳: Voicebox は現在 6 つの言語 (英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語) をサポートしており、音声を元のファイル以外の言語に置き換えることができます (スタイルと色合いを置き換えながら)

さまざまなタスクを実行するために、Meta の AI はこれまで以上に改良されました。50,000時間の抜粋 オーディオ主にオーディオブックやロイヤリティフリーのコンテンツから。今のところ、Voicebox は一般の人々がアクセスできないままです、安全のため。当然のことながら、メタ社は自社の AI が悪用されること、特に実際の人々の声を模倣することを懸念しています。

ソース :メタ