Google の Gemini AI が音声ファイルを聞いて支援できるようになりました

OpenAI の ChatGPT と競合することを目的とした新しい主力 AI モデル Gemini を発表してからわずか数週間後、Google はすでにこの技術に音声理解機能を追加しました。

Android Headlines のレポートによると、Gemini の最新バージョン 1.5 Pro では、テキストや画像を超えた音声データを取り込み、処理し、理解できるようになりました。この重要なマイルストーンにより、ジェミニはポッドキャスト、講演、決算会見などの音声ファイルをオリジナルの音源から直接文字起こし、要約、分析します。

今日の環境では、ほとんどの AI 文字起こしおよび要約ツールは、コンテンツを分析する前に音声をテキストに変換することに依存しています。しかし、Gemini 1.5 Proオーディオをより深いレベルで理解することでこの中間ステップを排除し、応答精度を向上させることができます。

こちらもお読みください – Gemini: メッセージの後、Google の AI が同社からこのアプリケーションに導入される

強化されたオーディオ機能により、Gemini の有用性は、プロフェッショナルでクリエイティブなさまざまなユースケースにわたって大幅に拡張されます。 3 時間の社内会議の録音をアップロードして数秒で受信できることを想像してみてください。AI によって生成された、重要なポイントと取るべきアクションの簡潔な概要。

ポッドキャスターやオーディオクリエイターは、Gemini をテーマ分析に使用したり、準備ノートを表示したり、AI の洞察を利用したオーディオ コンテンツの作成を行ったりすることはできません。双子座のレパートリーに音声がテキストや画像を加えれば、その可能性は事実上無限です。これは、主力の AI モデルをあらゆる種類のデータを処理できる真のマルチモーダル アシスタントにするための Google のロードマップの重要な部分です。その上、Googleは最近、広告大手と提携したしたがって、この新機能は新しい広告の作成に役立つ可能性があります。

Googleは当初、慎重かつ抑制されたアプローチを取っているようだ。今のところ、Gemini の新しいオーディオ スキルは Vertex AI 開発プラットフォームを通じてのみ利用可能です消費者が利用できるサービスを通じてではなく、Google とその AI Studio ツールから提供されます。これは、Google が Gemini のオーディオ機能をすべてのユーザーにリリースする前に、その品質と堅牢性を厳密に検証できるようにするための賢明な措置です。