OpenAI、テキストと画像の両方を理解するマルチモーダル AI、GPT-4 を発表

OpenAI は、画像とテキストを理解するための強力な新しい AI モデル GPT-4 をリリースしました。同社はこれを「ディープラーニングを拡張する取り組みの最新のステップ」と呼んでいます。

何ヶ月にもわたる噂と憶測の末、OpenAI はついに GPT-4 を発表しました。ChatGPT や新しい Bing などのアプリケーションを強化する AI 言語モデルのラインへの最新の追加です。

OpenAI Web サイトの製品ページによると、GPT-4 は「これまで以上に創造的かつ協力的になる» など «ソングライティング、脚本執筆、ユーザーのライティングスタイルの学習など、創造的で技術的なライティングタスクを生成、編集し、ユーザーと繰り返し行うことができます。»。

GPT-4 と GPT-3.5 (ChatGPT を強化するモデル) の主な違いの 1 つは、新しいバージョンがGPT-4 はテキストに加えて画像も受け入れることができます。たとえば、GPT-4 に卵、小麦粉、牛乳の写真を見せて、これらの材料を使って何ができるかを尋ねると、言語モデルは画像を理解し、いくつかの潜在的なレシピをリストします。

すべてのグラフや図、教科書やユーザーマニュアルを含むマーケティングおよび販売レポートをスキャンできるようになり、スクリーンショットも機能し、ChatGPT がすべてを適切な言語でフォルダーに要約します。 OpenAI の従業員は、次のことが可能であることを実証しました。いくつかの曖昧な手書きの指示から完全なウェブサイトを作成する白いシートの上に。

GPT-4 はこれまでよりも賢くなっています

当然のことながら、GPT-4 は以前のモデルよりもはるかにスマートです。 OpenAIの研究論文によると、GPT-4は司法試験模擬試験に合格した候補者の上位 10% と同様のスコアです。比較すると、ChatGPT のスコアは 10% 未満でした。マルチモーダル言語モデルのスコアも、GPT 3.5 の 31% に対して、生物学オリンピックでは 99% でした。

ChatGPT オーバーレイを使用するスマートフォンとラップトップのユーザー / クレジット: 123rf

GPT-4 は、高度な推論機能により ChatGPT よりも優れており、より簡潔で正確な答えChatGPTよりも。

こちらもお読みください – ChatGPT は 9 歳児の脳を持っています

GPT-4はまだ完璧ではありません

このような大きな技術進歩にもかかわらず、すべてがまだ完璧ではありません。 OpenAI CEO のサム・アルトマン氏は、GPT-4 の公開に先立ち、次のように警告しました。人々はただ失望するのを待っている」。アルトマン氏はまた、そのモデルは「常に不完全で、常に限界があり、時間をかけて使った後よりも、最初に使用したときの方が常に印象的であると思われる»。

OpenAI はまた、システムには以前の言語モデルと同じ問題の多くが残っていると警告しています。情報を発明する傾向と、暴力的で有害な文章を生成する能力。ただし、OpenAI によると、GPT-4 が使用の可能性を制限するガードレールから逃れることもより困難です。

GPT-4を試すにはどうすればよいですか?

OpenAI によると、GPT-4 はまもなく ChatGPT と API の両方で利用可能になる予定です。アクセスするには ChatGPT Plus の加入者である必要があります。また、新しいモデルでプレイするには使用制限があることに注意してください。新しいモデルの API へのアクセスは待機リストによって管理されます。

API を使用すると、プログラマーは AI をアプリケーションに統合できるようになります。 OpenAI の料金はおよそ750 ワードの質問で 3 セント、750 ワードの回答で 6 セント。良いニュースは、いつか GPT-4 を無料で試せるようになるかもしれないということです。「観察されるトラフィックパターンに応じて、GPT-4 の使用量を増やすために新しいサブスクリプション層を導入する可能性があります。また、ある時点で、サブスクリプションを持っていない人も試せるように、いくつかの無料の GPT-4 クエリを提供したいと考えています。》と同社について説明する。