Microsoft、パズルを解いたり画像を処理したりできる ChatGPT の後継版を発表

Microsoft の研究者チームは、有名な ChatGPT よりもさらに多用途な新しい AI を発表しました。テキストの質問に答えるだけでなく、画像を分析して処理することもできます。

クレジット: 123rf

「」というタイトルの記事で、必要なのは言語だけではありません: 認識と言語パターンを調整する» (必要なのは言語だけではありません: 認識を言語モデルに合わせる)、マイクロソフトの研究者がKosmos-1を発表。彼らが論文の序文で指摘しているように、「言語、マルチモーダルな認識、行動、世界のモデリングの大きな収束は、一般的な人工知能に向けた重要な一歩です」。

読むには —ChatGPT ではますます多くの従業員が失業しています

Microsoft が ChatGPT を高く評価しており、チャットボットの設計者である OpenAI に数十億ドルを投資していることはわかっています。の会社レドモンドは、この発明を自社のいくつかのソフトウェアに統合したいと考えています。同社の検索エンジンである Bing は、ChatGPT で使用されている言語モデルを進化させた GPT 3.5 を使用しています。しかし、レドモンドの会社はそこで止まるつもりはない。真の汎用 AI は、単にテキストを理解することはできません。彼女ならできるはずだ画像とそのコンテキストを解釈する、または音声信号を理解すること。つまり、人間と同じように五感をフルに活用する必要があるのです。

Kosmos-1はChatGPTの後継となり、テキストと画像を理解します

マイクロソフトが発表した新しいAI、できるChatGPTと同じ、など。実際、Kosmos-1 は単なる会話エージェントではありません。その作成者によれば、「印象的なパフォーマンスを実現します言語の理解と生成、マルチモーダルな対話、画像キャプション、視覚的な質問への応答、および視覚タスク(テキストの指示に従った分類など)において。」

Kosmos-1 に提出された視覚的なアンケート / クレジット: Microsoft

したがって、私たちは一般的な人工知能の有名な概念にさらに近づいています。、あらゆる知的作業において人間に取って代わることができるようになるでしょう。私たちはそれを喜ぶべきでしょうか、それとも心配すべきなのでしょうか?一つ確かなことは、AI がすでに私たちの社会を破壊しつつあるということです。