Googleの生成AI:Gemini登場

Googleは米国現地時間12月7日、新しい高性能AIモデルとしてゼロから立ち上げたGeminiを発表しました。どうやらPaLM 2というLLM(大規模言語モデル)から脱却し(おそらくPaLM 2を踏まえた開発のようです)、新しいマルチモーダル(複数の質問を複数のファイル形式で同時理解する)として作り直したような表現を感じます。そして今回のGemini 1.0はGPT-4を上回る成績を残した性能があるようです(イタチごっこ?)。というわけで、Geminiについてご紹介しておきます。

Gemini

Geminiの機能

Googleからの発表記事によると、Geminiはマルチモーダルによる複合理解を可能にした高性能モデルとなっており、そのうえで情報処理速度も向上し、より直感的で会話的に反応するようです。

マルチモーダルとしてゼロから構築されたGeminiは、テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。

引用)Google Japan Blog

 

そして、今回そのGeminiの機能を大きく3つのプランに分け、その能力と利用感にハードルを設けるようです。以下にプラン名とその概要(仕様イメージ)、使えるところ、使える時期を(12月15日時点として)まとめています。

プラン名 概要 適用対象 利用可能時期
Gemini Ultra Geminiが持つ性能のフルモデル Bard Advancedという有料プラン予定 2024年以降のなるはや
Gemini Pro 幅広く対応する適正モデル Bard(英語版)に導入&他言語や機能拡大予定 英語版は導入済で他は数ヶ月後
Gemini Nano モバイルデバイズサイズの簡易モデル Pixel 8 Proに導入 既にアップデート済

 

こんな感じですね。Gemini Ultraは、数学、物理学、歴史、法律、医学、倫理等の57科目の分野でMMLU(Measuring Massive Multitask Language Understanding:大規模マルチタスク言語理解)という知識と解決能力テストで90.00%をスコアし、GPT-4(86.4%)と人間の専門家を上回った初めてのモデルとのことです。スコア表もご紹介しておきますが、あまりよく分かりませんね。「どれくらい凄い」というよりは「どこよりも今のところ凄い」という解釈で良いと思います。


 

また、MMLU(Massive Multi-discipline Multimodal Understanding:大規模多目的マルチモーダル理解度)においてもGPT-4V(56.8%)を上回る59.4%をベンチマークし、より複合理解力が高いことを証明したようです。


 

それ以外にも(英語版ですが)動画で説明していますので、詳細はGoogle Japan Blogをご覧ください。

今後どう向き合う?

私が体感している生成AIの能力としては、今のところ、BardもGPTもビジネスとして使える程ではなく、あくまで人間個人のパフォーマンスを補完する手段としての利用程度だと考えています。但し2023年12月15日時点です。今回のGemini Ultraがビジネス利用やどんなプロンプトにも安定的パフォーマンスを発揮するかどうかはまだ分かりません。しかし、だからと言って利用しないという意見にはならないと思います。

また、GPTが良いのかBardが良いのか、等の賛否もあります。ChatHub等を使って両方使用する人もいますが、実際にはどちらのほうが優秀になっていくのでしょうかね?
私の身の回りでは、登場と性能が先んじていたGPTを利用する人が多いのですが、私個人としてはGoogleのインフラ処理能力実績を考えていつかBardが席巻するのではないかと考えています。いずれにしても積極的に活用しながら生成AIの性能具合を見定めておくことは重要ですね。

みなさんはどう向き合っていきますか?

カテゴリー

新着記事

人気記事

過去記事