GPT-4の対抗馬! 最新生成AIモデル Google Gemini

OpenAIのChat GPTが2022年11月にリリースされて以降、大規模言語モデル (LLM) を用いた、生成AI、チャットボットに対する人々の関心は非常に高まっています。それに伴い他のBig Tech企業によるLLM、チャットボットの開発も盛んになっています。中でもGoogleの開発したチャットボットである、Gemini搭載のBardはChatGPTにも劣らない高い性能を持っていると話題をよんでいます。本記事では、GeminiおよびBardについての解説を行います。

Geminiとは

Geminiとは、Google社が開発したマルチモーダル生成AIモデルです。マルチモーダルモデルとは、言語や画像など、多くの情報を扱うことのできるモデルです。Google社の発表によると、Geminiの最も高性能なモデルであるGemini Ultraは自然な画像の解釈から数学的推論、音声や動画の理解などの32のベンチマークのうち30で、ChatGPTを上回る優れたパフォーマンスを発揮したそうです (引用: Introducing Gemini)。

引用: https://blog.google/technology/ai/google-gemini-ai/#sundar-note

Gemini Pro と Google 製品

GoogleはGeminiの自社製品との連携を進めていくことを予定しています。後ほど説明するBardをはじめ、Google製のスマートフォンであるGoogle Pixel 8 ProにもGeminiを導入するとのことです。さらに、Google検索や広告などのサービスにも組み込む計画を立てており、すでに試験運用が始まっています。実際、Google検索にGeminiを導入したところ情報検索にかかる時間が40%削減されたという結果が得られたそうです(引用: Introducing Gemini)

また、Google Cloudの機械学習関連のサービスを統合したプラットフォームであるVertex AIでもGeminiを利用することができます。Geminiの文章理解や画像理解の機能を用いて,AIアプリケーションを構築することができます (引用: Vertex AI Geminiで強化されたエンタープライズ対応の生成 AI でイノベーションを加速)。

Geminiの使い方

ブラウザ上での利用

2023年12月のアップデートで、Googleが提供するBardチャットボットはGeminiを搭載したバージョンにアップグレードされました。こちらのBardは今のところ試験運用中という扱いで、2023年12月現在誰でも利用できるようになっています。

ChatGPTのようにブラウザアプリとしてBardを利用することができます。使ってみたい方は、こちらのリンクにアクセスしてみてください。

アクセスすると上のような画面になります。テンプレートとして幾つかのテーマが提供されていますね。使用例として、「プレゼン骨子の作成」をお願いしてみます。

まずプレゼン構成を提示した上で、かなり詳細な内容を含むプレゼン内容を紹介してくれました。また、内容についても妥当性が高いものであるように思えます。

Gemini APIの利用

開発者向けツールとして、Gemini APIを利用することもできます。こちらで使い方が説明されていますが、この記事でもGoogle Colabを用いて簡単に説明してみます。

まずは必要なライブラリのインストール、インポートを行います。

!pip install -q -U google-generativeai

import pathlib
import textwrap

import google.generativeai as genai

# Used to securely store your API key
from google.colab import userdata

from IPython.display import display
from IPython.display import Markdown

#マークダウン形式で文章を出力するための関数
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

次に、こちらのリンクからAPI Keyを取得して紐付けしましょう。

# Or use `os.getenv('GOOGLE_API_KEY')` to fetch an environment variable.
GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')

genai.configure(api_key=GOOGLE_API_KEY)

これでモデルを利用する準備は完了です。では、どのようなモデルを利用できるのかをリストアップしてみましょう。

#利用可能なモデルをリストアップ
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)
models/gemini-pro
models/gemini-pro-vision

gemini-pro, gemini-pro-visionという2種類を利用できるようですね。gemini-proは言語のみ、gemini-pro-visionは言語と画像の処理が可能なモデルです。今回は、言語モデルであるgemini-proをロードしてみます。

model = genai.GenerativeModel('gemini-pro')

では回答を生成します。例として、「甘い」という多義語の意味を解説できるかを聞いてみます。

response = model.generate_content("「甘い」という単語の意味を解説してください。")
to_markdown(response.text)

このように詳細な解説を提供してくれました。 使いやすい設計になっているので、容易に開発に組み込むことができそうですね。

BardとGeminiのバージョンについて

Geminiには以下の3種類のバージョン違いのモデルが存在します。

  • Gemini Ultra — 複雑なタスクに対応する、高性能かつ最大のモデル
  • Gemini Pro — 幅広いタスクに対応する最良のモデル
  • Gemini Nano — デバイス上のタスクに最も効率的なモデル

現在試験運用中のBardはこのうちGemini Proを搭載しており、誰でも無料で使うことができます。しかし、上位モデルであるGemini Ultraを搭載したBard Advancedを2024年にリリースすることを発表しており、こちらはおそらく有料になると思われます。

Bardの特徴は?

Gemini搭載のBardは、既存のチャットボットアプリと比べて一体何が優れているのでしょうか?現在チャットボット界の覇権を握っているChatGPTと適宜比較しながら、Bardの特徴について説明していきます。

画像理解の機能の利用が無料

Bardでは、画像理解の機能を無料で利用することができます!Chat GPTでもGPT-4V (GPT-4 with vision) で同様の機能を利用することができますが、こちらは有償の「ChatGPT Plus」(月額20ドル) ユーザーに提供されているものです。また、処理できる画像の枚数にも制限があるため、画像理解の機能の利用のしやすさという点では明確にBardが優っていると言えるでしょう。

では、実際に画像理解の機能を利用してみます。

犬の画像について説明を求めてみると、丁寧かつ情緒的な説明をしてくれました。送信された画像、および「説明してください」という指示を正しく理解していることが分かりますね。なお、人物の画像については今のところ扱えないようで、送信したところエラーが出てしまいました。人物の画像の処理については今後のアップデートに期待しましょう!

Web検索との連動機能が無料

BardはWeb上の情報をリアルタイムで参照して回答を生成する機能を無料で利用することができます!Chat GPTでは有料の機能なので、この点についてもBardの方が優れていると言えますね。

この時期 (12月) におすすめの日本の旅行スポットを尋ねてみると、画像とURLを添えて北海道や蔵王などのスポットを教えてくれました。

一見非常に便利に見える機能ですが、Web検索できるが故に誤情報が混ざるリスクは上がっています。情報の精査は忘れずに行いましょう。

Google Workspaceに接続できる

BardはGoogle Workspaceに接続することができます。これはBardがGoogle製であるからこそ実現できる機能であり、大きな強みであると言えますね。

例えば、Gmailに接続してメールの内容を分析してもらうことができます。文章を適切に理解し、メールを検索して内容をまとめてくれていますね。

また、Google Driveに接続してファイルを解析してもらうこともできます。こちらも同様に、文意を理解してファイルを検索してくれています。

回答の正確性は?

Bardの回答はどれくらい正確なのでしょうか?Bardには現在利用可能なGemini Pro搭載のBard、2024年に利用可能になるGemini Ultraを搭載したBard Advancedが存在します。一方、ChatGPTに搭載されているモデルとしては、GPT-3.5とGPT-4があります。Google発表のテクニカルレポートによると、多くのタスクにおいてGPT-3.5 < Gemini Pro < GPT-4 < Gemini Ultraとなっているようです (引用: Introducing Gemini)

まとめ

この記事ではGeminiおよびBardについて解説を行いました。ChatGPTにはない強みもありますので、ぜひ利用してみてください。