Gemini モデルの詳細

Gemini ファミリーのモデルは、画像、動画、テキストなど、複数のモダリティからの情報を処理できるため、マルチモーダル モデルと見なされます。たとえば、Gemini モデルにクッキーの皿の写真を送信し、それらのクッキーのレシピを提供するようモデルに依頼できます。

プロンプト レスポンス
Give me a recipe for these cookies.

複数のチョコチップ クッキーの写真
**INGREDIENTS**
- 1 c. (2 sticks) unsalted butter, softened
- 3/4 c. granulated sugar
- 3/4 c. brown sugar, packed
- 1 tsp . vanilla extract
- 2 large eggs
- 2 1/4 c. all-purpose flour
- 1 tsp. baking soda
- 1 tsp. salt
...

Gemini ファミリーのモデルを操作するには、Google CloudVertex AI が提供する Gemini API を使用します。モバイルアプリとウェブアプリでは、Vertex AI in Firebase SDK を使用して Gemini API を呼び出し、アプリから直接 Gemini モデルを操作できます。

このページでは、Gemini モデルについて次の情報を提供します。

使用可能なモデル

Vertex AI in Firebase では、次のいずれかの Gemini モデルを使用できます。

  • Gemini 1.5 Flash
    1.5 Pro と同じ入力タイプと出力タイプをサポートするマルチモーダル モデルですが、100 万トークンの長いコンテキストの理解が可能です。Gemini 1.5 Flash は、大規模で費用対効果の高いアプリケーション向けに特別に設計されています。

  • Gemini 1.5 Pro
    テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。また、200 万トークンによる長いコンテキストの理解をサポートします。

  • Gemini 1.0 Pro Vision
    テキストと画像、動画を処理してテキストまたはコード レスポンスを生成するように設計されたマルチモーダル モデル。チャットには使用できません。

  • Gemini 1.0 Pro
    自然言語タスク、テキストとコードによるマルチターン チャット、コード生成を処理するように設計されたモデル。

コードに含めるモデル名にジャンプ

各モデルのユースケースと機能

各 Gemini モデルには、さまざまなユースケースをサポートするさまざまな機能があります。各 Gemini モデルの詳細については、Google Cloud のドキュメントをご覧ください。

各モデルでサポートされている入力と出力

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
入力値の型
テキスト
コード
画像
PDF
動画(フレームのみ)
動画(フレームと音声)
音声
出力タイプ
テキスト
レスポンス スキーマを使用した構造化出力(JSON など)
コード

サポートされているファイル形式については、サポートされている入力ファイルと Vertex AI Gemini API の要件をご覧ください。

各モデルでサポートされている機能と一般的な機能

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
テキストのみの入力からテキストを生成する
マルチモーダル入力からのテキスト生成
レスポンス スキーマを使用した構造化出力(JSON など)
マルチターン チャット
関数呼び出し
基本的な関数呼び出し
並列関数呼び出し
関数呼び出しモード
トークンと課金対象文字数をカウントする
システム指示

各モデルの詳細

プロパティ Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
トークンの合計上限(入力と出力の合計)* 1,048,576 個のトークン 2,097,152 個のトークン 16,384 トークン 32,760 トークン
出力トークンの上限 * 8,192 トークン 8,192 トークン 2,048 トークン 8,192 トークン
リクエストあたりの画像の最大数 3,000 個の画像 3,000 個の画像 16 枚 なし
base64 エンコードされた画像の最大サイズ 7 MB 7 MB 7 MB なし
PDF の最大サイズ 30 MB 30 MB 30 MB なし
リクエストあたりの動画ファイルの最大数 10 個の動画ファイル 10 個の動画ファイル 1 つの動画ファイル なし
動画の最大長(フレームのみ) 60 分程度の動画 60 分程度の動画 2 分 なし
動画の最大長(フレームと音声) 動画: 約 45 分 動画: 約 45 分 なし なし
リクエストあたりの音声ファイルの最大数 1 つの音声ファイル 1 つの音声ファイル なし なし
音声の最大長 約 8.4 時間の音声 約 8.4 時間の音声 なし なし

* すべての Gemini モデルで、1 つのトークンは約 4 文字に相当するため、100 個のトークンは約 60 ~ 80 語(英語)に相当します。countTokens を使用して、リクエスト内のトークンの合計数を特定できます。

サポートされているファイル形式、MIME タイプの指定方法、ファイルとマルチモーダル リクエストが要件を満たしていることを確認する方法、ベスト プラクティスについて詳しくは、Vertex AI Gemini API のサポートされている入力ファイルと要件をご覧ください。

モデルのバージョニング

Gemini モデルには、安定版、自動更新版、プレビュー版があります。

  • 安定版は一般提供版と見なされます。

    • 安定版のモデル名には、特定の 3 桁のバージョン番号が付加されます(例: gemini-1.5-pro-002)。
  • 自動更新バージョンは、常にそのモデルの最新の安定版を参照します。新しい安定版がリリースされると、自動更新バージョンは自動的にその新しい安定版を参照するようになります。

    • 自動更新バージョンのモデル名には接尾辞がありません(例: gemini-1.5-pro)。
  • プレビュー版には新しい機能が含まれており、安定版ではないと見なされます。プレビュー バージョンは常に、そのモデルの最新のプレビュー バージョンを参照します。新しいプレビュー バージョンがリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー バージョンを参照するようになります。

    • プレビュー バージョンのモデル名には、モデルの最初のリリース日(-MMDD)とともに -preview が追加されます。たとえば、gemini-1.5-pro-preview-0409(2024 年 4 月 9 日にリリース)などです。

使用可能な Gemini モデルのバージョンとそのライフサイクルの詳細については、Google Cloud のドキュメントをご覧ください。

使用可能なモデル名

モデル名は、生成モデルの初期化時にコードに含める明示的な値です(これは Gemini API を呼び出すために必要な手順です)。言語の初期化例については、スタートガイドをご覧ください。

Gemini 1.5 Flash のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.5-flash-002 Gemini 1.5 Flash の最新の安定版 一般提供 2024-09-24 2025 年 9 月 24 日以降
gemini-1.5-flash-001 Gemini 1.5 Flash の最初の安定版 一般提供 2024-05-24 2025 年 5 月 24 日以降
自動更新バージョン
gemini-1.5-flash 1.5 Flash の最新の安定版を指します
(現在は gemini-1.5-flash-002)。
一般提供 2024-09-24 ---

Gemini 1.5 Pro のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.5-pro-002 Gemini 1.5 Pro の最新安定版 一般提供 2024-09-24 2025 年 9 月 24 日以降
gemini-1.5-pro-001 Gemini 1.5 Pro の最初の安定版 一般提供 2024-05-24 2025 年 5 月 24 日以降
自動更新バージョン
gemini-1.5-pro 1.5 Pro の最新の安定版を指します
(現在は gemini-1.5-pro-002)。
一般提供 2024-09-24 ---

Gemini 1.0 Pro Vision のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.0-pro-vision-001 Gemini 1.0 Pro Vision の最新の安定版 一般提供 2024-02-15 2025 年 2 月 15 日以降
自動更新バージョン
gemini-1.0-pro-vision 1.5 Pro Vision の最新の安定版を指します。
(現在は gemini-1.5-pro-vision-001
一般提供 2024-01-04 ---

Gemini 1.0 Pro のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.0-pro-002 Gemini 1.0 Pro の最新の安定版 一般提供 2024-04-09 2025-04-09 以降
gemini-1.0-pro-001 Gemini 1.0 Pro の安定版 一般提供 2024-02-15 2025 年 2 月 15 日以降
自動更新バージョン
gemini-1.0-pro 1.0 Pro の最新の安定版を指します
(現在は gemini-1.0-pro-002)。
一般提供 2024-02-15 ---

サポートされている言語

  • すべての Gemini モデルは、次の言語を理解して応答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加の言語を認識して応答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

次のステップ

Gemini API の機能を試す