Gemini モデルの詳細

Gemini ファミリーのモデルは、画像、動画、テキストなどの複数のモダリティの情報を処理できるため、マルチモーダルとみなされます。たとえば、クッキーの皿の写真を Gemini モデルに送信し、それらのクッキーのレシピを提供するよう依頼できます。

プロンプト レスポンス

このクッキーのレシピを教えてください。

数枚のチョコレート チップ クッキーの写真
**材料**
- 1 c. (2 本のスティック)柔らかい無塩バター
- 3/4 c. グラニュー糖
- 3/4 c. パック詰めされたブラウン シュガー
- 1 tsp . バニラ エッセンス
- 卵大 2 個
- 2 1/4 c. 汎用小麦粉
- 1 tsp. 重曹
- 1 tsp. 塩
...

Google Cloud の Vertex AI が提供する Gemini API を使用して、Gemini モデル ファミリーと対話できます。モバイルアプリとウェブアプリの場合は、Vertex AI for Firebase SDK を使用して Gemini API を呼び出し、アプリから直接 Gemini モデルを操作できます。

このページでは、Gemini モデルに関する次の情報を提供します。

使用可能なモデル

Vertex AI for Firebase では、次のいずれかの Gemini モデルを使用できます。

  • Gemini 1.5 Flash
    1.5 Pro と同じ入力および出力タイプ(および合計トークン数)をサポートするマルチモーダル モデルですが、1.5 Flash は大容量で費用対効果の高いアプリケーション向けに特別に設計されています。

  • Gemini 1.5 Pro
    テキスト レスポンスまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。また、最大 100 万個のトークンによる長いコンテキストの理解をサポートします。

  • Gemini 1.0 Pro Vision
    テキストまたはコード レスポンスで、テキスト、画像、動画を処理するように設計されたマルチモーダル モデル。チャットには使用できません。

  • Gemini 1.0 Pro
    自然言語タスク、テキストとコードを使用したマルチターン チャット、コード生成を処理するように設計されたモデル。

コードに含めるモデル名に移動

各モデルのユースケースと機能

Gemini モデルごとに、さまざまなユースケースをサポートするさまざまな機能があります。各 Gemini モデルの詳細については、Google Cloud ドキュメントをご覧ください。

各モデルでサポートされている入力と出力

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
入力値の型
テキスト
コード
画像
PDF
動画(フレームのみ)
動画(フレームと音声)
音声
出力タイプ
テキスト
コード

サポートされているファイル形式については、Vertex AI Gemini API でサポートされている入力ファイルと要件をご覧ください。

各モデルでサポートされている機能と一般的な機能

Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision Gemini 1.0 Pro
テキストのみのプロンプトからのテキスト生成
マルチモーダル プロンプトからのテキスト生成
JSON 出力(制約付きスキーマモード)
(Vertex AI for Firebase SDK で近日提供予定)
マルチターン チャット
関数呼び出し
基本的な関数呼び出し
並列関数呼び出し
関数呼び出しモード
トークンと課金対象文字数をカウントする
システム指示

各モデルの詳細情報

プロパティ Gemini 1.5 Flash /
Gemini 1.5 Pro
Gemini 1.0 Pro Vision Gemini 1.0 Pro
合計トークンの上限(入力と出力の組み合わせ)* 100 万トークン 16,384 トークン 32,760 トークン
出力トークンの上限 * 8,192 トークン 2,048 トークン 8,192 トークン
リクエストごとの画像の最大数 3,000 枚の画像 16 枚 なし
base64 エンコード画像の最大サイズ 7 MB 7 MB なし
PDF の最大サイズ 30 MB 30 MB なし
リクエストごとの動画ファイルの最大数 10 個の動画ファイル 1 個の動画ファイル なし
動画の最大長(フレームのみ) 60 分間の動画 2 分 なし
動画の最大長(フレームと音声) 約 45 分の動画 なし なし
リクエストごとの音声ファイルの最大数 1 個の音声ファイル なし なし
音声の最大長 最大 8.4 時間の音声 なし なし

* すべての Gemini モデルで、1 トークンは約 4 文字に相当します。したがって、100 トークンは約 60 ~ 80 単語に相当します。リクエスト内のトークンの合計数は、countTokens を使用して確認できます。

以下では、モデルと入力ファイルに関するさらに詳しい情報を確認できます。

モデルのバージョニング

Gemini モデルには、安定バージョン、自動更新バージョン、プレビュー版で提供されています。

  • 安定版は一般提供と見なされます。

    • 安定版には、モデル名に特定の 3 桁のバージョン番号が付加されます(例: gemini-1.0-pro-001)。
  • 自動更新バージョンは常に、そのモデルの最新の安定バージョンを指します。新しい安定バージョンがリリースされると、自動更新バージョンはその新しい安定バージョンを自動的に参照し始めます。

    • 自動更新バージョンには、付加情報のないモデル名gemini-1.0-pro など)が含まれます。
  • プレビュー版のバージョンには新しい機能が含まれており、安定していないと見なされます。プレビュー版は常に、そのモデルの最新のプレビュー版を参照します。新しいプレビュー版がリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー版を指すようになります。

    • プレビュー版では、モデル名-preview とモデルの最初のリリース日(-MMDD)が付いています。例: gemini-1.5-pro-preview-0409(2024 年 4 月 9 日リリース)。

利用可能な Gemini モデル バージョンとそのライフサイクルの詳細については、Google Cloud ドキュメントをご覧ください。

使用可能なモデル名

モデル名とは、生成モデルの初期化(Gemini API を呼び出すために必要なステップ)でコード内に含める明示的な値です。お使いの言語の初期化の例については、スタートガイドをご覧ください。

Gemini 1.5 Flash モデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.5-flash-001 Gemini 1.5 Flash の最新の安定版 一般提供 2024-05-24 2025 年 5 月 24 日以降
自動更新バージョン
gemini-1.5-flash 1.5 Flash の最新の安定版を参照します
(現在は gemini-1.5-flash-001
一般提供 2024-05-24 ---
プレビュー版
gemini-1.5-flash-preview-0514 Gemini 1.5 Flash の最新プレビュー版 公開プレビュー版 2024-05-14 2024-06-24

Gemini 1.5 Pro のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.5-pro-001 Gemini 1.5 Pro の最新の安定版 一般提供 2024-05-24 2025 年 5 月 24 日以降
自動更新バージョン
gemini-1.5-pro 1.5 Pro の最新の安定版を指します
(現在は gemini-1.5-pro-001
一般提供 2024-05-24 ---
プレビュー版
gemini-1.5-pro-preview-0514 Gemini 1.5 Pro の最新プレビュー版 公開プレビュー版 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 gemini-1.5-pro-preview-0514
最新のプレビュー バージョン)を指します。
公開プレビュー版 2024-04-09 2024-06-14

Gemini 1.0 Pro Vision のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.0-pro-vision-001 Gemini 1.0 Pro Vision の最新の安定版 一般提供 2024-02-15 2025 年 2 月 15 日以降
自動更新バージョン
gemini-1.0-pro-vision 1.5 Pro Vision の最新の安定版を指します
(現在は gemini-1.5-pro-vision-001
一般提供 2024-01-04 ---

Gemini 1.0 Pro のモデル名

モデル名 説明 リリース ステージ 初回リリース日 廃止日
安定版
gemini-1.0-pro-002 Gemini 1.0 Pro の最新の安定版 一般提供 2024-04-09 2025 年 4 月 9 日以降
gemini-1.0-pro-001 Gemini 1.0 Pro の安定版 一般提供 2024-02-15 2025 年 2 月 15 日以降
自動更新バージョン
gemini-1.0-pro 1.0 Pro の最新の安定版を指します
(現在は gemini-1.0-pro-002
一般提供 2024-02-15 ---

対応している言語

Gemini モデルは、次の言語をサポートしています。

アラビア語(ar)、ベンガル語(bn)、スウェーデン語(スロウク語)、スロウ語(フリュウク語)、ベンガル語(bn)、スウェーデン語(スロウク語)、スウェーデン語(bg)、中国語(簡体字および繁体字)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(fi)、フランス語(フランス語)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒン

次のステップ

Gemini API の機能を試す