モバイルアプリとウェブアプリの場合、Vertex AI in Firebase SDK を使用すると、サポートされている Gemini モデルをアプリから直接操作できます。
Gemini モデルは、テキスト、コード、PDF、画像、動画、音声など、複数のモダリティを処理し、生成できるため、マルチモーダルと見なされます。
Vertex AI in Firebase でサポートされているモデルと、それらの最新の安定版の概要は次のとおりです。このページの後の各セクションでは、より詳細な比較と情報を提供します。
モデル | 入力 | 出力 | 最適な用途 |
---|---|---|---|
Gemini モデル | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
テキスト、コード、PDF、画像、動画、音声 | テキスト、コード、JSON (画像と音声は近日提供予定) |
次世代の特徴、速度、マルチモーダル生成により、さまざまなタスクに対応 |
Gemini 1.5 Progemini-1.5-pro-002 |
テキスト、コード、PDF、画像、動画、音声 | テキスト、コード、JSON | より多くのインテリジェンスを必要とする複雑な推論タスク |
Gemini 1.5 Flashgemini-1.5-flash-002 |
テキスト、コード、PDF、画像、動画、音声 | テキスト、コード、JSON | さまざまなタスクで高速で汎用性の高いパフォーマンス |
このページの残りの部分では、Vertex AI in Firebase でサポートされているモデルについて詳しく説明します。
-
- サポートされている入力と出力
- サポートされている機能の概要の比較
- 仕様と制限事項(最大入力トークン数、入力動画の最大長など)
モデルのバージョニング方法の説明(特に、安定版、自動更新版、プレビュー版)。
初期化時にコードに含める使用可能なモデル名のリスト
モデルでサポートされている言語の一覧
このページの下部にある以前のモデルの詳細情報をご覧ください。
モデルを比較する
各モデルには、さまざまなユースケースをサポートするためのさまざまな機能があります。このセクションの各表は、Vertex AI in Firebase で使用する場合の各モデルについて説明しています。各モデルには、Google の SDK では利用できない追加機能が含まれている場合があります。
各 Gemini モデルの詳細については、Google Cloud のドキュメントをご覧ください。
サポートされている入力と出力
Vertex AI in Firebase で各モデルを使用する場合、サポートされている入力と出力のタイプは次のとおりです。
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
入力値の型 | ||||
テキスト | ||||
コード | ||||
ドキュメント(PDF またはプレーンテキスト) | ||||
画像、動画、音声 | ||||
オーディオ(ストリーミング) | 近日提供予定 | |||
出力タイプ | ||||
テキスト | ||||
構造化出力(JSON など) | ||||
コード | ||||
画像 | 近日提供予定 | |||
音声 | 近日提供予定 | |||
オーディオ(ストリーミング) | 近日提供予定 |
サポートされているファイル形式については、サポートされている入力ファイルと Vertex AI Gemini API の要件をご覧ください。
サポートされている機能
Vertex AI in Firebase で各モデルを使用する場合にサポートされる機能は次のとおりです。
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
テキストまたはマルチモーダル入力からテキストを生成する | ||||
画像を生成する | 近日提供予定 | |||
音声を生成する | 近日提供予定 | |||
構造化出力(JSON など)を生成する | ||||
画像と動画を分析する(ビジョン) | ||||
音声を分析する | ||||
ドキュメント(PDF またはプレーンテキスト)を分析する | ||||
マルチターン チャット | ||||
関数呼び出し(ツール) | ||||
基本的な関数呼び出し | ||||
並列関数呼び出し | ||||
関数呼び出しモード | ||||
トークンと課金対象文字数をカウントする | ||||
システム指示 | ||||
Multimodal Live API(双方向ストリーミング) | 近日提供予定 |
仕様と制限事項
Vertex AI in Firebase で各モデルを使用する場合の仕様と制限事項は次のとおりです。
プロパティ | Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|---|
コンテキスト ウィンドウ * トークンの合計上限(入力と出力の合計) |
1,048,576 個のトークン | 2,097,152 個のトークン | 1,048,576 個のトークン |
出力トークンの上限 * | 8,192 トークン | 8,192 トークン | 8,192 トークン |
知識の締め切り日 | 2024 年 6 月 | 2024 年 5 月 | 2024 年 5 月 |
画像(リクエストあたり) | |||
入力画像の最大数 | 3,000 個の画像 | 3,000 個の画像 | 3,000 個の画像 |
出力画像の最大数 | 近日提供予定 | --- | --- |
入力 base64 エンコード画像あたりの最大サイズ | 7 MB | 7 MB | 7 MB |
PDF(リクエストに応じて) | |||
入力 PDF ファイルの最大数 ** | 3,000 ファイル | 3,000 ファイル | 3,000 ファイル |
入力 PDF ファイルあたりの最大ページ数 ** | 1,000 ページ | 1,000 ページ | 1,000 ページ |
入力 PDF ファイルあたりの最大サイズ | 50 MB | 50 MB | 50 MB |
動画(リクエストに応じて) | |||
入力動画ファイルの最大数 | 10 ファイル | 10 ファイル | 10 ファイル |
すべての入力動画の最大長(フレームのみ) | 60 分程度 | 60 分程度 | 60 分程度 |
すべての入力動画の最大長(フレーム数と音声) | 45 分程度 | 45 分程度 | 45 分程度 |
音声(リクエストに応じて) | |||
入力音声ファイルの最大数 | 1 個のファイル | 1 個のファイル | 1 個のファイル |
出力音声ファイルの最大数 | 近日提供予定 | --- | --- |
すべての入力音声の最大長 | ~ 8.4 時間 | ~ 8.4 時間 | ~ 8.4 時間 |
すべての出力音声の最大長 | 近日提供予定 | --- | --- |
* すべてのモデルで、1 トークンは約 4 文字に相当するため、100 トークンは約 60 ~ 80 ワード(英語)に相当します。Gemini モデルの場合、countTokens
を使用してリクエスト内のトークンの合計数を特定できます。
** PDF は画像として扱われるため、PDF の 1 ページは 1 つの画像として扱われます。リクエストで許可されるページ数は、モデルがサポートできる画像の数に制限されます。
詳細情報を確認する
サポートされている入力ファイルの種類、MIME タイプの指定方法、入力ファイルとマルチモーダル リクエストが要件を満たしていることを確認する方法、ベスト プラクティスに沿って作成する方法については、Vertex AI Gemini API でサポートされている入力ファイルと要件をご覧ください。
モデルのバージョニングと命名パターン
モデルには、安定版、自動更新版、プレビュー版があります。
安定版は一般提供版と見なされます。
- 安定版のモデル名には、特定の 3 桁のバージョン番号が付加されます(例:
)。gemini-2.0-flash-001
- 安定版のモデル名には、特定の 3 桁のバージョン番号が付加されます(例:
自動更新バージョンは、常にそのモデルの最新の安定版を参照します。新しい安定版がリリースされると、自動更新バージョンは自動的にその新しい安定版を参照するようになります。
- 自動更新バージョンのモデル名には接尾辞がありません(例:
)。gemini-2.0-flash
- 自動更新バージョンのモデル名には接尾辞がありません(例:
プレビュー版には新しい機能が含まれており、安定版ではないと見なされます。プレビュー バージョンは常に、そのモデルの最新のプレビュー バージョンを参照します。新しいプレビュー バージョンがリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー バージョンを参照するようになります。
- プレビュー バージョンのモデル名には、モデルの最初のリリース日(
)とともに-MMDD
が追加されます。たとえば、-preview
(2024 年 4 月 9 日にリリース)などです。gemini-1.5-pro-preview-0409
- プレビュー バージョンのモデル名には、モデルの最初のリリース日(
使用可能なモデル バージョンとそのライフサイクル(Gemini)の詳細については、Google Cloud のドキュメントをご覧ください。
使用可能なモデル名
モデル名は、生成モデルの初期化時にコードに含める明示的な値です(これは Gemini API を呼び出すために必要な手順です)。
publishers.models.list
エンドポイントを使用して、使用可能なモデル名をすべて一覧表示できます。返されるリストには、Vertex AI がサポートするすべてのモデルが含まれますが、Vertex AI in Firebase は、このページで説明する Gemini モデルのみをサポートします。また、自動更新バージョン(gemini-2.0-flash
など)は、ベースの安定版の便利なエイリアスであるため、リストに表示されません。
Gemini モデル名
使用言語の初期化例については、スタートガイドをご覧ください。
Gemini 2.0 Flash モデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-2.0-flash-001 |
Gemini 2.0 Flash の最新の安定版 | 一般提供 | 2025-02-05 | 未定 |
自動更新バージョン | ||||
gemini-2.0-flash |
2.0 Flash の最新の安定版を指します (現在は gemini-2.0-flash-001 |
一般提供 | 2025-02-10 | --- |
Gemini 1.5 Pro のモデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-pro-002 |
Gemini 1.5 Pro の最新の安定版 | 一般提供 | 2024-09-24 | 2025 年 9 月 24 日以降 |
gemini-1.5-pro-001 |
Gemini 1.5 Pro の最初の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-pro |
1.5 Pro の最新の安定版を指します (現在は gemini-1.5-pro-002 |
一般提供 | 2024-09-24 | --- |
Gemini 1.5 Flash モデル名
モデル名 | 説明 | リリース ステージ | 初回リリース日 | 廃止日 |
---|---|---|---|---|
安定版 | ||||
gemini-1.5-flash-002 |
Gemini 1.5 Flash の最新の安定版 | 一般提供 | 2024-09-24 | 2025 年 9 月 24 日以降 |
gemini-1.5-flash-001 |
Gemini 1.5 Flash の最初の安定版 | 一般提供 | 2024-05-24 | 2025 年 5 月 24 日以降 |
自動更新バージョン | ||||
gemini-1.5-flash |
1.5 Flash の最新の安定版を指します (現在は gemini-1.5-flash-002 |
一般提供 | 2024-09-24 | --- |
サポートされている言語
Gemini
すべての Gemini モデルは、次の言語を理解して応答できます。
アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)
Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加言語を理解し、応答できます。
アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)
以前のモデルに関する情報
Vertex AI in Firebase は、Gemini 1.0 Pro や Gemini 1.0 Pro Vision などの古いモデルを含む、すべての Gemini モデルをサポートしています。ただし、Google の SDK では新しいモデルを使用することを強くおすすめします。これらの古い Gemini モデルは、販売終了日が近づいており、新しいモデルのすべての機能を備えていません。
次のステップ
Gemini API の機能を試す
- マルチターンの会話(チャット)を構築します。
- テキストのみのプロンプトからテキストを生成する。
- マルチモーダル プロンプト(テキスト、画像、PDF、動画、音声など)からテキストを生成します。
- テキストとマルチモーダル プロンプトの両方から構造化出力(JSON など)を生成します。
- 関数呼び出しを使用して、生成モデルを外部システムと情報に接続します。