Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

このページは Cloud Translation API によって翻訳されました。

Gemini API を使用して動画ファイルを分析する

Gemini モデルに、インライン（Base64 エンコード）または URL で指定した動画ファイルの分析をリクエストできます。Firebase AI Logic を使用する場合は、アプリから直接このリクエストを行うことができます。

この機能を使用すると、次のようなことができます。

動画の字幕を作成して質問に答える
タイムスタンプを使用して動画の特定のセグメントを分析する
音声トラックと視覚フレームの両方を処理して動画コンテンツを文字起こしする
音声トラックとビジュアルフレームの両方を含む動画から、説明、セグメント化、情報の抽出を行う

コードサンプルに移動ストリーミングレスポンスのコードに移動

動画を操作するためのその他のオプションについては、他のガイドをご覧ください
構造化出力を生成する複数ターンのチャット

始める前に

Gemini API プロバイダをクリックして、このページでプロバイダ固有のコンテンツとコードを表示します。

まだ完了していない場合は、スタートガイドに沿って、記載されている手順（Firebase プロジェクトの設定、アプリと Firebase の連携、SDK の追加、選択した Gemini API プロバイダのバックエンドサービスの初期化、GenerativeModel インスタンスの作成）を完了します。

プロンプトのテストと反復処理には、Google AI Studio の使用をおすすめします。

サンプル動画ファイルが必要な場合

この一般公開されているファイルは、MIME タイプ video/mp4 で使用できます（ファイルの表示またはダウンロード）。 https://storage.googleapis.com/cloud-samples-data/video/animals.mp4

動画ファイル（base64 エンコード）からテキストを生成する

このサンプルを試す前に、このガイドの始める前にのセクションを完了して、プロジェクトとアプリを設定してください。
このセクションでは、選択した Gemini API プロバイダのボタンをクリックして、このページにプロバイダ固有のコンテンツを表示します。

Gemini モデルにテキストと動画でプロンプトを表示してテキストを生成するようリクエストできます。各入力ファイルの mimeType とファイル自体を指定します。このページの後半で、入力ファイルの要件と推奨事項をご確認ください。

この例ではファイルをインラインで提供していますが、SDK は YouTube URL の提供もサポートしています。