ネイティブモードの Cloud Firestore Enterprise エディションが利用可能になりました。詳細

大規模な読み取りと書き込みについて

このドキュメントでは、優れたパフォーマンスと高い信頼性を備えたアプリケーションを設計する際に役立つ情報を提供します。このドキュメントでは、Cloud Firestore の高度なトピックが含まれます。Cloud Firestore の使用を開始されて間もない場合は、クイックスタートガイドをご覧ください。

Cloud Firestore は、Firebase と Google Cloud からのモバイルデバイス、ウェブ、サーバー開発に対応した、柔軟でスケーラブルなデータベースです。Cloud Firestore の使用を開始して、豊富な機能を備えたアプリケーションを作成することは非常に容易です。

データベースのサイズとトラフィックが増加してもアプリケーションのパフォーマンスが維持されるようにするには、Cloud Firestore バックエンドでの読み取りと書き込みの仕組みを理解する必要があります。また、読み取り / 書き込みでのストレージレイヤとのやり取りや、パフォーマンスに影響を与える可能性がある基本的な制約についても理解する必要があります。

アプリケーションを設計する前に、以降のセクションでベストプラクティスをご確認ください。

コンポーネントの概要

次の図では、Cloud Firestore API リクエストに関連するコンポーネントの概要を示します。

コンポーネントの概要

Cloud Firestore SDK とクライアントライブラリ

Cloud Firestore は、さまざまなプラットフォームの SDK とクライアントライブラリをサポートしています。アプリは Cloud Firestore API に対して直接 HTTP 呼び出しと RPC 呼び出しを実行できますが、クライアントライブラリを使用すると、抽象化レイヤが提供され、API の使用が簡単になり、ベストプラクティスを実装できます。また、オフラインアクセス、キャッシュなどの追加機能を利用することもできます。

Google Front End（GFE）

Google Front End（GFE）は、すべての Google Cloud サービスに共通のインフラストラクチャサービスです。GFE は受信リクエストを受け入れ、適切な Google サービス（ここでは Cloud Firestore サービス）に転送します。また、サービス拒否攻撃からの保護など、その他の重要な機能も提供します。

Cloud Firestore サービス

Cloud Firestore サービスは、認証、認可、割り当てチェック、セキュリティルールなど、API リクエストに対するチェックを実行し、トランザクションを管理します。このCloud Firestore サービスには、データの読み取りと書き込みでストレージレイヤとやり取りするストレージクライアントが含まれています。

Cloud Firestoreストレージレイヤ

Cloud Firestore ストレージレイヤは、データとメタデータの保存や、Cloud Firestore から提供される関連するデータベース機能を処理します。以降のセクションでは、Cloud Firestore ストレージレイヤでデータがどのように編成され、システムがスケーリングされるかについて説明します。データの編成方法を知ることで、スケーラブルなデータモデルを設計し、Cloud Firestore のベストプラクティスをより深く理解できるようになります。

キー範囲とスプリット

Cloud Firestore は NoSQL ドキュメント指向データベースです。データはドキュメントに格納され、ドキュメントはコレクションの階層で編成されます。コレクションの階層とドキュメント ID は、ドキュメントごとに単一のキーに変換されます。ドキュメントは論理的に保存され、この単一キーによって名前順に並べられます。「キー範囲」という用語は、辞書順で連続するキーの範囲を指します。

一般的な Cloud Firestore データベースは大きすぎるため、1 台の物理マシンには収まりません。また、データのワークロードが 1 台のマシンで処理できないほど大きくなる場合もあります。大規模なワークロードを処理するために、Cloud Firestore はデータを複数のマシンに分割して保存し、複数のマシンまたはストレージサーバーから提供しています。これらのパーティションは、データベーステーブル上にスプリットと呼ばれるキー範囲のブロックで作成されます。

同期レプリケーション

データベースは常に自動かつ同期的に複製されます。ゾーンがアクセス不能になった場合でもデータを利用できるように、スプリットのレプリカが異なるゾーンに存在しています。スプリットのレプリカ間で一貫したレプリケーションを実現するため、レプリケーションは Paxos のコンセンサスアルゴリズムによって管理されています。各スプリットで 1 つのレプリカが Paxos リーダーとして選択され、そのレプリカがスプリットへの書き込みを処理します。同期レプリケーションにより、Cloud Firestore から常に最新バージョンのデータを読み取ることができます。

その結果、スケーラビリティと可用性が高くなり、負荷の高いワークロードや非常に大規模な環境間で読み取りと書き込みのレイテンシを抑えることができます。

データレイアウト

Cloud Firestore はスキーマレスのドキュメントデータベースです。ただし、内部的には、ストレージレイヤの次の 2 つのリレーショナルデータベーススタイルのテーブルにデータがレイアウトされます。

ドキュメントテーブル: このテーブルにはドキュメントが保存されます。
インデックステーブル: このテーブルにはインデックスエントリが保存されます。このエントリにより、結果を効率的に取得し、インデックス値での並べ替えが可能になります。

次の図は、Cloud Firestore データベースのテーブルがどのように分割されているのかを示しています。スプリットは 3 つの異なるゾーンに複製され、各スプリットには Paxos リーダーが割り当てられています。

データレイアウト

シングルリージョンとマルチリージョン

データベースを作成する場合、リージョンまたはマルチリージョンを選択する必要があります。

シングルリージョンのロケーションは、us-west1 などの特定の地理的なロケーションです。前述のように、Cloud Firestore データベースのスプリットには、選択したリージョン内の異なるゾーンにレプリカが存在します。

マルチリージョンロケーションは定義済みのリージョンのセットで構成され、これらの複数のリージョンにデータベースのレプリカが保存されます。Cloud Firestore のマルチリージョンデプロイでは、2 つのリージョンにデータベースのデータ全体の完全なレプリカが存在します。3 番目のリージョンには、完全なデータセットは維持されず、レプリケーションに参加する監視レプリカが存在します。複数のリージョン間でデータを複製することで、1 つのリージョン全体が失われてもデータの書き込みと読み取りを行うことができます。

リージョンのロケーションについて、詳しくは Cloud Firestore のロケーションをご覧ください。

シングルリージョンとマルチリージョン

Cloud Firestore での書き込みのライフサイクルについて

Cloud Firestore クライアントは、単一のドキュメントを作成、更新、削除することでデータを書き込むことができます。単一ドキュメントへの書き込みでは、ストレージレイヤでそのドキュメントとそれに関連付けられたインデックスエントリの両方をアトミックに更新する必要があります。Cloud Firestore は、複数のドキュメントに対する複数の読み取り / 書き込みで構成されるアトミックオペレーションもサポートしています。

Cloud Firestore は、あらゆる種類の書き込みに対してリレーショナルデータベースの ACID 特性（アトミック性、整合性、独立性、永続性）を備えています。Cloud Firestoreは直列化可能性も備えています。これは、すべてのトランザクションが順次実行されているかのように見えることを表します。

書き込みトランザクションの概要

Cloud Firestore クライアントが前述のいずれかの方法でトランザクションの書き込みまたは commit を行うと、この処理はデータベースの読み取り / 書き込みトランザクションとしてストレージレイヤで実行されます。このトランザクションにより、Cloud Firestore は前述の ACID 特性を提供しています。

トランザクションの最初のステップとして、Cloud Firestore は既存のドキュメントを読み取り、Documents テーブルのデータに行うミューテーションを決定します。

また、次のようにインデックステーブルに必要な更新を行います。

ドキュメントにフィールドを追加する場合には、インデックステーブルで対応する挿入を行います。
ドキュメントからフィールドを削除する場合は、インデックステーブルで対応する削除を行います。
ドキュメント内でフィールドを変更する場合は、インテックステーブルでの削除（古い値）と挿入（新しい値）の両方を行います。

前述のミューテーションを計算するために、Cloud Firestore はプロジェクトのインデックス構成を読み取ります。インデックス構成には、プロジェクトのインデックスに関する情報が保存されています。Cloud Firestore では、単一フィールドインデックスと複合インデックスという 2 種類のインデックスを使用します。Cloud Firestore で作成されるインデックスの詳細を理解するには、Cloud Firestore のインデックスの種類をご覧ください。

ミューテーションが計算されると、Cloud Firestore はトランザクション内でミューテーションを収集し、commit します。

ストレージレイヤでの書き込みトランザクションについて

前述のように、Cloud Firestore に書き込みを行うと、ストレージレイヤで読み取り / 書き込みトランザクションが実行されます。データレイアウトで説明したように、データのレイアウトによっては、書き込みに 1 つ以上のスプリットが関係します。

次の図では、Cloud Firestore データベースに 8 つのスプリット（1～8 のマーク）が存在し、1 つのゾーンの 3 つの異なるストレージサーバーにホストされています。また、各スプリットは 3 つ以上のゾーンに複製されています。各スプリットには Paxos リーダーがあり、リーダーは他のスプリットと異なるゾーンに存在しています。

次のような Restaurants コレクションを含む Cloud Firestore データベースを考えてみましょう。

Restaurant コレクション

Cloud Firestore クライアントは、priceCategory フィールドの値を更新して、Restaurant コレクション内のドキュメントに対する次の変更をリクエストします。

コレクション内のドキュメントへの変更

書き込みの大まかな流れは次のとおりです。

読み取り / 書き込みトランザクションを作成します。
ストレージレイヤのドキュメントテーブルで Restaurants コレクションの restaurant1 ドキュメントを読み込みます。
インデックステーブルからドキュメントのインデックスを読み取ります。
データに対して行われるミューテーションを計算します。この場合、5 つのミューテーションがあります。
- M1: ドキュメントテーブルの restaurant1 の行を更新して、priceCategory フィールドの値の変更を反映します。
- M2 と M3: 降順および昇順インデックスのインデックステーブルで priceCategory の古い値の行を削除します。
- M4 と M5: 降順および昇順インデックスのインデックステーブルに新しい値 priceCategory の行を挿入します。
これらのミューテーションを commit します。

Cloud Firestore サービスのストレージクライアントは、変更される行のキーを所有しているスプリットを検索します。スプリット 3 が M1 に、スプリット 6 が M2 から M5 にサービスを提供する場合について考えてみましょう。分散トランザクションがあり、これらのスプリットはすべて参加者として含まれます。参加者スプリットには、読み取り / 書き込みトランザクションの一部として、先にデータが読み取られたスプリットも含まれる場合があります。

この commit の流れは次のとおりです。

ストレージクライアントが commit を発行します。commit にはミューテーション M1～M5 が含まれています。
スプリット 3 とスプリット 6 がこのトランザクションの参加者です。参加者の 1 つ（スプリット 3 など）がコーディネーターとして選択されます。コーディネーターは、すべての参加者の間でトランザクションがアトミックに commit または中止されるように調整します。
- これらのスプリットのリーダーレプリカは参加者とコーディネーターが行う処理を管理します。
各参加者とコーディネーターは、それぞれのレプリカで Paxos アルゴリズムを実行します。
- リーダーは、レプリカで Paxos アルゴリズムを実行します。レプリカのほとんどがリーダーに ok to commit レスポンスを返すとクォーラムが達成されます。
- 各参加者は、準備ができるとコーディネーターに通知します（2 フェーズ commit の第 1 フェーズ）。トランザクションを commit できない参加者がいる場合は、トランザクション全体が aborts 状態になります。
コーディネーターが、自身を含むすべての参加者で準備が完了していることを確認すると、トランザクションの結果として参加者に accept を通知します（2 フェーズ commit の第 2 フェーズ）。このフェーズで、各参加者が commit の決定を安定したストレージに記録し、トランザクションが commit されます。
コーディネーターは、トランザクションが commit されたというレスポンスを Cloud Firestore のストレージクライアントに返します。同時に、コーディネーターとすべての参加者がデータにミューテーションを適用します。

commit のライフサイクル

Cloud Firestore データベースが小さい場合は、1 つのスプリットがミューテーション M1～M5 のすべてのキーを所有している可能性があります。その場合、トランザクションに参加するのは 1 つだけであり、前述の 2 フェーズでの commit は不要になり、書き込み時間が短縮されます。

マルチリージョンでの書き込み

マルチリージョンデプロイでは、レプリカを複数のリージョンに分散させると可用性が向上しますが、パフォーマンスコストが発生します。異なるリージョンのレプリカ間の通信はラウンドトリップ時間が長くなります。このため、Cloud Firestore オペレーションのベースラインレイテンシは、シングルリージョンデプロイよりも若干高くなります。

スプリットのリーダーが常にプライマリリージョンに存在するようにレプリカが構成されています。プライマリリージョンは、Cloud Firestore サーバーがトラフィックを受信するリージョンです。このようにリーダーを決定することで、Cloud Firestore のストレージクライアントとレプリカリーダー（またはマルチスプリットトランザクションのコーディネーター）間の通信でのラウンドトリップの遅延が減少します。

Cloud Firestore の書き込みでは、Cloud Firestore のリアルタイムエンジンとの連携も行われます。リアルタイムクエリの詳細については、大規模なリアルタイムクエリについてをご覧ください。

キーポイント: スプリット / 参加者の数が増えるにつれて、書き込み / トランザクションのレイテンシが増加します。参加者の数を管理する明示的なメカニズムはありません。ただし、次の方法で参加者の数を減らすことができます。

多くのインデックスエントリの書き込みが必要な場合はインデックスのファンアウトが大きくなります。ドキュメント書き込みのインデックスファンアウトが大きくなると、変更されるデータベース行が増え、参加者が増加します。クエリに使用されないフィールドのインデックスを明示的に停止します。
書き込みトランザクションで更新されるドキュメントの数が増えると、参加者の数が増えます。レイテンシを低くするには、1 回の書き込みトランザクションで更新されるドキュメントの数を減らします。

Cloud Firestore での読み取りのライフサイクルについて

このセクションでは、Cloud Firestore でのスタンドアロンの非リアルタイム読み取りについて説明します。内部的には、Cloud Firestore サーバーはこれらのクエリのほとんどを次の 2 つのステージで処理します。

インデックステーブルに対する単一範囲のスキャン
以前のスキャンの結果に基づくドキュメントテーブルのポイント検索

特定のクエリ（IN クエリなど）では、Cloud Firestore で必要な処理が多くなる、または少なくなる場合があります。

ストレージレイヤからのデータの読み取りは、読み取りの整合性を確保するため、内部的にはデータベーストランザクションを使用して実行されます。ただし、書き込みに使用されるトランザクションとは異なり、これらのトランザクションはロックされません。その代わりに、トランザクションはタイムスタンプを選択して、そのタイムスタンプですべての読み込みを行います。ロックを行わないため、トランザクションは同時読み書きトランザクションをブロックしません。このトランザクションを実行するために、Cloud Firestore のストレージクライアントはタイムスタンプの範囲を指定し、ストレージレイヤに読み取りタイムスタンプの選択方法を通知します。Cloud Firestore でストレージクライアントによって選択されるタイムスタンプ範囲の種類は、読み取りリクエストの読み取りオプションによって決まります。

ストレージレイヤでの読み取りトランザクションについて

このセクションでは、読み取りの種類と、Cloud Firestore のストレージレイヤでの読み取り方法について説明します。

強力な読み込み

デフォルトでは、Cloud Firestore の読み取りは強整合性を持ちます。強整合性とは、Cloud Firestore の読み取りによって読み取りの開始時までに commit されたすべての書き込みを反映した最新のデータが返されるということです。

単一スプリット読み取り

Cloud Firestore のストレージクライアントは、読み取る行のキーを所有しているスプリットを検索します。前のセクションのスプリット 3 からの読み取りを行う場合について考えてみましょう。クライアントは、ラウンドトリップレイテンシを短縮するため、読み取りリクエストを最も近いレプリカに送信します。

この時点で、選択されたレプリカに応じて次のようなケースが考えられます。

読み取りリクエストがリーダーレプリカ（ゾーン A）に送信される。
- リーダーは常に最新の状態になっているため、読み取りがすぐに実行されます。
読み取りリクエストがリーダー以外のレプリカ（ゾーン B など）に送信される。
- スプリット 3 が、内部状態からそのスプリットに読み取りの実行に十分な情報があることを認識できた場合は、スプリットから読み取りを行います。
- スプリット 3 が最新のデータが存在することを認識できなかった場合は、リーダーにメッセージを送信して、読み取りの実行に必要な最新のトランザクションのタイムスタンプを取得します。トランザクションが適用されると、読み取りが実行されます。

Cloud Firestore がクライアントにレスポンスを返します。

マルチスプリット読み取り

複数のスプリットから読み取りを行う状況では、すべてのスプリットで同じメカニズムが発生します。すべてのスプリットからデータが返されると、Cloud Firestore のストレージクライアントは結果を結合します。Cloud Firestore はこのデータを使用してクライアントにレスポンスを返します。

ステイル読み取り

強力な読み取りは、Cloud Firestore のデフォルトモードです。ただし、リーダーとの通信が必要になるため、レイテンシが増加する可能性があります。多くの場合、Cloud Firestore アプリケーションは最新バージョンのデータを読み取る必要はなく、数秒前のデータでも問題なく機能します。

そのような場合、クライアントは read_time 読み取りオプションを使用して、ステイル読み取りを選択することもできます。この場合、read_time のデータが読み取られます。また、最も近いレプリカが、指定された read_time にデータが存在していることをすでに確認している可能性が非常に高くなります。パフォーマンスを著しく向上させるには、ステイルネスの値として 15 秒を使用することが妥当です。ステイル読み取りでも、生成される行の整合性は維持されます。

ホットスポットを回避する

Cloud Firestore のスプリットは、トラフィックをより多くのストレージサーバーに配信する、またはキースペースが拡張されるときに、必要に応じて自動的に分割されます。過剰なトラフィックの処理のために作成されたスプリットが、トラフィックがなくなっても約 24 時間ほど保持されます。そのため、トラフィックの急増が繰り返し発生する場合、スプリットは維持され、必要に応じて追加されます。このメカニズムにより、Cloud Firestore データベースは、トラフィック負荷またはデータベースサイズの増加に応じて自動スケーリングできます。ただし、以下で説明するように、いくつかの制限があります。

ストレージと負荷の分割に時間がかかり、トラフィックが急増すると、サービスの調整中に高レイテンシや期限超過エラー（一般的にはホットスポット）が発生する可能性があります。ベストプラクティスは、オペレーション数が 1 秒あたり 500 となるデータベース上でコレクションへのトラフィックが増加している間に、キー範囲全体にオペレーションを分散させ、その後で 5 分ごとに 50% までトラフィックを増加させることです。このプロセスは 500/50/5 ルールと呼ばれ、ワークロードに合わせたデータベースの最適なスケーリングを可能にします。

スプリットは負荷が増加すると自動的に作成されますが、Cloud Firestore は、複製された専用のストレージサーバーのセットを使用して単一ドキュメントを提供するまで、キー範囲を分割できます。結果として、単一ドキュメント上で同時実行するオペレーションの量が高いままで維持され、そのドキュメントでホットスポットが発生する場合があります。単一ドキュメントで高レイテンシが持続されるような場合は、複数のドキュメントにデータを分割または複製するようなデータモデルへの修正を検討しましょう。

競合エラーは、複数のオペレーションで同じドキュメントを同時に読み書きしようとした場合に発生します。

また、Cloud Firestore のドキュメント ID として連続的に増加 / 減少するキーが使用されていて、1 秒あたりのオペレーション数が非常に多い場合にも、ホットスポットが発生します。急増したトラフィックは新しく作成されたスプリットに移動するだけで済むため、スプリットの数を増やしても意味がありません。デフォルトでは、Cloud Firestore はドキュメント内のすべてのフィールドに自動的にインデックスを作成するため、タイムスタンプのように連続的に増加または減少する値を含むドキュメントフィールドのインデックススペースでもホットスポットの移動が発生する可能性があります。

前述の方法に従うことによって、Cloud Firestore は構成を調整しなくても、任意の大きなワークロードに合わせてスケーリングできます。

トラブルシューティング

Cloud Firestore では、使用状況のパターン分析とホットスポット化の問題のトラブルシューティング用に設計された診断ツール Key Visualizer を利用できます。

次のステップ

ベストプラクティスを確認する
大規模なリアルタイムクエリについて学習する

大規模な読み取りと書き込みについて コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

コンポーネントの概要

Cloud Firestore SDK とクライアント ライブラリ

Google Front End（GFE）

Cloud Firestore サービス

Cloud Firestoreストレージ レイヤ

キー範囲とスプリット

同期レプリケーション

データ レイアウト

シングル リージョンとマルチリージョン

Cloud Firestore での書き込みのライフサイクルについて

書き込みトランザクションの概要

ストレージ レイヤでの書き込みトランザクションについて

マルチリージョンでの書き込み

Cloud Firestore での読み取りのライフサイクルについて

ストレージ レイヤでの読み取りトランザクションについて

強力な読み込み

単一スプリット読み取り

マルチスプリット読み取り

ステイル読み取り

ホットスポットを回避する

トラブルシューティング

次のステップ

大規模な読み取りと書き込みについて

Cloud Firestore SDK とクライアントライブラリ

Cloud Firestoreストレージレイヤ

データレイアウト

シングルリージョンとマルチリージョン

ストレージレイヤでの書き込みトランザクションについて

ストレージレイヤでの読み取りトランザクションについて