ネイティブモードの Cloud Firestore Enterprise エディションが利用可能になりました。詳細

データの一括読み込みに関するベストプラクティス

このページでは、mongoimport などのツールを使用して Cloud Firestore にデータを一括読み込みする際のベストプラクティスについて説明します。

Cloud Firestore は、ビジネスのニーズに合わせて自動スケーリングを提供する高度に分散されたシステムです。Cloud Firestore は、システムが受け取った負荷に基づいてデータを動的に分割して結合します。

負荷ベースの分割は自動的に行われます。事前設定の必要はありません。Cloud Firestore の負荷ベースの分割システムには、他のドキュメントデータベースと比較して重要な独自の特徴があります。データをモデル化する際には、これらの特徴を念頭に置く必要があります。

Cloud Firestore の分散型という性質上、一部の設計上の選択肢を変更する必要がある場合があります。特に、プライマリレプリカが書き込みスループットのボトルネックとなっているデータベース向けに最適化されたワークロードでは、変更が必要になることがあります。

ベストプラクティス

シングルスレッドクライアントで大量のデータを処理するワークロードでは、ボトルネックが発生する可能性があります。クライアントとサーバーのスループットが類似しているため、クライアントはシングルスレッドを使用してデータを一括読み込みできる場合があります。Cloud Firestore データベースでは並列処理を大幅に増やすことができますが、そのためにはリクエストを並列で送信するようにクライアントを構成する必要があります。

`mongoimport`

mongoimport ツールを使用する場合、リクエストはデフォルトで順番に実行されます。Cloud Firestore への読み込み時間を短縮するには、--numInsertionWorkers フラグを使用してワーカーの数を設定します。設定の際に、クライアントのサイズに応じて調整が必要になる場合もありますが、通常は少なくとも 32 から始めることをおすすめします。

非同期プログラミング

MongoDB 互換のオペレーションを使用して独自のソフトウェアを開発する場合は、次の方法で並列処理を改善できます。

非同期フレームワーク: 非同期フレームワークを使用すると、リクエストを並行して処理して応答できます。データベースへの呼び出しを行う際に、複雑なプーリングやキューを開発する必要はありません。各リクエストフローでは独立した接続を使用し、データベース呼び出しを並行して行うことができます。
並列化されたコンピューティングサービスを使用する: Cloud Run などのサービスを使用すると、システムはデータの処理に必要なコンピューティングワーカーの数をスケーリングできます。

一時的な障害

Cloud Firestore などの大規模な分散システムを操作していると、ネットワークの不具合やドキュメントの競合などの一時的な障害が発生することがあります。

大量の情報を一括読み込みする場合は、大規模な一括読み込みオペレーションを失敗させずに、失敗した書き込みの再試行戦略を維持することが重要です。

データの一括読み込みに関するベスト プラクティス コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ベスト プラクティス

mongoimport

非同期プログラミング

一時的な障害

データの一括読み込みに関するベストプラクティス

ベストプラクティス

`mongoimport`