Zbiorcze przetwarzanie danych za pomocą Dataflow

Na tej stronie znajdziesz przykłady użycia Dataflow do wykonywania operacji Cloud Firestore zbiorczych w potoku Apache Beam. Apache Beam obsługuje oprogramowanie sprzęgające Cloud Firestore. Za pomocą tego łącznika możesz uruchamiać operacje wsadowe i strumieniowe w Dataflow.

W przypadku zadań przetwarzania danych na dużą skalę zalecamy korzystanie z Dataflow i Apache Beam.

Oprogramowanie sprzęgające Cloud Firestore dla Apache Beam jest dostępne w języku Java. Więcej informacji o oprogramowaniu sprzęgającym Cloud Firestore znajdziesz w pakiecie SDK Apache Beam dla Javy.

Zanim zaczniesz

Zanim przeczytasz tę stronę, zapoznaj się z modelem programowania na potrzeby Apache Beam.

Aby uruchomić przykłady, musisz włączyć interfejs Dataflow API.

Przykładowe potoki Cloud Firestore

Poniższe przykłady pokazują potok, który zapisuje dane, oraz potok, który odczytuje i filtruje dane. Możesz użyć tych przykładów jako punktu wyjścia do tworzenia własnych potoków.

Uruchamianie przykładowych potoków

Kod źródłowy przykładów jest dostępny w repozytorium GitHub googleapis/java-firestore. Aby uruchomić te przykłady, pobierz kod źródłowy i zapoznaj się z plikiem README.

Przykładowa ścieżka `Write`

W tym przykładzie tworzymy dokumenty w kolekcji cities-beam-sample:

public class ExampleFirestoreBeamWrite {
  private static final FirestoreOptions FIRESTORE_OPTIONS = FirestoreOptions.getDefaultInstance();

  public static void main(String[] args) {
    runWrite(args, "cities-beam-sample");
  }

  public static void runWrite(String[] args, String collectionId) {
    // create pipeline options from the passed in arguments
    PipelineOptions options =
        PipelineOptionsFactory.fromArgs(args).withValidation().as(PipelineOptions.class);
    Pipeline pipeline = Pipeline.create(options);

    RpcQosOptions rpcQosOptions =
        RpcQosOptions.newBuilder()
            .withHintMaxNumWorkers(options.as(DataflowPipelineOptions.class).getMaxNumWorkers())
            .build();

    // create some writes
    Write write1 =
        Write.newBuilder()
            .setUpdate(
                Document.newBuilder()
                    // resolves to
                    // projects/<projectId>/databases/<databaseId>/documents/<collectionId>/NYC
                    .setName(createDocumentName(collectionId, "NYC"))
                    .putFields("name", Value.newBuilder().setStringValue("New York City").build())
                    .putFields("state", Value.newBuilder().setStringValue("New York").build())
                    .putFields("country", Value.newBuilder().setStringValue("USA").build()))
            .build();

    Write write2 =
        Write.newBuilder()
            .setUpdate(
                Document.newBuilder()
                    // resolves to
                    // projects/<projectId>/databases/<databaseId>/documents/<collectionId>/TOK
                    .setName(createDocumentName(collectionId, "TOK"))
                    .putFields("name", Value.newBuilder().setStringValue("Tokyo").build())
                    .putFields("country", Value.newBuilder().setStringValue("Japan").build())
                    .putFields("capital", Value.newBuilder().setBooleanValue(true).build()))
            .build();

    // batch write the data
    pipeline
        .apply(Create.of(write1, write2))
        .apply(FirestoreIO.v1().write().batchWrite().withRpcQosOptions(rpcQosOptions).build());

    // run the pipeline
    pipeline.run().waitUntilFinish();
  }

  private static String createDocumentName(String collectionId, String cityDocId) {
    String documentPath =
        String.format(
            "projects/%s/databases/%s/documents",
            FIRESTORE_OPTIONS.getProjectId(), FIRESTORE_OPTIONS.getDatabaseId());

    return documentPath + "/" + collectionId + "/" + cityDocId;
  }
}ExampleFirestoreBeamWrite.java

W przykładzie użyto tych argumentów do skonfigurowania i uruchomienia potoku:

GOOGLE_CLOUD_PROJECT=project-id
REGION=region
TEMP_LOCATION=gs://temp-bucket/temp/
NUM_WORKERS=number-workers
MAX_NUM_WORKERS=max-number-workers

Przykładowy potok `Read`

Ten przykładowy potok odczytuje dokumenty z cities-beam-samplekolekcji, stosuje filtr do dokumentów, w których pole country ma wartość USA, i zwraca nazwy pasujących dokumentów.

public class ExampleFirestoreBeamRead {

  public static void main(String[] args) {
    runRead(args, "cities-beam-sample");
  }

  public static void runRead(String[] args, String collectionId) {
    FirestoreOptions firestoreOptions = FirestoreOptions.getDefaultInstance();

    PipelineOptions options =
        PipelineOptionsFactory.fromArgs(args).withValidation().as(PipelineOptions.class);
    Pipeline pipeline = Pipeline.create(options);

    RpcQosOptions rpcQosOptions =
        RpcQosOptions.newBuilder()
            .withHintMaxNumWorkers(options.as(DataflowPipelineOptions.class).getMaxNumWorkers())
            .build();

    pipeline
        .apply(Create.of(collectionId))
        .apply(
            new FilterDocumentsQuery(
                firestoreOptions.getProjectId(), firestoreOptions.getDatabaseId()))
        .apply(FirestoreIO.v1().read().runQuery().withRpcQosOptions(rpcQosOptions).build())
        .apply(
            ParDo.of(
                // transform each document to its name
                new DoFn<RunQueryResponse, String>() {
                  @ProcessElement
                  public void processElement(ProcessContext c) {
                    c.output(Objects.requireNonNull(c.element()).getDocument().getName());
                  }
                }))
        .apply(
            ParDo.of(
                // print the document name
                new DoFn<String, Void>() {
                  @ProcessElement
                  public void processElement(ProcessContext c) {
                    System.out.println(c.element());
                  }
                }));

    pipeline.run().waitUntilFinish();
  }

  private static final class FilterDocumentsQuery
      extends PTransform<PCollection<String>, PCollection<RunQueryRequest>> {

    private final String projectId;
    private final String databaseId;

    public FilterDocumentsQuery(String projectId, String databaseId) {
      this.projectId = projectId;
      this.databaseId = databaseId;
    }

    @Override
    public PCollection<RunQueryRequest> expand(PCollection<String> input) {
      return input.apply(
          ParDo.of(
              new DoFn<String, RunQueryRequest>() {
                @ProcessElement
                public void processElement(ProcessContext c) {
                  // select from collection "cities-collection-<uuid>"
                  StructuredQuery.CollectionSelector collection =
                      StructuredQuery.CollectionSelector.newBuilder()
                          .setCollectionId(Objects.requireNonNull(c.element()))
                          .build();
                  // filter where country is equal to USA
                  StructuredQuery.Filter countryFilter =
                      StructuredQuery.Filter.newBuilder()
                          .setFieldFilter(
                              StructuredQuery.FieldFilter.newBuilder()
                                  .setField(
                                      StructuredQuery.FieldReference.newBuilder()
                                          .setFieldPath("country")
                                          .build())
                                  .setValue(Value.newBuilder().setStringValue("USA").build())
                                  .setOp(StructuredQuery.FieldFilter.Operator.EQUAL))
                          .buildPartial();

                  RunQueryRequest runQueryRequest =
                      RunQueryRequest.newBuilder()
                          .setParent(DocumentRootName.format(projectId, databaseId))
                          .setStructuredQuery(
                              StructuredQuery.newBuilder()
                                  .addFrom(collection)
                                  .setWhere(countryFilter)
                                  .build())
                          .build();
                  c.output(runQueryRequest);
                }
              }));
    }
  }
}ExampleFirestoreBeamRead.java

W przykładzie użyto tych argumentów do skonfigurowania i uruchomienia potoku:

GOOGLE_CLOUD_PROJECT=project-id
REGION=region
TEMP_LOCATION=gs://temp-bucket/temp/
NUM_WORKERS=number-workers
MAX_NUM_WORKERS=max-number-workers

Ceny

Uruchomienie obciążenia Cloud Firestore w Dataflow wiąże się z kosztami korzystania z Cloud Firestore i Dataflow. Wykorzystanie Dataflow jest rozliczane na podstawie zasobów używanych przez zadania. Więcej informacji znajdziesz na stronie z cennikiem Dataflow. Cennik Cloud Firestore znajdziesz na tej stronie.

Co dalej?

Inny przykład potoku znajdziesz w artykule Korzystanie z Firestore i Apache Beam do przetwarzania danych.
Więcej informacji o Dataflow i Apache Beam znajdziesz w dokumentacji Dataflow.

Zbiorcze przetwarzanie danych za pomocą Dataflow Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.