Gere texto com base em comandos multimodais usando a API Gemini


Ao chamar a Gemini API do seu app usando um SDK da Vertex AI in Firebase, é possível solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.

Para testar e iterar comandos multimodais, recomendamos usar Vertex AI Studio.

Antes de começar

Conclua o guia para iniciantes dos SDKs do Vertex AI in Firebase, se ainda não tiver feito isso. Verifique se você fez o seguinte:

  1. Configurou um projeto novo ou existente do Firebase, incluindo o uso do plano de preços Blaze e a ativação das APIs necessárias.

  2. Conectou seu app ao Firebase, incluindo o registro e a adição da configuração do Firebase.

  3. Adicione o SDK e inicialize o serviço do Vertex AI e o modelo generativo no seu app.

Depois de conectar seu app ao Firebase, adicionar o SDK e inicializar o serviço Vertex AI e o modelo generativo, você poderá chamar o Gemini API.

Gerar texto com base em texto e uma única imagem

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.

Os arquivos compatíveis incluem imagens, PDFs, vídeos, áudio e muito mais. Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar texto com base em texto e várias imagens

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.

Os arquivos compatíveis incluem imagens, PDFs, vídeos, áudio e muito mais. Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de fazer streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar texto com base em texto e vídeo

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e um único vídeo (como mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.

Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, aguarde o resultado completo em vez de streaming. O resultado só é retornado depois que o modelo conclui todo o processo de geração.

Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.

Requisitos e recomendações para arquivos de entrada

Para saber mais sobre os tipos de arquivos compatíveis, como especificar o tipo MIME e como garantir que seus arquivos e solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas, consulte Requisitos e arquivos de entrada compatíveis com o Vertex AI Gemini API.

O que mais você pode fazer?

Testar outros recursos do Gemini API

Saiba como controlar a geração de conteúdo

Também é possível testar comandos e configurações de modelo usando Vertex AI Studio.

Saiba mais sobre os modelos do Gemini

Saiba mais sobre os modelos disponíveis para vários casos de uso e as cotas e os preços.


Enviar feedback sobre sua experiência com o Vertex AI in Firebase