Gerar texto de comandos multimodais usando a API Gemini


Ao chamar Gemini API no app usando um SDK do Vertex AI in Firebase, é possível enviar um comando ao modelo Gemini para gerar texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto com imagens, PDFs, vídeo e áudio.

Para testar e iterar comandos multimodais, recomendamos o uso de Vertex AI Studio

Antes de começar

Conclua as guia para iniciantes para SDKs do Vertex AI in Firebase. Verifique se você fez o seguinte:

  1. Configure um projeto novo ou existente do Firebase, incluindo o uso do Plano de preços Blaze e ativação das APIs necessárias.

  2. Conecte seu app ao Firebase, incluindo o registro dele e a adição do configuração do Firebase ao seu app.

  3. Adicione o SDK e inicialize o serviço Vertex AI e o modelo generativo no seu app.

Depois de conectar seu aplicativo ao Firebase, adicionar o SDK e inicializar o Vertex AI e o modelo generativo, está tudo pronto para chamar Gemini API.

Gerar texto com base em um texto e uma única imagem

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

É possível chamar Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, conforme mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais (como o Gemini 1.5 Pro).

Os arquivos compatíveis incluem imagens, PDFs, vídeo, áudio e muito mais. Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Outra opção é aguardar o resultado inteiro em vez de fazer streaming. as o resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar texto com base em textos e várias imagens

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar a Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, como mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.

Os arquivos compatíveis incluem imagens, PDFs, vídeos, áudio e muito mais. Leia os requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

É possível conseguir interações mais rápidas sem esperar pelo resultado completo da geração do modelo e, em vez disso, usar o streaming para processar resultados parciais.

Sem streaming

Como alternativa, você pode aguardar o resultado inteiro em vez de streaming o resultado só é retornado depois que o modelo conclui todo o processo de geração de demanda.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Gerar texto com base em textos e vídeos

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar o Gemini API com comandos multimodais que incluem texto e um único vídeo (como mostrado neste exemplo). Para essas chamadas, é necessário usar um modelo compatível com comandos multimodais, como o Gemini 1.5 Pro.

Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Outra opção é aguardar o resultado inteiro em vez de fazer streaming. as resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Saiba como escolher um modelo do Gemini e, opcionalmente, um local adequado para seu caso de uso e app.

Requisitos e recomendações para arquivos de entrada

Para saber mais sobre os tipos de arquivos aceitos, como especificar o tipo MIME e como garantir que os arquivos e as solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas, consulte Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API.

O que mais você pode fazer?

  • Saiba como contar tokens antes de enviar comandos longos para o modelo.
  • Configure Cloud Storage for Firebase para incluir arquivos grandes nas suas solicitações multimodais usando URLs Cloud Storage. Os arquivos podem incluir imagens, PDFs, vídeos e áudio.
  • Comece a se preparar para a produção, incluindo configurando o Firebase App Check para proteger o Gemini API contra abusos de clientes não autorizados.

Testar outros recursos do Gemini API

Saiba como controlar a geração de conteúdo

. Também é possível testar comandos e configurações de modelo usando Vertex AI Studio.

Saiba mais sobre os modelos do Gemini

Saiba mais sobre o modelos disponíveis para diversos casos de uso e as cotas e preços.


Enviar feedback sobre sua experiência com o Vertex AI in Firebase