Gerar texto de comandos multimodais usando a API Gemini


Ao chamar Gemini API no app usando um SDK do Vertex AI in Firebase, é possível enviar um comando ao modelo Gemini para gerar texto com base em uma entrada multimodal. Os comandos multimodais podem incluir diversas modalidades (ou tipos de entrada), como texto junto com imagens, PDFs, vídeo e áudio.

Para testar e iterar comandos multimodais, recomendamos o uso de Vertex AI Studio

Antes de começar

Conclua as guia para iniciantes para SDKs do Vertex AI in Firebase. Verifique se você fez o seguinte:

  1. Configure um projeto novo ou existente do Firebase, incluindo o uso do Plano de preços Blaze e ativação das APIs necessárias.

  2. Conecte seu app ao Firebase, incluindo o registro dele e a adição do configuração do Firebase ao seu app.

  3. Adicionar o SDK e inicializar o serviço Vertex AI e o modelo generativo no seu app.

Depois de conectar seu aplicativo ao Firebase, adicionar o SDK e inicializar o Vertex AI e o modelo generativo, está tudo pronto para chamar Gemini API.

.

Gerar texto com base em um texto e uma única imagem

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar o Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Os arquivos compatíveis incluem imagens, PDFs, vídeo, áudio e muito mais. Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar para a resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Também é possível aguardar o resultado inteiro em vez de fazer streaming. as resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Gerar texto com base em textos e várias imagens

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar o Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Os arquivos compatíveis incluem imagens, PDFs, vídeo, áudio e muito mais. Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Como alternativa, você pode aguardar o resultado inteiro em vez de streaming o resultado só é retornado depois que o modelo conclui todo o processo de geração de imagens.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Gerar texto com base em textos e vídeos

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar a Gemini API com comandos multimodais que incluem texto e um único vídeo (como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar para a resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Outra opção é aguardar o resultado inteiro em vez de fazer streaming. as o resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Requisitos e recomendações para arquivos de entrada

Para saber mais sobre os tipos de arquivo compatíveis, como especificar o tipo MIME e criar certifique-se de que seus arquivos e solicitações multimodais atendam aos requisitos e sigam práticas recomendadas, consulte Arquivos de entrada compatíveis e requisitos para Vertex AI Gemini API.

O que mais você pode fazer?

  • Saiba como contar tokens. antes de enviar comandos longos ao modelo.
  • Configurar o Cloud Storage for Firebase para que você possa incluir arquivos grandes em suas solicitações multimodais usando Cloud Storage. Os arquivos podem incluir imagens, PDFs, vídeo e áudio.
  • Comece a se preparar para a produção, incluindo configurando o Firebase App Check para proteger o Gemini API contra abusos de clientes não autorizados.

Teste outros recursos do Gemini API

Saiba como controlar a geração de conteúdo

. Também é possível testar comandos e configurações de modelo usando Vertex AI Studio.

Saiba mais sobre os modelos do Gemini

Saiba mais sobre o modelos disponíveis para diversos casos de uso e as cotas e preços.


Envie feedback sobre sua experiência com Vertex AI in Firebase