Esta página foi traduzida pela API Cloud Translation.

Gerar texto de comandos multimodais usando a API Gemini

Ao chamar Gemini API no app usando um SDK do Vertex AI in Firebase, é possível enviar um comando ao modelo Gemini para gerar texto com base em uma entrada multimodal. Os comandos multimodais podem incluir diversas modalidades (ou tipos de entrada), como texto junto com imagens, PDFs, vídeo e áudio.

Para testar e iterar comandos multimodais, recomendamos o uso de Vertex AI Studio

Outras opções para trabalhar com o Gemini API

Opcionalmente, teste uma "IA do Google" alternativa do modelo Gemini API
Tenha acesso sem custo financeiro (dentro dos limites e quando disponível) usando Google AI Studio e SDKs do cliente Google AI. Esses SDKs devem ser usados apenas para prototipagem em apps da Web e para dispositivos móveis.

Depois que você se familiarizar com o funcionamento do Gemini API, migre para os SDKs do Vertex AI in Firebase. com muitos outros recursos importantes para apps da Web e para dispositivos móveis, como proteger a API contra abusos usando Firebase App Check e suporte para arquivos de mídia grandes nas solicitações.

Opcionalmente, chame Vertex AI Gemini API do lado do servidor
Use o SDKs do Vertex AI do lado do servidor, Firebase Genkit ou Firebase Extensions para Gemini API.

Antes de começar

Conclua as guia para iniciantes para SDKs do Vertex AI in Firebase. Verifique se você fez o seguinte:

Configure um projeto novo ou existente do Firebase, incluindo o uso do Plano de preços Blaze e ativação das APIs necessárias.
Conecte seu app ao Firebase, incluindo o registro dele e a adição do configuração do Firebase ao seu app.
Adicionar o SDK e inicializar o serviço Vertex AI e o modelo generativo no seu app.

Depois de conectar seu aplicativo ao Firebase, adicionar o SDK e inicializar o Vertex AI e o modelo generativo, está tudo pronto para chamar Gemini API.

Gerar texto com base em um texto e uma única imagem
Gerar texto com base em textos e várias imagens
Gerar texto com base em textos e vídeos

Gerar texto com base em um texto e uma única imagem

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar o Gemini API com comandos multimodais que incluem texto e um único arquivo (como uma imagem, como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Os arquivos compatíveis incluem imagens, PDFs, vídeo, áudio e muito mais. Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar para a resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Também é possível aguardar o resultado inteiro em vez de fazer streaming. as resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Gerar texto com base em textos e várias imagens

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar o Gemini API com comandos multimodais que incluem texto e vários arquivos (como imagens, como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Os arquivos compatíveis incluem imagens, PDFs, vídeo, áudio e muito mais. Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar pela resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Como alternativa, você pode aguardar o resultado inteiro em vez de streaming o resultado só é retornado depois que o modelo conclui todo o processo de geração de imagens.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Gerar texto com base em textos e vídeos

Verifique se você concluiu a seção Antes de começar deste guia antes de testar este exemplo.

Você pode chamar a Gemini API com comandos multimodais que incluem texto e um único vídeo (como mostrado neste exemplo). Para estes você precisa usar um modelo que ofereça suporte a comandos multimodais, (como o Gemini 1.5 Pro).

Não se esqueça de analisar requisitos e recomendações para arquivos de entrada.

Escolha se você quer transmitir a resposta (generateContentStream) ou esperar para a resposta até que todo o resultado seja gerado (generateContent).

Streaming

Você pode ter interações mais rápidas sem esperar pelo resultado inteiro a geração do modelo e, em vez disso, usar streaming para lidar com resultados parciais.

Sem streaming

Outra opção é aguardar o resultado inteiro em vez de fazer streaming. as o resultado só é retornado depois que o modelo conclui toda a geração de desenvolvimento de software.

Aprenda a escolher um modelo do Gemini e, opcionalmente, um local de acordo com seu caso de uso e app.

Requisitos e recomendações para arquivos de entrada

Para saber mais sobre os tipos de arquivo compatíveis, como especificar o tipo MIME e criar certifique-se de que seus arquivos e solicitações multimodais atendam aos requisitos e sigam práticas recomendadas, consulte Arquivos de entrada compatíveis e requisitos para Vertex AI Gemini API.

O que mais você pode fazer?

Saiba como contar tokens. antes de enviar comandos longos ao modelo.
Configurar o Cloud Storage for Firebase para que você possa incluir arquivos grandes em suas solicitações multimodais usando Cloud Storage. Os arquivos podem incluir imagens, PDFs, vídeo e áudio.
Comece a se preparar para a produção, incluindo configurando o Firebase App Check para proteger o Gemini API contra abusos de clientes não autorizados.

Teste outros recursos do Gemini API

Criar conversas de várias interações (chat).
Gerar texto com base comandos somente de texto.
Use chamadas de função para se conectar modelos generativos a sistemas e informações externos.

Saiba como controlar a geração de conteúdo

Entender o design de comandos, incluindo práticas recomendadas, estratégias e exemplos de comandos.
Configure os parâmetros do modelo, como temperatura e máximo de tokens de saída.
Use as configurações de segurança para ajustar o probabilidade de receber respostas que podem ser consideradas prejudiciais.

. Também é possível testar comandos e configurações de modelo usando Vertex AI Studio.

Saiba mais sobre os modelos do Gemini

Saiba mais sobre o modelos disponíveis para diversos casos de uso e as cotas e preços.

Envie feedback sobre sua experiência com Vertex AI in Firebase