A família de modelos Gemini é considerada multimodal porque é capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, é possível enviar para o modelo Gemini uma foto de um prato de biscoitos e pedir a receita deles.
Comando | Resposta |
Give me a recipe for these cookies. |
**INGREDIENTS**
|
É possível interagir com a família de modelos do Gemini usando a Gemini API fornecida por Vertex AI no Google Cloud. Para apps para dispositivos móveis e da Web, use os SDKs Vertex AI in Firebase para chamar a API Gemini e interagir com os modelos do Gemini diretamente no seu app.
Esta página fornece as seguintes informações sobre os modelos do Gemini:
Comparação de alto nível dos casos de uso dos vários modelos do Gemini, incluindo os tipos de entrada aceitos.
Comparação dos detalhes de cada modelo, por exemplo, tokens de entrada máximos ou duração máxima do vídeo.
Descrição de como os modelos do Gemini são controlados por versão, especificamente as versões estáveis, atualizadas automaticamente e de pré-lançamento.
Listas de nomes de modelos disponíveis para incluir no código durante a inicialização.
Lista de idiomas compatíveis com os modelos Gemini.
Modelos disponíveis
É possível usar qualquer um dos seguintes modelos do Gemini com Vertex AI in Firebase:
Gemini 1.5 Flash
Modelo multimodal que oferece suporte aos mesmos tipos de entrada e saída do 1.5 Pro, mas com uma compreensão de contexto longo de 1 milhão de tokens. O Gemini 1.5 Flash foi projetado especificamente para aplicativos de alto volume e econômicos.Gemini 1.5 Pro
Modelo multimodal compatível com a adição de arquivos de imagem, áudio, vídeo e PDF em comandos de texto ou chat para uma resposta de texto ou código. Além disso, ele oferece suporte à compreensão de contextos longos com 2 milhões de tokens.Gemini 1.0 Pro Vision
Modelo multimodal projetado para processar texto, além de imagens e vídeos para uma resposta de texto ou código. Não é possível usar para chat.Gemini 1.0 Pro
Modelo desenvolvido para processar tarefas de linguagem natural, chat com várias interações de texto e código e geração de código.
Ir para nomes de modelos para incluir no código
Casos de uso e recursos de cada modelo
Cada modelo do Gemini tem recursos diferentes para oferecer suporte a vários casos de uso. Saiba mais na documentação do Google Cloud sobre cada um dos modelos Gemini.
Entrada e saída compatíveis para cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Tipos de entrada | ||||
Texto | ||||
Código | ||||
Imagem | ||||
Vídeo (somente frames) | ||||
Vídeo (frames e áudio) | ||||
Áudio | ||||
Tipos de saída | ||||
Texto | ||||
Saída estruturada (como JSON) usando o esquema de resposta | ||||
Código |
Para saber mais sobre os tipos de arquivo aceitos, consulte Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API.
Recursos gerais e com suporte para cada modelo
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Geração de texto a partir de entrada somente de texto | |||||
Geração de texto a partir de entrada multimodal | |||||
Saída estruturada (como JSON) usando o esquema de resposta | |||||
Chat multiturno | |||||
Chamadas de função | |||||
Chamadas de função básicas | |||||
Chamada de função paralela | |||||
Modo de chamada de função | |||||
Contar tokens e caracteres faturáveis | |||||
Instruções do sistema |
Informações detalhadas sobre cada modelo
Propriedade | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Limite total de tokens (entrada e saída combinadas) * | 1.048.576 tokens | 2.097.152 tokens | 16.384 tokens | 32.760 tokens |
Limite de token de saída * | 8.192 tokens | 8.192 tokens | 2.048 tokens | 8.192 tokens |
Número máximo de imagens por solicitação | 3.000 imagens | 3.000 imagens | 16 imagens | N/A |
Tamanho máximo da imagem codificada em base64 | 7 MB | 7 MB | 7 MB | N/A |
Tamanho máximo do PDF | 30 MB | 30 MB | 30 MB | N/A |
Número máximo de arquivos de vídeo por solicitação | 10 arquivos de vídeo | 10 arquivos de vídeo | 1 arquivo de vídeo | N/A |
Duração máxima do vídeo (somente frames) | ~60 minutos de vídeo | ~60 minutos de vídeo | 2 minutos | N/A |
Duração máxima do vídeo (frames e áudio) | ~45 minutos de vídeo | ~45 minutos de vídeo | N/A | N/A |
Número máximo de arquivos de áudio por solicitação | 1 arquivo de áudio | 1 arquivo de áudio | N/A | N/A |
Duração máxima do áudio | Aproximadamente 8,4 horas de áudio | Aproximadamente 8,4 horas de áudio | N/A | N/A |
* Em todos os modelos Gemini, um token equivale a cerca de quatro caracteres,
então 100 tokens equivalem a cerca de 60 a 80 palavras em inglês. É possível determinar a contagem total
de tokens nas suas solicitações usando
countTokens
.
Saiba mais sobre os tipos de arquivos aceitos, como especificar o tipo MIME e como garantir que seus arquivos e solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas em Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API.
Controle de versões dos modelos
Os modelos do Gemini são oferecidos nas versões estável, atualizada automaticamente e pré-lançamento.
As versões estáveis são consideradas de disponibilidade geral.
- As versões estáveis têm nomes de modelo anexados a um
número de versão específico de três dígitos, por exemplo,
.gemini-1.5-pro-002
- As versões estáveis têm nomes de modelo anexados a um
número de versão específico de três dígitos, por exemplo,
As versões atualizadas automaticamente sempre apontam para a versão estável mais recente do modelo. Se uma nova versão estável for lançada, a versão atualizada automaticamente vai começar a apontar para essa nova versão estável.
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndices, por exemplo,
.gemini-1.5-pro
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndices, por exemplo,
As versões Pré-lançamento têm novos recursos e são consideradas não estáveis. As versões de pré-lançamento sempre apontam para a versão mais recente de pré-lançamento desse modelo. Se uma nova versão de pré-lançamento for lançada, todas as versões de pré-lançamento atuais vão começar a apontar para essa nova versão.
- As versões de pré-lançamento têm nomes de modelo anexados com
e a data de lançamento inicial do modelo (-preview
), por exemplo,-MMDD
(lançado em 9 de abril de 2024).gemini-1.5-pro-preview-0409
- As versões de pré-lançamento têm nomes de modelo anexados com
Saiba mais sobre as versões de modelo do Gemini disponíveis e o ciclo de vida delas na documentação do Google Cloud.
Nomes de modelos disponíveis
Os nomes de modelo são os valores explícitos que você inclui no código durante a inicialização do modelo generativo, que é uma etapa obrigatória para chamar o Gemini API. Para conferir exemplos de inicialização para seu idioma, consulte o guia de início.
Nomes dos modelos do Gemini 1.5 Flash
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-flash-002 |
Versão estável mais recente do Gemini 1.5 Flash | Disponibilidade geral | 2024-09-24 | A partir de 24-09-2025 |
gemini-1.5-flash-001 |
Versão estável inicial do Gemini 1.5 Flash | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-flash |
Aponta para a versão estável mais recente do Flash 1.5 (atualmente gemini-1.5-flash-002 |
Disponibilidade geral | 2024-09-24 | --- |
Nomes dos modelos Gemini 1.5 Pro
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-pro-002 |
Versão estável mais recente do Gemini 1.5 Pro | Disponibilidade geral | 2024-09-24 | A partir de 24-09-2025 |
gemini-1.5-pro-001 |
Versão estável inicial do Gemini 1.5 Pro | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-pro |
Aponta para a versão estável mais recente do 1.5 Pro (atualmente gemini-1.5-pro-002 |
Disponibilidade geral | 2024-09-24 | --- |
Nomes dos modelos do Gemini 1.0 Pro Vision
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-vision-001 |
Versão estável mais recente do Gemini 1.0 Pro Vision | Disponibilidade geral | 2024-02-15 | A partir de 15/02/2025 |
Versão atualizada automaticamente | ||||
gemini-1.0-pro-vision |
Aponta para a versão estável mais recente do 1.5 Pro Vision (atualmente gemini-1.5-pro-vision-001 |
Disponibilidade geral | 2024-01-04 | --- |
Nomes dos modelos Gemini 1.0 Pro
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.0-pro-002 |
Versão estável mais recente do Gemini 1.0 Pro | Disponibilidade geral | 2024-04-09 | A partir de 09-04-2025 |
gemini-1.0-pro-001 |
Versão estável do Gemini 1.0 Pro | Disponibilidade geral | 2024-02-15 | A partir de 15/02/2025 |
Versão atualizada automaticamente | ||||
gemini-1.0-pro |
Indica a versão mais recente da 1.0 Pro (atualmente gemini-1.0-pro-002 |
Disponibilidade geral | 2024-02-15 | --- |
Idiomas disponíveis
Todos os modelos do Gemini podem entender e responder nos seguintes idiomas:
Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)
Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:
Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)
Próximas etapas
Teste os recursos do Gemini API
- Crie conversas com vários turnos (chat).
- Gerar texto com base em comandos somente de texto.
- Gerar texto a partir de comandos multimodais (incluindo texto, imagens, PDFs, vídeo e áudio).
- Gere saída estruturada (como JSON) com comandos de texto e multimodais.
- Use a chamada de função para conectar modelos generativos a sistemas e informações externas.