Para apps para dispositivos móveis e da Web, os SDKs Vertex AI in Firebase permitem interagir com os modelos Gemini diretamente no app.
Os modelos Gemini são considerados multimodais porque são capazes de processar e até gerar várias modalidades, incluindo texto, código, PDFs, imagens, vídeo e áudio.
Confira uma breve visão geral dos modelos compatíveis com Vertex AI in Firebase e as versões estáveis mais recentes. As seções mais adiante nesta página oferecem comparações e informações mais detalhadas.
Modelo | Entrada | Saída | Otimizado para |
---|---|---|---|
Gemini models | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
texto, código, PDFs, imagens, vídeo, áudio | texto, código, JSON (imagens e áudio em breve) |
Recursos de última geração, velocidade e geração multimodal para uma variedade de tarefas |
Gemini 1.5 Progemini-1.5-pro-002 |
texto, código, PDFs, imagens, vídeo, áudio | texto, código, JSON | Tarefas de raciocínio complexas que exigem mais inteligência |
Gemini 1.5 Flashgemini-1.5-flash-002 |
texto, código, PDFs, imagens, vídeo, áudio | texto, código, JSON | Desempenho rápido e versátil em várias tarefas |
O restante desta página oferece informações detalhadas sobre os modelos compatíveis com Vertex AI in Firebase:
-
- Entrada e saída com suporte
- Comparação de alto nível dos recursos compatíveis
- Especificações e limitações, por exemplo, tokens de entrada máximos ou comprimento máximo de vídeo de entrada
Descrição de como os modelos são versionados, especificamente as versões estáveis, atualizadas automaticamente e de pré-lançamento
Listas de nomes de modelos disponíveis para incluir no código durante a inicialização
Listas de idiomas com suporte para os modelos
Na parte de baixo da página, você pode acessar informações detalhadas sobre modelos mais antigos.
Comparar modelos
Cada modelo tem recursos diferentes para oferecer suporte a vários casos de uso. Observe que cada uma das tabelas nesta seção descreve cada modelo quando usado com Vertex AI in Firebase. Cada modelo pode ter recursos adicionais que não estão disponíveis ao usar nossos SDKs.
Saiba mais sobre cada um dos modelos Gemini na documentação do Google Cloud.
Entrada e saída com suporte
Estes são os tipos de entrada e saída compatíveis ao usar cada modelo com Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
Tipos de entrada | ||||
Texto | ||||
Código | ||||
Documentos (PDFs ou texto simples) | ||||
Imagens, vídeos e áudio | ||||
Áudio (streaming) | Em breve | |||
Tipos de saída | ||||
Texto | ||||
Saída estruturada (como JSON) | ||||
Código | ||||
Imagens | Em breve | |||
Áudio | Em breve | |||
Áudio (streaming) | em breve |
Para saber mais sobre os tipos de arquivo aceitos, consulte Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API.
Recursos e recursos compatíveis
Estes são os recursos e os recursos com suporte ao usar cada modelo com Vertex AI in Firebase:
Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash | ||
---|---|---|---|---|
Gerar texto com base em entradas de texto ou multimodais | ||||
Gerar imagens | Em breve | |||
Gerar áudio | Em breve | |||
Gerar saída estruturada, como JSON. | ||||
Analisar imagens e vídeos (visão) | ||||
Analisar áudio | ||||
Analisar documentos (PDFs ou texto simples) | ||||
Chat multiturno | ||||
Chamada de função (ferramentas) | ||||
Chamadas de função básicas | ||||
Chamada de função paralela | ||||
Modo de chamada de função | ||||
Contar tokens e caracteres faturáveis | ||||
Instruções do sistema | ||||
API Multimodal Live (streaming bidirecional) | Em breve |
Especificações e limitações
Estas são as especificações e limitações ao usar cada modelo com Vertex AI in Firebase:
Propriedade | Gemini 2.0 Flash | Gemini 1.5 Pro | Gemini 1.5 Flash |
---|---|---|---|
Janela de contexto * Limite total de tokens (entrada+saída combinadas) |
1.048.576 tokens | 2.097.152 tokens | 1.048.576 tokens |
Limite de token de saída * | 8.192 tokens | 8.192 tokens | 8.192 tokens |
Data de corte do conhecimento | Junho de 2024 | Maio de 2024 | Maio de 2024 |
Imagens (por solicitação) | |||
Número máximo de imagens de entrada | 3.000 imagens | 3.000 imagens | 3.000 imagens |
Número máximo de imagens de saída | em breve | --- | --- |
Tamanho máximo por imagem codificada em base64 de entrada | 7 MB | 7 MB | 7 MB |
PDFs (por solicitação) | |||
Número máximo de arquivos PDF de entrada ** | 3.000 arquivos | 3.000 arquivos | 3.000 arquivos |
Número máximo de páginas por arquivo PDF de entrada ** | 1.000 páginas | 1.000 páginas | 1.000 páginas |
Tamanho máximo por arquivo PDF de entrada | 50 MB | 50 MB | 50 MB |
Vídeo (por solicitação) | |||
Número máximo de arquivos de vídeo de entrada | 10 arquivos | 10 arquivos | 10 arquivos |
Duração máxima de todo o vídeo de entrada (somente frames) | ~60 minutos | ~60 minutos | ~60 minutos |
Duração máxima de todo o vídeo de entrada (frames + áudio) | aproximadamente 45 minutos | aproximadamente 45 minutos | aproximadamente 45 minutos |
Áudio (por solicitação) | |||
Número máximo de arquivos de áudio de entrada | 1 arquivo | 1 arquivo | 1 arquivo |
Número máximo de arquivos de áudio de saída | em breve | --- | --- |
Duração máxima de todo o áudio de entrada | ~8,4 horas | ~8,4 horas | ~8,4 horas |
Duração máxima de todo o áudio de saída | em breve | --- | --- |
* Em todos os modelos, um token equivale a cerca de quatro caracteres,
então 100 tokens equivalem a cerca de 60 a 80 palavras em inglês. Para modelos do Gemini, é possível
determinar a contagem total de tokens nas solicitações usando
countTokens
.
** Os PDFs são tratados como imagens. Por isso, uma única página de um PDF é tratada como uma imagem. O número de páginas permitido em uma solicitação é limitado ao número de imagens que o modelo aceita.
Encontre mais informações detalhadas
As cotas e os preços são diferentes para cada modelo. Os preços também dependem da entrada e da saída.
Saiba mais sobre os tipos de arquivos de entrada aceitos, como especificar o tipo MIME e como garantir que os arquivos de entrada e as solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas em Arquivos de entrada e requisitos compatíveis com o Vertex AI Gemini API.
Controle de versões de modelos e padrões de nomenclatura
Os modelos são oferecidos nas versões estável, atualizada automaticamente e prévia.
As versões estáveis são consideradas de disponibilidade geral.
- As versões estáveis têm nomes de modelo anexados a um
número de versão específico de três dígitos, por exemplo,
.gemini-2.0-flash-001
- As versões estáveis têm nomes de modelo anexados a um
número de versão específico de três dígitos, por exemplo,
As versões atualizadas automaticamente sempre apontam para a versão estável mais recente do modelo. Se uma nova versão estável for lançada, a versão atualizada automaticamente vai começar a apontar para essa nova versão estável.
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndices, por exemplo,
.gemini-2.0-flash
- As versões atualizadas automaticamente têm nomes de modelo sem
apêndices, por exemplo,
As versões Pré-lançamento têm novos recursos e são consideradas não estáveis. As versões de pré-lançamento sempre apontam para a versão mais recente de pré-lançamento desse modelo. Se uma nova versão de pré-lançamento for lançada, todas as versões de pré-lançamento atuais vão começar a apontar para essa nova versão.
- As versões de pré-lançamento têm nomes de modelo anexados com
e a data de lançamento inicial do modelo (-preview
), por exemplo,-MMDD
(lançada em 9 de abril de 2024).gemini-1.5-pro-preview-0409
- As versões de pré-lançamento têm nomes de modelo anexados com
Saiba mais sobre as versões de modelo disponíveis e o ciclo de vida delas (Gemini) na documentação do Google Cloud.
Nomes de modelos disponíveis
Os nomes de modelo são os valores explícitos que você inclui no código durante a inicialização do modelo generativo, que é uma etapa obrigatória para chamar o Gemini API.
É possível usar o
endpoint publishers.models.list
para listar todos os nomes de modelos disponíveis. Essa lista retornada inclui
todos os modelos compatíveis com Vertex AI, mas Vertex AI in Firebase só aceita
os modelos Gemini descritos nesta página.
Além disso, as versões atualizadas automaticamente (por exemplo, gemini-2.0-flash
) não são
listadas porque são um alias de conveniência para o modelo estável de base.
Nomes de modelos Gemini
Para conferir exemplos de inicialização no seu idioma, consulte o guia de início.
Nomes de modelos Gemini 2.0 Flash
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-2.0-flash-001 |
Versão estável mais recente do Gemini 2.0 Flash | Disponibilidade geral | 2025-02-05 | A ser determinado |
Versão atualizada automaticamente | ||||
gemini-2.0-flash |
Indica a versão estável mais recente do Flash 2.0 (atualmente gemini-2.0-flash-001 |
Disponibilidade geral | 2025-02-10 | --- |
Nomes dos modelos Gemini 1.5 Pro
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-pro-002 |
Versão estável mais recente do Gemini 1.5 Pro | Disponibilidade geral | 2024-09-24 | A partir de 24-09-2025 |
gemini-1.5-pro-001 |
Versão estável inicial de Gemini 1.5 Pro | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-pro |
Aponta para a versão estável mais recente do 1.5 Pro (atualmente gemini-1.5-pro-002 |
Disponibilidade geral | 2024-09-24 | --- |
Nomes de modelos Gemini 1.5 Flash
Nome do modelo | Descrição | Etapa de lançamento | Data de lançamento inicial | Data de desativação |
---|---|---|---|---|
Versões estáveis | ||||
gemini-1.5-flash-002 |
Versão estável mais recente do Gemini 1.5 Flash | Disponibilidade geral | 2024-09-24 | A partir de 24-09-2025 |
gemini-1.5-flash-001 |
Versão estável inicial de Gemini 1.5 Flash | Disponibilidade geral | 2024-05-24 | A partir de 24/05/2025 |
Versão atualizada automaticamente | ||||
gemini-1.5-flash |
Aponta para a versão estável mais recente do Flash 1.5 (atualmente gemini-1.5-flash-002 |
Disponibilidade geral | 2024-09-24 | --- |
Idiomas com suporte
Gemini
Todos os modelos Gemini podem entender e responder nos seguintes idiomas:
Árabe (ar), bengali (bn), búlgaro (bg), chinês simplificado e tradicional (zh), croata (hr), tcheco (cs), dinamarquês (da), neerlandês (nl), inglês (en), estoniano (et), finlandês (fi), francês (fr), alemão (de), grego (el), hebraico (iw), hindi (hi), húngaro (hu), indonésio (id), italiano (it), japonês (ja), coreano (ko), letão (lv), lituano (lt), norueguês (no), polonês (pl), português (pt), romeno (ro), russo (ru), sérvio (sr), eslovaco (sk), esloveno (sl), espanhol (es), swahili (sw), sueco (sv), tailandês (th), turco (tr), ucraniano (uk), vietnamita (vi)
Os modelos Gemini 1.5 Pro e Gemini 1.5 Flash podem entender e responder nos seguintes idiomas adicionais:
Africâner (af), amárico (am), assamês (as), azerbaijano (az), bielorrusso (be), bósnio (bs), catalão (ca), cebuano (ceb), córsico (co), galês (cy), divehi (dv), esperanto (eo), basco (eu), persa (fa), filipino (tagalo) (fil), frísio (fy), irlandês (ga), gaélico escocês (gd), galego (gl), guzerate (gu), hauçá (ha), havaiano (haw), hmong (hmn), crioulo haitiano (ht), armênio (hy), igbo (ig), islandês (is), javanês (jv), georgiano (ka), cazaque (kk), khmer (km), canarês (kn), krio (kri), curdo (ku), quirguiz (ky), latim (la), luxemburguês (lb), laosiano (lo), malgaxe (mg), maori (mi), macedônio (mk), malaiala (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marati (mr), malaio (ms), maltês (mt), mianmar (birmanês) (my), nepalês (ne), nianja (chicheua) (ny), odia (oriá) (or), punjabi (pa), pashto (ps), sindi (sd), cingalês (si), samoano (sm), chona (sn), somali (so), albanês (sq), sesotho (st), sundanês (su), tâmil (ta), télugo (te), tadjique (tg), uyghur (ug), urdu (ur), usbeque (uz), xhosa (xh), Ídiche (yi), iorubá (yo), zulu (zu)
Informações sobre modelos mais antigos
O Vertex AI in Firebase oferece suporte a todos os modelos Gemini, incluindo modelos mais antigos, como Gemini 1.0 Pro e Gemini 1.0 Pro Vision. No entanto, recomendamos usar um modelo mais recente com nossos SDKs. Esses modelos Gemini mais antigos estão se aproximando da data de descontinuação e não oferecem todos os recursos dos modelos mais recentes.
Próximas etapas
Teste os recursos do Gemini API
- Crie conversas com vários turnos (chat).
- Gerar texto com base em comandos somente de texto.
- Gerar texto a partir de comandos multimodais (incluindo texto, imagens, PDFs, vídeo e áudio).
- Gere saída estruturada (como JSON) com comandos de texto e multimodais.
- Use a chamada de função para conectar modelos generativos a sistemas e informações externas.