Ao chamar Vertex AI Gemini API no app usando um SDK do Vertex AI in Firebase, é possível solicitar que o modelo Gemini gere texto com base em uma entrada multimodal. Os comandos multimodais podem incluir várias modalidades (ou tipos de entrada), como texto junto com imagens, PDFs, vídeo e áudio.
Para as partes da entrada que não são textuais (como arquivos de mídia), você precisa usar tipos de arquivo compatíveis, especifique um tipo MIME compatível e certifique-se de que seus arquivos e solicitações multimodais atendam aos requisitos e sigam as práticas recomendadas.
Esta página descreve os tipos MIME compatíveis, as práticas recomendadas e as limitações para o seguinte:
Requisitos específicos para os SDKs do Vertex AI in Firebase
Para Vertex AI in Firebase SDKs, o tamanho total máximo da solicitação é de 20 MB. Você vai receber um erro HTTP 413 se uma solicitação for muito grande.
Se o tamanho de um arquivo fizer o tamanho total da solicitação exceder 20 MB, use um URL Cloud Storage for Firebase para incluir o arquivo na solicitação multimodal.
Se um arquivo for pequeno, muitas vezes você poderá passá-lo diretamente como dados inline. Observe, no entanto, que um arquivo fornecido como dados inline é codificado como base64 no trânsito, o que aumenta o tamanho da solicitação. Para exemplos de como incluir arquivos como dados inline, consulte Gerar texto com base em comandos multimodais usando a API Gemini.
Imagens: requisitos, práticas recomendadas e limitações
Imagens: requisitos
Nesta seção, saiba mais sobre os tipos MIME permitidos e os limites por solicitação para de imagens de contêiner.
Tipos MIME compatíveis
Os modelos multimodais do Gemini são compatíveis com os seguintes tipos MIME de imagem:
Tipo de Mime da imagem | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
Limites por solicitação
Não há um limite específico para o número de pixels em uma imagem. No entanto, imagens maiores são reduzidas e preenchidas para caber em uma resolução máxima de 3072 x 3072, preservando a proporção original.
Este é o número máximo de arquivos de imagem permitidos em uma solicitação de comando:
- Gemini 1.0 Pro Vision: 16 imagens
- o Gemini 1.5 Flash e Gemini 1.5 Pro: 3.000 imagens
Imagens: tokenização
Veja como os tokens são calculados para imagens:
- Gemini 1.0 Pro Vision: cada imagem representa para 258 tokens.
- o Gemini 1.5 Flash e
Gemini 1.5 Pro:
- Se as duas dimensões de uma imagem forem menores ou iguais a 384 pixels, então 258 tokens serão usados.
- Se uma dimensão de uma imagem for maior do que 384 pixels, a imagem será cortada em blocos. O padrão de cada tamanho de bloco é a menor dimensão (largura ou altura) dividida por 1,5. Se necessário, cada bloco é ajustado para não ser menor que 256 pixels nem maior que 768 pixels. Cada bloco é redimensionado para 768 x 768 e usa 258 tokens.
Imagens: práticas recomendadas
Ao usar imagens, siga as práticas recomendadas e informações a seguir para ter os melhores resultados.
- Se você quiser detectar texto em uma imagem, use comandos com uma única imagem para produzir resultados melhores do que comandos com várias imagens.
- Se o comando tiver apenas uma imagem, coloque-a antes do comando de texto na solicitação.
- Se o comando tiver várias imagens e você quiser consultá-las
posteriormente no comando ou fazer com que o modelo as mencione na resposta do modelo,
atribua um índice a cada imagem antes da imagem. Use
oua
b
c
no seu índice. Confira a seguir um exemplo de uso de imagens indexadas em um comando:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Use imagens com resolução mais alta para gerar resultados melhores.
- Inclua alguns exemplos no comando.
- Gire as imagens para a orientação correta antes de adicioná-las ao comando.
- Evite imagens desfocadas.
Imagens: limitações
Embora os modelos multimodais do Gemini sejam eficientes em muitos casos de uso multimodais, é importante entender as limitações dos modelos:
- Moderação de conteúdo: os modelos se recusam a fornecer respostas sobre imagens que violam nossas políticas de segurança.
- Raciocínio espacial: os modelos não são precisos para localizar texto ou objetos em imagens. Talvez eles retornem somente as contagens aproximadas de objetos.
- Usos médicos: os modelos não são adequados para interpretar eimagens médicas (por exemplo, raios-X e tomografias computadorizadas) ou fornecer aconselhamento médico.
- Reconhecimento de pessoas: os modelos não são usados para identificar pessoas que não são celebridades em imagens.
- Precisão: os modelos podem apresentar alucinação artificial ou cometer erros ao interpretar imagens de baixa qualidade, rotacionadas ou de resolução extremamente baixa. Os modelos também podem apresentar erros ao interpretar texto escrito à mão em imagens ou documentos.
Vídeo: requisitos, práticas recomendadas e limitações
Vídeo: requisitos
Nesta seção, saiba mais sobre os tipos MIME permitidos e os limites por solicitação para vídeo.
Tipos MIME compatíveis
Os modelos multimodais do Gemini são compatíveis com os seguintes tipos MIME de vídeo:
Tipo de vídeo MIME | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/mov |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
Limites por solicitação
Este é o número máximo de arquivos de vídeo permitidos em uma solicitação de comando:
- Gemini 1.0 Pro Vision: um arquivo de vídeo
- o Gemini 1.5 Flash e Gemini 1.5 Pro: 10 arquivos de vídeo
Vídeo: tokenização
Veja como os tokens são calculados para vídeos:
- Todos os modelos multimodais do Gemini: os vídeos são amostrados em
1 frame por segundo (QPS) . Cada frame de vídeo representa 258 tokens. - o Gemini 1.5 Flash e
Gemini 1.5 Pro: a faixa de áudio está codificada
com frames de vídeo. A faixa de áudio também é dividida em
entroncamentos de um segundo , cada um representando 32 tokens. O vídeo os tokens de frame e áudio são intercalados com os respectivos carimbos de data/hora. A carimbos de data/hora são representados como 7 tokens.
Vídeo: práticas recomendadas
Ao usar vídeos, siga as práticas recomendadas e informações a seguir para a melhores resultados:
- Se o comando tiver apenas um vídeo, coloque-o antes do texto prompt de comando.
- Se você precisar da localização de marcações de tempo em um vídeo com áudio, peça ao modelo
para gerar carimbos de data/hora no formato
MM:SS
, em que os dois primeiros os dígitos representam os minutos e os dois últimos dígitos representam os segundos. Use o mesmo formato para perguntas sobre carimbo de data/hora. Observe o seguinte se você estiver usando o Gemini 1.0 Pro Vision:
- Use no máximo um vídeo por comando.
- O modelo só processa as informações nos dois primeiros minutos do o vídeo.
- O modelo processa vídeos como frames de imagem não contíguos da vídeo. O áudio não está incluído. Se o modelo não tiver o conteúdo do vídeo, encurte-o para que o modelo captura uma parte maior do conteúdo de vídeo.
- O modelo não processa nenhuma informação de áudio ou carimbo de data/hora metadados. Por isso, o modelo pode não funcionar bem em casos de uso que precisam de entrada de áudio, como legendagem, ou áudios informações, como velocidade ou ritmo.
Vídeo: limitações
Embora os modelos multimodais do Gemini sejam eficientes em muitos casos de uso multimodais, é importante entender as limitações dos modelos:
- Moderação de conteúdo: os modelos se recusam a responder em vídeos que violam nossas políticas de segurança.
- Reconhecimento de som sem fala: os modelos compatíveis com áudio podem cometer erros ao reconhecer sons que não são fala.
- Movimento em alta velocidade: os modelos podem cometer erros.
para entender o movimento de alta velocidade em vídeo devido ao
Taxa de amostragem de
1 frame por segundo (QPS) . - Pontuação da transcrição: (se estiver usando o Gemini 1.5 Flash) Os modelos podem retornar transcrições que não incluem pontuação.
Áudio: requisitos e limitações
Áudio: requisitos
Nesta seção, saiba mais sobre os tipos MIME permitidos e os limites por solicitação para áudio.
Tipos MIME compatíveis
Os modelos multimodais do Gemini são compatíveis com os seguintes tipos MIME de áudio:
Tipo MIME de áudio | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
Limites por solicitação
Você pode incluir no máximo
Áudio: limitações
Embora os modelos multimodais do Gemini sejam eficientes em muitos casos de uso multimodais, é importante entender as limitações dos modelos:
- Reconhecimento de som sem fala: os modelos compatíveis com áudio podem cometer erros ao reconhecer sons que não são fala.
- Carimbos de data/hora somente de áudio: os modelos compatíveis com áudio não podem gerar carimbos de data/hora com precisão para solicitações com arquivos de áudio. Isso inclui carimbos de data/hora de segmentação e localização temporal. Os carimbos de data/hora podem ser gerados com precisão para entrada que inclua um vídeo com áudio.
- Pontuação da transcrição: (se estiver usando o Gemini 1.5 Flash) Os modelos podem retornar transcrições que não incluem pontuação.
Documentos (como PDFs): requisitos, práticas recomendadas e limitações
Documentos: requisitos
Nesta seção, saiba mais sobre os tipos MIME permitidos e os limites por solicitação para documentos, como PDFs.
Tipos MIME compatíveis
Os modelos multimodais do Gemini oferecem suporte aos seguintes tipos MIME de documento:
Tipo MIME do documento | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
Limites por solicitação
PDFs são tratados como imagens, então uma única página de um PDF é tratada como uma imagem. O número de páginas permitidas em um comando é limitado ao número que o modelo aceita:
- Gemini 1.0 Pro Vision: 16 páginas
- Gemini 1.5 Pro e Gemini 1.5 Flash: 1.000 páginas
Documentos: tokenização
PDFs são tratados como imagens, então cada página de um PDF é tokenizada na mesma forma como uma imagem.
Além disso, o custo dos PDFs segue Preços de imagens do Gemini. Por exemplo, ao incluir um PDF de duas páginas em uma chamada da API Gemini, você incorrerá em uma taxa de entrada para processar duas imagens.
Documentos: práticas recomendadas
Ao usar PDFs, siga as práticas recomendadas e informações a seguir para o melhores resultados:
- Se o comando tiver apenas um PDF, coloque o PDF antes do texto na solicitação.
- Se você tiver um documento longo, considere dividi-lo em vários PDFs para processá-la.
- Use PDFs criados com texto renderizado como texto em vez de usar texto imagens digitalizadas. Esse formato garante que o texto possa ser lido por máquina para que seja mais fáceis para o modelo editar, pesquisar e manipular em comparação com a verificação PDFs de imagem. Essa prática fornece os melhores resultados ao trabalhar com documentos com muito texto, como contratos.
Documentos: limitações
Embora os modelos multimodais do Gemini sejam eficientes em muitos casos de uso multimodais, é importante entender as limitações dos modelos:
- Raciocínio espacial: os modelos não são precisos na localização textos ou objetos em PDFs. Talvez eles retornem somente as contagens aproximadas de objetos.
- Precisão: os modelos podem ter alucinação artificial ao interpretar textos manuscritos em documentos PDF.