Requisitos y archivos de entrada admitidos para la API de Vertex AI Gemini

Cuando llamas a la API de Vertex AI Gemini desde tu app con un SDK de Vertex AI para Firebase, puedes indicarle al modelo de Gemini que genere texto basado en una entrada multimodal. Las instrucciones multimodales pueden incluir varias modalidades (o tipos de entrada), como texto junto con imágenes, PDF, video y audio.

Para las partes de la entrada que no son de texto (como los archivos multimedia), debes usar tipos de archivos compatibles, especificar un tipo de MIME compatible y asegurarte de que tus archivos y solicitudes multimodales cumplan con los requisitos y sigan las prácticas recomendadas.

  • Los archivos de entrada admitidos varían según el modelo y pueden incluir imágenes, PDF, videos y audios.

    • Ten en cuenta que la entrada de video compatible también varía según el modelo y puede incluir solo fotogramas o fotogramas con audio.
  • Requisitos y prácticas recomendadas para archivos de entrada y solicitudes multimodales:

    • En Más información sobre los modelos de Gemini, puedes encontrar un resumen rápido de los requisitos para los archivos compatibles según el modelo (por ejemplo, recuentos máximos de archivos y tamaño máximo de los archivos).

    • En la documentación de Google Cloud, puedes obtener información detallada sobre los requisitos y las prácticas recomendadas para los archivos de entrada y las solicitudes multimodales (por ejemplo, los tipos de MIME admitidos y cuándo proporcionar el archivo de entrada en la solicitud).

Requisitos específicos de los SDK de Vertex AI para Firebase

En el caso de los SDK de Vertex AI para Firebase, el tamaño máximo de solicitud es de 20 MB. Si una solicitud es demasiado grande, se mostrará el error HTTP 413.