Vertex AI Gemini API에 지원되는 입력 파일 및 요구사항

Vertex AI in Firebase SDK를 사용하여 앱에서 Vertex AI Gemini API를 호출할 때 Gemini 모델에 멀티모달 입력을 기반으로 텍스트를 생성하라는 메시지를 표시할 수 있습니다. 멀티모달 프롬프트에는 이미지, PDF, 동영상, 오디오와 함께 텍스트와 같은 여러 형식(또는 입력 유형)이 포함될 수 있습니다.

입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 사용하고, 지원되는 MIME 유형을 지정하고, 파일과 다중 모드 요청이 요구사항을 충족하고 권장사항을 준수하는지 확인해야 합니다.

이 페이지에서는 다음에 대해 지원되는 MIME 유형, 권장사항, 제한사항을 설명합니다.

Vertex AI in Firebase SDK와 관련된 요구사항

Vertex AI in Firebase SDK의 경우 최대 총 요청 크기는 20MB입니다. 요청이 너무 크면 HTTP 413 오류가 발생합니다.



이미지: 요구사항, 권장사항, 제한사항

이미지: 요구사항

이 섹션에서는 지원되는 MIME 유형과 이미지 요청당 한도에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.

이미지 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg
WebP - image/webp

요청당 한도

이미지의 픽셀 수에는 제한이 없습니다. 그러나 더 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도 3072x3072에 맞게 축소되고 패딩됩니다.

프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.

  • Gemini 1.0 Pro Vision: 이미지 16개
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 이미지 3,000개

이미지: 토큰화

이미지의 토큰은 다음과 같이 계산됩니다.

  • Gemini 1.0 Pro Vision: 각 이미지는 258개의 토큰을 처리합니다.
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro:
    • 이미지의 가로세로 크기가 둘 다 384픽셀 이하인 경우 258개의 토큰이 사용됩니다.
    • 이미지의 한 변의 길이가 384픽셀보다 크면 이미지가 타일로 잘립니다. 기본적으로 각 타일 크기는 (너비 또는 높이 중에서) 가장 작은 치수를 1.5로 나눈 값으로 설정됩니다. 필요한 경우 각 타일은 256픽셀보다 작지 않고 768픽셀보다 크지 않도록 조정됩니다. 그런 다음 각 타일의 크기가 768x768로 조정되고 258개의 토큰이 사용됩니다.

이미지: 권장사항

이미지를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

  • 이미지에서 텍스트를 인식하려면 단일 이미지가 있는 프롬프트를 사용하면 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 얻을 수 있습니다.
  • 프롬프트에 단일 이미지가 포함된 경우 요청에서 텍스트 프롬프트 앞에 이미지를 배치합니다.
  • 프롬프트에 여러 이미지가 있고 나중에 프롬프트에서 이를 참조하거나 모델이 모델 응답에서 이를 참조하도록 하려는 경우 각 이미지 앞에 색인을 지정하면 도움이 될 수 있습니다. 색인에 a b c 또는 image 1 image 2 image 3를 사용합니다. 다음은 프롬프트에서 색인이 생성된 이미지를 사용하는 예시입니다.
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 해상도가 높은 이미지를 사용하면 결과가 더 좋습니다.
  • 프롬프트에 몇 가지 예시를 포함하세요.
  • 이미지를 프롬프트에 추가하기 전에 이미지를 적절한 방향으로 회전합니다.
  • 흐릿한 이미지는 사용하지 마세요.

이미지: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 이미지에 대해 답변을 제공하지 않습니다.
  • 공간 추론: 모델이 이미지에서 텍스트 또는 객체를 정확하게 찾지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
  • 의료 용도: 이 모델은 의료용 영상(예: X선 및 CT 촬영)을 해석하거나 의료 조언을 제공하는 데 적합하지 않습니다.
  • 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별하는 데 적합하지 않습니다.
  • 정확성: 이 모델은 저품질 이미지, 회전된 이미지 또는 매우 해상도가 매우 낮은 이미지를 해석할 때 할루시네이션 또는 오류가 발생할 수 있습니다. 이 모델은 이미지 문서에서 필기 입력 텍스트를 해석할 때도 할루시네이션이 발생할 수 있습니다.



동영상: 요구사항, 권장사항, 제한사항

동영상: 요구사항

이 섹션에서는 지원되는 MIME 유형과 동영상 요청당 한도에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.

동영상 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

요청당 한도

프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.

  • Gemini 1.0 Pro Vision: 동영상 파일 1개
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 동영상 파일 10개

동영상: 토큰화

동영상의 토큰은 다음과 같이 계산됩니다.

  • 모든 Gemini 멀티모달 모델: 동영상은 1 fps(초당 프레임 수)fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다.
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 오디오 트랙은 동영상 프레임으로 인코딩됩니다. 오디오 트랙도 1초 트렁크로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다.

동영상: 권장사항

동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

  • 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
  • 오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에 MM:SS 형식으로 타임스탬프를 생성하도록 요청합니다. 여기서 처음 두 자리는 분을, 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다.
  • Gemini 1.0 Pro Vision을 사용하는 경우 다음에 유의하세요.

    • 프롬프트당 동영상을 두 개 이상 사용하지 않습니다.
    • 모델은 동영상의 처음 2분 동안의 정보만 처리합니다.
    • 모델은 동영상의 비연속 이미지 프레임으로 동영상을 처리합니다. 오디오는 포함되지 않습니다. 모델에서 동영상의 일부 내용이 누락되었다면 모델이 동영상 내용을 더 많이 캡처하도록 동영상 길이를 줄여보세요.
    • 모델이 오디오 정보 또는 타임스탬프 메타데이터를 처리하지 않습니다. 따라서 자막 오디오 같은 오디오 입력이나 속도, 리듬과 같은 시간 관련 정보가 필요한 사용 사례에서는 모델이 제대로 작동하지 않을 수 있습니다.

동영상: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
  • 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
  • 고속 모션: 1 fps(초당 프레임 수)로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다.
  • 스크립트 작성 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 구두점을 포함하지 않은 스크립트를 반환할 수 있습니다.



오디오: 요구사항 및 제한사항

오디오: 요구사항

이 섹션에서는 지원되는 MIME 유형과 오디오 요청당 한도에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 오디오 MIME 유형을 지원합니다.

오디오 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

요청당 한도

프롬프트 요청에는 최대 1개의 오디오 파일을 포함할 수 있습니다.

오디오: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
  • 오디오 전용 타임스탬프: 오디오 전용 파일의 타임스탬프를 정확하게 생성하려면 generation_config에서 audio_timestamp 매개변수를 구성해야 합니다.
  • 텍스트 변환 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델에서 구두점이 포함되지 않은 텍스트 변환을 반환할 수 있습니다.



문서(예: PDF): 요구사항, 권장사항, 제한사항

문서: 요구사항

이 섹션에서는 지원되는 MIME 유형과 문서 (예: PDF) 요청당 제한에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.

문서 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
텍스트 - text/plain

요청당 한도

PDF는 이미지로 취급되므로 PDF의 한 페이지는 하나의 이미지로 취급됩니다. 프롬프트에서 허용되는 페이지 수는 모델이 지원할 수 있는 이미지 수로 제한됩니다.

  • Gemini 1.0 Pro Vision: 16페이지
  • Gemini 1.5 Pro 및 Gemini 1.5 Flash: 1,000페이지

문서: 토큰화

PDF 토큰화

PDF는 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방법으로 토큰화됩니다.

또한 PDF 비용은 Gemini 이미지 가격 책정을 따릅니다. 예를 들어 Gemini API 호출에 2페이지 PDF를 포함하면 두 개의 이미지 처리에 대한 입력 수수료가 발생합니다.

일반 텍스트 토큰화

일반 텍스트 문서는 텍스트로 토큰화됩니다. 예를 들어 Gemini API 호출에 100단어의 일반 텍스트 문서를 포함하면 100단어 처리에 대한 입력 수수료가 발생합니다.

문서: 권장사항

PDF를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

  • 프롬프트에 단일 PDF가 포함된 경우 요청에서 텍스트 프롬프트 앞에 PDF를 배치합니다.
  • 문서가 긴 경우 여러 PDF로 분할하여 처리하는 것이 좋습니다.
  • 스캔한 이미지에 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 생성된 PDF를 사용합니다. 이 형식은 머신이 텍스트를 읽을 수 있으므로 스캔한 이미지 PDF에 비해 모델이 더 쉽게 수정, 검색, 조작할 수 있습니다. 따라서 계약서와 같이 텍스트가 많은 문서를 작업할 때 최적의 결과를 얻을 수 있습니다.

문서: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 공간 추론: 이 모델은 PDF에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
  • 정확성: 이 모델은 PDF 문서에서 필기 텍스를 해석할 때 할루시네이션이 발생할 수 있습니다.