Vertex AI Gemini API에서 지원되는 입력 파일 및 요구사항

다음을 사용하여 앱에서 Vertex AI Gemini API를 호출할 때 Vertex AI in Firebase SDK를 사용하면 Gemini 모델에 텍스트를 생성하라는 프롬프트를 표시할 수 있습니다. 기반으로 합니다. 멀티모달 프롬프트에는 여러 모달리티가 포함될 수 있음 (또는 입력 유형) - 이미지, PDF, 동영상, 오디오와 같은 텍스트 등.

입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 지정하고 지원되는 MIME 형식을 지정하고 파일 및 멀티모달 요청이 요구사항을 충족하고 권장사항을 따릅니다.

이 페이지에서는 지원되는 MIME 유형, 권장사항, 제한사항을 설명합니다. 다음과 같습니다.

Vertex AI in Firebase SDK 관련 요구사항

SDK Vertex AI in Firebase개의 경우 최대 총 요청 크기는 20MB 요청이 너무 크면 HTTP 413 오류가 발생합니다.



이미지: 요구사항, 권장사항, 제한사항

이미지: 요구사항

이 섹션에서는 지원되는 MIME 유형 및 이미지

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.

이미지 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PNG - image/png
JPEG - image/jpeg

요청당 한도

이미지의 픽셀 수에는 제한이 없습니다. 하지만 최대 해상도 3072x에 맞게 크기가 큰 이미지는 축소 및 패딩됨 3072(원본 가로세로 비율을 유지함)

프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.

  • Gemini 1.0 Pro Vision: 이미지 16개
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 이미지 3,000개

이미지: 토큰화

다음은 이미지의 토큰을 계산하는 방법입니다.

  • Gemini 1.0 Pro Vision: 각 이미지 계정 258개 토큰에 해당합니다.
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: <ph type="x-smartling-placeholder">
      </ph>
    • 이미지의 두 크기가 모두 384픽셀 이하인 경우 258개의 토큰이 사용됩니다
    • 이미지의 한 크기가 384픽셀보다 큰 경우 이미지가 타일로 잘립니다. 각 타일 크기는 기본적으로 가장 작은 1.5로 나눈 값입니다. 필요한 경우 각 타일은 256픽셀보다 작거나 크지 않도록 768픽셀 그런 다음 각 타일의 크기는 768x768로 조정되고 258개의 토큰을 사용합니다.

이미지: 권장사항

이미지를 사용할 때 다음 권장사항 및 정보를 참고하세요. 최상의 결과:

  • 이미지에서 텍스트를 인식하려면 단일 이미지와 함께 프롬프트를 사용하여 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 생성합니다.
  • 프롬프트에 단일 이미지가 포함된 경우 이미지를 텍스트 앞에 배치합니다. 메시지가 표시됩니다.
  • 프롬프트에 여러 이미지가 포함되어 있고 이를 참조하려는 경우 모델이 이를 모델 응답에서 참조하게 할 수 있습니다 각 이미지에 이미지 앞에 색인을 제공하는 것이 도움이 될 수 있습니다. 사용 a b c 또는 image 1 image 2 image 3 생성합니다. 다음은 프롬프트:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • 더 높은 해상도의 이미지를 사용하세요. 더 나은 결과를 얻을 수 있습니다.
  • 프롬프트에 몇 가지 예시를 포함하세요.
  • 이미지를 메시지가 표시됩니다.
  • 흐릿한 이미지는 사용하지 마세요.

이미지: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 콘텐츠 검토: 모델이 답변을 제공하지 않습니다. Google의 안전 정책을 위반하는 이미지에 적용됩니다.
  • 공간 추론: 모델이 위치를 정확하게 찾을 수 없습니다. 객체를 생성할 수 있습니다 이러한 함수는 포드의 근사치 개수만 반환할 수 있으며 객체입니다.
  • 의료용 사용: 이 모델은 해석하는 데 적합하지 않습니다. 의료 영상 (예: 엑스레이 및 CT 스캔) 또는 의료 제공 있습니다.
  • 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별합니다.
  • 정확성: 모델이 할루시네이션을 일으키거나 실수를 할 수 있습니다. 저품질, 회전된 이미지 또는 매우 저해상도 이미지를 해석하는 경우 모델은 또한 필기체 텍스트를 해석할 때 할루시네이션을 일으킬 수 있습니다. 이미지 문서입니다.



동영상: 요구사항, 권장사항, 제한사항

동영상: 요구사항

이 섹션에서는 지원되는 MIME 유형 및 있습니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.

동영상 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
FLV - video/x-flv
MOV - video/mov
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

요청당 한도

프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.

  • Gemini 1.0 Pro Vision: 동영상 파일 1개
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 동영상 파일 10개

동영상: 토큰화

동영상의 토큰 계산 방법은 다음과 같습니다.

  • 모든 Gemini 멀티모달 모델: 동영상은 1 fps(초당 프레임 수)fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다.
  • Gemini 1.5 Flash 및 Gemini 1.5 Pro: 오디오 트랙이 인코딩됨 함께 사용할 수 있습니다. 오디오 트랙도 1초 트렁크로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다.

동영상: 권장사항

동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

  • 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
  • 오디오가 포함된 동영상에서 타임스탬프 현지화가 필요한 경우 모델에 요청하세요. MM:SS 형식의 타임스탬프를 생성합니다. 처음 두 개는 숫자는 분을 나타내고 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다.
  • Gemini 1.0 Pro Vision을 사용하는 경우 다음 사항에 유의하세요.

    • 프롬프트당 동영상을 두 개 이상 사용하지 않습니다.
    • 모델은 첫 두 시간 동안만 정보를 처리합니다. 있습니다.
    • 모델은 동영상의 비연속 이미지 프레임으로 동영상을 처리합니다. 오디오는 포함되지 않습니다. 모델에서 동영상의 일부 내용이 누락되었다면 모델이 동영상 내용을 더 많이 캡처하도록 동영상 길이를 줄여보세요.
    • 모델은 오디오 정보나 타임스탬프를 처리하지 않습니다. 메타데이터로 변환할 수 있습니다. 따라서 자막 오디오 같은 오디오 입력이나 속도, 리듬과 같은 시간 관련 정보가 필요한 사용 사례에서는 모델이 제대로 작동하지 않을 수 있습니다.

동영상: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
  • 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
  • 고속 모션: 1 fps(초당 프레임 수)로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다.
  • 스크립트 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 는 구두점을 포함하지 않은 스크립트를 반환합니다.



오디오: 요구사항 및 제한사항

오디오: 요구사항

이 섹션에서는 지원되는 MIME 유형 및 오디오입니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음 오디오 MIME 유형을 지원합니다.

오디오 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro
AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

요청당 한도

프롬프트 요청에는 최대 1개의 오디오 파일을 포함할 수 있습니다.

오디오: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
  • 오디오 전용 타임스탬프: 오디오를 지원하는 모델 오디오 파일이 포함된 요청의 타임스탬프를 정확하게 생성할 수 없습니다. 이 세분화 및 시간적 현지화 타임스탬프가 포함됩니다. 타임스탬프는 오디오가 포함된 동영상이 포함된 입력에 대해 정확하게 생성될 수 있어야 합니다.
  • 스크립트 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 는 구두점을 포함하지 않은 스크립트를 반환합니다.



문서 (예: PDF): 요구사항, 권장사항, 제한사항

문서: 요구사항

이 섹션에서는 지원되는 MIME 유형 및 문서 (예: PDF)

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.

문서 MIME 유형 Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf

요청당 한도

PDF는 이미지로 취급되므로 PDF의 한 페이지가 하나의 이미지로 취급됩니다. 이미지 프롬프트에 허용되는 페이지 수는 모델이 지원할 수 있는 이미지:

  • Gemini 1.0 Pro Vision: 16페이지
  • Gemini 1.5 Pro 및 Gemini 1.5 Flash: 1,000페이지

문서: 토큰화

PDF는 이미지로 취급되므로 PDF의 각 페이지는 동일한 이미지처럼 말이죠

또한 PDF의 비용은 Gemini 이미지 가격 책정. 예를 들어 Gemini API 호출에 두 페이지 PDF를 포함하면 두 개의 이미지를 처리하는 입력 요금이 발생합니다.

문서: 권장사항

PDF를 사용할 때는 최상의 결과:

  • 프롬프트에 PDF가 하나인 경우 PDF를 텍스트 앞에 배치합니다. 메시지가 표시됩니다.
  • 문서가 긴 경우 여러 개의 PDF로 분할하는 것이 좋습니다. 두 가지 방법이 있습니다
  • 텍스트 형식의 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 만든 PDF를 자동으로 스캔됩니다 이 형식은 텍스트가 컴퓨터에서 읽을 수 있도록 하여 모델을 스캔하는 것보다 수정, 검색, 조작이 더 쉬움 이미지 PDF입니다. 이 방법은 계약서처럼 텍스트가 많은 문서는

문서: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

  • 공간 추론: 모델이 위치를 정확하게 찾을 수 없습니다. 텍스트나 개체를 저장할 수 있습니다. 이러한 함수는 포드의 근사치 개수만 반환할 수 있으며 객체입니다.
  • 정확성: 모델이 할루시네이션을 일으킬 수 있습니다. 필기 텍스트 변환이 가능합니다.