다음을 사용하여 앱에서 Vertex AI Gemini API를 호출할 때 Vertex AI in Firebase SDK를 사용하면 Gemini 모델에 텍스트를 생성하라는 프롬프트를 표시할 수 있습니다. 기반으로 합니다. 멀티모달 프롬프트에는 여러 모달리티가 포함될 수 있음 (또는 입력 유형) - 이미지, PDF, 동영상, 오디오와 같은 텍스트 등.
입력의 텍스트가 아닌 부분 (예: 미디어 파일)의 경우 지원되는 파일 형식을 지정하고 지원되는 MIME 형식을 지정하고 파일 및 멀티모달 요청이 요구사항을 충족하고 권장사항을 따릅니다.
이 페이지에서는 지원되는 MIME 유형, 권장사항, 제한사항을 설명합니다. 다음과 같습니다.
Vertex AI in Firebase SDK 관련 요구사항
SDK Vertex AI in Firebase개의 경우 최대 총 요청 크기는 20MB 요청이 너무 크면 HTTP 413 오류가 발생합니다.
파일 크기로 인해 총 요청 크기가 20MB를 초과하는 경우 Cloud Storage for Firebase URL을 사용하여 멀티모달 요청에 파일을 포함합니다.
파일이 작은 경우 종종 인라인 데이터로 직접 전달할 수 있습니다. 하지만 인라인 데이터로 제공된 파일은 전체 요청 수를 증가시켜 요청의 크기를 늘립니다. 예를 들면 다음과 같습니다. 파일을 인라인 데이터로 포함하려면 Gemini API를 사용하여 멀티모달 프롬프트에서 텍스트 생성.
이미지: 요구사항, 권장사항, 제한사항
이미지: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 이미지
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.
이미지 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PNG - image/png |
|||
JPEG - image/jpeg |
요청당 한도
이미지의 픽셀 수에는 제한이 없습니다. 하지만 최대 해상도 3072x에 맞게 크기가 큰 이미지는 축소 및 패딩됨 3072(원본 가로세로 비율을 유지함)
프롬프트 요청에 허용되는 최대 이미지 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 이미지 16개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 이미지 3,000개
이미지: 토큰화
다음은 이미지의 토큰을 계산하는 방법입니다.
- Gemini 1.0 Pro Vision: 각 이미지 계정 258개 토큰에 해당합니다.
- Gemini 1.5 Flash 및
Gemini 1.5 Pro:
<ph type="x-smartling-placeholder">
- </ph>
- 이미지의 두 크기가 모두 384픽셀 이하인 경우 258개의 토큰이 사용됩니다
- 이미지의 한 크기가 384픽셀보다 큰 경우 이미지가 타일로 잘립니다. 각 타일 크기는 기본적으로 가장 작은 1.5로 나눈 값입니다. 필요한 경우 각 타일은 256픽셀보다 작거나 크지 않도록 768픽셀 그런 다음 각 타일의 크기는 768x768로 조정되고 258개의 토큰을 사용합니다.
이미지: 권장사항
이미지를 사용할 때 다음 권장사항 및 정보를 참고하세요. 최상의 결과:
- 이미지에서 텍스트를 인식하려면 단일 이미지와 함께 프롬프트를 사용하여 여러 이미지가 포함된 프롬프트보다 더 나은 결과를 생성합니다.
- 프롬프트에 단일 이미지가 포함된 경우 이미지를 텍스트 앞에 배치합니다. 메시지가 표시됩니다.
- 프롬프트에 여러 이미지가 포함되어 있고 이를 참조하려는 경우
모델이 이를 모델 응답에서 참조하게 할 수 있습니다
각 이미지에 이미지 앞에 색인을 제공하는 것이 도움이 될 수 있습니다. 사용
또는a
b
c
생성합니다. 다음은 프롬프트:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - 더 높은 해상도의 이미지를 사용하세요. 더 나은 결과를 얻을 수 있습니다.
- 프롬프트에 몇 가지 예시를 포함하세요.
- 이미지를 메시지가 표시됩니다.
- 흐릿한 이미지는 사용하지 마세요.
이미지: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 모델이 답변을 제공하지 않습니다. Google의 안전 정책을 위반하는 이미지에 적용됩니다.
- 공간 추론: 모델이 위치를 정확하게 찾을 수 없습니다. 객체를 생성할 수 있습니다 이러한 함수는 포드의 근사치 개수만 반환할 수 있으며 객체입니다.
- 의료용 사용: 이 모델은 해석하는 데 적합하지 않습니다. 의료 영상 (예: 엑스레이 및 CT 스캔) 또는 의료 제공 있습니다.
- 사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별합니다.
- 정확성: 모델이 할루시네이션을 일으키거나 실수를 할 수 있습니다. 저품질, 회전된 이미지 또는 매우 저해상도 이미지를 해석하는 경우 모델은 또한 필기체 텍스트를 해석할 때 할루시네이션을 일으킬 수 있습니다. 이미지 문서입니다.
동영상: 요구사항, 권장사항, 제한사항
동영상: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 있습니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.
동영상 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
FLV - video/x-flv |
|||
MOV - video/mov |
|||
MPEG - video/mpeg |
|||
MPEGPS - video/mpegps |
|||
MPG - video/mpg |
|||
MP4 - video/mp4 |
|||
WEBM - video/webm |
|||
WMV - video/wmv |
|||
3GPP - video/3gpp |
요청당 한도
프롬프트 요청에 허용되는 최대 동영상 파일 수는 다음과 같습니다.
- Gemini 1.0 Pro Vision: 동영상 파일 1개
- Gemini 1.5 Flash 및 Gemini 1.5 Pro: 동영상 파일 10개
동영상: 토큰화
동영상의 토큰 계산 방법은 다음과 같습니다.
- 모든 Gemini 멀티모달 모델: 동영상은
1 fps(초당 프레임 수) fh로 샘플링됩니다. 각 동영상 프레임은 258개의 토큰을 차지합니다. - Gemini 1.5 Flash 및
Gemini 1.5 Pro: 오디오 트랙이 인코딩됨
함께 사용할 수 있습니다. 오디오 트랙도
1초 트렁크 로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 7개의 토큰으로 표시됩니다.
동영상: 권장사항
동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.
- 프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
- 오디오가 포함된 동영상에서 타임스탬프 현지화가 필요한 경우 모델에 요청하세요.
MM:SS
형식의 타임스탬프를 생성합니다. 처음 두 개는 숫자는 분을 나타내고 마지막 두 자리는 초를 나타냅니다. 타임스탬프를 묻는 질문에는 동일한 형식을 사용합니다. Gemini 1.0 Pro Vision을 사용하는 경우 다음 사항에 유의하세요.
- 프롬프트당 동영상을 두 개 이상 사용하지 않습니다.
- 모델은 첫 두 시간 동안만 정보를 처리합니다. 있습니다.
- 모델은 동영상의 비연속 이미지 프레임으로 동영상을 처리합니다. 오디오는 포함되지 않습니다. 모델에서 동영상의 일부 내용이 누락되었다면 모델이 동영상 내용을 더 많이 캡처하도록 동영상 길이를 줄여보세요.
- 모델은 오디오 정보나 타임스탬프를 처리하지 않습니다. 메타데이터로 변환할 수 있습니다. 따라서 자막 오디오 같은 오디오 입력이나 속도, 리듬과 같은 시간 관련 정보가 필요한 사용 사례에서는 모델이 제대로 작동하지 않을 수 있습니다.
동영상: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 고속 모션:
1 fps(초당 프레임 수) 로 고정된 샘플링 레이트로 인해 모델이 동영상의 고속 모션을 인식할 때 오류가 발생할 수 있습니다. - 스크립트 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 는 구두점을 포함하지 않은 스크립트를 반환합니다.
오디오: 요구사항 및 제한사항
오디오: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 오디오입니다.
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음 오디오 MIME 유형을 지원합니다.
오디오 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC - audio/aac |
||
FLAC - audio/flac |
||
MP3 - audio/mp3 |
||
MPA - audio/m4a |
||
MPEG - audio/mpeg |
||
MPGA - audio/mpga |
||
MP4 - audio/mp4 |
||
OPUS - audio/opus |
||
PCM - audio/pcm |
||
WAV - audio/wav |
||
WEBM - audio/webm |
요청당 한도
프롬프트 요청에는 최대
오디오: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
- 오디오 전용 타임스탬프: 오디오를 지원하는 모델 오디오 파일이 포함된 요청의 타임스탬프를 정확하게 생성할 수 없습니다. 이 세분화 및 시간적 현지화 타임스탬프가 포함됩니다. 타임스탬프는 오디오가 포함된 동영상이 포함된 입력에 대해 정확하게 생성될 수 있어야 합니다.
- 스크립트 구두점: (Gemini 1.5 Flash를 사용하는 경우) 모델이 는 구두점을 포함하지 않은 스크립트를 반환합니다.
문서 (예: PDF): 요구사항, 권장사항, 제한사항
문서: 요구사항
이 섹션에서는 지원되는 MIME 유형 및 문서 (예: PDF)
지원되는 MIME 유형
Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.
문서 MIME 유형 | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision |
---|---|---|---|
PDF - application/pdf |
요청당 한도
PDF는 이미지로 취급되므로 PDF의 한 페이지가 하나의 이미지로 취급됩니다. 이미지 프롬프트에 허용되는 페이지 수는 모델이 지원할 수 있는 이미지:
- Gemini 1.0 Pro Vision: 16페이지
- Gemini 1.5 Pro 및 Gemini 1.5 Flash: 1,000페이지
문서: 토큰화
PDF는 이미지로 취급되므로 PDF의 각 페이지는 동일한 이미지처럼 말이죠
또한 PDF의 비용은 Gemini 이미지 가격 책정. 예를 들어 Gemini API 호출에 두 페이지 PDF를 포함하면 두 개의 이미지를 처리하는 입력 요금이 발생합니다.
문서: 권장사항
PDF를 사용할 때는 최상의 결과:
- 프롬프트에 PDF가 하나인 경우 PDF를 텍스트 앞에 배치합니다. 메시지가 표시됩니다.
- 문서가 긴 경우 여러 개의 PDF로 분할하는 것이 좋습니다. 두 가지 방법이 있습니다
- 텍스트 형식의 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 만든 PDF를 자동으로 스캔됩니다 이 형식은 텍스트가 컴퓨터에서 읽을 수 있도록 하여 모델을 스캔하는 것보다 수정, 검색, 조작이 더 쉬움 이미지 PDF입니다. 이 방법은 계약서처럼 텍스트가 많은 문서는
문서: 제한사항
Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.
- 공간 추론: 모델이 위치를 정확하게 찾을 수 없습니다. 텍스트나 개체를 저장할 수 있습니다. 이러한 함수는 포드의 근사치 개수만 반환할 수 있으며 객체입니다.
- 정확성: 모델이 할루시네이션을 일으킬 수 있습니다. 필기 텍스트 변환이 가능합니다.