Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

지원되는 입력 파일 및 요구사항

Firebase AI Logic SDK를 사용하여 앱에서 Gemini API을 호출할 때 이미지, 동영상, 오디오, 문서 (예: PDF)와 같은 멀티모달 입력을 기반으로 텍스트를 생성하도록 Gemini 모델에 프롬프트를 표시할 수 있습니다.

지원되는 파일 형식을 사용하고, 지원되는 MIME 유형을 지정하고, 파일과 멀티모달 요청이 요구사항을 충족하고 권장사항을 따르는지 확인해야 합니다.

이 페이지는 GenerativeModel 사용에 관한 내용이며 다음을 설명합니다.

요청에 파일을 제공하는 옵션
다음 파일 입력에 지원되는 MIME 유형, 권장사항, 제한사항에 관한 세부정보:
이미지 | 동영상 | 오디오 | 문서 (예: PDF)

멀티모달 요청에서 파일을 제공하는 옵션

Gemini API 제공업체를 선택하여 이 페이지에서 제공업체별 콘텐츠를 확인하세요

각 멀티모달 요청에서는 항상 다음을 제공해야 합니다.

파일의 mimeType입니다. 이 페이지의 해당 섹션에서 각 입력 파일의 지원되는 MIME 유형을 확인하세요.
파일입니다. 파일을 인라인 데이터로 제공하거나 URL을 사용하여 파일을 제공할 수 있습니다.

요청에서 제공할 수 있는 파일의 크기와 수는 입력 파일 유형, 파일을 제공하는 방법, 사용된 모델에 따라 결정됩니다(자세한 내용은 이 페이지의 각 입력 파일 유형 섹션 참고).

옵션 1: 파일을 인라인 데이터로 제공

인라인 데이터로 제공되는 파일에 관해 다음 사항에 유의하세요.

총 요청 크기 한도가 20MB이므로 작은 파일만 인라인 데이터로 전송할 수 있습니다.
파일이 전송 중에 base64로 인코딩되어 파일 크기가 증가합니다.

파일을 인라인 데이터로 포함하는 방법을 보여주는 예는 텍스트 및 파일 (멀티모달) 입력에서 텍스트 생성을 참고하세요. Android 및 Apple 플랫폼용 SDK는 MIME 유형을 지정하지 않아도 요청에서 인라인 이미지를 처리할 수 있습니다. 자세히 알아보기

옵션 2: URL을 사용하여 파일 제공

Gemini Developer API를 사용할 때 허용되는 URL 유형은 다음과 같습니다.

YouTube 동영상 URL: YouTube 동영상은 공개 또는 일부 공개이어야 합니다.

요청당 하나의 YouTube 동영상 URL을 지정할 수 있습니다.

이미지: 요구사항, 권장사항, 제한사항

이미지: 요구사항

이 섹션에서는 지원되는 MIME 유형과 이미지 요청당 제한사항에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 이미지 MIME 유형을 지원합니다.

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

요청당 한도

이미지의 픽셀 수에는 제한이 없습니다. 그러나 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도인 3072 x 3072에 맞게 축소 및 패딩됩니다.

요청당 최대 파일 수: 이미지 파일 3,000개

이미지: 토큰화

이미지의 토큰은 다음과 같이 계산됩니다.

이미지의 두 치수가 모두 384픽셀 이하인 경우 258개의 토큰이 사용됩니다.
이미지의 한 치수가 384픽셀보다 크면 이미지가 타일로 잘립니다. 기본적으로 각 타일 크기는 (너비 또는 높이 중에서) 가장 작은 치수를 1.5로 나눈 값으로 설정됩니다. 필요한 경우 각 타일은 256픽셀보다 작지 않고 768픽셀보다 크지 않도록 조정됩니다. 그런 다음 각 타일의 크기가 768x768로 조정되고 258개의 토큰이 사용됩니다.

이미지: 권장사항

이미지를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

이미지에서 텍스트를 감지하려는 경우 단일 이미지가 포함된 프롬프트를 사용하면 여러 이미지가 포함된 프롬프트를 사용할 때보다 더 나은 결과를 얻을 수 있습니다.
프롬프트에 단일 이미지가 포함된 경우 요청에서 텍스트 프롬프트 앞에 이미지를 배치합니다.
프롬프트에 여러 이미지가 있고 나중에 프롬프트에서 이를 참조하거나 모델이 모델 응답에서 이를 참조하도록 하려는 경우 각 이미지 앞에 색인을 지정하면 도움이 될 수 있습니다. 색인에 a b c 또는 image 1 image 2 image 3을 사용하세요. 다음은 프롬프트에서 색인이 생성된 이미지를 사용하는 예시입니다.
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
해상도가 높은 이미지를 사용하면 결과가 더 좋습니다.
프롬프트에 몇 가지 예시를 포함하세요.
이미지를 적절한 방향으로 회전한 후에 프롬프트에 추가하세요.
흐릿한 이미지는 사용하지 마세요.

이미지: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 이미지에 대해 답변을 제공하지 않습니다.
공간 추론: 이 모델은 이미지에 있는 텍스트 또는 객체를 정확히 찾지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
의료 용도: 이 모델은 의료용 영상(예: X선 및 CT 촬영)을 해석하거나 의료 조언을 제공하는 데 적합하지 않습니다.
사람 인식: 이 모델은 이미지에서 유명인이 아닌 사람을 식별하는 데 적합하지 않습니다.
정확성: 이 모델은 저품질 이미지, 회전된 이미지 또는 매우 해상도가 매우 낮은 이미지를 해석할 때 할루시네이션 또는 오류가 발생할 수 있습니다. 이 모델은 이미지 문서에서 필기 입력 텍스트를 해석할 때도 할루시네이션이 발생할 수 있습니다.

동영상: 요구사항, 권장사항, 제한사항

동영상: 요구사항

이 섹션에서는 동영상 요청별로 지원되는 MIME 유형과 제한사항에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 동영상 MIME 유형을 지원합니다.

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
MPG - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

요청당 한도

요청당 최대 파일 수: 동영상 파일 10개

동영상: 토큰화

동영상의 토큰은 다음과 같이 계산됩니다.

오디오 트랙이 동영상 프레임으로 인코딩됩니다. 오디오 트랙도 1초 트렁크로 분할되며 각 트렁크는 32개의 토큰을 차지합니다. 동영상 프레임 및 오디오 토큰은 타임스탬프와 함께 인터리브 처리됩니다. 타임스탬프는 5개의 토큰으로 표시됩니다.
1fps(초당 프레임 수) 이하로 샘플링된 동영상의 경우 동영상의 처음 1시간에 대한 타임스탬프가 동영상 프레임당 5개의 토큰으로 표시됩니다. 나머지 타임스탬프는 동영상 프레임당 7개의 토큰으로 표시됩니다.
1fps(초당 프레임 수) 이상으로 샘플링된 동영상의 경우 동영상의 처음 1시간에 대한 타임스탬프가 동영상 프레임당 9개의 토큰으로 표시됩니다. 나머지 타임스탬프는 동영상 프레임당 11개 토큰으로 표시됩니다.

동영상: 권장사항

동영상을 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

프롬프트에 동영상 하나가 포함된 경우 텍스트 프롬프트 앞에 동영상을 배치하세요.
오디오가 있는 동영상에서 타임스탬프 현지화가 필요한 경우 모델에 '타임스탬프 형식'에 설명된 형식을 따르는 타임스탬프를 생성하도록 요청합니다.

동영상: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

콘텐츠 검토: 이 모델은 Google 안전 정책을 위반하는 동영상에 대해 답변을 제공하지 않습니다.
비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.

오디오: 요구사항 및 제한사항

오디오: 요구사항

이 섹션에서는 오디오에 지원되는 MIME 유형과 요청당 한도에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 오디오 MIME 유형을 지원합니다.

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
MPA - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
PCM - audio/pcm
WAV - audio/wav
WEBM - audio/webm

요청당 한도

요청당 최대 파일 수: 1개의 오디오 파일

오디오: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

비음성 소리 인식: 오디오를 지원하는 모델에서 음성이 아닌 소리를 인식하는 오류가 발생할 수 있습니다.
오디오 전용 타임스탬프: 오디오 전용 파일의 타임스탬프를 정확하게 생성하려면 generation_config에서 audio_timestamp 파라미터를 구성해야 합니다.

문서 (예: PDF): 요구사항, 권장사항, 제한사항

문서: 요구사항

이 섹션에서는 문서 (예: PDF)의 지원되는 MIME 유형과 요청당 제한사항에 대해 알아봅니다.

지원되는 MIME 유형

Gemini 멀티모달 모델은 다음과 같은 문서 MIME 유형을 지원합니다.

PDF - application/pdf
텍스트 - text/plain

요청당 한도

PDF는 이미지로 취급되므로 PDF의 한 페이지는 하나의 이미지로 취급됩니다. 프롬프트에서 허용되는 페이지 수는 Gemini 멀티모달 모델이 지원할 수 있는 이미지 수로 제한됩니다.

요청당 최대 파일 수: 3,000개
파일당 최대 페이지 수: 파일당 1,000페이지
파일당 최대 크기: 파일당 50MB

문서: 토큰화

PDF 토큰화

PDF는 이미지로 취급되므로 PDF의 각 페이지가 이미지와 동일한 방법으로 토큰화됩니다.

또한 PDF 비용은 Gemini 이미지 가격 책정을 따릅니다. 예를 들어 Gemini API 호출에 2페이지 PDF를 포함하면 두 개의 이미지 처리에 대한 입력 수수료가 발생합니다.

문서: 권장사항

PDF를 사용할 때 최상의 결과를 얻으려면 다음 권장사항과 정보를 사용하세요.

프롬프트에 단일 PDF가 포함된 경우 요청에서 텍스트 프롬프트 앞에 PDF를 배치합니다.
문서가 긴 경우 여러 PDF로 분할하여 처리하는 것이 좋습니다.
스캔한 이미지에 텍스트를 사용하는 대신 텍스트로 렌더링된 텍스트로 생성된 PDF를 사용합니다. 이 형식은 텍스트를 기계가 읽을 수 있도록 하여 스캔한 이미지 PDF에 비해 모델이 더 쉽게 수정, 검색, 조작할 수 있습니다. 따라서 계약서와 같이 텍스트가 많은 문서를 작업할 때 최적의 결과를 얻을 수 있습니다.

문서: 제한사항

Gemini 멀티모달 모델은 많은 멀티모달 사용 사례에서 강력하지만 모델의 제한사항을 이해하는 것이 중요합니다.

공간 추론: 이 모델은 PDF에 있는 텍스트 또는 객체 수를 정확하게 맞히지 못합니다. 대략적인 객체 수만 반환할 수 있습니다.
정확성: 이 모델은 PDF 문서에서 필기 텍스를 해석할 때 할루시네이션이 발생할 수 있습니다.

지원되는 입력 파일 및 요구사항 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

멀티모달 요청에서 파일을 제공하는 옵션

옵션 1: 파일을 인라인 데이터로 제공

옵션 2: URL을 사용하여 파일 제공

이미지: 요구사항, 권장사항, 제한사항

이미지: 요구사항

지원되는 MIME 유형

요청당 한도

이미지: 토큰화

이미지: 권장사항

이미지: 제한사항

동영상: 요구사항, 권장사항, 제한사항

동영상: 요구사항

지원되는 MIME 유형

요청당 한도

동영상: 토큰화

동영상: 권장사항

동영상: 제한사항

오디오: 요구사항 및 제한사항

오디오: 요구사항

지원되는 MIME 유형

요청당 한도

오디오: 제한사항

문서 (예: PDF): 요구사항, 권장사항, 제한사항

문서: 요구사항

지원되는 MIME 유형

요청당 한도

문서: 토큰화

문서: 권장사항

문서: 제한사항

지원되는 입력 파일 및 요구사항