Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Trang này được dịch bởi Cloud Translation API.

Các tệp đầu vào và yêu cầu được hỗ trợ

Khi gọi Gemini API từ ứng dụng bằng SDK Firebase AI Logic, bạn có thể nhắc mô hình Gemini tạo văn bản dựa trên một dữ liệu đầu vào đa phương thức, chẳng hạn như hình ảnh, video, âm thanh và tài liệu (như tệp PDF).

Bạn cần sử dụng các loại tệp được hỗ trợ, chỉ định một loại MIME được hỗ trợ và đảm bảo rằng các tệp cũng như yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất.

Trang này dành riêng cho việc sử dụng GenerativeModel và mô tả những nội dung sau:

Các lựa chọn để cung cấp tệp trong yêu cầu của bạn.
Thông tin chi tiết về các loại MIME được hỗ trợ, các phương pháp hay nhất và những hạn chế đối với các tệp đầu vào sau đây:
Hình ảnh | Video | Âm thanh | Tài liệu (chẳng hạn như tệp PDF).

Các lựa chọn để cung cấp tệp trong yêu cầu đa phương thức

Chọn nhà cung cấp Gemini API để xem nội dung dành riêng cho nhà cung cấp trên trang này

Trong mỗi yêu cầu đa phương thức, bạn phải luôn cung cấp những thông tin sau:

mimeType của tệp. Hãy xem các loại MIME được hỗ trợ của từng tệp đầu vào trong phần áp dụng của trang này.
Tệp. Bạn có thể cung cấp tệp dưới dạng dữ liệu nội tuyến hoặc cung cấp tệp bằng URL của tệp.

Kích thước và số lượng tệp mà bạn có thể cung cấp trong yêu cầu được quy định bởi loại tệp đầu vào, cách bạn cung cấp tệp và mô hình được sử dụng (để biết thông tin chi tiết, hãy xem phần về từng loại tệp đầu vào trên trang này).

Cách 1: Cung cấp tệp dưới dạng dữ liệu nội tuyến

Xin lưu ý những điều sau về các tệp được cung cấp dưới dạng dữ liệu nội tuyến:

Bạn chỉ có thể gửi các tệp nhỏ dưới dạng dữ liệu nội tuyến vì giới hạn tổng kích thước yêu cầu là 20 MB.
Tệp được mã hoá thành base64 trong quá trình truyền (làm tăng kích thước tệp).

Để xem ví dụ minh hoạ cách đưa một tệp vào dưới dạng dữ liệu nội tuyến, hãy xem phần Tạo văn bản từ dữ liệu đầu vào dạng văn bản và tệp (đa phương thức). Xin lưu ý rằng các SDK cho nền tảng Android và Apple có thể xử lý hình ảnh cùng dòng trong các yêu cầu mà không cần chỉ định loại MIME. Tìm hiểu thêm.

Cách 2: Cung cấp tệp bằng URL

Dưới đây là các loại URL được chấp nhận khi sử dụng Gemini Developer API:

URL video trên YouTube: Video trên YouTube phải ở chế độ công khai hoặc không công khai.

Bạn có thể chỉ định một URL của video trên YouTube cho mỗi yêu cầu.

Hình ảnh: Yêu cầu, các phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với hình ảnh.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME hình ảnh sau:

PNG – image/png
JPEG – image/jpeg
WebP – image/webp

Giới hạn cho mỗi yêu cầu

Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, hình ảnh lớn hơn sẽ được giảm tỷ lệ và thêm khoảng đệm để phù hợp với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình ban đầu.

Số lượng tệp tối đa cho mỗi yêu cầu: 3.000 tệp hình ảnh

Hình ảnh: Mã hoá kỹ thuật số

Sau đây là cách tính mã thông báo cho hình ảnh:

Nếu cả hai chiều của một hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
Nếu một chiều của hình ảnh lớn hơn 384 pixel, thì hình ảnh sẽ được cắt thành các ô. Mỗi kích thước ô mặc định là kích thước nhỏ nhất (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi ô sẽ được điều chỉnh sao cho không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi ô sẽ được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.

Hình ảnh: Các phương pháp hay nhất

Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để đạt được kết quả tốt nhất:

Nếu bạn muốn phát hiện văn bản trong hình ảnh, hãy sử dụng câu lệnh có một hình ảnh để tạo ra kết quả tốt hơn so với câu lệnh có nhiều hình ảnh.
Nếu câu lệnh của bạn chứa một hình ảnh, hãy đặt hình ảnh đó trước câu lệnh dạng văn bản trong yêu cầu.
Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến các hình ảnh đó sau này trong câu lệnh hoặc muốn mô hình tham chiếu đến các hình ảnh đó trong câu trả lời của mô hình, thì bạn nên chỉ định chỉ mục cho từng hình ảnh trước khi đưa ra câu lệnh. Sử dụng a b c hoặc image 1 image 2 image 3 cho chỉ mục của bạn. Sau đây là ví dụ về cách sử dụng hình ảnh được lập chỉ mục trong một câu lệnh:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
Sử dụng hình ảnh có độ phân giải cao hơn; hình ảnh có độ phân giải cao sẽ mang lại kết quả tốt hơn.
Đưa một vài ví dụ vào câu lệnh.
Xoay hình ảnh về đúng hướng trước khi thêm vào câu lệnh.
Tránh sử dụng hình ảnh bị mờ.

Hình ảnh: Hạn chế

Mặc dù các mô hình đa phương thức Gemini có nhiều điểm mạnh trong nhiều trường hợp sử dụng đa phương thức, nhưng bạn cần hiểu rõ những hạn chế của các mô hình này:

Kiểm duyệt nội dung: Các mô hình từ chối cung cấp câu trả lời cho những hình ảnh vi phạm chính sách an toàn của chúng tôi.
Lý luận không gian: Các mô hình không định vị chính xác văn bản hoặc đối tượng trong hình ảnh. Chúng có thể chỉ trả về số lượng ước chừng của các đối tượng.
Mục đích sử dụng trong y tế: Các mô hình này không phù hợp để diễn giải hình ảnh y tế (ví dụ: chụp X-quang và chụp CT) hoặc đưa ra lời khuyên y tế.
Nhận dạng khuôn mặt: Các mô hình này không được dùng để nhận dạng những người không phải là người nổi tiếng trong hình ảnh.
Độ chính xác: Các mô hình có thể tạo ra thông tin sai lệch hoặc mắc lỗi khi diễn giải hình ảnh có chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình cũng có thể tạo ra thông tin sai lệch khi diễn giải văn bản viết tay trong tài liệu hình ảnh.

Video: Yêu cầu, các phương pháp hay nhất và giới hạn

Video: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với video.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME video sau:

FLV – video/x-flv
MOV – video/quicktime
MPEG – video/mpeg
MPEGPS – video/mpegps
MPG – video/mpg
MP4 – video/mp4
WEBM – video/webm
WMV – video/wmv
3GPP – video/3gpp

Giới hạn cho mỗi yêu cầu

Số lượng tệp tối đa cho mỗi yêu cầu: 10 tệp video

Video: Mã hoá

Sau đây là cách tính mã thông báo cho video:

Bản âm thanh được mã hoá bằng khung hình video. Bản âm thanh cũng được chia thành các đoạn 1 giây, mỗi đoạn có 32 mã thông báo. Khung hình video và mã thông báo âm thanh được xen kẽ với dấu thời gian tương ứng. Dấu thời gian được biểu thị dưới dạng 5 mã thông báo.
Đối với những video được lấy mẫu ở tốc độ 1 khung hình/giây (fps) trở xuống, dấu thời gian cho giờ đầu tiên của video được biểu thị bằng 5 mã thông báo cho mỗi khung hình video. Các dấu thời gian còn lại được biểu thị bằng 7 mã thông báo cho mỗi khung hình video.
Đối với những video được lấy mẫu trên 1 khung hình/giây (fps), dấu thời gian cho giờ đầu tiên của video được biểu thị bằng 9 mã thông báo cho mỗi khung hình video. Các dấu thời gian còn lại được biểu thị dưới dạng 11 mã thông báo cho mỗi khung hình video.

Video: Các phương pháp hay nhất

Khi sử dụng video, hãy áp dụng các phương pháp hay nhất và thông tin sau để có kết quả tốt nhất:

Nếu câu lệnh của bạn chỉ chứa một video, hãy đặt video đó trước câu lệnh bằng văn bản.
Nếu bạn cần bản địa hoá dấu thời gian trong một video có âm thanh, hãy yêu cầu mô hình tạo dấu thời gian theo định dạng như mô tả trong phần "Định dạng dấu thời gian".

Video: Các điểm hạn chế

Kiểm duyệt nội dung: Các mô hình từ chối đưa ra câu trả lời về những video vi phạm chính sách an toàn của chúng tôi.
Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.

Âm thanh: Yêu cầu và hạn chế

Âm thanh: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với âm thanh.

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME âm thanh sau:

AAC – audio/aac
FLAC – audio/flac
MP3 – audio/mp3
MPA – audio/m4a
MPEG – audio/mpeg
MPGA – audio/mpga
MP4 – audio/mp4
OPUS – audio/opus
PCM – audio/pcm
WAV – audio/wav
WEBM – audio/webm

Giới hạn cho mỗi yêu cầu

Số lượng tệp tối đa cho mỗi yêu cầu: 1 tệp âm thanh

Âm thanh: Điểm hạn chế

Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ âm thanh có thể mắc lỗi khi nhận dạng âm thanh không phải lời nói.
Dấu thời gian chỉ có âm thanh: Để tạo dấu thời gian chính xác cho tệp chỉ có âm thanh, bạn phải định cấu hình tham số audio_timestamp trong generation_config.

Tài liệu (chẳng hạn như tệp PDF): Yêu cầu, các phương pháp hay nhất và giới hạn

Giấy tờ: Yêu cầu

Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn cho mỗi yêu cầu đối với tài liệu (chẳng hạn như PDF).

Các loại MIME được hỗ trợ

Các mô hình đa phương thức Gemini hỗ trợ các loại MIME tài liệu sau:

PDF – application/pdf
Văn bản – text/plain

Giới hạn cho mỗi yêu cầu

Tệp PDF được coi là hình ảnh, vì vậy một trang của tệp PDF được coi là một hình ảnh. Số lượng trang được phép trong một câu lệnh bị giới hạn ở số lượng hình ảnh mà các mô hình đa phương thức Gemini có thể hỗ trợ.

Số lượng tệp tối đa mỗi yêu cầu: 3.000 tệp
Số trang tối đa cho mỗi tệp: 1.000 trang cho mỗi tệp
Kích thước tối đa cho mỗi tệp: 50 MB cho mỗi tệp

Tài liệu: Mã hoá

Mã hoá PDF

Tệp PDF được coi là hình ảnh, vì vậy mỗi trang của tệp PDF đều được mã hoá theo cách tương tự như hình ảnh.

Ngoài ra, chi phí cho tệp PDF tuân theo Gemini giá hình ảnh. Ví dụ: nếu bạn đưa một tệp PDF gồm 2 trang vào lệnh gọi API Gemini, bạn sẽ phải trả phí đầu vào để xử lý 2 hình ảnh.

Tài liệu: Các phương pháp hay nhất

Khi sử dụng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để có kết quả tốt nhất:

Nếu câu lệnh của bạn chứa một tệp PDF duy nhất, hãy đặt tệp PDF đó trước câu lệnh văn bản trong yêu cầu của bạn.
Nếu bạn có một tài liệu dài, hãy cân nhắc việc chia tài liệu đó thành nhiều tệp PDF để xử lý.
Sử dụng PDF được tạo bằng văn bản hiển thị dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy để mô hình dễ dàng chỉnh sửa, tìm kiếm và thao tác hơn so với tệp PDF hình ảnh được quét. Phương pháp này mang lại kết quả tối ưu khi làm việc với các tài liệu có nhiều văn bản như hợp đồng.

Tài liệu: Các điểm hạn chế

Lập luận không gian: Các mô hình không chính xác khi xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Chúng có thể chỉ trả về số lượng ước chừng của các đối tượng.
Độ chính xác: Các mô hình có thể đưa ra thông tin không có thật khi diễn giải văn bản viết tay trong tài liệu PDF.

Các tệp đầu vào và yêu cầu được hỗ trợ Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Các lựa chọn để cung cấp tệp trong yêu cầu đa phương thức

Cách 1: Cung cấp tệp dưới dạng dữ liệu nội tuyến

Cách 2: Cung cấp tệp bằng URL

Hình ảnh: Yêu cầu, các phương pháp hay nhất và giới hạn

Hình ảnh: Yêu cầu

Các loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Hình ảnh: Mã hoá kỹ thuật số

Hình ảnh: Các phương pháp hay nhất

Hình ảnh: Hạn chế

Video: Yêu cầu, các phương pháp hay nhất và giới hạn

Video: Yêu cầu

Các loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Video: Mã hoá

Video: Các phương pháp hay nhất

Video: Các điểm hạn chế

Âm thanh: Yêu cầu và hạn chế

Âm thanh: Yêu cầu

Các loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Âm thanh: Điểm hạn chế

Tài liệu (chẳng hạn như tệp PDF): Yêu cầu, các phương pháp hay nhất và giới hạn

Giấy tờ: Yêu cầu

Các loại MIME được hỗ trợ

Giới hạn cho mỗi yêu cầu

Tài liệu: Mã hoá

Tài liệu: Các phương pháp hay nhất

Tài liệu: Các điểm hạn chế

Các tệp đầu vào và yêu cầu được hỗ trợ