Khi gọi Vertex AI Gemini API từ ứng dụng của bạn bằng một SDK Vertex AI in Firebase, bạn có thể ra câu lệnh để mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Câu lệnh đa phương thức có thể bao gồm nhiều phương thức (hoặc loại đầu vào), như văn bản cùng với hình ảnh, PDF, video và âm thanh.
Đối với các phần không phải văn bản của nội dung đầu vào (như tệp đa phương tiện), bạn cần sử dụng được hỗ trợ, hãy chỉ định loại MIME được hỗ trợ và đảm bảo rằng tệp và yêu cầu đa phương thức đáp ứng các yêu cầu và tuân theo các phương pháp hay nhất.
Trang này mô tả các loại MIME được hỗ trợ, các phương pháp hay nhất và hạn chế vì lý do sau:
Các yêu cầu dành riêng cho SDK Vertex AI in Firebase
Đối với Vertex AI in Firebase SDK, tổng kích thước yêu cầu tối đa là 20 MB. Bạn gặp lỗi HTTP 413 nếu yêu cầu quá lớn.
Nếu kích thước của tệp khiến tổng kích thước yêu cầu vượt quá 20 MB, thì sử dụng URL Cloud Storage for Firebase để đưa tệp vào yêu cầu đa phương thức của bạn.
Nếu tệp nhỏ, bạn thường có thể truyền trực tiếp tệp đó dưới dạng dữ liệu cùng dòng. Tuy nhiên, xin lưu ý rằng tệp được cung cấp dưới dạng dữ liệu cùng dòng được mã hoá thành base64 theo chuyển tuyến, giúp tăng kích thước của yêu cầu. Để xem các ví dụ minh hoạ cách bao gồm các tệp dưới dạng dữ liệu cùng dòng, hãy xem Tạo văn bản từ các câu lệnh đa phương thức bằng Gemini API.
Hình ảnh: Yêu cầu, các phương pháp hay nhất và hạn chế
Hình ảnh: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu hình ảnh.
Các loại MIME được hỗ trợ
Các mô hình đa phương thức Gemini hỗ trợ các loại MIME hình ảnh sau đây:
Loại MIME của hình ảnh | Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro |
---|---|---|---|
PNG – image/png |
|||
JPEG – image/jpeg |
Giới hạn mỗi yêu cầu
Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, hình ảnh lớn hơn được thu nhỏ và được đệm cho vừa với độ phân giải tối đa là 3072 x 3072 trong khi vẫn giữ nguyên tỷ lệ khung hình gốc.
Dưới đây là số lượng tệp hình ảnh tối đa được phép trong một yêu cầu câu lệnh:
- Gemini 1.0 Pro Vision: 16 hình ảnh
- Gemini 1.5 Flash và Gemini 1.5 Pro: 3000 hình ảnh
Hình ảnh: Mã hoá
Sau đây là cách tính mã thông báo cho hình ảnh:
- Gemini 1.0 Pro Vision: Mỗi tài khoản hình ảnh cho 258 mã thông báo.
- Gemini 1.5 Flash và
Gemini 1.5 Pro:
- Nếu cả hai kích thước của một hình ảnh đều nhỏ hơn hoặc bằng 384 pixel, thì 258 mã thông báo sẽ được sử dụng.
- Nếu một kích thước của hình ảnh lớn hơn 384 pixel, thì hình ảnh được cắt thành các ô. Mỗi kích thước ô mặc định có kích thước nhỏ nhất kích thước (chiều rộng hoặc chiều cao) chia cho 1,5. Nếu cần, mỗi thẻ thông tin được điều chỉnh để kích thước không nhỏ hơn 256 pixel và không lớn hơn 768 pixel. Sau đó, mỗi thẻ thông tin được đổi kích thước thành 768x768 và sử dụng 258 mã thông báo.
Hình ảnh: Các phương pháp hay nhất
Khi sử dụng hình ảnh, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để kết quả tốt nhất:
- Nếu bạn muốn phát hiện văn bản trong một hình ảnh, hãy sử dụng các câu lệnh có một hình ảnh để sẽ tạo ra kết quả tốt hơn so với những câu lệnh có nhiều hình ảnh.
- Nếu câu lệnh của bạn có một hình ảnh duy nhất, hãy đặt hình ảnh đó trước văn bản trong yêu cầu của bạn.
- Nếu câu lệnh của bạn chứa nhiều hình ảnh và bạn muốn tham chiếu đến những hình ảnh đó
trong câu lệnh của bạn sau hoặc để mô hình tham chiếu đến chúng trong câu trả lời của mô hình,
nó có thể giúp cung cấp cho mỗi hình ảnh một chỉ mục trước hình ảnh. Sử dụng
hoặca
b
c
cho chỉ mục của bạn. Sau đây là ví dụ về việc sử dụng hình ảnh được lập chỉ mục trong một câu lệnh:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - Sử dụng hình ảnh có độ phân giải cao hơn; chúng sẽ mang lại kết quả tốt hơn.
- Đưa một vài ví dụ vào câu lệnh.
- Xoay hình ảnh theo hướng thích hợp trước khi thêm vào .
- Tránh sử dụng hình ảnh bị mờ.
Hình ảnh: Hạn chế
Mặc dù các mô hình đa phương thức của Gemini là mạnh mẽ trong nhiều phương thức sử dụng điều quan trọng là bạn phải hiểu được hạn chế của các mô hình:
- Kiểm duyệt nội dung: Mô hình từ chối đưa ra câu trả lời đối với hình ảnh vi phạm chính sách an toàn của chúng tôi.
- Lý do theo không gian: Mô hình không nhất quán khi xác định vị trí văn bản hoặc đối tượng trong hình ảnh. Chúng chỉ có thể trả về số lượng gần đúng .
- Sử dụng y tế: Mô hình không phù hợp cho việc diễn giải hình ảnh y tế (ví dụ: X-quang và chụp cắt lớp CT) hoặc cung cấp thông tin y tế của chúng tôi.
- Nhận dạng con người: Bạn không nên dùng các mô hình này để xác định những người không phải là người nổi tiếng trong hình ảnh.
- Độ chính xác: Các mô hình có thể ảo tưởng hoặc mắc lỗi khi diễn giải hình ảnh có chất lượng thấp, bị xoay hoặc có độ phân giải cực thấp. Các mô hình này cũng có thể ảo tưởng khi diễn giải văn bản viết tay theo tài liệu hình ảnh.
Video: Yêu cầu, các phương pháp hay nhất và giới hạn
Video: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu video.
Các loại MIME được hỗ trợ
Các mô hình đa phương thức Gemini hỗ trợ các loại MIME video sau đây:
Loại MIME của video | Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro |
---|---|---|---|
FLV – video/x-flv |
|||
MOV – video/mov |
|||
MPEG – video/mpeg |
|||
MPEGPS – video/mpegps |
|||
MPG – video/mpg |
|||
MP4 – video/mp4 |
|||
WEBM – video/webm |
|||
WMV – video/wmv |
|||
3GPP – video/3gpp |
Giới hạn mỗi yêu cầu
Dưới đây là số lượng tệp video tối đa được phép trong một yêu cầu nhắc:
- Gemini 1.0 Pro Vision: 1 tệp video
- Gemini 1.5 Flash và Gemini 1.5 Pro: 10 tệp video
Video: Mã hoá
Sau đây là cách tính mã thông báo cho video:
- Tất cả mô hình đa phương thức của Gemini: Video sẽ được lấy mẫu ở mức
1 khung hình/giây (fps) . Mỗi khung hình video chiếm 258 mã thông báo. - Gemini 1.5 Flash và
Gemini 1.5 Pro: Bản âm thanh được mã hoá
bằng khung video. Bản âm thanh cũng được chia thành
Đường dây 1 giây mà mỗi đường dây tính đến 32 mã thông báo. Video mã khung hình và âm thanh được xen kẽ cùng với dấu thời gian của chúng. Chiến lược phát hành đĩa đơn dấu thời gian được biểu thị dưới dạng 7 mã thông báo.
Video: Các phương pháp hay nhất
Khi sử dụng video, hãy vận dụng thông tin và các phương pháp hay nhất sau đây để kết quả tốt nhất:
- Nếu câu lệnh của bạn có một video, hãy đặt video đó trước văn bản đó .
- Nếu bạn cần bản địa hoá dấu thời gian trong một video có âm thanh, hãy hỏi mô hình
để tạo dấu thời gian ở định dạng
MM:SS
, trong đó hai ký tự đầu tiên chữ số biểu thị phút và hai chữ số cuối cùng biểu thị giây. Sử dụng cùng định dạng cho các câu hỏi về dấu thời gian. Nếu bạn đang sử dụng Gemini 1.0 Pro Vision, hãy lưu ý những điều sau:
- Chỉ sử dụng tối đa một video cho mỗi câu lệnh.
- Mô hình chỉ xử lý thông tin trong hai phút đầu tiên của video.
- Mô hình này xử lý video dưới dạng các khung hình ảnh không liền kề từ video. Không bao gồm âm thanh. Nếu bạn nhận thấy mô hình thiếu một số nội dung từ video, hãy thử rút ngắn video để mô hình ghi lại phần lớn nội dung video.
- Mô hình không xử lý dấu thời gian hay thông tin âm thanh nào siêu dữ liệu. Do đó, mô hình có thể không hoạt động tốt trong các trường hợp sử dụng cần đầu vào âm thanh, chẳng hạn như âm thanh phụ đề hoặc liên quan đến thời gian thông tin, chẳng hạn như tốc độ hoặc nhịp điệu.
Video: Các điểm hạn chế
Mặc dù các mô hình đa phương thức của Gemini là mạnh mẽ trong nhiều phương thức sử dụng điều quan trọng là bạn phải hiểu được hạn chế của các mô hình:
- Kiểm duyệt nội dung: Mô hình từ chối đưa ra câu trả lời đối với những video vi phạm chính sách của chúng tôi về sự an toàn.
- Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ có thể mắc lỗi khi nhận ra âm thanh không phải là lời nói.
- Chuyển động tốc độ cao: Các mô hình có thể mắc lỗi
chuyển động tốc độ cao trong video do
Tốc độ lấy mẫu
1 khung hình/giây (fps) . - Dấu câu của bản chép lời: (nếu sử dụng Gemini 1.5 Flash) Các mô hình có thể trả về bản chép lời không bao gồm dấu câu.
Âm thanh: Yêu cầu và giới hạn
Âm thanh: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu âm thanh.
Các loại MIME được hỗ trợ
Các mô hình đa phương thức Gemini hỗ trợ các loại MIME âm thanh sau đây:
Loại MIME âm thanh | Gemini 1.5 Flash | Gemini 1.5 Pro |
---|---|---|
AAC – audio/aac |
||
FLAC – audio/flac |
||
MP3 – audio/mp3 |
||
MPA – audio/m4a |
||
MPEG – audio/mpeg |
||
MPGA – audio/mpga |
||
MP4 – audio/mp4 |
||
OPUS – audio/opus |
||
PCM – audio/pcm |
||
WAV – audio/wav |
||
WEBM – audio/webm |
Giới hạn mỗi yêu cầu
Bạn có thể thêm tối đa
Âm thanh: Hạn chế
Mặc dù các mô hình đa phương thức của Gemini là mạnh mẽ trong nhiều phương thức sử dụng điều quan trọng là bạn phải hiểu được hạn chế của các mô hình:
- Nhận dạng âm thanh không phải lời nói: Các mô hình hỗ trợ có thể mắc lỗi khi nhận ra âm thanh không phải là lời nói.
- Dấu thời gian chỉ phát âm thanh: Các mô hình hỗ trợ âm thanh không thể tạo dấu thời gian chính xác cho các yêu cầu có tệp âm thanh. Chiến dịch này bao gồm cả phân đoạn và dấu thời gian bản địa hoá. Bạn có thể dùng dấu thời gian được tạo chính xác cho đầu vào có chứa video có chứa âm thanh.
- Dấu câu của bản chép lời: (nếu sử dụng Gemini 1.5 Flash) Các mô hình có thể trả về bản chép lời không bao gồm dấu câu.
Tài liệu (như PDF): Yêu cầu, các phương pháp hay nhất và giới hạn
Giấy tờ: Yêu cầu
Trong phần này, hãy tìm hiểu về các loại MIME được hỗ trợ và giới hạn đối với mỗi yêu cầu tài liệu (như PDF).
Các loại MIME được hỗ trợ
Các mô hình đa phương thức Gemini hỗ trợ các loại MIME tài liệu sau đây:
Loại MIME của tài liệu | Gemini 1.5 Flash | Gemini 1.5 Pro | Tầm nhìn của Gemini 1.0 Pro |
---|---|---|---|
PDF – application/pdf |
Giới hạn mỗi yêu cầu
Tệp PDF được coi là hình ảnh nên một trang trong tệp PDF sẽ được coi là một hình ảnh. Số lượng trang được phép trong một câu lệnh bị giới hạn ở số lượng hình ảnh mà mô hình có thể hỗ trợ:
- Gemini 1.0 Pro Vision: 16 trang
- Gemini 1.5 Pro và Gemini 1.5 Flash: 1000 trang
Tài liệu: Mã hoá kỹ thuật số
Các tệp PDF được coi là hình ảnh nên mỗi trang của một tệp PDF được mã hoá theo cùng một tệp PDF dưới dạng hình ảnh.
Ngoài ra, chi phí cho tệp PDF tuân theo Giá cho hình ảnh trên Gemini. Ví dụ: nếu đưa một tệp PDF gồm hai trang vào cuộc gọi Gemini API, bạn phải chịu phí đầu vào khi xử lý hai hình ảnh.
Tài liệu: Các phương pháp hay nhất
Khi dùng tệp PDF, hãy áp dụng các phương pháp hay nhất và thông tin sau đây để kết quả tốt nhất:
- Nếu câu lệnh của bạn có chứa một tệp PDF, hãy đặt tệp PDF đó trước văn bản đó trong yêu cầu của bạn.
- Nếu bạn có tài liệu dài, hãy cân nhắc chia tài liệu đó thành nhiều tệp PDF để xử lý dữ liệu đó.
- Sử dụng tệp PDF được tạo với văn bản được hiển thị dưới dạng văn bản thay vì sử dụng văn bản trong hình ảnh được quét. Định dạng này đảm bảo văn bản có thể đọc được bằng máy mô hình có thể chỉnh sửa, tìm kiếm và thao tác dễ dàng hơn so với bản quét được quét tệp PDF hình ảnh. Phương pháp này mang lại kết quả tối ưu khi làm việc với các tài liệu nhiều văn bản như hợp đồng.
Tài liệu: Giới hạn
Mặc dù các mô hình đa phương thức của Gemini là mạnh mẽ trong nhiều phương thức sử dụng điều quan trọng là bạn phải hiểu được hạn chế của các mô hình:
- Lý do theo không gian: Mô hình không nhất quán khi xác định vị trí văn bản hoặc đối tượng trong tệp PDF. Chúng chỉ có thể trả về số lượng gần đúng .
- Độ chính xác: Các mô hình có thể ảo tưởng khi diễn giải viết tay trong tài liệu PDF.