Tạo văn bản từ các câu lệnh đa phương thức bằng Gemini API


Khi gọi Gemini API từ ứng dụng của bạn bằng SDK Vertex AI cho Firebase, bạn có thể đặt câu lệnh để mô hình Gemini tạo văn bản dựa trên phương thức nhập đa phương thức. Câu lệnh đa phương thức có thể bao gồm nhiều phương thức (hoặc nhiều loại phương thức nhập), như văn bản cùng với hình ảnh, PDF, video và âm thanh.

Để thử nghiệm và lặp lại trên các câu lệnh đa phương thức, bạn nên sử dụng Vertex AI Studio.

Trước khi bắt đầu

Nếu bạn chưa làm như vậy, hãy làm theo hướng dẫn bắt đầu sử dụng Vertex AI cho Firebase SDK. Hãy đảm bảo rằng bạn đã hoàn thành tất cả các bước sau:

  • Thiết lập một dự án Firebase mới hoặc hiện có, bao gồm cả việc sử dụng Gói giá linh hoạt và bật các API bắt buộc.

  • Kết nối ứng dụng của bạn với Firebase, bao gồm cả việc đăng ký ứng dụng và thêm Cấu hình Firebase cho ứng dụng của bạn.

  • Thêm SDK và khởi chạy dịch vụ Vertex AI và mô hình tạo sinh trong ứng dụng của bạn.

Sau khi bạn kết nối ứng dụng của mình với Firebase, thêm SDK và khởi chạy dịch vụ Vertex AI và mô hình tạo sinh, bạn đã sẵn sàng gọi Gemini API.

Tạo văn bản từ văn bản và một hình ảnh duy nhất

Đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức, trong đó có cả văn bản và một tệp (như hình ảnh, như trong ví dụ này). Đối với lệnh gọi, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Các tệp được hỗ trợ bao gồm hình ảnh, PDF, video, âm thanh, v.v. Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến câu trả lời (generateContentStream) hay đợi cho phản hồi cho đến khi tạo toàn bộ kết quả (generateContent).

Phát trực tuyến

Bạn có thể đạt được các tương tác nhanh hơn bằng cách không phải chờ toàn bộ kết quả từ việc tạo mô hình và thay vào đó sử dụng luồng để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến nội dung đã tạo văn bản từ yêu cầu câu lệnh đa phương thức bao gồm văn bản và một hình ảnh:

Không truyền trực tuyến

Hoặc, bạn có thể chờ toàn bộ kết quả thay vì truy cập trực tuyến; thời gian kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo của chúng tôi.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu câu lệnh đa phương thức bao gồm văn bản và một hình ảnh:

Tìm hiểu cách chọn một mô hình Gemini và không bắt buộc phải chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Tạo văn bản từ văn bản và nhiều hình ảnh

Đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức, trong đó có cả văn bản và nhiều tệp (như hình ảnh, như trong ví dụ này). Đối với lệnh gọi, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Các tệp được hỗ trợ bao gồm hình ảnh, PDF, video, âm thanh, v.v. Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến câu trả lời (generateContentStream) hay đợi cho phản hồi cho đến khi tạo toàn bộ kết quả (generateContent).

Phát trực tuyến

Bạn có thể đạt được các tương tác nhanh hơn bằng cách không phải chờ toàn bộ kết quả từ việc tạo mô hình và thay vào đó sử dụng luồng để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến nội dung đã tạo văn bản từ yêu cầu câu lệnh đa phương thức bao gồm văn bản và nhiều hình ảnh:

Không truyền trực tuyến

Ngoài ra, bạn cũng có thể đợi toàn bộ kết quả thay vì phát trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ trong quá trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu câu lệnh đa phương thức bao gồm văn bản và nhiều hình ảnh:

Tìm hiểu cách chọn một mô hình Gemini và không bắt buộc phải chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Tạo văn bản từ văn bản và video

Đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức, trong đó có cả văn bản và một video (như trong ví dụ này). Đối với lệnh gọi, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Hãy nhớ xem lại các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến câu trả lời (generateContentStream) hay đợi cho phản hồi cho đến khi tạo toàn bộ kết quả (generateContent).

Phát trực tuyến

Bạn có thể đạt được các tương tác nhanh hơn bằng cách không phải chờ toàn bộ kết quả từ việc tạo mô hình và thay vào đó sử dụng luồng để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến nội dung đã tạo văn bản từ yêu cầu câu lệnh đa phương thức bao gồm văn bản và một video:

Không truyền trực tuyến

Hoặc, bạn có thể chờ toàn bộ kết quả thay vì truy cập trực tuyến; thời gian kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo của chúng tôi.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu câu lệnh đa phương thức bao gồm văn bản và một video:

Tìm hiểu cách chọn một mô hình Gemini và không bắt buộc phải chọn một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Yêu cầu và đề xuất đối với tệp đầu vào

Để tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME và cách tạo đảm bảo rằng các tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất, xem Các tệp đầu vào được hỗ trợ và yêu cầu đối với Vertex AI Gemini API.

Bạn có thể làm gì khác?

Dùng thử các tính năng khác của Gemini API

Tìm hiểu cách kiểm soát việc tạo nội dung

Bạn cũng có thể thử nghiệm với các câu lệnh và cấu hình mô hình bằng cách sử dụng Vertex AI Studio.

Tìm hiểu thêm về các mô hình Gemini

Tìm hiểu về những mô hình có sẵn cho nhiều trường hợp sử dụnghạn mức và giá.


Gửi ý kiến phản hồi trải nghiệm của bạn khi dùng Vertex AI cho Firebase