Tạo văn bản từ các câu lệnh đa phương thức bằng API Gemini


Khi gọi Gemini API từ ứng dụng của bạn bằng SDK Vertex AI cho Firebase, bạn có thể đặt câu lệnh để mô hình Gemini tạo văn bản dựa trên dữ liệu đầu vào đa phương thức. Các câu lệnh đa phương thức có thể bao gồm nhiều phương thức (hoặc loại phương thức nhập), chẳng hạn như văn bản cùng với hình ảnh, tệp PDF, video và âm thanh.

Để kiểm thử và lặp lại các câu lệnh đa phương thức, bạn nên sử dụng Vertex AI Studio.

Trước khi bắt đầu

Hãy xem qua hướng dẫn bắt đầu sử dụng Vertex AI cho Firebase SDK (nếu bạn chưa làm). Hãy đảm bảo rằng bạn đã hoàn thành tất cả các bước sau:

  • Thiết lập một dự án Firebase mới hoặc hiện có, bao gồm cả việc sử dụng gói giá Blaze và bật các API bắt buộc.

  • Kết nối ứng dụng của bạn với Firebase, bao gồm cả việc đăng ký ứng dụng và thêm cấu hình Firebase vào ứng dụng.

  • Thêm SDK và khởi chạy dịch vụ Vertex AI và mô hình tạo sinh trong ứng dụng của bạn.

Sau khi kết nối ứng dụng với Firebase, thêm SDK và khởi chạy dịch vụ Vertex AI cũng như mô hình tạo sinh, bạn có thể gọi Gemini API.

Tạo văn bản từ văn bản và một hình ảnh duy nhất

Hãy đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi dùng thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức bao gồm cả văn bản và một tệp (chẳng hạn như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Các tệp được hỗ trợ bao gồm hình ảnh, PDF, video, âm thanh, v.v. Hãy nhớ xem xét các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay chờ phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Truyền trực tuyến

Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không phải đợi toàn bộ kết quả từ quá trình tạo mô hình mà thay vào đó hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ yêu cầu câu lệnh đa phương thức bao gồm văn bản và một hình ảnh:

Không truyền trực tuyến

Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quy trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ yêu cầu câu lệnh đa phương thức bao gồm văn bản và một hình ảnh:

Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).

Tạo văn bản từ văn bản và nhiều hình ảnh

Hãy đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi dùng thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức bao gồm cả văn bản và nhiều tệp (chẳng hạn như hình ảnh, như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Các tệp được hỗ trợ bao gồm hình ảnh, PDF, video, âm thanh, v.v. Hãy nhớ xem xét các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay chờ phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Truyền trực tuyến

Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không phải đợi toàn bộ kết quả từ quá trình tạo mô hình mà thay vào đó hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ yêu cầu lời nhắc đa phương thức bao gồm văn bản và nhiều hình ảnh:

Không truyền trực tuyến

Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì phát trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quá trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và nhiều hình ảnh:

Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).

Tạo văn bản từ văn bản và video

Hãy đảm bảo rằng bạn đã hoàn tất phần Trước khi bắt đầu của hướng dẫn này trước khi dùng thử mẫu này.

Bạn có thể gọi API Gemini bằng các câu lệnh đa phương thức bao gồm cả văn bản và một video (như trong ví dụ này). Đối với các lệnh gọi này, bạn cần sử dụng một mô hình hỗ trợ các câu lệnh đa phương thức (chẳng hạn như Gemini 1.5 Pro).

Hãy nhớ xem xét các yêu cầu và đề xuất đối với tệp đầu vào.

Chọn xem bạn muốn truyền trực tuyến phản hồi (generateContentStream) hay chờ phản hồi cho đến khi toàn bộ kết quả được tạo (generateContent).

Truyền trực tuyến

Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không phải đợi toàn bộ kết quả từ quá trình tạo mô hình mà thay vào đó hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.

Ví dụ này cho biết cách sử dụng generateContentStream() để truyền trực tuyến văn bản được tạo từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một video:

Không truyền trực tuyến

Ngoài ra, bạn có thể chờ toàn bộ kết quả thay vì truyền trực tuyến; kết quả chỉ được trả về sau khi mô hình hoàn tất toàn bộ quy trình tạo.

Ví dụ này cho biết cách sử dụng generateContent() để tạo văn bản từ một yêu cầu lời nhắc đa phương thức bao gồm văn bản và một video:

Tìm hiểu cách chọn một mô hình Gemini và một vị trí phù hợp với trường hợp sử dụng và ứng dụng của bạn (không bắt buộc).

Yêu cầu và đề xuất đối với tệp đầu vào

Để tìm hiểu về các loại tệp được hỗ trợ, cách chỉ định loại MIME và cách đảm bảo rằng tệp và yêu cầu đa phương thức của bạn đáp ứng các yêu cầu và tuân thủ các phương pháp hay nhất, hãy xem bài viết Các yêu cầu và tệp đầu vào được hỗ trợ đối với Vertex AI Gemini API.

Bạn có thể làm gì khác?

  • Tìm hiểu cách đếm mã thông báo trước khi gửi các câu lệnh dài đến mô hình.
  • Thiết lập Cloud Storage cho Firebase để bạn có thể đưa các tệp lớn vào các yêu cầu đa phương thức bằng cách sử dụng URL của Cloud Storage. Tệp có thể bao gồm hình ảnh, PDF, video và âm thanh.
  • Hãy bắt đầu cân nhắc việc chuẩn bị cho việc phát hành công khai, bao gồm cả việc thiết lập tính năng Kiểm tra ứng dụng Firebase để bảo vệ Gemini API khỏi hành vi sai trái của các ứng dụng không được cấp phép.

Dùng thử các tính năng khác của Gemini API

Tìm hiểu cách kiểm soát việc tạo nội dung

Bạn cũng có thể thử nghiệm các câu lệnh và cấu hình mô hình bằng Vertex AI Studio.

Tìm hiểu thêm về các mô hình Gemini

Tìm hiểu về các mô hình có sẵn cho nhiều trường hợp sử dụng cũng như hạn mức và mức giá của các mô hình đó.


Gửi ý kiến phản hồi về trải nghiệm của bạn khi dùng Vertex AI cho Firebase