Tìm hiểu về các mô hình Gemini

Nhóm mô hình Gemini được coi là mô hình đa phương thức vì chúng có khả năng xử lý thông tin từ nhiều phương thức, bao gồm hình ảnh, video, và văn bản. Ví dụ: bạn có thể gửi cho mô hình Gemini ảnh chụp một đĩa rồi yêu cầu trang web cung cấp cho bạn công thức làm những chiếc bánh quy đó.

Câu lệnh Đáp

Cho tôi công thức làm những chiếc bánh này.

ảnh chụp vài chiếc bánh quy sô cô la
**NHẬT liệu**
— 1 c. (2 que) bơ không ướp muối, đã làm mềm
- 3/4 c. đường hạt
- 3/4 c. đường nâu, đóng gói
- 1 thìa cà phê . chiết xuất vani
- 2 quả trứng lớn
- 2 1/4 c. bột mì đa dụng
– 1 thìa cà phê. baking soda
– 1 thìa cà phê. dữ liệu ngẫu nhiên
...

Bạn có thể tương tác với nhóm mô hình Gemini bằng Gemini API do Vertex AI cung cấp trên Google Cloud. Đối với ứng dụng web và ứng dụng di động, bạn có thể sử dụng Vertex AI cho Firebase SDK để gọi Gemini API và tương tác với Gemini sẽ lập mô hình ngay trong ứng dụng của bạn.

Trang này cung cấp thông tin sau đây về các mô hình Gemini:

Các mẫu hiện có

Bạn có thể sử dụng bất kỳ mô hình Gemini nào sau đây với Vertex AI cho Firebase:

  • Gemini 1.5 Flash
    Mô hình đa phương thức hỗ trợ cùng một dữ liệu đầu vào và đầu ra loại 1.5 Pro (cũng như tổng số mã thông báo), nhưng 1.5 Flash là đặc biệt được thiết kế cho các ứng dụng số lượng lớn, tiết kiệm chi phí.

  • Gemini 1.5 Pro
    Mô hình đa phương thức hỗ trợ thêm hình ảnh, âm thanh, video và PDF trong lời nhắc văn bản hoặc tin nhắn trò chuyện để phản hồi bằng tin nhắn văn bản hoặc mã. Ngoài ra, tính năng này còn hỗ trợ khả năng hiểu ngữ cảnh dài với số lượng lên đến 1 triệu token.

  • Tầm nhìn của Gemini 1.0 Pro
    Mô hình đa phương thức được thiết kế để xử lý cộng văn bản hình ảnh và video cho nội dung phản hồi bằng văn bản hoặc mã. Không thể dùng để trò chuyện.

  • Gemini 1.0 Pro
    Mô hình được thiết kế để xử lý các nhiệm vụ liên quan đến ngôn ngữ tự nhiên, đa biến trò chuyện bằng văn bản và mã cũng như tạo mã.

Chuyển đến mục tên mô hình để đưa vào mã của bạn

Các trường hợp sử dụng và khả năng của từng mô hình

Mỗi mô hình Gemini đều có những khả năng khác nhau để hỗ trợ cho nhiều trường hợp sử dụng. Bạn có thể tìm hiểu thêm trong tài liệu của Google Cloud về từng Các mô hình Gemini.

Đầu vào và đầu ra được hỗ trợ cho từng kiểu máy

Gemini 1.5 Flash Gemini 1.5 Pro Tầm nhìn của Gemini 1.0 Pro Gemini 1.0 Pro
Loại dữ liệu đầu vào
Văn bản
Hình ảnh
PDF
Video (chỉ khung)
Video (khung hình và âm thanh)
Âm thanh
Các loại dữ liệu đầu ra
Văn bản

Để tìm hiểu về các loại tệp được hỗ trợ, hãy xem Các tệp đầu vào được hỗ trợ và yêu cầu đối với Vertex AI Gemini API.

Các tính năng được hỗ trợ và tính năng chung của từng kiểu máy

Gemini 1.5 Flash Gemini 1.5 Pro Tầm nhìn của Gemini 1.0 Pro Gemini 1.0 Pro
Tạo văn bản bằng những câu lệnh chỉ chứa văn bản
Tạo văn bản từ câu lệnh đa phương thức
Đầu ra JSON (chế độ giản đồ hạn chế)
(sắp có trong Vertex AI cho SDK Firebase)
Trò chuyện nhiều lượt
Gọi hàm
Gọi hàm cơ bản
Gọi hàm song song
Chế độ gọi hàm
Đếm mã thông báo và số ký tự có thể tính phí
Hướng dẫn về hệ thống

Thông tin chi tiết về từng mô hình

Thuộc tính Gemini 1.5 Flash /
Gemini 1.5 Pro
Tầm nhìn của Gemini 1.0 Pro Gemini 1.0 Pro
Tổng hạn mức mã thông báo (kết hợp đầu vào và đầu ra) * 1 triệu mã thông báo 16.384 mã thông báo 32.760 mã thông báo
Giới hạn mã thông báo đầu ra * 8.192 mã thông báo 2.048 mã thông báo 8.192 mã thông báo
Số lượng hình ảnh tối đa trong mỗi yêu cầu 3.000 hình ảnh 16 hình ảnh Không áp dụng
Kích thước tối đa của hình ảnh được mã hoá base64 7 MB 7 MB Không áp dụng
Kích thước tối đa của tệp PDF 30 MB 30 MB Không áp dụng
Số tệp video tối đa trong mỗi yêu cầu 10 tệp video 1 tệp video Không áp dụng
Thời lượng video tối đa (chỉ khung) Thời lượng video dài 60 phút 2 phút Không áp dụng
Thời lượng video tối đa (khung hình và âm thanh) Thời lượng video dài khoảng 45 phút Không áp dụng Không áp dụng
Số tệp âm thanh tối đa trong mỗi yêu cầu 1 tệp âm thanh Không áp dụng Không áp dụng
Thời lượng âm thanh tối đa Khoảng 8,4 giờ âm thanh Không áp dụng Không áp dụng

* Đối với tất cả mô hình Gemini, một mã thông báo tương đương với khoảng 4 ký tự, vì vậy, 100 token sẽ bằng khoảng 60-80 từ tiếng Anh. Bạn có thể xác định tổng số lượng trong yêu cầu của bạn bằng cách sử dụng countTokens.

Tại đây, bạn có thể tìm thấy thông tin chi tiết hơn nữa về các mô hình và tệp đầu vào:

Tạo phiên bản mô hình

Các mô hình Gemini hiện có ở chế độ chính thức, tự động cập nhậtbản xem trước versions.

  • Phiên bản ổn định được coi là phiên bản Phát hành rộng rãi.

    • Phiên bản ổn định có tên mô hình được thêm bằng một số phiên bản cụ thể gồm ba chữ số, ví dụ: gemini-1.0-pro-001.
  • Phiên bản được cập nhật tự động luôn trỏ đến phiên bản ổn định mới nhất của mô hình đó; nếu một phiên bản ổn định mới được phát hành, thì phiên bản tự động cập nhật sẽ tự động bắt đầu trỏ đến phiên bản ổn định mới đó.

    • Các phiên bản cập nhật tự động có tên mẫu không có phụ lục, ví dụ: gemini-1.0-pro.
  • Phiên bản Xem trước có các tính năng mới và được coi là không ổn định. Xin lưu ý rằng các phiên bản xem trước luôn trỏ đến phiên bản xem trước mới nhất của mô hình đó; nếu phiên bản xem trước mới được phát hành, thì mọi phiên bản xem trước hiện có sẽ tự động bắt đầu trỏ đến phiên bản xem trước mới đó.

    • Phiên bản xem trước có tên mẫu được thêm vào -preview cùng với bản phát hành đầu tiên của mô hình ngày (-MMDD), ví dụ: gemini-1.5-pro-preview-0409 (phát hành vào ngày 9 tháng 4 năm 2024).

Tìm hiểu thêm về chính sách các phiên bản mô hình Gemini hiện có và vòng đời của chúng trong tài liệu của Google Cloud.

Tên mô hình có sẵn

Tên mô hình là các giá trị rõ ràng mà bạn đưa vào trong mã của mình trong khoảng thời gian khởi động mô hình tạo sinh (đây là một bước bắt buộc để gọi hàm Gemini API). Để biết các ví dụ về khởi động cho ngôn ngữ của bạn, hãy xem hướng dẫn bắt đầu sử dụng.

Tên mô hình Gemini 1.5 Flash

Tên mẫu thiết bị Nội dung mô tả Giai đoạn phát hành Ngày phát hành đầu tiên Ngày ngừng cung cấp
Phiên bản ổn định
gemini-1.5-flash-001 Phiên bản ổn định mới nhất của Gemini 1.5 Flash Giai đoạn phát hành rộng rãi 2024-05-24 Không sớm hơn ngày 24/05/2025
Phiên bản tự động cập nhật
gemini-1.5-flash Trỏ đến phiên bản Ổn định mới nhất của Flash 1.5
(hiện tại gemini-1.5-flash-001)
Giai đoạn phát hành rộng rãi 2024-05-24 ---
Xem trước các phiên bản
gemini-1.5-flash-preview-0514 Phiên bản xem trước mới nhất của Gemini 1.5 Flash Bản dùng trước công khai 2024-05-14 2024-06-24

Tên mô hình Gemini 1.5 Pro

Tên mẫu thiết bị Nội dung mô tả Giai đoạn phát hành Ngày phát hành đầu tiên Ngày ngừng cung cấp
Phiên bản ổn định
gemini-1.5-pro-001 Phiên bản ổn định mới nhất của Gemini 1.5 Pro Giai đoạn phát hành rộng rãi 2024-05-24 Không sớm hơn ngày 24/05/2025
Phiên bản tự động cập nhật
gemini-1.5-pro Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro
(hiện tại gemini-1.5-pro-001)
Giai đoạn phát hành rộng rãi 2024-05-24 ---
Xem trước các phiên bản
gemini-1.5-pro-preview-0514 Phiên bản xem trước mới nhất của Gemini 1.5 Pro Bản dùng trước công khai 2024-05-14 2024-06-24
gemini-1.5-pro-preview-0409 Trỏ để gemini-1.5-pro-preview-0514
(là phiên bản bản xem trước mới nhất)
Bản dùng trước công khai 2024-04-09 2024-06-14

Tên mô hình Gemini 1.0 Pro Vision

Tên mẫu thiết bị Nội dung mô tả Giai đoạn phát hành Ngày phát hành đầu tiên Ngày ngừng cung cấp
Phiên bản ổn định
gemini-1.0-pro-vision-001 Phiên bản ổn định mới nhất của Gemini 1.0 Pro Vision Giai đoạn phát hành rộng rãi 2024-02-15 Không sớm hơn ngày 15/02/2025
Phiên bản tự động cập nhật
gemini-1.0-pro-vision Trỏ đến phiên bản ổn định mới nhất của 1.5 Pro Vision
(hiện tại gemini-1.5-pro-vision-001)
Giai đoạn phát hành rộng rãi 2024-01-04 ---

Tên mô hình Gemini 1.0 Pro

Tên mẫu thiết bị Nội dung mô tả Giai đoạn phát hành Ngày phát hành đầu tiên Ngày ngừng cung cấp
Phiên bản ổn định
gemini-1.0-pro-002 Phiên bản ổn định mới nhất của Gemini 1.0 Pro Giai đoạn phát hành rộng rãi 2024-04-09 Không sớm hơn ngày 09/04/2025
gemini-1.0-pro-001 Phiên bản ổn định của Gemini 1.0 Pro Giai đoạn phát hành rộng rãi 2024-02-15 Không sớm hơn ngày 15/02/2025
Phiên bản tự động cập nhật
gemini-1.0-pro Trỏ đến phiên bản ổn định mới nhất của 1.0 Pro
(hiện tại gemini-1.0-pro-002)
Giai đoạn phát hành rộng rãi 2024-02-15 ---

Ngôn ngữ được hỗ trợ

Các mô hình Gemini hỗ trợ các ngôn ngữ sau:

Arabic (ar), Bengali (bn), Bulgarian (bg), Chinese simplified and traditional (zh), Croatian (hr), Czech (cs), Danish (da), Dutch (nl), English (en), Estonian (et), Finnish (fi), French (fr), German (de), Greek (el), Hebrew (iw), Hindi (hi), Hungarian (hu), Indonesian (id), Italian (it), Japanese (ja), Korean (ko), Latvian (lv), Lithuanian (lt), Norwegian (no), Polish (pl), Portuguese (pt), Romanian (ro), Russian (ru), Serbian (sr), Slovak (sk), Slovenian (sl), Spanish (es), Swahili (sw), Swedish (sv), Thai (th), Turkish (tr), Ukrainian (uk), Vietnamese (vi).

Các bước tiếp theo

Dùng thử các tính năng của Gemini API