Modele z rodziny Gemini są uważane za multimodalne, ponieważ są w stanie przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza z ciasteczkami i poprosić o przepis na te ciasteczka.
Prompt | Odpowiedź |
Podajcie mi przepis na te ciasteczka. |
**SKŁADNIKI** - 1 łyżeczka. (2 kostki) masła bez soli, zmiękczonego - 3/4 c. cukru trzcinowego - 3/4 c. brązowego cukru, zagęszczonego - 1 łyżeczka . ekstrakt waniliowy - 2 duże jajka - 2 1/4 szkl. mąki uniwersalnej - 1 łyżeczka sody oczyszczonej - 1 łyżeczka soli ... |
Możesz wchodzić w interakcję z modelami z rodziny Gemini za pomocą usługi Gemini API udostępnionej przez Vertex AI w witrynie Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz używać pakietów SDKVertex AI in Firebase, aby wywoływać interfejs Gemini API i wchodzić w interakcje z modelami Gemini bezpośrednio z aplikacji.
Ta strona zawiera te informacje o modelach Gemini:
Porównanie przypadków użycia różnych modeli Gemini, w tym obsługiwanych przez nie typów danych wejściowych.
Porównanie szczegółów każdego modelu, np. maksymalnej liczby tokenów wejściowych lub maksymalnej długości filmu.
Opis sposobu wersyfikowania modeli Gemini, w szczególności ich wersji stabilnej, automatycznie aktualizowanej i testowej.
Listy dostępnych nazw modeli, które należy uwzględnić w kodzie podczas inicjalizacji.
Lista języków obsługiwanych w przypadku modeli Gemini.
Dostępne modele
W Vertex AI in Firebase możesz używać dowolnych z tych modeli Gemini:
Gemini 1.5 Flash
Model multimodalny, który obsługuje te same typy danych wejściowych i wyjściowych co model 1.5 Pro, ale z zastosowaniem długiego kontekstu obejmującego 1 mln tokenów. Model Gemini 1.5 Flash został zaprojektowany z myślą o wysokiej wydajności i niskich kosztach.Gemini 1.5 Pro
Model multimodalny, który obsługuje dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedziach tekstowych lub kodach. Obsługuje też zrozumienie długiego kontekstu z 2 milionami tokenów.Gemini 1.0 Pro Vision
Wielomodalny model do obsługi tekstu, obrazów i filmów w odpowiedzi na tekst lub kod. Nie można ich używać na czacie.Gemini 1.0 Pro
Model do zadań związanych z językiem naturalnym, wieloetapowych czatów z tekstem i kodem oraz generowania kodu.
Przejdź do nazwy modelu, aby uwzględnić ją w kodzie
Zastosowania i możliwości poszczególnych modeli
Każdy model Gemini ma różne możliwości, aby obsługiwać różne przypadki użycia. Więcej informacji o poszczególnych modelach Gemini znajdziesz w dokumentacji Google Cloud.
Obsługiwane dane wejściowe i wyjściowe dla każdego modelu
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
Obraz | ||||
Film (tylko klatki) | ||||
Wideo (ramki i dźwięk) | ||||
Audio | ||||
Typy danych wyjściowych | ||||
Tekst | ||||
uporządkowane dane wyjściowe (np. w formacie JSON) przy użyciu schematu odpowiedzi; | ||||
Kod |
Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.
Obsługiwane funkcje i ogólne funkcje poszczególnych modeli
Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|---|---|
Generowanie tekstu na podstawie danych wejściowych zawierających tylko tekst | |||||
Generowanie tekstu na podstawie multimodalnych danych wejściowych | |||||
Uporządkowany format wyjściowy (np. JSON) z użyciem schematu odpowiedzi | |||||
Czat wieloetapowy | |||||
Wywoływanie funkcji | |||||
Wywoływanie funkcji podstawowych | |||||
Równoległe wywoływanie funkcji | |||||
Tryb wywoływania funkcji | |||||
Liczenie tokenów i znaków podlegających rozliczeniu | |||||
Instrukcje systemowe |
szczegółowe informacje o każdym modelu;
Właściwość | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|---|
Łączny limit tokenów (łączny limit danych wejściowych i wyjściowych) * | 1 048 576 tokenów | 2 097 152 tokeny | 16 384 tokeny | 32 760 tokenów |
Limit tokenów wyjściowych * | 8192 tokenów | 8192 tokenów | 2048 tokenów | 8192 tokenów |
Maksymalna liczba obrazów na żądanie | 3000 obrazów | 3000 obrazów | 16 obrazów | Nie dotyczy |
Maksymalny rozmiar obrazu w kodowaniu base64 | 7 MB | 7 MB | 7 MB | Nie dotyczy |
Maksymalny rozmiar pliku PDF | 30 MB | 30 MB | 30 MB | Nie dotyczy |
Maksymalna liczba plików wideo na żądanie | 10 plików wideo | 10 plików wideo | 1 plik wideo | Nie dotyczy |
Maksymalna długość filmu (tylko klatki) | ~60 minut filmu | ~60 minut filmu | 2 minuty | Nie dotyczy |
Maksymalna długość filmu (ramki i dźwięk) | ~45 minut filmu | Ok. 45 minut filmu | Nie dotyczy | Nie dotyczy |
Maksymalna liczba plików audio na żądanie | 1 plik audio | 1 plik audio | Nie dotyczy | Nie dotyczy |
Maksymalna długość ścieżki dźwiękowej | Ok.8,4 godziny audio | ok. 8,4 godz. dźwięku | Nie dotyczy | Nie dotyczy |
* We wszystkich modelach Gemini token odpowiada około 4 znakom, więc 100 tokenów to około 60–80 angielskich słów. Możesz określić łączną liczbę tokenów w żądaniach za pomocą usługi countTokens
.
Dowiedz się więcej o obsługiwanych typach plików, sposobie określania typu MIME oraz o tym, jak sprawdzić, czy pliki i żądania multimodalne spełniają wymagania i czy są zgodne ze sprawdzonymi metodami opisanymi w artykule Obsługiwane pliki wejściowe i wymagania dotyczące usługi Vertex AI Gemini API.
Wersje modeli
Modele Gemini są dostępne w wersji stabilnej, automatycznej i podglądu.
Stabilne wersje są uważane za ogólnodostępne.
- Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np.
.gemini-1.5-pro-002
- Wersje stabilne mają nazwy modeli z dodatkowym 3-cyfrowym numerem wersji, np.
Automatycznie aktualizowane wersje zawsze odwołują się do najnowszej stabilnej wersji danego modelu. Jeśli zostanie wydana nowa stabilna wersja, automatycznie aktualizowana wersja automatycznie zacznie odwoływać się do tej nowej stabilnej wersji.
- Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np.
.gemini-1.5-pro
- Wersje z automatyczną aktualizacją mają nazwy modeli bez żadnych dodatków, np.
Wersje w obrębie wersji zapoznawczej mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje podglądu zawsze odwołują się do najnowszej wersji tego modelu. Jeśli zostanie wydana nowa wersja podglądu, wszystkie istniejące wersje podglądu automatycznie zaczną odwoływać się do tej nowej wersji.
- Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem
oraz datą początkową premiery modelu (-preview
), na przykład-MMDD
(opublikowano 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje przedpremierowe mają nazwy modeli uzupełnione znakiem
Więcej informacji o dostępnych wersjach modelu Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to jawne wartości, które umieszczasz w kodzie podczas inicjowania modelu generatywnego (jest to wymagany krok do wywołania funkcji Gemini API). Przykłady inicjowania dla swojego języka znajdziesz w przewodniku na temat inicjowania.
Nazwy modeli Gemini 1.5 Flash
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-002 |
najnowsza stabilna wersja Gemini 1.5 Flash; | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 24.09.2025 r. |
gemini-1.5-flash-001 |
Pierwsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.5-flash |
Wskazuje na gemini-1.5-flash-001 Aby uzyskać dostęp do gemini-1.5-flash-002 |
Ogólna dostępność | 2024-05-24 | --- |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-002 |
najnowsza stabilna wersja Gemini 1.5 Pro, | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 24.09.2025 r. |
gemini-1.5-pro-001 |
Pierwsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.5-pro |
Wskazuje na gemini-1.5-pro-001 Aby uzyskać dostęp do modelu gemini-1.5-pro-002 |
Ogólna dostępność | 2024-05-24 | --- |
Nazwy modeli Gemini 1.0 Pro Vision
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
najnowsza stabilna wersja Gemini 1.0 Pro Vision; | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 2025-02-15 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.0-pro-vision |
Wskazuje najnowszą stabilną wersję 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Nazwy modeli Gemini 1.0 Pro
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
najnowsza stabilna wersja Gemini 1.0 Pro, | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 |
gemini-1.0-pro-001 |
Stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 2025-02-15 |
Wersja z automatyczną aktualizacją | ||||
gemini-1.0-pro |
Wskazuje najnowszą stabilną wersję 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Obsługiwane języki
Wszystkie modele Gemini rozumieją i odpowiadają w tych językach:
arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), szwedzki (sv), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)
Modele Gemini 1.5 Pro i Gemini 1.5 Flash rozumieją i mogą odpowiadać w tych dodatkowych językach:
Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Dalsze kroki
Wypróbuj możliwości Gemini API
- tworzyć rozmowy wieloetapowe (czat);
- generować tekst na podstawie promptów tekstowych.
- Generuj tekst na podstawie promptów multimodalnych (w tym tekstu, obrazów, plików PDF, filmów i plików dźwiękowych).
- generować dane wyjściowe w uporządkowanym formacie (np. JSON) zarówno na podstawie tekstowych, jak i wielomodalnych promptów;
- Używaj wywołania funkcji, aby łączyć modele generatywne z zewnętrznymi systemami i informacjami.