Modele Gemini są uznawane za multimodalne, ponieważ mogą przetwarzać informacje z różnych modalności, w tym obrazy, filmy i tekst. Możesz na przykład wysłać modelowi Gemini zdjęcie talerza ciasteczek z prośbą o podanie przepisu na te ciasteczka.
Prompt | Odpowiedź |
Podaj mi przepis na te ciasteczka. |
**Składniki** – 1 c. (2 kostki) miękkie masło niesolone – 3/4 c. granulowanego cukru – 3/4 c. brązowego cukru w pakiecie – 1 łyżka cukru ekstrakt waniliowy – 2 duże jajka – 2 1/4 szklanki mąki uniwersalnej – 1 łyżeczka sody oczyszczonej – 1 łyżeczka soli ... |
Z rodziną modeli Gemini możesz wchodzić w interakcje za pomocą interfejsu Gemini API udostępnianego przez Vertex AI w Google Cloud. W przypadku aplikacji mobilnych i internetowych możesz użyć pakietów SDK Vertex AI dla Firebase do wywołania interfejsu Gemini API i interakcji z modelami Gemini bezpośrednio w aplikacji.
Ta strona zawiera te informacje o modelach Gemini:
Ogólne porównanie przypadków użycia różnych modeli Gemini, w tym obsługiwanych typów danych wejściowych.
Porównanie szczegółów poszczególnych modeli, np. maksymalnej liczby tokenów wejściowych lub maksymalnej długości filmu.
Opis sposobu obsługi wersji modeli Gemini, w szczególności ich wersji stabilnych, aktualizowanych automatycznie i podglądowych.
Listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjowania.
Lista języków obsługiwanych przez modele Gemini.
Dostępne modele
W Vertex AI dla Firebase możesz używać tych modeli Gemini:
Gemini 1.5 Flash: model multimodalny, który obsługuje te same typy danych wejściowych i wyjściowych co 1.5 Pro (oraz łączną liczbę tokenów), ale oprogramowanie Flash 1.5 zostało zaprojektowane specjalnie z myślą o dużych ilościach przy niskich kosztach.
Gemini 1.5 Pro: model multimodalny, który umożliwia dodawanie plików graficznych, audio, wideo i PDF w promptach tekstowych lub na czacie w odpowiedzi na SMS-y lub kod. Obsługuje też rozumienie długiego kontekstu przy użyciu do 1 miliona tokenów.
Gemini 1.0 Pro Vision: model wielomodalny zaprojektowany do obsługi tekstu, obrazów i filmów w odpowiedziach tekstowych lub kodu. Nie można używać na czacie.
Gemini 1.0 Pro: model zaprojektowany do obsługi zadań w języku naturalnym, czatu wieloetapowego z tekstem i kodem oraz generowania kodu.
Przejdź do nazw modeli, które chcesz uwzględnić w kodzie
Przypadki użycia poszczególnych modeli
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |
---|---|---|---|
Typy danych wejściowych | |||
Tekst | |||
Kod | |||
Obraz | |||
PDF. | |||
Film (tylko klatki) | |||
Wideo (klatki i dźwięk) | |||
Audio | |||
Typy danych wyjściowych | |||
Tekst | |||
Kod | |||
Ogólne przypadki użycia | |||
Żądania multimodalne | |||
Czat wieloetapowy |
Więcej informacji o przypadkach użycia modeli Gemini znajdziesz w dokumentacji Google Cloud:
- Przypadki użycia Flasha w Gemini 1.5
- Przypadki użycia Gemini 1.5 Pro
- Przypadki użycia Gemini 1.0 Pro Vision
- Przypadki użycia Gemini 1.0 Pro
Szczegółowe informacje o każdym modelu
W przypadku wszystkich modeli Gemini token odpowiada około 4 znakom. 100 tokenów składa się z 60–80 angielskich słów. Całkowitą liczbę tokenów w żądaniach możesz określić za pomocą funkcji countTokens
.
Właściwość |
Gemini 1.5 Flash / Gemini 1.5 Pro |
Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|---|
Łączny limit tokenów (połączone dane wejściowe i wyjściowe) | 1 milion tokenów | 16 384 tokeny | 32 760 tokenów |
Limit tokenów wyjściowych | 8192 tokeny | 2048 tokenów | 8192 tokeny |
Maksymalna liczba obrazów na żądanie | 3000 obrazów, | 16 obrazów, | Nie dotyczy |
Maksymalny rozmiar obrazu zakodowanego w formacie base64 | 7 MB | 7 MB | Nie dotyczy |
Maksymalny rozmiar pliku PDF | 30 MB | 30 MB | Nie dotyczy |
Maksymalna liczba plików wideo na żądanie | 10 plików wideo, | 1 plik wideo | Nie dotyczy |
Maksymalna długość filmu (tylko klatki) | 60 minut filmu | 2 minuty | Nie dotyczy |
Maksymalna długość filmu (klatki i dźwięk) | Ok. 45 minut filmu | Nie dotyczy | Nie dotyczy |
Maksymalna liczba plików audio na żądanie | 1 plik audio | Nie dotyczy | Nie dotyczy |
Maksymalna długość ścieżki dźwiękowej | ok.8,4 godziny dźwięku | Nie dotyczy | Nie dotyczy |
Poniżej znajdziesz jeszcze bardziej szczegółowe informacje o modelach i plikach wejściowych:
Więcej o różnicach między modelami multimodalnymi dowiesz się z dokumentacji Google Cloud.
Więcej informacji o obsługiwanych typach plików, określaniu typu MIME oraz o tym, jak upewnić się, że pliki i żądania multimodalne spełniają wymagania oraz są zgodne ze sprawdzonymi metodami, znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania interfejsu Vertex AI Gemini API.
Obsługa wersji modeli
Modele Gemini są oferowane w wersjach stabilnych, aktualizowanych automatycznie i w wersji podglądowej.
Wersje stabilne są uważane za ogólnie dostępne.
- Wersje stabilne mają nazwy modeli z określonym 3-cyfrowym numerem wersji, np.
.gemini-1.0-pro-001
- Wersje stabilne mają nazwy modeli z określonym 3-cyfrowym numerem wersji, np.
Wersje aktualizowane automatycznie zawsze wskazują na najnowszą stabilną wersję danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, wersja aktualizowana automatycznie zaczyna wskazywać nową stabilną wersję.
- Automatycznie zaktualizowane wersje mają nazwy modeli bez dodawania, np.
.gemini-1.0-pro
- Automatycznie zaktualizowane wersje mają nazwy modeli bez dodawania, np.
Wersje podglądowe mają nowe możliwości i są uważane za niestabilne. Pamiętaj, że wersje poglądowe zawsze wskazują najnowszą wersję podglądową danego modelu. Jeśli zostanie opublikowana nowa wersja przedpremierowa, każda istniejąca wersja testowa automatycznie zacznie do niej wskazywać nową.
- Wersje testowe mają nazwy modeli z dodanym ciągiem
wraz z datą premiery modelu (-preview
), na przykład-MMDD
(opublikowana 9 kwietnia 2024 r.).gemini-1.5-pro-preview-0409
- Wersje testowe mają nazwy modeli z dodanym ciągiem
Więcej informacji o dostępnych wersjach modeli Gemini i ich cyklu życia znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to jawne wartości, które podajesz w kodzie podczas inicjowania modelu generatywnego (jest to wymagane do wywołania interfejsu API Gemini). Przykłady inicjowania w Twoim języku znajdziesz we wprowadzeniu.
Gemini 1.5 Nazwy modeli Flash
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-001 |
Najnowsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 r. |
Wersja automatycznie aktualizowana | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie gemini-1.5-flash-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersje podglądu | ||||
gemini-1.5-flash-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Flash | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-001 |
Najnowsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 24.05.2025 r. |
Wersja automatycznie aktualizowana | ||||
gemini-1.5-pro |
Wskazuje na najnowszą stabilną wersję 1.5 Pro (obecnie gemini-1.5-pro-001 |
Ogólna dostępność | 2024-05-24 | --- |
Wersje podglądu | ||||
gemini-1.5-pro-preview-0514 |
Najnowsza wersja testowa Gemini 1.5 Pro | Publiczna wersja przedpremierowa | 2024-05-14 | 2024-06-24 |
gemini-1.5-pro-preview-0409 |
Wskazuje na gemini-1.5-pro-preview-0514 (czyli najnowszą wersję przedpremierową). |
Publiczna wersja przedpremierowa | 2024-04-09 | 2024-06-14 |
Nazwy modeli Gemini 1.0 Pro Vision
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
Najnowsza stabilna wersja Gemini 1.0 Pro Vision | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie aktualizowana | ||||
gemini-1.0-pro-vision |
Wskazuje na najnowszą stabilną wersję 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Nazwy modeli Gemini 1.0 Pro
Nazwa modelu | Opis | Etap wersji | Data pierwszego wydania | Data wycofania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
Najnowsza stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 r. |
gemini-1.0-pro-001 |
Wersja stabilna Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 15.02.2025 r. |
Wersja automatycznie aktualizowana | ||||
gemini-1.0-pro |
Wskazuje na najnowszą stabilną wersję 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Obsługiwane języki
Modele Gemini obsługują te języki:
hiszpański (ar), bengalski (bn), bułgarski (bg), chiński uproszczony (zh), chorwacki (hr), czeski (cs), duński (da), fiński (fi), francuski (fr), fiński (fi), francuski (fr), niemiecki (de), grecki (el, francuski), hebrajski (iw), grecki (el), litewski (francuski), niemiecki (de), turecki (el. litewski), włoski (hu) , turecki (w języku angielskim), turecki (w języku angielskim), włoski (hiw, węgierski (hu).
Dalsze kroki
Wypróbuj możliwości interfejsu Gemini API
- Twórz rozmowy wieloetapowe (czat).
- Generuj tekst na podstawie promptów tekstowych.
- Generuj tekst na podstawie promptów multimodalnych (w tym tekst, obrazy, pliki PDF, filmy i dźwięki).
- Użyj wywołania funkcji, aby połączyć modele generatywne z zewnętrznymi systemami i informacjami.