W przypadku aplikacji mobilnych i internetowych pakiety SDK Vertex AI in Firebase umożliwiają interakcję z obsługiwanymi modelami Gemini i Imagen 3 bezpośrednio z aplikacji.
Modele Gemini są uważane za wielomodalne, ponieważ mogą przetwarzać i nawet generować wiele modalności, w tym tekst, kod, pliki PDF, obrazy, filmy i dźwięk. Modele Imagen 3 mogą generować obrazy na podstawie tekstu.
W tabeli poniżej znajdziesz krótki przegląd obsługiwanych modeli Vertex AI in Firebase oraz ich najnowszych stabilnych nazw. Tabela zawiera też modele w wersji zapoznawczej i eksperymentalnej, które są dostępne do tworzenia prototypów.
Model | Dane wejściowe | Wyniki | Opis |
---|---|---|---|
Gemini modeli ze stabilnymi wersjami | |||
Gemini 2.0 Flashgemini-2.0-flash-001
|
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON (wkrótce: obrazy i dźwięk) |
Zapewnia funkcje nowej generacji i szybkość wykonywania różnych zadań
(wkrótce udostępnimy generowanie multimodalne) |
Gemini 2.0 Flash‑Litegemini-2.0-flash-lite-001
|
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | Zapewnia wydajność z niskim opóźnieniem przy niskich kosztach; obsługuje wysoką przepustowość |
Gemini 1.5 Progemini-1.5-pro-002 |
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | Obsługuje złożone zadania wymagające większej inteligencji; 2 mln tokenów w kontekście |
Gemini 1.5 Flashgemini-1.5-flash-002 |
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | zapewnia szybką i wszechstronną wydajność w wielu zadaniach; |
Gemini modele z tylko wersjami podglądu i eksperymentalnymi (zalecane tylko do tworzenia prototypów) | |||
Gemini 2.0 Progemini-2.0-pro-exp-02-05
|
tekst, kod, pliki PDF, obrazy, filmy, dźwięk | tekst, kod, JSON | Zapewnia najwyższą jakość modelu, zwłaszcza w przypadku kodu i wiedzy o świecie; kontekst o długości 2 mln. |
Gemini 2.0 Flash‑Thinkinggemini-2.0-flash-thinking-exp-01-21
|
tekst, kod, pliki PDF, obrazy | tekst, kod, JSON | oferuje lepsze możliwości rozumowania i wprowadza proces myślowy w odpowiedziach; |
Imagen 3 modeli (w przypadku korzystania z Vertex AI in Firebase) | |||
Imagen 3imagen-3.0-generate-002 |
tekst | obrazy | generuje realistyczne, wysokiej jakości obrazy na podstawie promptów w języku naturalnym. |
Imagen 3 Fastimagen-3.0-fast-generate-001
|
tekst | obrazy | generuje obrazy do tworzenia prototypów lub do zastosowań wymagających niskiego opóźnienia; |
Czy Vertex AI in Firebase obsługuje starsze modele, takie jak Gemini 1.0?
Tak, Vertex AI in Firebase obsługuje wszystkie modele Gemini, w tym starsze.
Model | Dane wejściowe | Wyniki | Zoptymalizowany dla |
---|---|---|---|
Gemini 1.0 Pro Visiongemini-1.0-pro-vision-001
|
tekst, kod, pliki PDF, obrazy, film (tylko ramki) | tekst, kod | Obsługuje tekst, obrazy i filmy w przypadku odpowiedzi tekstowych lub kodowych. Nie można ich używać do czatu. |
Gemini 1.0 Progemini-1.0-pro-002
|
tekst, kod | tekst, kod | zadania dotyczące języka naturalnego, czat tekstowy i z kodem w wielu etapach oraz generowanie kodu; |
Vertex AI in Firebase obsługuje tylko modele Imagen 3. Nie obsługuje on starszych modeli Imagen (takich jak Imagen 2).
U dołu tej strony możesz wyświetlić szczegółowe informacje o starszych modelach. Zapoznaj się z często zadawanymi pytaniami dotyczącymi wszystkich modeli obsługiwanych i nieobsługiwanych przez Vertex AI in Firebase.
W pozostałej części tej strony znajdziesz szczegółowe informacje o modelach obsługiwanych przez Vertex AI in Firebase:
-
- Obsługiwane urządzenia wejściowe i wyjściowe
- Ogólne porównanie obsługiwanych funkcji
- Specyfikacje i ograniczenia, np. maksymalna liczba tokenów wejściowych lub maksymalna długość filmu wejściowego
Opis wersji modeli, w szczególności ich wersji stabilnej, automatycznie aktualizowanej i podglądu.
listy dostępnych nazw modeli do uwzględnienia w kodzie podczas inicjalizacji;
listy obsługiwanych języków dla modeli;
U dołu tej strony możesz wyświetlić szczegółowe informacje o starszych modelach.
Porównanie modeli
Każdy model ma inne możliwości, które umożliwiają obsługę różnych przypadków użycia. Pamiętaj, że każda tabela w tej sekcji opisuje poszczególne modele w połączeniu z funkcją Vertex AI in Firebase. Każdy model może mieć dodatkowe funkcje, które nie są dostępne podczas korzystania z naszych pakietów SDK.
Jeśli nie możesz znaleźć potrzebnych informacji w podrozdziałach poniżej, więcej informacji o modelach Gemini i Imagen 3 znajdziesz w dokumentacji Google Cloud.
Obsługiwane urządzenia wejściowe i wyjściowe
Oto obsługiwane typy danych wejściowych i wyjściowych w przypadku każdego modelu z użyciem funkcji Vertex AI in Firebase:
<span="notranslate">Gemini 2.0 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Thinking </span="notranslate"> |
<span="notranslate">Gemini 1.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 1.5 Flash </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|---|
Typy danych wejściowych | |||||||
Tekst | |||||||
Kod | |||||||
Dokumenty (pliki PDF lub tekstowe) |
|||||||
Obrazy | |||||||
Wideo | |||||||
Audio | |||||||
Dźwięk (strumieniowanie) | wkrótce | ||||||
Typy danych wyjściowych | |||||||
Tekst | |||||||
Kod | |||||||
Dane uporządkowane (np. w formacie JSON) |
|||||||
Obrazy | wkrótce | ||||||
Audio | wkrótce | ||||||
Dźwięk (strumieniowanie) | wkrótce |
Informacje o obsługiwanych typach plików znajdziesz w artykule Obsługiwane pliki wejściowe i wymagania dotyczące Vertex AI Gemini API.
Obsługiwane funkcje i możliwości
Te funkcje są obsługiwane podczas korzystania z każdego modelu z użyciem Vertex AI in Firebase:
<span="notranslate">Gemini 2.0 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Thinking </span="notranslate"> |
<span="notranslate">Gemini 1.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 1.5 Flash </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
|
---|---|---|---|---|---|---|---|
generowanie tekstu na podstawie danych tekstowych lub multimodalnych, | |||||||
Generowanie obrazów (Imagen 3) |
wkrótce | ||||||
Generowanie dźwięku | wkrótce | ||||||
Generowanie uporządkowanych danych wyjściowych
(np. w formacie JSON) |
|||||||
analizować dokumenty
(pliki PDF lub tekstowe). |
|||||||
analizowanie obrazów (systemy wizyjne); | |||||||
Analiza wideo (wizja) | |||||||
Analiza dźwięku | |||||||
Czat wieloetapowy | |||||||
Połączenia z funkcjami (narzędzia) | |||||||
Liczenie tokenów i znaków podlegających rozliczeniu | |||||||
Instrukcje dotyczące systemu | |||||||
Interfejs API rozmów multimodalnych na żywo (strumieniowanie dwukierunkowe) |
wkrótce |
Specyfikacje i ograniczenia
Oto specyfikacje i ograniczenia każdego modelu w przypadku Vertex AI in Firebase:
Właściwość |
<span="notranslate">Gemini 2.0 Pro </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Lite </span="notranslate"> |
<span="notranslate">Gemini 2.0 Flash- Thinking </span="notranslate"> |
<span="notranslate">Gemini 1.5 Pro </span="notranslate"> |
<span="notranslate">Gemini 1.5 Flash </span="notranslate"> |
Imagen 3 / Imagen 3 Fast |
---|---|---|---|---|---|---|---|
Okno kontekstu * Łączny limit tokenów (łączna liczba tokenów wejściowych i wyjściowych) |
2 097 152 tokeny | 1 048 576 tokenów | 1 048 576 tokenów | 1 048 576 tokenów | 2 097 152 tokeny | 1 048 576 tokenów | 480 tokenów |
Limit tokenów wyjściowych * | 8192 tokenów | 8192 tokenów | 8192 tokenów | 8192 tokenów | 8192 tokenów | 8192 tokenów | --- |
Data odcięcia | Czerwiec 2024 r. | Czerwiec 2024 r. | Czerwiec 2024 r. | Czerwiec 2024 r. | Maj 2024 r. | Maj 2024 r. | --- |
pliki PDF (na żądanie), | |||||||
Maksymalna liczba pobranych plików PDF ** |
3000 plików | 3000 plików | 3000 plików | 3000 plików | 3000 plików | 3000 plików | --- |
Maksymalna liczba stron na plik PDF wejściowy ** |
1000 stron | 1000 stron | 1000 stron | 1000 stron | 1000 stron | 1000 stron | --- |
Maksymalny rozmiar na plik PDF wejściowy |
50 MB | 50 MB | 50 MB | 50 MB | 50 MB | 50 MB | --- |
Obrazy (na żądanie) | |||||||
Maksymalna liczba obrazów |
3000 obrazów | 3000 obrazów | 3000 obrazów | 3000 obrazów | 3000 obrazów | 3000 obrazów | --- |
Maksymalna liczba obrazów |
--- | wkrótce | --- | --- | --- | --- | 4 obrazy |
Maksymalny rozmiar na obraz zakodowany w formacie base64 |
7 MB | 7 MB | 7 MB | 7 MB | 7 MB | 7 MB | --- |
Film (na żądanie) | |||||||
Maksymalna liczba wejskowych plików wideo |
10 plików | 10 plików | 10 plików | --- | 10 plików | 10 plików | --- |
Maksymalna długość wszystkich filmów wejściowych (tylko ramki) |
ok. 60 minut | ok. 60 minut | ok. 60 minut | --- | ok. 60 minut | ok. 60 minut | --- |
Maksymalna długość wszystkich filmów wejściowych (ramki + dźwięk) |
ok. 45 minut | ok. 45 minut | ok. 45 minut | --- | ok. 45 minut | ok. 45 minut | --- |
Dźwięk (z uwzględnieniem żądań) | |||||||
Maksymalna liczba wejściowych plików audio |
1 plik | 1 plik | 1 plik | --- | 1 plik | 1 plik | --- |
Maksymalna liczba pliku wyjściowego |
--- | wkrótce | --- | --- | --- | --- | --- |
Maksymalna długość wszystkich wejść audio |
ok.8,4 godziny | ok.8,4 godziny | ok.8,4 godziny | --- | ok.8,4 godziny | ok.8,4 godziny | --- |
Maksymalna długość wszystkich wyjść audio |
--- | wkrótce | --- | --- | --- | --- | --- |
*W przypadku wszystkich modeli Gemini 1 token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów po angielsku. W przypadku modeli Gemini możesz określić łączną liczbę tokenów w żądaniach za pomocą parametru countTokens
.
** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.
Znajdowanie dodatkowych szczegółowych informacji
Limity i opłaty są różne w zależności od modelu. Ceny zależą też od danych wejściowych i wyjściowych.
Dowiedz się więcej o obsługiwanych typach plików wejściowych, o tym, jak określić typ MIME, oraz o tym, jak sprawdzić, czy pliki wejściowe i zapytania multimodalne spełniają wymagania. Zapoznaj się też ze wskazówkami dotyczącymi obsługiwanych plików wejściowych i wymagań dotyczących Vertex AI Gemini API.
Wzorce obsługi wersji i nazywania modeli
Modele są dostępne w wersjach stabilnej, testowej i eksperymentalnej. Dla wygody obsługiwane są aliasy bez dokładnych wartości wersji.
Aby znaleźć konkretne nazwy modeli do użycia w kodzie, zapoznaj się z sekcją „dostępne nazwy modeli” dalej na tej stronie.
Typ wersji | Opis | Wzorzec nazwy modelu | |
---|---|---|---|
Stabilna | Stabilne wersje są uważane za ogólnie dostępne. |
nazwy modeli stabilnych wersji są uzupełniane o specyficzny 3-cyfrowy numer wersji.
Przykład: |
|
Stały alias aktualizowany automatycznie | Automatycznie aktualizowane aliasy wersji stabilnych zawsze wskazują najnowszą wersję stabilną danego modelu. Jeśli zostanie opublikowana nowa wersja stabilna, alias automatycznie aktualizowany automatycznie zacznie wskazywać nową wersję stabilną. |
Nazwa modelu aliasu nie zawiera żadnych elementów dodatkowych
Przykład: |
|
Podgląd |
Wersje w obejściu mają nowe możliwości i są uważane za niestabilne.
Wersje podglądu zawsze odwołują się do najnowszej wersji tego modelu. Jeśli zostanie wydana nowa wersja podglądu, wszystkie istniejące wersje podglądu będą automatycznie wskazywać nową wersję podglądu. |
Nazwy modeli wersji podglądowych są uzupełniane o ciąg znaków
Przykład: |
|
eksperymentalna, |
Wersje eksperymentalne mają nowe funkcje i są uważane za niestabilne. Nie są one zgodne ze standardowym planem cyklu życia modelu i schematem wersji Google.
Dowiedz się więcej o modelach eksperymentalnych. |
Nazwy modeli wersji eksperymentalnych są uzupełniane o parametr
Przykład: |
Więcej informacji o dostępnych wersjach modelu i ich cyklu życia (Gemini) lub Imagen znajdziesz w dokumentacji Google Cloud.
Dostępne nazwy modeli
Nazwy modeli to wartości jawne, które uwzględniasz w kodzie podczas inicjalizacji modelu.
Aby wyświetlić listę wszystkich dostępnych nazw modeli, możesz użyć punktu końcowego publishers.models.list
. Zwróć uwagę, że zwrócona lista będzie zawierać wszystkie modele obsługiwane przez Vertex AI, ale Vertex AI in Firebase obsługuje tylko modele Gemini i Imagen opisane na tej stronie.
Pamiętaj też, że aliasy aktualizowane automatycznie (np. gemini-2.0-flash
) nie są wyświetlane, ponieważ są to aliasy ułatwiające korzystanie z modelu podstawowego.
Gemini nazwy modeli
Przykłady inicjalizowania w danym języku znajdziesz w przewodniku dla początkujących.
Gemini 2.0 Pro nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
Brak dostępnych wersji stabilnych | --- | --- | --- | --- |
Stały alias aktualizowany automatycznie | ||||
Nie ma dostępnego stabilnego aliasu z automatyczną aktualizacją | --- | --- | --- | --- |
Wersje podglądu | ||||
Brak wersji podglądu | --- | --- | --- | --- |
Wersje eksperymentalne | ||||
gemini-2.0-pro-exp-02-05 |
Eksperymentalna wersja Gemini 2.0 Pro | Wersja eksperymentalna | 2025-02-05 | Jeszcze nieznany |
Gemini 2.0 Flash nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-2.0-flash-001 |
najnowsza stabilna wersja aplikacji Gemini 2.0 Flash, | Ogólna dostępność | 2025-02-05 | Nie wcześniej niż 2026-02-05 |
Stały alias aktualizowany automatycznie | ||||
gemini-2.0-flash |
Wskazuje na najnowszą stabilną wersję 2.0 Flash (obecnie gemini-2.0-flash-001 |
Ogólna dostępność | 2025-02-10 | --- |
Wersje podglądu | ||||
Brak wersji podglądu | --- | --- | --- | --- |
Wersje eksperymentalne | ||||
Brak dostępnych wersji eksperymentalnych | --- | --- | --- | --- |
Gemini 2.0 Flash‑Lite nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-2.0-flash-lite-001 |
najnowsza stabilna wersja aplikacji Gemini 2.0 Flash‑Lite, | Ogólna dostępność | 2025-02-25 | Nie wcześniej niż 2026-02-25 |
Stały alias aktualizowany automatycznie | ||||
gemini-2.0-flash-lite |
Wskazuje na najnowszą stabilną wersję 2.0 Flash-Lite (obecnie gemini-2.0-flash-lite-001 |
Ogólna dostępność | 2025-02-25 | --- |
Wersje podglądu | ||||
gemini-2.0-flash-lite-preview-02-05 |
Wersja podglądu: Gemini 2.0 Flash‑Lite | Podgląd | 2025-02-05 | Jeszcze nieznany |
Wersje eksperymentalne | ||||
Brak dostępnych wersji eksperymentalnych | --- | --- | --- | --- |
Gemini 2.0 Flash‑Thinking nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
Brak dostępnych wersji stabilnych | --- | --- | --- | --- |
Stały alias aktualizowany automatycznie | ||||
Nie ma dostępnego stabilnego aliasu z automatyczną aktualizacją | --- | --- | --- | --- |
Wersje podglądu | ||||
Brak wersji podglądu | --- | --- | --- | --- |
Wersje eksperymentalne | ||||
gemini-2.0-flash-thinking-exp-01-21 |
Eksperymentalna wersja Gemini 2.0 Flash‑Thinking | Wersja eksperymentalna | 2025-01-21 | Jeszcze nieznany |
Nazwy modeli Gemini 1.5 Pro
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-pro-002 |
najnowsza stabilna wersja aplikacji Gemini 1.5 Pro, | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 2025-09-24 |
gemini-1.5-pro-001 |
Pierwsza stabilna wersja Gemini 1.5 Pro | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Stały alias aktualizowany automatycznie | ||||
gemini-1.5-pro |
wskazuje najnowszą stabilną wersję 1.5 Pro (obecnie gemini-1.5-pro-002 |
Ogólna dostępność | 2024-09-24 | --- |
Wersje podglądu | ||||
Brak wersji podglądu | --- | --- | --- | --- |
Wersje eksperymentalne | ||||
Brak dostępnych wersji eksperymentalnych | --- | --- | --- | --- |
Gemini 1.5 Flash nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.5-flash-002 |
najnowsza stabilna wersja aplikacji Gemini 1.5 Flash, | Ogólna dostępność | 2024-09-24 | Nie wcześniej niż 2025-09-24 |
gemini-1.5-flash-001 |
Pierwsza stabilna wersja Gemini 1.5 Flash | Ogólna dostępność | 2024-05-24 | Nie wcześniej niż 2025-05-24 |
Stały alias aktualizowany automatycznie | ||||
gemini-1.5-flash |
Wskazuje najnowszą stabilną wersję Flasha 1.5 (obecnie gemini-1.5-flash-002 |
Ogólna dostępność | 2024-09-24 | --- |
Wersje podglądu | ||||
Brak wersji podglądu | --- | --- | --- | --- |
Wersje eksperymentalne | ||||
Brak dostępnych wersji eksperymentalnych | --- | --- | --- | --- |
Imagen nazwy modeli
Przykłady inicjalizacji w przypadku Twojego języka znajdziesz w przewodniku generowania obrazów za pomocą Imagen.
Obecnie żaden z modeli Imagen 3 nie ma wersji wstępnej ani eksperymentalnej.
Imagen 3 nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
imagen-3.0-generate-002 |
najnowsza stabilna wersja aplikacji Imagen 3, | Ogólna dostępność | 2025-01-23 | Nie wcześniej niż 23.01.2026 |
imagen-3.0-generate-001 |
Pierwsza stabilna wersja Imagen 3 | Ogólna dostępność | 2024-07-31 | Nie wcześniej niż 31.07.2025 |
Imagen 3 Fast nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
imagen-3.0-fast-generate-001 |
Pierwsza stabilna wersja Imagen 3 Fast | Ogólna dostępność | 2024-07-31 | Nie wcześniej niż 31.07.2025 |
Obsługiwane języki
Gemini
Wszystkie modele Gemini rozumieją i odpowiadają w tych językach:
arabski (ar), bengalski (bn), bułgarski (bg), chiński uproszczony i tradycyjny (zh), chorwacki (hr), czeski (cs), duński (da), niderlandzki (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), grecki (el), hebrajski (iw), hindi (hi), węgierski (hu), indonezyjski (id), hiszpański (es), japoński (ja), koreański (ko), łaciński (la), litewski (lt), norweski (no), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), szwedzki (sv), swahili (sw), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi)
Modele Gemini 2.0 Flash, Gemini 1.5 Pro i Gemini 1.5 Flash rozumieją i mogą odpowiadać w tych dodatkowych językach:
Afrikaans (af), amharski (am), assamski (as), azerski (az), białoruski (be), bośniacki (bs), kataloński (ca), cebuańska (ceb), korsykański (co), walijski (cy), divehi (dv), esperanto (eo), baskijski (eu), perski (fa), filipino (tagalog) (fil), fryzyjski (fy), irlandzki (ga), szkocki gaelicki (gd), galicyjski (gl), gudżarati (gu), hausa (ha), hawajski (haw), hmong (hmn), kreolski haitamski (ht), ormiański (hy), igbokańska (ig), islandzki (is), jawajski (jv), gruziński (ka), kazachski (kk), khmerski (km), kannada (kn), krio (kri), kurdyjski (ku), kirgiski (ky), łacina (la), birmański (my), nepalski (ne), nyanja (Chichewa) (ny), orija (Oriya) (or), pendżabski (pa), paszto (ps), sindhi (sd), sinhala (sinhalese) (si), samoański (sm), shona (sn), somali (so), albański (sq), sesotho (st), tamilski (ta), telugu (te), tadżycki (tg), ujgurski (ug), urdu (ur), uzbecki (uz), xhosa (xh), jidysz (yi), joruba (yo), zulu (zu)
Imagen
Ogólna dostępność: angielski
Podgląd: chiński (uproszczony), chiński (tradycyjny), hindi, japoński, koreański, portugalski, hiszpański
Informacje o starszych modelach
Vertex AI in Firebase obsługuje wszystkie modele Gemini, w tym starsze modele, takie jak Gemini 1.0 Pro i Gemini 1.0 Pro Vision. Zdecydowanie zalecamy jednak używanie nowszego modelu z pakietami SDK. Te starsze modele Gemini zbliżają się do daty wycofania z użycia i nie oferują wszystkich funkcji nowszych modeli.
Vertex AI in Firebase obsługuje tylko modele Imagen 3. Nie obsługuje on starszych modeli Imagen (takich jak Imagen 2).
Wyświetlanie obsługiwanych danych wejściowych i wyjściowych starszych modeli
Oto typy danych wejściowych i wyjściowych w przypadku każdego modelu z użyciem funkcji Vertex AI in Firebase:
Gemini 1.0 Pro Vision | Gemini 1.0 Pro | |||
---|---|---|---|---|
Typy danych wejściowych | ||||
Tekst | ||||
Kod | ||||
Dokumenty (pliki PDF lub tekst) | ||||
Obraz | ||||
Film (tylko klatki) | ||||
Wideo (klatki + dźwięk) | ||||
Audio | ||||
Typy danych wyjściowych | ||||
Tekst | ||||
Kod | ||||
obrazy, filmy i dźwięk; |
Obsługiwane funkcje i możliwości starszych modeli
Oto możliwości i funkcje dostępne podczas korzystania z każdego modelu z użyciem Vertex AI in Firebase:
Gemini 1.0 Pro Vision | Gemini 1.0 Pro | ||
---|---|---|---|
Generowanie tekstu na podstawie tylko tekstu | |||
Generowanie tekstu na podstawie danych multimodalnych | |||
generować obrazy, filmy lub pliki audio; | |||
Generowanie uporządkowanego wyjścia (np. w formacie JSON) za pomocą schematu odpowiedzi | |||
Czat wieloetapowy | |||
Wywoływanie funkcji (narzędzia) | |||
Podstawowe wywoływanie funkcji | |||
Równoległe wywoływanie funkcji | |||
Tryb wywoływania funkcji | |||
Liczenie tokenów i znaków podlegających rozliczeniu | |||
Instrukcje dotyczące systemu |
Specyfikacje i ograniczenia starszych modeli
Oto specyfikacje i ograniczenia każdego modelu w przypadku Vertex AI in Firebase:
Właściwość | Gemini 1.0 Pro Vision | Gemini 1.0 Pro |
---|---|---|
Okno kontekstu * Łączny limit tokenów (łączny limit wejścia i wyjścia) |
16 384 tokenów | 32 760 tokenów |
Limit tokenów wyjściowych * | 2048 tokenów | 8192 tokenów |
Data odcięcia | Luty 2023 r. | Luty 2023 r. |
pliki PDF (na żądanie), | ||
Maksymalna liczba plików PDF wejściowych ** | 16 plików | --- |
Maksymalna liczba stron na plik PDF wejściowy ** | 16 stron | --- |
Maksymalny rozmiar pliku PDF wejściowego | 50 MB | --- |
Obrazy (na żądanie) | ||
Maksymalna liczba obrazów wejściowych | 16 obrazów | --- |
Maksymalny rozmiar zakodowanego w formacie Base64 obrazu wejściowego | 7 MB | --- |
Film (na żądanie) | ||
Maksymalna liczba plików wideo wejściowych | 1 plik | --- |
Maksymalna długość wszystkich filmów wejściowych (tylko ramki) | 2 minuty | --- |
Maksymalna długość wszystkich filmów wejściowych (ramki + dźwięk) | --- | --- |
Dźwięk (z uwzględnieniem żądań) | ||
Maksymalna liczba wejściowych plików audio | --- | --- |
Maksymalna długość wszystkich plików audio wejściowych | --- | --- |
*W przypadku wszystkich modeli Gemini 1 token odpowiada około 4 znakom, a 100 tokenów to około 60–80 słów w języku angielskim. W przypadku modeli Gemini możesz określić łączną liczbę tokenów w żądaniach za pomocą parametru countTokens
.
** Pliki PDF są traktowane jako obrazy, więc pojedyncza strona pliku PDF jest traktowana jako jeden obraz. Liczba stron dozwolonych w żądaniu jest ograniczona do liczby obrazów, które może obsługiwać model.
Dostępne nazwy starszych modeli
Gemini 1.0 Pro Vision nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-vision-001 |
najnowsza stabilna wersja aplikacji Gemini 1.0 Pro Vision, | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 2025-02-15 |
Stały alias aktualizowany automatycznie | ||||
gemini-1.0-pro-vision |
Wskazuje najnowszą stabilną wersję 1.5 Pro Vision (obecnie gemini-1.5-pro-vision-001 |
Ogólna dostępność | 2024-01-04 | --- |
Gemini 1.0 Pro nazwy modeli
Nazwa modelu | Opis | Etap udostępniania | Data pierwszego wydania | Data zaprzestania |
---|---|---|---|---|
Wersje stabilne | ||||
gemini-1.0-pro-002 |
najnowsza stabilna wersja aplikacji Gemini 1.0 Pro, | Ogólna dostępność | 2024-04-09 | Nie wcześniej niż 9.04.2025 |
gemini-1.0-pro-001 |
Stabilna wersja Gemini 1.0 Pro | Ogólna dostępność | 2024-02-15 | Nie wcześniej niż 2025-02-15 |
Stały alias aktualizowany automatycznie | ||||
gemini-1.0-pro |
Wskazuje najnowszą stabilną wersję 1.0 Pro (obecnie gemini-1.0-pro-002 |
Ogólna dostępność | 2024-02-15 | --- |
Dalsze kroki
Wypróbuj możliwości Gemini API
- tworzyć rozmowy wieloetapowe (czat);
- generować tekst na podstawie promptów tekstowych,
- generować tekst na podstawie promptów multimodalnych (w tym tekst, obrazy, pliki PDF, filmy i pliki audio).
- generować dane wyjściowe w uporządkowanym formacie (np. JSON) na podstawie zarówno tekstowych, jak i wielomodalnych promptów;
- Użyj funkcji wywoływania, aby połączyć modele generatywne z zewnętrznymi systemami i informacjami.