Każde wywołanie wysłane do modelu zawiera wartości parametrów, które określają, jak model wygeneruje odpowiedź. Model może generować różne wyniki w zależności od wartości parametrów. Eksperymentuj z różnymi wartościami parametrów, aby uzyskać najlepsze wartości do danego zadania. Parametry dostępne dla różnych modeli mogą się różnić.
Konfiguracja jest przechowywana przez cały okres zainicjowanej instancji usługi i modelu Vertex AI. Aby zaktualizować konfigurację modelu, musisz ponownie zainicjować instancję modelu.
W dalszej części tej strony dowiesz się, jak skonfigurować parametry modelu.
Opis każdego parametru
Najczęściej używane parametry to:
Więcej informacji o każdym z tych parametrów znajdziesz w kolejnych sekcjach tej strony.
Maksymalna liczba tokenów wyjściowych
Maksymalna liczba tokenów, które można wygenerować w odpowiedzi. Token ma około 4 znaków. 100 tokenów odpowiada około 20 słowom.
Jeśli chcesz uzyskiwać krótsze odpowiedzi, podaj niższą wartość, a jeśli dłuższe – wyższą.
Temperatura
Temperatura jest używana do próbkowania podczas generowania odpowiedzi, gdy stosujesz wartości topP
i topK
. Temperatura decyduje o stopniu losowości
wyboru tokenów. Niższe temperatury są przydatne w przypadku promptów, które wymagają bardziej deterministycznej i mniej otwartej lub kreatywnej odpowiedzi, a wyższe mogą prowadzić do bardziej różnorodnych lub kreatywnych wyników. Temperatura 0
jest deterministyczna, co oznacza, że zawsze wybierana jest odpowiedź o najwyższym prawdopodobieństwie.
W większości przypadków dobrze jest zacząć od temperatury 0.2
. Jeśli model zwróci zbyt ogólną lub krótką odpowiedź, albo odpowiedź zastępczą, spróbuj zwiększyć temperaturę.
Top-K
Parametr Top-K zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Górne K o wartości 1
oznacza, że następny wybrany token jest najbardziej prawdopodobny spośród wszystkich tokenów w słowniku modelu (jest to też nazywane dekodowaniem zachłannym), natomiast górne K o wartości 3
oznacza, że następny token jest wybierany z użyciem temperatury spośród 3 najbardziej prawdopodobnych.
Na każdym etapie wyboru tokena próbkowane są tokeny górnego K o największym prawdopodobieństwie. Tokeny są następnie filtrowane na podstawie górnego P, a ostateczny wybór tokena dokonywany jest przy użyciu próbkowania z użyciem temperatury.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego K to 40
.
Top-P
Parametr Top-P również zmienia sposób, w jaki model wybiera tokeny w celu wygenerowania odpowiedzi. Tokeny są wybierane od najbardziej (patrz górne K) do najmniej prawdopodobnych, aż suma ich prawdopodobieństw będzie równa wartości górnego P. Jeśli na przykład tokeny A, B i C mają prawdopodobieństwo 0,3, 0,2 i 0,1, a wartością górnego P jest 0.5
, jako kolejny token model wybierze A lub B, używając temperatury, a jako kandydata wykluczy C.
Jeśli chcesz uzyskiwać mniej losowe odpowiedzi, podaj niższą wartość, a jeśli bardziej – wyższą. Wartość domyślna parametru górnego P to 0.95
.