Cada chamada que você envia a um modelo inclui valores de parâmetros que controlam como o modelo gera uma resposta. O modelo pode gerar diferentes resultados para diferentes valores de parâmetros. Teste diferentes valores de parâmetros para conseguir os melhores valores para a tarefa. Os parâmetros disponíveis para modelos diferentes podem ser diferentes.
A configuração é mantida durante o ciclo de vida da instância de modelo e serviço da Vertex AI inicializada. Para atualizar a configuração do modelo, a instância dele precisa ser reinicializada.
Mais adiante nesta página, você aprenderá a configurar parâmetros do modelo.
Descrição de cada parâmetro
Os parâmetros mais comuns são:
- Máximo de tokens de saída
- Temperatura
- Top-K (link em inglês)
- Top-P (link em inglês)
Saiba mais sobre cada um desses parâmetros nas próximas seções desta página.
Máximo de tokens de saída
Número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a aproximadamente 20 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas mais longas.
Temperatura
A temperatura é usada para amostragem durante a geração da resposta, que ocorre quando topP
e topK
são aplicados. A temperatura controla o grau de aleatoriedade na seleção do token. Temperaturas mais baixas são boas para comandos que exigem uma resposta mais determinista
e menos aberta
ou criativa, enquanto temperaturas maiores podem levar a resultados mais diversos ou
criativos. Uma temperatura de 0
é determinista, o que significa que a
resposta de maior probabilidade é sempre selecionada.
Na maioria dos casos de uso, é melhor começar com a temperatura 0.2
. Se o modelo retornar uma resposta muito genérica, muito curta ou se o modelo fornecer uma resposta substituta, tente aumentar a temperatura.
Top-K
O top-k muda a forma como o modelo seleciona tokens para saída. Um top-K de
1
significa que o próximo token selecionado é o mais provável entre todos
os tokens no vocabulário do modelo (também chamado de decodificação gananciosa), enquanto um top-K de
3
significa que o próximo token está selecionado entre os três tokens mais
prováveis usando a temperatura.
Para cada etapa da seleção de tokens, são amostrados os tokens top-K com as maiores probabilidades. Em seguida, os tokens são filtrados com base no valor de top-P com o token final selecionado por meio da amostragem de temperatura.
Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas
mais aleatórias. O top-K padrão é 40
.
Top-P
O top-p muda a forma como o modelo seleciona tokens para saída. Os tokens são selecionados
do mais provável (veja o top-K) para o menos provável até que a soma das probabilidades
seja igual ao valor do top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,3, 0,2 e 0,1 e o valor de top-P for 0.5
, o modelo selecionará A ou B como token seguinte usando temperatura e exclui C como
candidato.
Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas
mais aleatórias. O top-P padrão é 0.95
.