Gerar imagens usando o Imagen


Os SDKs Vertex AI in Firebase dão acesso aos modelos Imagen 3 (pelo Imagen API) para que você possa gerar imagens de um comando de texto. Com esse recurso, é possível:

  • Gerar imagens com base em comandos escritos em linguagem natural
  • Gerar imagens em vários formatos e estilos
  • Renderizar texto em imagens

O Vertex AI in Firebase ainda não oferece suporte a todos os recursos disponíveis para os modelos Imagen. Saiba mais em Capacidades e recursos compatíveis mais adiante nesta página.

Ir para o código de entrada somente de texto

Antes de começar

Conclua o guia para iniciantes, se ainda não tiver feito isso. Isso inclui configurar seu projeto do Firebase, conectar seu app ao Firebase, adicionar o SDK e inicializar o serviço Vertex AI. Essas são todas as tarefas necessárias antes de enviar uma solicitação de solicitação para um modelo Imagen usando os SDKs Vertex AI in Firebase.

Para gerar imagens usando modelos Imagen:

  • Verifique se você está usando pelo menos estas versões da biblioteca do Firebase:
    iOS+: v11.9.1+ | Android: v16.2.0+ (BoM: v33.10.0+) | Web: v11.4.1+ | Flutter: v1.4.0+ (BoM: v3.8.0+)

  • Inicializar um ImagenModel (não um GenerativeModel)

  • Envie a solicitação em uma chamada para generateImages() (não para generateContent() ou generateContentStream())

Essa inicialização de um ImagenModel e o uso de generateImages() são mostrados nos exemplos desta página.

Modelos compatíveis com esse recurso

A geração de imagens é compatível com os modelos Imagen 3. A geração de imagens por modelos Gemini 2.0 vai ser compatível em breve.

Gerar imagens com base em entradas somente de texto

É possível pedir para um modelo Imagen gerar imagens usando um comando com texto. É possível gerar uma imagem ou várias imagens.

Gerar uma imagem com base em uma entrada somente de texto

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

É possível pedir que um modelo Imagen gere uma única imagem solicitando com texto.

Saiba como escolher um modelo e, opcionalmente, um local adequado para seu caso de uso e app.

Gerar várias imagens com base em uma entrada somente de texto

Conclua a seção Antes de começar deste guia antes de testar este exemplo.

Por padrão, os modelos Imagen 3 geram apenas uma imagem por solicitação. No entanto, é possível pedir que um modelo Imagen gere várias imagens por solicitação fornecendo um generationConfig durante a inicialização do modelo.

Saiba como escolher um modelo e, opcionalmente, um local adequado para seu caso de uso e app.

Recursos e requisitos compatíveis

Os modelos Imagen 3 oferecem muitos recursos relacionados à geração de imagens. Esta seção descreve o que é compatível ao usar os modelos com Vertex AI in Firebase.

Recursos e recursos compatíveis

Vertex AI in Firebase oferece suporte a esses recursos dos modelos Imagen 3.

Vertex AI in Firebase não oferece suporte a esses recursos avançados dos modelos Imagen 3.

A maioria desses recursos exige que você esteja em uma lista de usuários aprovados, mesmo ao usar modelos Imagen do lado do servidor.

  • Recursos de edição ou manipulação de imagens, incluindo o aumento de imagens

  • Incluir imagens na solicitação para o modelo (como para o aprendizado de few-shot)

  • Como verificar marcas d'água digitais usando os SDKs
    Para verificar se uma imagem tem uma marca d'água, faça upload dela no Vertex AI Studio usando a guia Mídia.

  • Geração de "imagens ao vivo" com base em texto (geração de MP4)

  • Gerar imagens usando um estilo predefinido

  • Definir o idioma do texto de entrada

  • Ativar includeSafetyAttributes, o que significa que safetyAttributes.categories e safetyAttributes.scores não podem ser retornados

  • Desativação do aprimoramento de comando (o parâmetro enhancePrompt), o que significa que uma ferramenta de reescrita de comando baseada em LLM sempre vai adicionar automaticamente mais detalhes ao comando fornecido para fornecer imagens de maior qualidade que reflitam melhor o comando fornecido.

  • Gravar uma imagem gerada diretamente em Google Cloud Storage como parte da resposta do modelo (o parâmetro storageUri). Em vez disso, as imagens são sempre retornadas como bytes de imagem codificados em base64 na resposta.
    Se você quiser fazer upload de uma imagem gerada para Cloud Storage, use Cloud Storage for Firebase.

Especificações e limitações

Limites (por solicitação) Imagem 3 Imagen 3 Fast
Número máximo de tokens de entrada 480 tokens 480 tokens
Número máximo de imagens de saída 4 imagens 4 imagens
Resoluções de imagem de saída compatíveis (pixels)
  • 1024x1024 pixels (proporção de 1:1)
  • 896x1280 (proporção de 3:4)
  • 1280x896 (proporção de 4:3)
  • 768x1408 (proporção de 9:16)
  • 1408x768 (proporção de 16:9)
  • 1024x1024 pixels (proporção de 1:1)
  • 896x1280 (proporção de 3:4)
  • 1280x896 (proporção de 4:3)
  • 768x1408 (proporção de 9:16)
  • 1408x768 (proporção de 16:9)

O que mais você pode fazer?

Saiba como controlar a geração de conteúdo

Saiba mais sobre os modelos compatíveis

Saiba mais sobre os modelos disponíveis para vários casos de uso e as cotas e o preço.


Enviar feedback sobre sua experiência com o Vertex AI in Firebase