Gemini 3 Pro, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Эта страница переведена с помощью Cloud Translation API.

Генерируйте изображения с помощью Imagen

SDK Firebase AI Logic предоставляют доступ к моделям Imagen (через Imagen API ), позволяя генерировать изображения на основе текстового запроса. Благодаря этой возможности вы можете делать, например:

Генерируйте изображения на основе подсказок, написанных на естественном языке.
Создавайте изображения в самых разнообразных форматах и стилях.
Отображение текста на изображениях

В этом руководстве описано, как создавать изображения с помощью Imagen , используя только текстовую подсказку.

Однако следует отметить, что Imagen также может генерировать изображения на основе эталонного изображения, используя свои возможности настройки (в настоящее время только для Android и Flutter). В запросе вы указываете текстовую подсказку и эталонное изображение, которые направляют модель на создание нового изображения на основе указанного стиля, темы (например, продукт, человек или животное) или элемента управления. Например, вы можете сгенерировать новое изображение из фотографии кошки или рисунка ракеты и Луны.

Перейти к коду для ввода только текста

Выбор между моделями Gemini и Imagen.

SDK Firebase AI Logic поддерживают генерацию и редактирование изображений с использованием модели Gemini или модели Imagen .

В большинстве случаев начните с Gemini , а Imagen используйте только для специализированных задач, где качество изображения имеет решающее значение.

Выбирайте Близнецов , когда захотите:

Использовать знания об окружающем мире и логические рассуждения для создания контекстно релевантных изображений.
Для плавного сочетания текста и изображений или для чередования текста и изображений.
Встраивать качественные визуальные элементы в длинные текстовые последовательности.
Редактировать изображения в разговорном стиле, сохраняя при этом контекст.

Выбирайте Imagen , когда вам это удобно:

Приоритетными являются качество изображения, фотореализм, художественная детализация или определенные стили (например, импрессионизм или аниме).
Внедрение фирменного стиля, дизайна или разработка логотипов и дизайна продукции.
Для явного указания соотношения сторон или формата генерируемых изображений.

Прежде чем начать

Чтобы просмотреть контент и код, относящиеся к вашему поставщику API Gemini , нажмите на него.

Если вы еще этого не сделали, пройдите руководство по началу работы , в котором описано, как настроить проект Firebase, подключить приложение к Firebase, добавить SDK, инициализировать бэкэнд-сервис для выбранного вами поставщика API и создать экземпляр ImagenModel .

Модели, поддерживающие эту возможность

API для разработчиков Gemini поддерживает генерацию изображений с использованием последних стабильных моделей Imagen . Это ограничение на поддерживаемые модели Imagen действует независимо от способа доступа к API для разработчиков Gemini .

imagen-4.0-generate-001
imagen-4.0-fast-generate-001
imagen-4.0-ultra-generate-001
imagen-3.0-generate-002

Создание изображений на основе текстового ввода.

Вы можете попросить модель Imagen сгенерировать изображения, введя в качестве запроса только текст. Вы можете сгенерировать одно изображение или несколько изображений .

Вы также можете задать множество различных параметров конфигурации для генерации изображений , таких как соотношение сторон и формат изображения.

Сгенерировать одно изображение из текстового ввода.

Прежде чем опробовать этот пример, выполните раздел «Перед началом работы » этого руководства, чтобы настроить свой проект и приложение.
В этом разделе вам также нужно будет нажать кнопку для выбранного вами поставщика API Gemini , чтобы увидеть на этой странице контент, относящийся к данному поставщику .

Вы можете попросить модель Imagen сгенерировать одно изображение, просто введя текстовый запрос.

Обязательно создайте экземпляр ImagenModel и вызовите generateImages .

Быстрый


import FirebaseAILogic

// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())

// Create an `ImagenModel` instance with a model that supports your use case
let model = ai.imagenModel(modelName: "imagen-4.0-generate-001")

// Provide an image generation prompt
let prompt = "An astronaut riding a horse"

// To generate an image, call `generateImages` with the text prompt
let response = try await model.generateImages(prompt: prompt)

// Handle the generated image
guard let image = response.images.first else {
  fatalError("No image in the response.")
}
let uiImage = UIImage(data: image.data)

Kotlin


suspend fun generateImage() {
  // Initialize the Gemini Developer API backend service
  val ai = Firebase.ai(backend = GenerativeBackend.googleAI())

  // Create an `ImagenModel` instance with an Imagen model that supports your use case
  val model = ai.imagenModel("imagen-4.0-generate-001")

  // Provide an image generation prompt
  val prompt = "An astronaut riding a horse"

  // To generate an image, call `generateImages` with the text prompt
  val imageResponse = model.generateImages(prompt)

  // Handle the generated image
  val image = imageResponse.images.first()

  val bitmapImage = image.asBitmap()
}

Java


// Initialize the Gemini Developer API backend service
// Create an `ImagenModel` instance with an Imagen model that supports your use case
ImagenModel imagenModel = FirebaseAI.getInstance(GenerativeBackend.googleAI())
        .imagenModel(
                /* modelName */ "imagen-4.0-generate-001");

ImagenModelFutures model = ImagenModelFutures.from(imagenModel);

// Provide an image generation prompt
String prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
Futures.addCallback(model.generateImages(prompt), new FutureCallback<ImagenGenerationResponse<ImagenInlineImage>>() {
    @Override
    public void onSuccess(ImagenGenerationResponse<ImagenInlineImage> result) {
        if (result.getImages().isEmpty()) {
            Log.d("TAG", "No images generated");
        }
        Bitmap bitmap = result.getImages().get(0).asBitmap();
        // Use the bitmap to display the image in your UI
    }

    @Override
    public void onFailure(Throwable t) {
        // ...
    }
}, Executors.newSingleThreadExecutor());

Web


import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";

// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
  // ...
};

// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);

// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

// Create an `ImagenModel` instance with an Imagen model that supports your use case
const model = getImagenModel(ai, { model: "imagen-4.0-generate-001" });

// Provide an image generation prompt
const prompt = "An astronaut riding a horse.";

// To generate an image, call `generateImages` with the text prompt
const response = await model.generateImages(prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason) {
  console.log(response.filteredReason);
}

if (response.images.length == 0) {
  throw new Error("No images in the response.")
}

const image = response.images[0];

Dart

import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Gemini Developer API backend service
final model = FirebaseAI.googleAI();

// Create an `ImagenModel` instance with an Imagen model that supports your use case
final model = ai.imagenModel(model: 'imagen-4.0-generate-001');

// Provide an image generation prompt
const prompt = 'An astronaut riding a horse.';

// To generate an image, call `generateImages` with the text prompt
final response = await model.generateImages(prompt);

if (response.images.isNotEmpty) {
  final image = response.images[0];
  // Process the image
} else {
  // Handle the case where no images were generated
  print('Error: No images were generated.');
}

Единство


using Firebase.AI;

// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());

// Create an `ImagenModel` instance with a model that supports your use case
var model = ai.GetImagenModel(modelName: "imagen-4.0-generate-001");

// Provide an image generation prompt
var prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
var response = await model.GenerateImagesAsync(prompt: prompt);

// Handle the generated image
if (response.Images.Count == 0) {
  throw new Exception("No image in the response.");
}
var image = response.Images[0].AsTexture2D();

Узнайте, как выбрать модель.подходит для вашего сценария использования и приложения.

Создание нескольких изображений на основе текстового ввода.

По умолчанию модели Imagen генерируют только одно изображение за запрос. Однако вы можете указать модели Imagen генерировать несколько изображений за запрос, указав ImagenGenerationConfig при создании экземпляра ImagenModel .

Обязательно создайте экземпляр ImagenModel и вызовите generateImages .

Быстрый


import FirebaseAILogic

// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())

// Create an `ImagenModel` instance with a model that supports your use case
let model = ai.imagenModel(
  modelName: "imagen-4.0-generate-001",
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: ImagenGenerationConfig(numberOfImages: 4)
)

// Provide an image generation prompt
let prompt = "An astronaut riding a horse"

// To generate images, call `generateImages` with the text prompt
let response = try await model.generateImages(prompt: prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if let filteredReason = response.filteredReason {
  print(filteredReason)
}

// Handle the generated images
let uiImages =  response.images.compactMap { UIImage(data: $0.data) }

Kotlin


suspend fun generateImage() {
  // Initialize the Gemini Developer API backend service
  val ai = Firebase.ai(backend = GenerativeBackend.googleAI())

  // Create an `ImagenModel` instance with an Imagen model that supports your use case
  val model = ai.imagenModel(
    modelName = "imagen-4.0-generate-001",
    // Configure the model to generate multiple images for each request
    // See: https://firebase.google.com/docs/ai-logic/model-parameters
    generationConfig = ImagenGenerationConfig(numberOfImages = 4)
  )

  // Provide an image generation prompt
  val prompt = "An astronaut riding a horse"

  // To generate images, call `generateImages` with the text prompt
  val imageResponse = model.generateImages(prompt)

  // If fewer images were generated than were requested,
  // then `filteredReason` will describe the reason they were filtered out
  if (imageResponse.filteredReason != null) {
    Log.d(TAG, "FilteredReason: ${imageResponse.filteredReason}")
  }

  for (image in imageResponse.images) {
    val bitmap = image.asBitmap()
    // Use the bitmap to display the image in your UI
  }
}

Java


// Configure the model to generate multiple images for each request
// See: https://firebase.google.com/docs/ai-logic/model-parameters
ImagenGenerationConfig imagenGenerationConfig = new ImagenGenerationConfig.Builder()
        .setNumberOfImages(4)
        .build();

// Initialize the Gemini Developer API backend service
// Create an `ImagenModel` instance with an Imagen model that supports your use case
ImagenModel imagenModel = FirebaseAI.getInstance(GenerativeBackend.googleAI())
        .imagenModel(
                /* modelName */ "imagen-4.0-generate-001",
                /* imageGenerationConfig */ imagenGenerationConfig);

ImagenModelFutures model = ImagenModelFutures.from(imagenModel);

// Provide an image generation prompt
String prompt = "An astronaut riding a horse";

// To generate images, call `generateImages` with the text prompt
Futures.addCallback(model.generateImages(prompt), new FutureCallback<ImagenGenerationResponse<ImagenInlineImage>>() {
    @Override
    public void onSuccess(ImagenGenerationResponse<ImagenInlineImage> result) {
        // If fewer images were generated than were requested,
        // then `filteredReason` will describe the reason they were filtered out
        if (result.getFilteredReason() != null){
            Log.d("TAG", "FilteredReason: " + result.getFilteredReason());
        }

        // Handle the generated images
        List<ImagenInlineImage> images = result.getImages();
        for (ImagenInlineImage image : images) {
            Bitmap bitmap = image.asBitmap();
            // Use the bitmap to display the image in your UI
        }
    }

    @Override
    public void onFailure(Throwable t) {
        // ...
    }
}, Executors.newSingleThreadExecutor());

Web


import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";

// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
  // ...
};

// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);

// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

// Create an `ImagenModel` instance with an Imagen model that supports your use case
const model = getImagenModel(
  ai,
  {
    model: "imagen-4.0-generate-001",
    // Configure the model to generate multiple images for each request
    // See: https://firebase.google.com/docs/ai-logic/model-parameters
    generationConfig: {
      numberOfImages: 4
    }
  }
);

// Provide an image generation prompt
const prompt = "An astronaut riding a horse.";

// To generate images, call `generateImages` with the text prompt
const response = await model.generateImages(prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason) {
  console.log(response.filteredReason);
}

if (response.images.length == 0) {
  throw new Error("No images in the response.")
}

const images = response.images[0];

Dart

import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Gemini Developer API backend service
final ai = FirebaseAI.googleAI();

// Create an `ImagenModel` instance with an Imagen model that supports your use case
final model = ai.imagenModel(
  model: 'imagen-4.0-generate-001',
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: ImagenGenerationConfig(numberOfImages: 4),
);

// Provide an image generation prompt
const prompt = 'An astronaut riding a horse.';

// To generate images, call `generateImages` with the text prompt
final response = await model.generateImages(prompt);

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason != null) {
  print(response.filteredReason);
}

if (response.images.isNotEmpty) {
  final images = response.images;
  for(var image in images) {
  // Process the image
  }
} else {
  // Handle the case where no images were generated
  print('Error: No images were generated.');
}

Единство


using Firebase.AI;

// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());

// Create an `ImagenModel` instance with a model that supports your use case
var model = ai.GetImagenModel(
  modelName: "imagen-4.0-generate-001",
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: new ImagenGenerationConfig(numberOfImages: 4)
);

// Provide an image generation prompt
var prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
var response = await model.GenerateImagesAsync(prompt: prompt);

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (!string.IsNullOrEmpty(response.FilteredReason)) {
  UnityEngine.Debug.Log("Filtered reason: " + response.FilteredReason);
}

// Handle the generated images
var images = response.Images.Select(image => image.AsTexture2D());

Узнайте, как выбрать модель.подходит для вашего сценария использования и приложения.

Поддерживаемые функции и требования

Модели Imagen предлагают множество функций, связанных с генерацией изображений. В этом разделе описывается, что поддерживается при использовании моделей с Firebase AI Logic .

Поддерживаемые возможности и функции

Firebase AI Logic поддерживает следующие функции моделей Imagen :

Генерация людей, лиц и текста внутри сгенерированных изображений.
Редактирование изображений или включение изображений в запрос при использовании API Vertex AI Gemini (в настоящее время только для Android и Flutter)
Добавление водяного знака к сгенерированным изображениям
Проверка цифровых водяных знаков при использовании API Vertex AI Gemini
Чтобы убедиться в наличии водяного знака на изображении, вы можете загрузить его в Vertex AI Studio, используя вкладку «Медиа» .
Настройка параметров генерации изображений , таких как количество генерируемых изображений, соотношение сторон и добавление водяных знаков.
Настройка параметров безопасности

Firebase AI Logic не поддерживает следующие расширенные функции моделей Imagen :

Установка языка ввода текста
Отключение функции перезаписи подсказок (параметр enhancePrompt ). Это означает, что инструмент перезаписи подсказок на основе LLM всегда будет автоматически добавлять больше деталей к предоставленной подсказке, чтобы обеспечить более высокое качество изображений, лучше отражающих предоставленную подсказку.
Запись сгенерированного изображения непосредственно в Google Cloud Storage в составе ответа от модели (параметр storageUri ). Вместо этого изображения всегда возвращаются в ответе в виде байтов изображения, закодированных в base64.
Если вы хотите загрузить сгенерированное изображение в Cloud Storage , вы можете использовать Cloud Storage for Firebase .

Технические характеристики и ограничения

Объект недвижимости (по запросу)	Ценить
Максимальное количество входных токенов	480 токенов
Максимальное количество выходных изображений	4 изображения
Поддерживаемые разрешения выходного изображения (в пикселях)	1024x1024 пикселей (соотношение сторон 1:1) 896x1280 (соотношение сторон 3:4) 1280x896 (соотношение сторон 4:3) 768x1408 (соотношение сторон 9:16) 1408x768 (соотношение сторон 16:9)

Что еще можно сделать?

Начните думать о подготовке к производству (см. контрольный список для производства ), включая:
- Настройка Firebase App Check для защиты API Gemini от неправомерного использования неавторизованными клиентами.
- Интеграция Firebase Remote Config для обновления значений в вашем приложении (например, имени модели) без выпуска новой версии приложения.

Узнайте, как управлять генерацией контента.

Разберитесь в разработке подсказок для заданий , включая лучшие практики, стратегии и примеры подсказок.
Настройте параметры модели Imagen , такие как соотношение сторон, генерация изображений людей и добавление водяных знаков.
Используйте настройки безопасности , чтобы скорректировать вероятность получения ответов, которые могут быть сочтены вредными.

Узнайте больше о поддерживаемых моделях

Узнайте о моделях, доступных для различных вариантов использования , а также об их квотах и ценах .

Оставьте отзыв о вашем опыте использования Firebase AI Logic.

Генерируйте изображения с помощью Imagen Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Выбор между моделями Gemini и Imagen.

Прежде чем начать

Модели, поддерживающие эту возможность

Создание изображений на основе текстового ввода.

Сгенерировать одно изображение из текстового ввода.

Быстрый

Kotlin

Java

Web

Dart

Единство

Создание нескольких изображений на основе текстового ввода.

Быстрый

Kotlin

Java

Web

Dart

Единство

Поддерживаемые функции и требования

Поддерживаемые возможности и функции

Технические характеристики и ограничения

Что еще можно сделать?

Узнайте, как управлять генерацией контента.

Узнайте больше о поддерживаемых моделях

Генерируйте изображения с помощью Imagen