Gemini 3 Pro & Flash, Gemini 3 Pro Image (nano banana pro), and the latest Gemini Live API native audio models are now available to use with Firebase AI Logic on all platforms!

Trang này được dịch bởi Cloud Translation API.

Tạo hình ảnh bằng Imagen

Các SDK Firebase AI Logic cho phép bạn truy cập vào các mô hình Imagen (thông qua Imagen API) để có thể tạo hình ảnh từ một câu lệnh bằng văn bản. Với tính năng này, bạn có thể làm những việc như:

Tạo hình ảnh từ câu lệnh được viết bằng ngôn ngữ tự nhiên
Tạo hình ảnh ở nhiều định dạng và phong cách
Kết xuất văn bản trong hình ảnh

Hướng dẫn này mô tả cách tạo hình ảnh bằng Imagen chỉ bằng cách cung cấp một câu lệnh dạng văn bản.

Tuy nhiên, lưu ý rằng Imagen cũng có thể tạo hình ảnh dựa trên hình ảnh tham chiếu bằng cách sử dụng khả năng tuỳ chỉnh (hiện chỉ dành cho Android và Flutter). Trong yêu cầu, bạn cung cấp một câu lệnh bằng văn bản và một hình ảnh tham khảo để hướng dẫn mô hình tạo một hình ảnh mới dựa trên kiểu, chủ đề (chẳng hạn như sản phẩm, người hoặc động vật) hoặc chế độ kiểm soát được chỉ định. Ví dụ: bạn có thể tạo một hình ảnh mới từ ảnh chụp một con mèo hoặc bức vẽ một tên lửa và mặt trăng.

Chuyển đến mã cho chế độ nhập chỉ bằng văn bản

Lựa chọn giữa các mô hình Gemini và Imagen

Các SDK Firebase AI Logic hỗ trợ việc tạo và chỉnh sửa hình ảnh bằng mô hình Gemini hoặc mô hình Imagen.

Đối với hầu hết các trường hợp sử dụng, hãy bắt đầu bằng Gemini, sau đó chỉ chọn Imagen cho các tác vụ chuyên biệt mà chất lượng hình ảnh là yếu tố quan trọng.

Chọn Gemini khi bạn muốn:

Để sử dụng kiến thức và khả năng suy luận về thế giới nhằm tạo ra những hình ảnh phù hợp với bối cảnh.
Để kết hợp liền mạch văn bản và hình ảnh hoặc để xen kẽ văn bản và hình ảnh đầu ra.
Để nhúng hình ảnh chính xác vào các chuỗi văn bản dài.
Để chỉnh sửa hình ảnh theo cách đàm thoại trong khi vẫn duy trì ngữ cảnh.

Chọn Imagen khi bạn muốn:

Để ưu tiên chất lượng hình ảnh, độ chân thực, chi tiết nghệ thuật hoặc phong cách cụ thể (ví dụ: trường phái ấn tượng hoặc anime).
Để truyền tải thương hiệu, phong cách hoặc tạo biểu trưng và thiết kế sản phẩm.
Để chỉ định rõ tỷ lệ khung hình hoặc định dạng của hình ảnh được tạo.

Trước khi bắt đầu

Nhấp vào nhà cung cấp Gemini API để xem nội dung và mã dành riêng cho nhà cung cấp trên trang này.

Nếu bạn chưa thực hiện, hãy hoàn tất hướng dẫn bắt đầu sử dụng. Hướng dẫn này mô tả cách thiết lập dự án Firebase, kết nối ứng dụng với Firebase, thêm SDK, khởi chạy dịch vụ phụ trợ cho nhà cung cấp API mà bạn chọn và tạo một thực thể ImagenModel.

Các mô hình hỗ trợ tính năng này

Gemini Developer API hỗ trợ tạo hình ảnh bằng các mô hình Imagen ổn định mới nhất. Giới hạn này đối với các mô hình Imagen được hỗ trợ sẽ áp dụng bất kể bạn truy cập vào Gemini Developer API bằng cách nào.

imagen-4.0-generate-001
imagen-4.0-fast-generate-001
imagen-4.0-ultra-generate-001
imagen-3.0-generate-002

Tạo hình ảnh từ dữ liệu đầu vào chỉ có văn bản

Bạn có thể yêu cầu mô hình Imagen tạo hình ảnh bằng cách chỉ đưa ra câu lệnh bằng văn bản. Bạn có thể tạo một hình ảnh hoặc nhiều hình ảnh.

Bạn cũng có thể thiết lập nhiều lựa chọn cấu hình khác nhau để tạo hình ảnh, chẳng hạn như tỷ lệ khung hình và định dạng hình ảnh.

Tạo một hình ảnh từ dữ liệu đầu vào chỉ có văn bản

Trước khi dùng thử mẫu này, hãy hoàn tất phần Trước khi bắt đầu của hướng dẫn này để thiết lập dự án và ứng dụng của bạn.
Trong phần đó, bạn cũng sẽ nhấp vào một nút cho nhà cung cấp Gemini API mà bạn chọn để xem nội dung dành riêng cho nhà cung cấp trên trang này.

Bạn có thể yêu cầu mô hình Imagen tạo một hình ảnh duy nhất bằng cách chỉ đưa ra câu lệnh bằng văn bản.

Hãy nhớ tạo một phiên bản ImagenModel và gọi generateImages.

Swift


import FirebaseAILogic

// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())

// Create an `ImagenModel` instance with a model that supports your use case
let model = ai.imagenModel(modelName: "imagen-4.0-generate-001")

// Provide an image generation prompt
let prompt = "An astronaut riding a horse"

// To generate an image, call `generateImages` with the text prompt
let response = try await model.generateImages(prompt: prompt)

// Handle the generated image
guard let image = response.images.first else {
  fatalError("No image in the response.")
}
let uiImage = UIImage(data: image.data)

Kotlin


suspend fun generateImage() {
  // Initialize the Gemini Developer API backend service
  val ai = Firebase.ai(backend = GenerativeBackend.googleAI())

  // Create an `ImagenModel` instance with an Imagen model that supports your use case
  val model = ai.imagenModel("imagen-4.0-generate-001")

  // Provide an image generation prompt
  val prompt = "An astronaut riding a horse"

  // To generate an image, call `generateImages` with the text prompt
  val imageResponse = model.generateImages(prompt)

  // Handle the generated image
  val image = imageResponse.images.first()

  val bitmapImage = image.asBitmap()
}

Java


// Initialize the Gemini Developer API backend service
// Create an `ImagenModel` instance with an Imagen model that supports your use case
ImagenModel imagenModel = FirebaseAI.getInstance(GenerativeBackend.googleAI())
        .imagenModel(
                /* modelName */ "imagen-4.0-generate-001");

ImagenModelFutures model = ImagenModelFutures.from(imagenModel);

// Provide an image generation prompt
String prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
Futures.addCallback(model.generateImages(prompt), new FutureCallback<ImagenGenerationResponse<ImagenInlineImage>>() {
    @Override
    public void onSuccess(ImagenGenerationResponse<ImagenInlineImage> result) {
        if (result.getImages().isEmpty()) {
            Log.d("TAG", "No images generated");
        }
        Bitmap bitmap = result.getImages().get(0).asBitmap();
        // Use the bitmap to display the image in your UI
    }

    @Override
    public void onFailure(Throwable t) {
        // ...
    }
}, Executors.newSingleThreadExecutor());

Web


import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";

// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
  // ...
};

// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);

// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

// Create an `ImagenModel` instance with an Imagen model that supports your use case
const model = getImagenModel(ai, { model: "imagen-4.0-generate-001" });

// Provide an image generation prompt
const prompt = "An astronaut riding a horse.";

// To generate an image, call `generateImages` with the text prompt
const response = await model.generateImages(prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason) {
  console.log(response.filteredReason);
}

if (response.images.length == 0) {
  throw new Error("No images in the response.")
}

const image = response.images[0];

Dart

import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Gemini Developer API backend service
final model = FirebaseAI.googleAI();

// Create an `ImagenModel` instance with an Imagen model that supports your use case
final model = ai.imagenModel(model: 'imagen-4.0-generate-001');

// Provide an image generation prompt
const prompt = 'An astronaut riding a horse.';

// To generate an image, call `generateImages` with the text prompt
final response = await model.generateImages(prompt);

if (response.images.isNotEmpty) {
  final image = response.images[0];
  // Process the image
} else {
  // Handle the case where no images were generated
  print('Error: No images were generated.');
}

Unity


using Firebase.AI;

// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());

// Create an `ImagenModel` instance with a model that supports your use case
var model = ai.GetImagenModel(modelName: "imagen-4.0-generate-001");

// Provide an image generation prompt
var prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
var response = await model.GenerateImagesAsync(prompt: prompt);

// Handle the generated image
if (response.Images.Count == 0) {
  throw new Exception("No image in the response.");
}
var image = response.Images[0].AsTexture2D();

Tìm hiểu cách chọn một mô hình phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Tạo nhiều hình ảnh chỉ bằng văn bản đầu vào

Theo mặc định, các mô hình Imagen chỉ tạo một hình ảnh cho mỗi yêu cầu. Tuy nhiên, bạn có thể yêu cầu mô hình Imagen tạo nhiều hình ảnh cho mỗi yêu cầu bằng cách cung cấp ImagenGenerationConfig khi tạo thực thể ImagenModel.

Hãy nhớ tạo một phiên bản ImagenModel và gọi generateImages.

Swift


import FirebaseAILogic

// Initialize the Gemini Developer API backend service
let ai = FirebaseAI.firebaseAI(backend: .googleAI())

// Create an `ImagenModel` instance with a model that supports your use case
let model = ai.imagenModel(
  modelName: "imagen-4.0-generate-001",
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: ImagenGenerationConfig(numberOfImages: 4)
)

// Provide an image generation prompt
let prompt = "An astronaut riding a horse"

// To generate images, call `generateImages` with the text prompt
let response = try await model.generateImages(prompt: prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if let filteredReason = response.filteredReason {
  print(filteredReason)
}

// Handle the generated images
let uiImages =  response.images.compactMap { UIImage(data: $0.data) }

Kotlin


suspend fun generateImage() {
  // Initialize the Gemini Developer API backend service
  val ai = Firebase.ai(backend = GenerativeBackend.googleAI())

  // Create an `ImagenModel` instance with an Imagen model that supports your use case
  val model = ai.imagenModel(
    modelName = "imagen-4.0-generate-001",
    // Configure the model to generate multiple images for each request
    // See: https://firebase.google.com/docs/ai-logic/model-parameters
    generationConfig = ImagenGenerationConfig(numberOfImages = 4)
  )

  // Provide an image generation prompt
  val prompt = "An astronaut riding a horse"

  // To generate images, call `generateImages` with the text prompt
  val imageResponse = model.generateImages(prompt)

  // If fewer images were generated than were requested,
  // then `filteredReason` will describe the reason they were filtered out
  if (imageResponse.filteredReason != null) {
    Log.d(TAG, "FilteredReason: ${imageResponse.filteredReason}")
  }

  for (image in imageResponse.images) {
    val bitmap = image.asBitmap()
    // Use the bitmap to display the image in your UI
  }
}

Java


// Configure the model to generate multiple images for each request
// See: https://firebase.google.com/docs/ai-logic/model-parameters
ImagenGenerationConfig imagenGenerationConfig = new ImagenGenerationConfig.Builder()
        .setNumberOfImages(4)
        .build();

// Initialize the Gemini Developer API backend service
// Create an `ImagenModel` instance with an Imagen model that supports your use case
ImagenModel imagenModel = FirebaseAI.getInstance(GenerativeBackend.googleAI())
        .imagenModel(
                /* modelName */ "imagen-4.0-generate-001",
                /* imageGenerationConfig */ imagenGenerationConfig);

ImagenModelFutures model = ImagenModelFutures.from(imagenModel);

// Provide an image generation prompt
String prompt = "An astronaut riding a horse";

// To generate images, call `generateImages` with the text prompt
Futures.addCallback(model.generateImages(prompt), new FutureCallback<ImagenGenerationResponse<ImagenInlineImage>>() {
    @Override
    public void onSuccess(ImagenGenerationResponse<ImagenInlineImage> result) {
        // If fewer images were generated than were requested,
        // then `filteredReason` will describe the reason they were filtered out
        if (result.getFilteredReason() != null){
            Log.d("TAG", "FilteredReason: " + result.getFilteredReason());
        }

        // Handle the generated images
        List<ImagenInlineImage> images = result.getImages();
        for (ImagenInlineImage image : images) {
            Bitmap bitmap = image.asBitmap();
            // Use the bitmap to display the image in your UI
        }
    }

    @Override
    public void onFailure(Throwable t) {
        // ...
    }
}, Executors.newSingleThreadExecutor());

Web


import { initializeApp } from "firebase/app";
import { getAI, getGenerativeModel, GoogleAIBackend } from "firebase/ai";

// TODO(developer) Replace the following with your app's Firebase configuration
// See: https://firebase.google.com/docs/web/learn-more#config-object
const firebaseConfig = {
  // ...
};

// Initialize FirebaseApp
const firebaseApp = initializeApp(firebaseConfig);

// Initialize the Gemini Developer API backend service
const ai = getAI(firebaseApp, { backend: new GoogleAIBackend() });

// Create an `ImagenModel` instance with an Imagen model that supports your use case
const model = getImagenModel(
  ai,
  {
    model: "imagen-4.0-generate-001",
    // Configure the model to generate multiple images for each request
    // See: https://firebase.google.com/docs/ai-logic/model-parameters
    generationConfig: {
      numberOfImages: 4
    }
  }
);

// Provide an image generation prompt
const prompt = "An astronaut riding a horse.";

// To generate images, call `generateImages` with the text prompt
const response = await model.generateImages(prompt)

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason) {
  console.log(response.filteredReason);
}

if (response.images.length == 0) {
  throw new Error("No images in the response.")
}

const images = response.images[0];

Dart

import 'package:firebase_ai/firebase_ai.dart';
import 'package:firebase_core/firebase_core.dart';
import 'firebase_options.dart';

// Initialize FirebaseApp
await Firebase.initializeApp(
  options: DefaultFirebaseOptions.currentPlatform,
);

// Initialize the Gemini Developer API backend service
final ai = FirebaseAI.googleAI();

// Create an `ImagenModel` instance with an Imagen model that supports your use case
final model = ai.imagenModel(
  model: 'imagen-4.0-generate-001',
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: ImagenGenerationConfig(numberOfImages: 4),
);

// Provide an image generation prompt
const prompt = 'An astronaut riding a horse.';

// To generate images, call `generateImages` with the text prompt
final response = await model.generateImages(prompt);

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (response.filteredReason != null) {
  print(response.filteredReason);
}

if (response.images.isNotEmpty) {
  final images = response.images;
  for(var image in images) {
  // Process the image
  }
} else {
  // Handle the case where no images were generated
  print('Error: No images were generated.');
}

Unity


using Firebase.AI;

// Initialize the Gemini Developer API backend service
var ai = FirebaseAI.GetInstance(FirebaseAI.Backend.GoogleAI());

// Create an `ImagenModel` instance with a model that supports your use case
var model = ai.GetImagenModel(
  modelName: "imagen-4.0-generate-001",
  // Configure the model to generate multiple images for each request
  // See: https://firebase.google.com/docs/ai-logic/model-parameters
  generationConfig: new ImagenGenerationConfig(numberOfImages: 4)
);

// Provide an image generation prompt
var prompt = "An astronaut riding a horse";

// To generate an image, call `generateImages` with the text prompt
var response = await model.GenerateImagesAsync(prompt: prompt);

// If fewer images were generated than were requested,
// then `filteredReason` will describe the reason they were filtered out
if (!string.IsNullOrEmpty(response.FilteredReason)) {
  UnityEngine.Debug.Log("Filtered reason: " + response.FilteredReason);
}

// Handle the generated images
var images = response.Images.Select(image => image.AsTexture2D());

Tìm hiểu cách chọn một mô hình phù hợp với trường hợp sử dụng và ứng dụng của bạn.

Các tính năng được hỗ trợ và yêu cầu

Các mô hình Imagen cung cấp nhiều tính năng liên quan đến việc tạo hình ảnh. Phần này mô tả những nội dung được hỗ trợ khi sử dụng các mô hình với Firebase AI Logic.

Các tính năng và chức năng được hỗ trợ

Firebase AI Logic hỗ trợ các tính năng sau của mô hình Imagen:

Tạo người, khuôn mặt và văn bản trong hình ảnh được tạo
Chỉnh sửa hình ảnh hoặc đưa hình ảnh vào yêu cầu khi sử dụng Vertex AI Gemini API (hiện chỉ dành cho Android và Flutter)
Thêm hình mờ vào hình ảnh được tạo
Xác minh hình mờ kỹ thuật số khi sử dụng Vertex AI Gemini API
Nếu muốn xác minh xem một hình ảnh có hình mờ hay không, bạn có thể tải hình ảnh đó lên Vertex AI Studio bằng thẻ Nội dung nghe nhìn.
Định cấu hình các thông số tạo hình ảnh, chẳng hạn như số lượng hình ảnh được tạo, tỷ lệ khung hình và hình mờ
Định cấu hình chế độ cài đặt an toàn

Firebase AI Logic không hỗ trợ các tính năng nâng cao sau đây của mô hình Imagen:

Đặt ngôn ngữ cho văn bản đầu vào
Tắt trình viết lại câu lệnh (tham số enhancePrompt). Điều này có nghĩa là công cụ viết lại câu lệnh dựa trên LLM sẽ luôn tự động thêm nhiều chi tiết hơn vào câu lệnh được cung cấp để mang lại hình ảnh chất lượng cao hơn, phản ánh chính xác hơn câu lệnh được cung cấp.
Ghi hình ảnh được tạo trực tiếp vào Google Cloud Storage trong câu trả lời của mô hình (tham số storageUri). Thay vào đó, hình ảnh luôn được trả về dưới dạng các byte hình ảnh được mã hoá base64 trong phản hồi.
Nếu muốn tải hình ảnh được tạo lên Cloud Storage, bạn có thể dùng Cloud Storage for Firebase.

Quy cách và giới hạn

Tài sản (cho mỗi yêu cầu)	Giá trị
Số lượng mã thông báo đầu vào tối đa	480 mã thông báo
Số lượng hình ảnh đầu ra tối đa	4 hình ảnh
Độ phân giải hình ảnh đầu ra được hỗ trợ (pixel)	1024x1024 pixel (tỷ lệ khung hình 1:1) 896x1280 (tỷ lệ khung hình 3:4) 1280x896 (tỷ lệ khung hình 4:3) 768x1408 (tỷ lệ khung hình 9:16) 1408x768 (tỷ lệ khung hình 16:9)

Bạn có thể làm gì khác?

Bắt đầu nghĩ đến việc chuẩn bị cho bản phát hành công khai (xem danh sách kiểm tra cho bản phát hành công khai), bao gồm:
- Thiết lập Firebase App Check để bảo vệ Gemini API khỏi hành vi sai trái của các ứng dụng trái phép.
- Tích hợp Firebase Remote Config để cập nhật các giá trị trong ứng dụng (chẳng hạn như tên mô hình) mà không cần phát hành phiên bản ứng dụng mới.

Tìm hiểu cách kiểm soát hoạt động tạo nội dung

Tìm hiểu về cách thiết kế câu lệnh, bao gồm các phương pháp hay nhất, chiến lược và ví dụ về câu lệnh.
Định cấu hình Imagen các tham số mô hình như tỷ lệ khung hình, tạo người và đóng dấu bản quyền.
Sử dụng chế độ cài đặt an toàn để điều chỉnh khả năng nhận được những câu trả lời có thể bị coi là gây hại.

Tìm hiểu thêm về các mô hình được hỗ trợ

Tìm hiểu về các mô hình có sẵn cho nhiều trường hợp sử dụng và hạn mức cũng như giá của các mô hình đó.

Gửi ý kiến phản hồi về trải nghiệm của bạn với Firebase AI Logic

Tạo hình ảnh bằng Imagen Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Lựa chọn giữa các mô hình Gemini và Imagen

Trước khi bắt đầu

Các mô hình hỗ trợ tính năng này

Tạo hình ảnh từ dữ liệu đầu vào chỉ có văn bản

Tạo một hình ảnh từ dữ liệu đầu vào chỉ có văn bản

Swift

Kotlin

Java

Web

Dart

Unity

Tạo nhiều hình ảnh chỉ bằng văn bản đầu vào

Swift

Kotlin

Java

Web

Dart

Unity

Các tính năng được hỗ trợ và yêu cầu

Các tính năng và chức năng được hỗ trợ

Quy cách và giới hạn

Bạn có thể làm gì khác?

Tìm hiểu cách kiểm soát hoạt động tạo nội dung

Tìm hiểu thêm về các mô hình được hỗ trợ

Tạo hình ảnh bằng Imagen