Live API 的限制和规范


本页面介绍了使用 Live API 及其模型的各种限制和规范。

与会话相关的限制

对于 Live API会话是指通过同一连接持续流式传输输入和输出的持久连接。

如果会话超出以下任何限制,连接就会终止。

  • 连接时长限制为大约 10 分钟。

  • 会话时长取决于输入模态:

    • 纯音频输入会话的时长上限为 15 分钟。
    • 视频和音频输入时长限制为 2 分钟。
  • 会话上下文窗口限制为 12.8 万个 token。

速率限制

Live API 对每个 Firebase 项目的并发会话数以及每分钟的令牌数 (TPM) 都有速率限制。

  • Gemini Developer API

    • 限制因项目的 Gemini Developer API“使用层级”(请参阅其速率限制文档)而异
  • Vertex AI Gemini API

    • 每个 Firebase 项目 1,000 个并发会话
    • 每分钟 400 万个 token

音频格式

Live API 支持以下音频格式:

  • 输入音频格式:原始 16 位 PCM 音频,采样率 16kHz,小端字节序
  • 输出音频格式:原始 16 位 PCM 音频,采样率 24kHz,小端字节序

  • 支持的 MIME 类型audio/x-aacaudio/flacaudio/mp3audio/m4aaudio/mpegaudio/mpgaaudio/mp4audio/oggaudio/pcmaudio/wavaudio/webm

如需传达输入音频的采样率,请将每个包含音频的 Blob 的 MIME 类型设置为类似 audio/pcm;rate=16000 的值。

视频格式

Live API 需要接收一系列离散的图片帧,并支持 1 帧/秒 (FPS) 的视频帧输入。

  • 建议的输入:1 FPS 的原生 768x768 分辨率。

  • 支持的 MIME 类型video/x-flvvideo/quicktimevideo/mpegvideo/mpegsvideo/mpgvideo/mp4video/webmvideo/wmvvideo/3gpp

请注意,此规范使得 Live API 不适合需要分析快速变化的视频的应用场景,例如高速体育赛事中的逐场比赛分析。

回答语音

Live API 支持以下回答语音选项。如需查看每种语音的演示,请参阅 Chirp 3:高清语音

如果您未指定回答语音,则默认为 Puck

了解如何指定回答语音

Zephyr -- 明快
Kore -- 坚定
Orus -- 坚定
Autonoe -- 明快
Umbriel -- 轻松
Erinome -- 清晰
Laomedeia -- 欢快
Schedar -- 平稳
Achird -- 亲切
Sadachbia -- 活泼
Puck -- 欢快
Fenrir -- 兴奋
Aoede -- 轻快
Enceladus -- 气声
Algieba -- 流畅
Algenib -- 沙哑
Achernar -- 柔和
Gacrux -- 成熟
Zubenelgenubi -- 随意
Sadaltager -- 专业
Charon -- 信息丰富
Leda -- 青春活力
Callirrhoe -- 轻松随意
Iapetus -- 清晰明快
Despina -- 流畅自然
Rasalgethi -- 信息丰富
Alnilam -- 坚定有力
Pulcherrima -- 积极向上
Vindemiatrix -- 温柔舒缓
Sulafat -- 温暖亲切

语言

Live API 支持以下语言。 了解如何影响回答语言

语言 BCP-47 代码 语言 BCP-47 代码
阿拉伯语(埃及语) ar-EG 德语(德国) de-DE
英语(美国) en-US 西班牙语(美国) es-US
法语(法国) fr-FR 印地语(印度) hi-IN
印度尼西亚语(印度尼西亚) id-ID 意大利语(意大利) it-IT
日语(日本) ja-JP 韩语(韩国) ko-KR
葡萄牙语(巴西) pt-BR 俄语(俄罗斯) ru-RU
荷兰语(荷兰) nl-NL 波兰语(波兰) pl-PL
泰语(泰国) th-TH 土耳其语(土耳其) tr-TR
越南语(越南) vi-VN 罗马尼亚语(罗马尼亚) ro-RO
乌克兰语(乌克兰) uk-UA 孟加拉语(孟加拉) bn-BD
英语(印度) en-IN 和 hi-IN 捆绑包 马拉地语(印度) mr-IN
泰米尔语(印度) ta-IN 泰卢固语(印度) te-IN