Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

配额

准确的配额估算基于您向每个 API 发出的每秒查询次数 (QPS)。以下部分概述了与每个 Agent Assist 功能搭配使用的 API 的配额。

项目类型

以下配额表列出了两种类型的项目：使用方项目和资源项目。如需了解这两种项目类型的定义，请参阅有关使用多个项目的文档。

语音转写

此功能使用电话或 gRPC 集成，这两种集成具有不同的 API 配额。

电话集成

如需了解与电话集成搭配使用的 API 的配额，请参阅 Dialogflow 配额。

gRPC 集成

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`AnalyzeContentOperationsPerMinutePerProject`	300 个请求/分钟	全球	使用方项目	AnalyzeContent/StreamingAnalyzeContent 请求。Dialogflow 和 Agent Assist 共享配额。
`ConcurrentBidiStreamingSessionsPerProjectPerRegion`	50 个并发请求	区域（全球流量计入 `us-central1` 区域）	使用方项目（电话 SipRec 集成的资源项目）	每个区域的并发双向流式会话数。

使用 Chirp 模型进行转写

配额名称	默认值	区域	收费资源或使用方项目	说明
`SttV2StreamingRequestsPerMinutePerResourceTypePerRegion`	每分钟 20 个请求	区域（全球流量计入 `us-central1` 区域。）	使用方项目（电话 SipRec 集成的资源项目）	针对每种资源类型发送到 STT V2 的新 `StreamingRecognize` 请求数。

情感分析

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`AnalyzeSentimentOperationsPerVersion`	300 个请求/分钟	全球	使用方项目	通过 AnalyzeContent 或 StreamingAnalyzeContent 发出的情感分析请求。
`AnalyzeSentimentOperationsPerVersionPerRegion`	300 个请求/分钟	区域	使用方项目	通过 AnalyzeContent 或 StreamingAnalyzeContent 发出的情感分析请求。
`AnalyzeSentimentOperationsPerMinutePerProject`	300 个请求/分钟	全球	使用方项目	通过 AnalyzeContent 或 StreamingAnalyzeContent 发出的情感分析请求。
`AnalyzeSentimentOperationsPerMinutePerProjectPerRegion`	300 个请求/分钟	区域	使用方项目	通过 AnalyzeContent 或 StreamingAnalyzeContent 发出的情感分析请求。

构建自己的辅助功能

此功能使用以下 AI 模型：

text-bison@001（默认限制为 0）
text-bison@002
text-bison-32k@002
gemini-1.0-pro
gemini-1.5-pro
gemini-1.5-pro-001
gemini-1.5-flash-001
gemini-1.5-flash-002
gemini-2.0-flash-001

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`GeneratorSuggestionOperationsPerMinutePerModelType`	10 个请求/分钟	全球	使用方项目	每个模型类型的生成器建议操作。
`GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion`	10 个请求/分钟	区域	使用方项目	每个模型类型和区域的生成器建议操作。

智能回复

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`SmartReplyBaselineModelOperationsPerMinutePerProject`	120 个请求/分钟	全球	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准模型请求。
`SmartReplyBaselineV2ModelOperationsPerMinutePerProject`	60 个请求/分钟	全球	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准 V2 模型请求。
`SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion`	60 个请求/分钟	区域	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准 V2 模型请求。

生成式智能回复

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`SmartReplyBaselineModelOperationsPerMinutePerProject`	120 个请求/分钟	全球	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准模型请求。
`SmartReplyBaselineV2ModelOperationsPerMinutePerProject`	60 个请求/分钟	全球	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准 V2 模型请求。
`SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion`	60 个请求/分钟	区域	使用方项目	通过 `AnalyzeContent` 或 `SuggestSmartReplies` 获取智能回复基准 V2 模型请求。

摘要

AI 生成的摘要使用以下模型：

summarization-1.0
summarization-2.0
summarization-2.1
summarization-3.0
summarization-3.1
summarization-4.0
summarization-5.0

下表显示了每种摘要版本的配额类型和使用的模型。

摘要版本	配额类型	后端模型
生成器 5.0	基于生成器	预训练的 Gemini-2.5-flash
生成器 4.0	基于生成器	预训练的 Gemini-2.0-flash-001
生成器 3.1	基于生成器	Lora 调优的 gemini-1.5-flash-001
生成器 3.0	基于生成器	Lora 调优的 gemini-1.0-pro-002
生成器 2.1	基于生成器	Lora 调优的 text-bison-32k@002
生成器 2.0	基于生成器	Lora 调优的 text-bison-32k@002
生成器 1.0	基于生成器	Lora 调优的 text-bison@001
基准 v2	基准 v2 模型	text-bison
基准 v1	非基于生成器	LongT5 模型
自定义 2.0	非基于生成器	LongT5 模型

上表中的配额类型反映在以下与摘要搭配使用的 API 的配额列表中。

配额类型	配额限制名称	默认值	区域	收费资源/使用方项目	说明
基于生成器	GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion	10 个请求/分钟	区域	使用方项目	每个模型类型和区域的生成器建议操作
基于生成器	GeneratorSuggestionOperationsPerMinutePerModelType	10 个请求/分钟	全球	使用方项目	每个模型类型的生成器建议操作
基于生成器	SuggestConversationSummaryOperationsPerMinutePerProject	60 个请求/分钟	全球	资源项目	建议对话摘要操作
非基于生成器	SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion	0-2 个请求/分钟	区域	资源项目	每个区域的建议对话摘要操作
基准 v2 模型	SuggestSummaryV2BaselineOperationsPerMinutePerProject	120 个请求/分钟	全球	资源项目	对话摘要建议 V2 基准轮询请求
基准 v2 模型	SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion	60 个请求/分钟	区域	资源项目	每个区域的对话摘要建议 V2 基准轮询请求

摘要自动评估

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`ConcurrentSummarizationEvaluationsPerProject`	每个项目 1 个请求	使用方项目	自动评估请求

如果您需要额外的并发配额，请通过 Google Cloud 控制台提出申请。此功能最多支持每个项目 4 个并发配额。

生成式知识助理

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`SearchKnowledgeRequestsPerMinutePerProject`	60 个请求/分钟	全球	使用方项目	SearchKnowledge 请求。
`SearchKnowledgeRequestsPerMinutePerProjectPerRegion`	30 个请求/分钟	区域	使用方项目	每个区域的 SearchKnowledge 请求。

主动生成式知识助理 V1

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`SuggestKnowledgeAssistOperationsPerMinutePerProject`	60 个请求/分钟	全球	资源项目	通过 `AnalyzeContent` 或 `SuggestKnowledgeAssist` 发出的 KnowledgeAssist 请求。
`SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion`	30 个请求/分钟	区域	资源项目	每个区域通过 `AnalyzeContent` 或 `SuggestKnowledgeAssist` 发出的 KnowledgeAssist 请求。

主动生成式知识助理 V2

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`KnowledgeAssistOpsPerMinutePerProjectPerVersion`	30 个请求/分钟	全球	资源项目	当请求定向到全球位置端点时，针对特定模型版本的 KnowledgeAssist 请求。
`KnowledgeAssistOpsPerMinutePerProjectPerVersionPerRegion`	30 个请求/分钟	区域	资源项目	定向到单个特定 Google Cloud 区域（例如 `us-central1` 或 `europe-west1`）的 KnowledgeAssist 请求。
`KnowledgeAssistOpsPerMinutePerProjectPerVersionPerMultiRegion`	30 个请求/分钟	MultiRegional	资源项目	定向到多区域端点（例如美国或欧盟）的 KnowledgeAssist 请求。

AI 教练 (LLM)

此功能使用 agent-coaching-2.5 AI 模型。

配额限制名称	默认值	区域	收费资源或使用方项目	说明
`GeneratorSuggestionOperationsPerMinutePerModelType`	每分钟 60 个请求	全球	使用方项目	每个模型类型的生成器建议操作。
`GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion`	每分钟 60 个请求	区域	使用方项目	每个模型类型和区域的生成器建议操作。

其他 API 配额

配额限制名称	默认值	区域	收费资源/使用方项目	说明
`ConversationOperationsPerMinutePerProject`	300 个请求/分钟	全球	使用方项目	AnalyzeContent 和 StreamingAnalyzeContent 之外的其他对话请求，例如 CreateConversation、CompleteConversation。Dialogflow 和 Agent Assist 共享配额。
`MessagePollingOperationsPerMinutePerProject`	1,200 个请求 / 分钟	全球	使用方项目	ListMessages 请求。Dialogflow 和 Agent Assist 共享配额。
`AnswerRecordOperationsPerMinutePerProject`	300 个请求 / 分钟	全球	使用方项目	AnswerRecord 请求。

后续步骤

如需详细了解如何申请增加配额，请参阅配额页面。
在您提交申请后，Google 可能会联系您获取更多信息，并在您的申请获批或被拒时通知您。

配额 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。