Eine genaue Kontingentschätzung basiert auf der Anzahl Ihrer Anfragen pro Sekunde (Queries per Second, QPS) an jede API. In den folgenden Abschnitten werden die Kontingente für APIs beschrieben, die mit den einzelnen Agent Assist-Funktionen verwendet werden.
Projekttypen
In den folgenden Kontingenttabellen werden zwei Arten von Projekten aufgeführt: Verbraucher- und Ressourcenprojekte. Definitionen dieser beiden Projekttypen finden Sie in der Dokumentation zur Verwendung mehrerer Projekte.
Sprachtranskription
Für diese Funktion wird entweder die Telefonie- oder die gRPC-Integration verwendet, die jeweils unterschiedliche API-Kontingente haben.
Telefonieintegration
Informationen zu den Kontingenten für die APIs, die für die Telefonieintegration verwendet werden, finden Sie unter Dialogflow-Kontingente.
gRPC-Integration
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
AnalyzeContentOperationsPerMinutePerProject |
300 Anfragen/Min. | Global | Nutzerprojekt | AnalyzeContent-/StreamingAnalyzeContent-Anfragen. Das Kontingent wird zwischen Dialogflow und Agent Assist aufgeteilt. |
ConcurrentBidiStreamingSessionsPerProjectPerRegion |
50 gleichzeitige Anfragen | Regional (globaler Traffic wird in der Region us-central1 gezählt) |
Nutzerprojekt (Ressourcenprojekt für die SipRec-Integration für Telefonie) | Gleichzeitige bidirektionale Streaming-Sitzungen pro Region. |
Transkription mit Chirp-Modellen
| Kontingentname | Standardwert | Region | Abrechnungsressource oder Nutzerprojekt | Beschreibung |
|---|---|---|---|---|
SttV2StreamingRequestsPerMinutePerResourceTypePerRegion |
20 Anfragen pro Minute | Regional (Globaler Traffic wird in der Region us-central1 gezählt.) |
Nutzerprojekt (Ressourcenprojekt für die SipRec-Integration für Telefonie) | Anzahl der neuen StreamingRecognize-Anfragen, die pro Ressourcentyp an STT V2 gesendet wurden. |
Sentimentanalyse
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
AnalyzeSentimentOperationsPerVersion |
300 Anfragen/Min. | Global | Nutzerprojekt | Anfragen zur Sentimentanalyse über „AnalyzeContent“ oder „StreamingAnalyzeContent“ |
AnalyzeSentimentOperationsPerVersionPerRegion |
300 Anfragen/Min. | Regional | Nutzerprojekt | Anfragen zur Sentimentanalyse über „AnalyzeContent“ oder „StreamingAnalyzeContent“ |
AnalyzeSentimentOperationsPerMinutePerProject |
300 Anfragen/Min. | Global | Nutzerprojekt | Anfragen zur Sentimentanalyse über „AnalyzeContent“ oder „StreamingAnalyzeContent“ |
AnalyzeSentimentOperationsPerMinutePerProjectPerRegion |
300 Anfragen/Min. | Regional | Nutzerprojekt | Anfragen zur Sentimentanalyse über „AnalyzeContent“ oder „StreamingAnalyzeContent“ |
Eigene Assistenten erstellen
Für diese Funktion werden die folgenden KI-Modelle verwendet:
- text-bison@001 (Standardlimit 0)
- (text-bison@002)
- text-bison-32k@002
- gemini-1.0-pro
- gemini-1.5-pro
- gemini-1.5-pro-001
- gemini-1.5-flash-001
- gemini-1.5-flash-002
- gemini-2.0-flash-001
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
GeneratorSuggestionOperationsPerMinutePerModelType |
10 Anfragen/Min. | Global | Nutzerprojekt | Vorgänge für Generatorvorschläge pro Modelltyp. |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
10 Anfragen/Min. | Regional | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp und Region. |
Intelligente Antwort
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
SmartReplyBaselineModelOperationsPerMinutePerProject |
120 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies erhalten. |
SmartReplyBaselineV2ModelOperationsPerMinutePerProject |
60 Anfragen/Min. | Global | Nutzerprojekt | Sie können Baseline-V2-Modellanfragen für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies abrufen. |
SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion |
60 Anfragen/Min. | Regional | Nutzerprojekt | Sie können Baseline-V2-Modellanfragen für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies abrufen. |
Generative intelligente Antwort
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
SmartReplyBaselineModelOperationsPerMinutePerProject |
120 Anfragen/Min. | Global | Nutzerprojekt | Anfragen für das Baseline-Modell für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies erhalten. |
SmartReplyBaselineV2ModelOperationsPerMinutePerProject |
60 Anfragen/Min. | Global | Nutzerprojekt | Sie können Baseline-V2-Modellanfragen für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies abrufen. |
SmartReplyBaselineV2ModelOperationsPerMinutePerProjectPerRegion |
60 Anfragen/Min. | Regional | Nutzerprojekt | Sie erhalten Anfragen für das Baseline-Modell V2 für intelligente Antworten über AnalyzeContent oder SuggestSmartReplies. |
Zusammenfassung
Für die KI-generierte Zusammenfassung werden die folgenden Modelle verwendet:
- summarization-1.0
- summarization-2.0
- summarization-2.1
- summarization-3.0
- summarization-3.1
- summarization-4.0
- summarization-5.0
In der folgenden Tabelle sind der Kontingenttyp und das Modell für jede Version der Zusammenfassung aufgeführt.
Version der Zusammenfassung |
Kontingenttyp |
Backend-Modell |
|---|---|---|
Generator 5.0 |
Generatorbasiert |
Vortrainiertes Gemini 2.5 Flash |
Generator 4.0 |
Generatorbasiert |
Vortrainiertes Gemini-2.0-flash-001 |
Generator 3.1 |
Generatorbasiert |
Lora-tuned gemini-1.5-flash-001 |
Generator 3.0 |
Generatorbasiert |
Lora-tuned gemini-1.0-pro-002 |
Generator 2.1 |
Generatorbasiert |
Lora-tuned text-bison-32k@002 |
Generator 2.0 |
Generatorbasiert |
Lora-tuned text-bison-32k@002 |
Generator 1.0 |
Generatorbasiert |
Lora-tuned text-bison@001 |
Baseline v2 |
Baseline v2-Modell |
text-bison |
Baseline V1 |
Nicht auf Generator basierend |
LongT5-Modell |
Benutzerdefiniert 2.0 |
Nicht auf Generator basierend |
LongT5-Modell |
Die Kontingenttypen in der vorherigen Tabelle werden in der folgenden Kontingentliste für APIs, die für die Zusammenfassung verwendet werden, berücksichtigt.
Kontingenttyp |
Name des Kontingentlimits |
Standardwert |
Region |
Abrechnungsressource/Verbraucherprojekt |
Beschreibung |
|---|---|---|---|---|---|
Generatorbasiert |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
10 Anfragen/Min. |
Regional |
Nutzerprojekt |
Vorgänge für Generatorvorschläge nach Modelltyp und Region |
Generatorbasiert |
GeneratorSuggestionOperationsPerMinutePerModelType |
10 Anfragen/Min. |
Global |
Nutzerprojekt |
Vorgänge für Generatorvorschläge nach Modelltyp |
Generatorbasiert |
SuggestConversationSummaryOperationsPerMinutePerProject |
60 Anfragen/Min. |
Global |
Ressourcenprojekt |
Vorgänge zum Zusammenfassen von Unterhaltungen vorschlagen |
Nicht auf Generator basierend |
SuggestConversationSummaryOperationsPerMinutePerProjectPerRegion |
0–2 Anfragen/Min. |
Regional |
Ressourcenprojekt |
Vorgänge zum Zusammenfassen von Unterhaltungen in jeder Region vorschlagen |
Baseline v2-Modell |
SuggestSummaryV2BaselineOperationsPerMinutePerProject |
120 Anfragen/Min. |
Global |
Ressourcenprojekt |
Baseline-Polling-Anfragen für Vorschläge für Gesprächszusammenfassungen V2 |
Baseline v2-Modell |
SuggestSummaryV2BaselineOperationsPerMinutePerProjectPerRegion |
60 Anfragen/Min. |
Regional |
Ressourcenprojekt |
Baseline-Umfrageanfragen für die Zusammenfassung von Unterhaltungen V2 in jeder Region |
Automatische Bewertung der Zusammenfassung
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
ConcurrentSummarizationEvaluationsPerProject |
1 Anfrage pro Projekt | Nutzerprojekt | Anfragen zur automatischen Überprüfung |
Wenn Sie zusätzliche Kontingente für gleichzeitige Anfragen benötigen, stellen Sie über die Google Cloud Console eine Anfrage. Diese Funktion unterstützt bis zu vier Kontingente für gleichzeitige Anfragen pro Projekt.
Generative Knowledge Assist
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
SearchKnowledgeRequestsPerMinutePerProject |
60 Anfragen/Min. | Global | Nutzerprojekt | SearchKnowledge-Anfragen. |
SearchKnowledgeRequestsPerMinutePerProjectPerRegion |
30 Anfragen/Min. | Regional | Nutzerprojekt | SearchKnowledge-Anfragen pro Region. |
Proaktive Unterstützung durch generative KI – Version 1
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
SuggestKnowledgeAssistOperationsPerMinutePerProject |
60 Anfragen/Min. | Global | Ressourcenprojekt | KnowledgeAssist-Anfragen über AnalyzeContent oder SuggestKnowledgeAssist. |
SuggestKnowledgeAssistOperationsPerMinutePerProjectPerRegion |
30 Anfragen/Min. | Regional | Ressourcenprojekt | KnowledgeAssist-Anfragen über AnalyzeContent oder SuggestKnowledgeAssist in jeder Region. |
Proaktive generative Wissensunterstützung V2
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
KnowledgeAssistOpsPerMinutePerProjectPerVersion |
30 Anfragen/Min. | Global | Ressourcenprojekt | KnowledgeAssist-Anfragen für eine bestimmte Modellversion, wenn die Anfrage an den globalen Standortendpunkt gerichtet ist. |
KnowledgeAssistOpsPerMinutePerProjectPerVersionPerRegion |
30 Anfragen/Min. | Regional | Ressourcenprojekt | KnowledgeAssist-Anfragen, die an eine einzelne bestimmte Google Cloud Region gerichtet sind, z. B. us-central1 oder europe-west1. |
KnowledgeAssistOpsPerMinutePerProjectPerVersionPerMultiRegion |
30 Anfragen/Min. | MultiRegional | Ressourcenprojekt | KnowledgeAssist-Anfragen, die an multiregionale Endpunkte wie die USA oder die EU gerichtet sind. |
KI-Coach (LLM)
Diese Funktion verwendet das KI-Modell „agent-coaching-2.5“.
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource oder Nutzerprojekt | Beschreibung |
|---|---|---|---|---|
GeneratorSuggestionOperationsPerMinutePerModelType |
60 Anfragen pro Minute | Global | Nutzerprojekt | Vorgänge für Generatorvorschläge pro Modelltyp. |
GeneratorSuggestionOperationsPerMinutePerModelTypePerRegion |
60 Anfragen pro Minute | Regional | Nutzerprojekt | Vorgänge für Generatorvorschläge nach Modelltyp und Region. |
Weitere API-Kontingente
| Name des Kontingentlimits | Standardwert | Region | Abrechnungsressource/Verbraucherprojekt | Beschreibung |
|---|---|---|---|---|
ConversationOperationsPerMinutePerProject |
300 Anfragen/Min. | Global | Nutzerprojekt | Andere Unterhaltungsanfragen als „AnalyzeContent“ und „StreamingAnalyzeContent“, z. B. „CreateConversation“ und „CompleteConversation“. Das Kontingent wird zwischen Dialogflow und Agent Assist aufgeteilt. |
MessagePollingOperationsPerMinutePerProject |
1.200 Anfragen pro Minute | Global | Nutzerprojekt | ListMessages-Anfragen. Das Kontingent wird zwischen Dialogflow und Agent Assist aufgeteilt. |
AnswerRecordOperationsPerMinutePerProject |
300 Anfragen / Min. | Global | Nutzerprojekt | AnswerRecord-Anfragen. |
Nächste Schritte
- Weitere Informationen zum Anfordern einer Kontingenterhöhung finden Sie auf der Kontingentseite.
- Wenn Sie Ihren Antrag eingereicht haben, bittet Google Sie möglicherweise um weitere Informationen und teilt Ihnen mit, ob Ihr Antrag genehmigt oder abgelehnt wurde.