Chirp 3, die neueste Generation der mehrsprachigen generativen Modelle von Google für die automatische Spracherkennung (Automatic Speech Recognition, ASR), die von der Speech-to-Text (STT) API v2 von Google Cloudangeboten werden, ist für die Sprachtranskription verfügbar.
Einrichten
So aktivieren Sie die Transkription mit Speech-to-Text Chirp 3:
Console
Wenn Sie ein Unterhaltungsprofil über die Agent Assist Console erstellen oder aktualisieren, gehen Sie so vor, um die Speech-to-Text-Einstellungen für die Verwendung des Chirp 3-Modells zu konfigurieren.
- Klicken Sie auf Unterhaltungsprofile.
- Klicken Sie auf den Namen Ihres Profils.
- Rufen Sie den Bereich Speech-to-Text-Konfiguration auf.
- Wählen Sie Chirp 3 als Modell aus.
- Optional: Wählen Sie Long-Form-Modell für die AA Telephony SipRec-Integration verwenden aus, wenn die Audioinhalte über die Telefonieintegration übertragen werden.
- Optional: Konfigurieren Sie Sprachcode und bis zu einen Alternativen Sprachcode für die sprachbeschränkte Transkription.
- Optional: Konfigurieren Sie auto als Sprachcode für die sprachunabhängige Transkription.
- Optional können Sie Wortgruppen für die Sprachanpassung konfigurieren, um die Genauigkeit mit der Modellanpassung zu verbessern.
REST API
Sie können die API direkt aufrufen, um ein Unterhaltungsprofil zu erstellen oder zu aktualisieren. Aktivieren Sie STT V2 mit dem Feld ConversationProfile.sttConfig.useSttV2, wie im folgenden Beispiel gezeigt.
Konfigurationsbeispiel:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Best Practices
Mit diesen Vorschlägen können Sie die Sprachtranskription mit dem Chirp 3-Modell optimal nutzen.
Audio streaming
Um die Leistung von Chirp 3 zu maximieren, sollten Sie Audioinhalte in beinahe Echtzeit senden. Wenn du also X Sekunden Audio hast, streame es in etwa X Sekunden. Teilen Sie Ihr Audio in kleine Abschnitte mit einer Frame-Größe von 100 ms auf. Weitere Best Practices für das Audio-Streaming finden Sie in der Speech-to-Text-Dokumentation.
Sprachanpassung verwenden
Verwenden Sie die Transkription mit der Sprachanpassung von Chirp 3 nur mit Inline-Phrasen, die im Konversationsprofil konfiguriert sind.
Ohne erweitertes Streaming verwenden
Wenn Sie Chirp 3 für die Sprachtranskription verwenden, sollten Sie Extended Streaming nicht aktivieren. Für das erweiterte Streaming ist ein Modell erforderlich, das die Konfiguration single utterance unterstützt.
Unterstützung von Regionen und Sprachen
Chirp 3 ist für alle Speech-to-Text-Sprachen mit unterschiedlicher Marktreife und in allen Agent Assist-Regionen außer northamerica-northeast1, northamerica-northeast2 und asia-south1 verfügbar.
Kontingente
Die Anzahl der Transkriptionsanfragen mit dem Modell „Chirp 3“ ist durch das SttV2StreamingRequestsPerMinutePerResourceTypePerRegion-Kontingent mit chirp_3 als Ressourcentyp begrenzt. Informationen zur Kontingentnutzung und zum Anfordern einer Kontingenterhöhung finden Sie im Google Cloud Leitfaden zu Kontingenten.
Bei Kontingenten werden Transkriptionsanfragen an die globalen und multiregionalen Dialogflow-Endpunkte in den USA in der Region us-central1 berücksichtigt.