Chirp 3, la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google, proposée par l'API Speech-to-Text (STT) v2 de Google Cloud, est disponible pour la transcription vocale.
Configurer
Pour activer la transcription avec Speech-to-Text Chirp 3, procédez comme suit.
Console
Lorsque vous créez ou mettez à jour un profil de conversation à l'aide de la console Agent Assist, suivez ces étapes pour configurer les paramètres Speech-to-Text afin d'utiliser le modèle Chirp 3.
- Cliquez sur Profils de conversation.
- Cliquez sur le nom de votre profil.
- Accédez à la section Configuration Speech-to-Text.
- Choisissez Chirp 3 comme modèle.
- (Facultatif) Sélectionnez Utiliser le modèle Long Form pour l'intégration AA Telephony SipRec si l'audio est transmis via l'intégration Telephony.
- (Facultatif) Configurez le code de langue et jusqu'à un code de langue alternatif pour la transcription limitée à une langue.
- (Facultatif) Configurez auto comme code de langue pour la transcription agnostique de la langue.
- (Facultatif) Configurez les expressions pour l'adaptation vocale afin d'améliorer la justesse avec l'adaptation de modèle.
API REST
Vous pouvez appeler directement l'API pour créer ou modifier un profil de conversation. Activez STT V2 avec le champ ConversationProfile.sttConfig.useSttV2, comme indiqué dans l'exemple suivant.
Exemple de configuration :
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Bonnes pratiques
Suivez ces suggestions pour profiter pleinement de la transcription vocale avec le modèle Chirp 3.
Streaming audio
Pour maximiser les performances de Chirp 3, envoyez l'audio en temps quasi réel. Cela signifie que si vous avez X secondes d'audio, diffusez-le en X secondes environ. Divisez votre contenu audio en petits blocs, chacun ayant une taille de frame de 100 ms. Pour en savoir plus sur les bonnes pratiques de streaming audio, consultez la documentation Speech-to-Text.
Utiliser l'adaptation vocale
Utilisez la transcription avec l'adaptation vocale Chirp 3 uniquement avec les expressions intégrées configurées dans le profil de conversation.
Utiliser sans la diffusion en continu étendue
Lorsque vous utilisez Chirp 3 pour la transcription vocale, évitez d'activer le streaming étendu. La diffusion en flux continu étendue nécessite un modèle compatible avec la configuration single utterance.
Prise en charge des langues et des régions
Chirp 3 est disponible pour toutes les langues Speech-to-Text avec différents niveaux de préparation au lancement, et dans toutes les régions Agent Assist, à l'exception de northamerica-northeast1, northamerica-northeast2 et asia-south1.
Quotas
Le nombre de demandes de transcription utilisant le modèle Chirp 3 est limité par le quota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion, avec chirp_3 comme type de ressource. Consultez le Google Cloud guide des quotas pour en savoir plus sur l'utilisation des quotas et sur la façon de demander une augmentation de quota.
Pour les quotas, les demandes de transcription envoyées aux points de terminaison Dialogflow multirégionaux (mondiaux et États-Unis) se trouvent dans la région us-central1.