Chirp 3, l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google offerti da Google Cloud's API Speech-to-Text (STT) v2, è disponibile per la trascrizione vocale.
Configura
Segui questi passaggi per attivare la trascrizione con Speech-to-Text Chirp 3.
Console
Quando crei o aggiorni un profilo di conversazione utilizzando la console Assistente agente, segui questi passaggi per configurare le impostazioni di Speech-to-Text in modo da utilizzare il modello Chirp 3.
- Fai clic su Profili di conversazione.
- Fai clic sul nome del tuo profilo.
- Vai alla sezione Configurazione Speech-to-Text.
- Scegli Chirp 3 per il modello.
- (Facoltativo) Se l'audio viene trasmesso tramite l'integrazione di telefonia, seleziona Utilizza il modello di formato lungo per l'integrazione di telefonia SipRec di Assistente agente.
- (Facoltativo) Configura il codice lingua e fino a un codice lingua alternativo per la trascrizione con limitazioni linguistiche.
- (Facoltativo) Configura auto come codice lingua per la trascrizione indipendente dalla lingua.
- (Facoltativo) Configura Frasi per l'adattamento vocale per migliorare l'accuratezza con l'adattamento del modello.
API REST
Puoi chiamare direttamente l'API per creare o aggiornare un profilo di conversazione. Attiva STT V2 con il campo ConversationProfile.sttConfig.useSttV2, come mostrato nell'esempio seguente.
Configurazione di esempio:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Best practice
Segui questi suggerimenti per ottenere il massimo dalla trascrizione vocale con il modello Chirp 3.
Streaming audio
Per massimizzare il rendimento di Chirp 3, invia l'audio in tempo reale. Ciò significa che se hai X secondi di audio, trasmettilo in streaming in circa X secondi. Suddividi l'audio in piccoli blocchi, ognuno con una dimensione del frame di 100 ms. Per ulteriori best practice sullo streaming audio, consulta la documentazione di Speech-to-Text.
Utilizza l'adattamento vocale
Utilizza la trascrizione con l'adattamento vocale di Chirp 3 solo con le frasi in linea configurate nel profilo di conversazione.
Utilizza senza streaming esteso
Quando utilizzi Chirp 3 per la trascrizione vocale, evita di attivare lo streaming esteso. Lo streaming esteso richiede un modello che supporti la configurazione di una singola espressione.
Supporto regionale e linguistico
Chirp 3 è disponibile per tutte le lingue di Speech-to-Text con diversi livelli di preparazione al lancio e in tutte le regioni di Agent Assist, ad eccezione di northamerica-northeast1, northamerica-northeast2 e asia-south1.
Quote
Il numero di richieste di trascrizione che utilizzano il modello Chirp 3 è limitato dalla quota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion con chirp_3 etichettato come tipo di risorsa. Consulta la Google Cloud guida alle quote per informazioni sull'utilizzo delle quote e su come richiedere un aumento della quota.
Per le quote, le richieste di trascrizione agli endpoint Dialogflow globali e multiregionali USA si trovano nella regione us-central1.