O Chirp 3, a geração mais recente dos modelos generativos multilíngues de reconhecimento de fala automático (ASR, na sigla em inglês) do Google oferecidos pela API Speech-to-Text (STT) v2 do Google Cloud, está disponível para transcrição de voz.
Configurar
Siga estas etapas para ativar a transcrição com o Speech-to-Text Chirp 3.
Console
Ao criar ou atualizar um perfil de conversa usando o console do Agent Assist, siga estas etapas para configurar as opções de Speech-to-Text e usar o modelo Chirp 3.
- Clique em Perfis de conversa.
- Clique no nome do seu perfil.
- Acesse a seção Configuração da Speech-to-Text.
- Escolha Chirp 3 para o modelo.
- (Opcional) Selecione Usar o modelo de formato longo para integração do SipRec de telefonia AA se o áudio for transmitido pela integração de telefonia.
- (Opcional) Configure o código do idioma e até um código de idioma alternativo para transcrição restrita a um idioma.
- (Opcional) Configure auto como o código de idioma para transcrição independente de idioma.
- (Opcional) Configure frases para adaptação de fala e melhore a acurácia com a adaptação de modelo.
API REST
É possível chamar a API diretamente para criar ou atualizar um perfil de conversa. Ative a STT V2 com o campo ConversationProfile.sttConfig.useSttV2, conforme mostrado no exemplo a seguir.
Exemplo de configuração:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Práticas recomendadas
Siga estas sugestões para aproveitar ao máximo a transcrição de voz com o modelo Chirp 3.
Streaming de áudio
Para maximizar a performance do Chirp 3, envie áudio quase em tempo real. Isso significa que, se você tiver X segundos de áudio, transmita em aproximadamente X segundos. Divida o áudio em pequenos trechos, cada um com um tamanho de frame de 100 ms. Para mais práticas recomendadas de streaming de áudio, consulte a documentação do Speech-to-Text.
Usar a adaptação de fala
Use a transcrição com a adaptação de fala do Chirp 3 apenas com frases inline configuradas no perfil de conversa.
Usar sem streaming estendido
Ao usar o Chirp 3 para transcrição de voz, evite ativar o streaming estendido. O streaming estendido exige um modelo que ofereça suporte à configuração de única declaração.
Suporte regional e de idioma
O Chirp 3 está disponível para todos os idiomas do Speech-to-Text com diferentes níveis de prontidão para lançamento e em todas as regiões do Agent Assist, exceto northamerica-northeast1, northamerica-northeast2 e asia-south1.
Cotas
O número de solicitações de transcrição usando o modelo Chirp 3 é limitado pela cota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion com chirp_3 rotulado como o tipo de recurso. Consulte o Google Cloud guia de cotas para informações sobre o uso de cotas e como solicitar um aumento.
Para cotas, as solicitações de transcrição aos endpoints globais e multirregionais dos EUA do Dialogflow estão na região us-central1.