Usa la transcripción con Chirp 3 de Speech-to-Text

Chirp 3, la generación más reciente de modelos generativos multilingües específicos para el reconocimiento de voz automático (ASR) de Google que ofrece la versión 2 de la API de Speech-to-Text (STT) de Google Cloud, está disponible para la transcripción de voz.

Configurar

Sigue estos pasos para habilitar la transcripción con Speech-to-Text Chirp 3.

Console

Cuando crees o actualices un perfil de conversación con la consola de Agent Assist, sigue estos pasos para configurar los parámetros de Speech-to-Text y usar el modelo Chirp 3.

  1. Haz clic en Perfiles de conversación.
  2. Haz clic en el nombre de tu perfil.
  3. Navega a la sección Configuración de Speech-to-Text.
  4. Elige Chirp 3 para el modelo.
  5. (Opcional) Selecciona Usar el modelo de formato largo para la integración de AA Telephony SipRec si el audio se transmite a través de la integración de telefonía.
  6. (Opcional) Configura el código de idioma y hasta un código de idioma alternativo para la transcripción restringida por idioma.
  7. (Opcional) Configura auto como el código de idioma para la transcripción independiente del idioma.
  8. (Opcional) Configura Frases para la adaptación de voz para mejorar la exactitud con la adaptación de modelos.

API de REST

Puedes llamar a la API directamente para crear o actualizar un perfil de conversación. Habilita STT V2 con el campo ConversationProfile.sttConfig.useSttV2, como se muestra en el siguiente ejemplo. Configuración de ejemplo:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Prácticas recomendadas

Sigue estas sugerencias para aprovechar al máximo la transcripción de voz con el modelo Chirp 3.

Reproducción de audio

Para maximizar el rendimiento de Chirp 3, envía audio casi en tiempo real. Esto significa que, si tienes X segundos de audio, transmítelo en aproximadamente X segundos. Divide el audio en fragmentos pequeños, cada uno con un tamaño de fotograma de 100 ms. Para obtener más prácticas recomendadas de transmisión de audio, consulta la documentación de Speech-to-Text.

Usar la adaptación de voz

Usa la transcripción con la adaptación de voz de Chirp 3 solo con frases intercaladas configuradas en el perfil de conversación.

Usar sin transmisión extendida

Cuando uses Chirp 3 para la transcripción de voz, evita habilitar la transmisión extendida. La transmisión extendida requiere un modelo que admita la configuración de una sola expresión.

Compatibilidad regional y de idiomas

Chirp 3 está disponible para todos los idiomas de Speech-to-Text con diferentes niveles de preparación para el lanzamiento y en todas las regiones de Agent Assist, excepto northamerica-northeast1, northamerica-northeast2 y asia-south1.

Cuotas

La cantidad de solicitudes de transcripción que usan el modelo Chirp 3 está limitada por la cuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion con chirp_3 etiquetado como el tipo de recurso. Consulta la Google Cloud guía de cuotas para obtener información sobre el uso de cuotas y cómo solicitar un aumento de cuota.

En el caso de las cuotas, las solicitudes de transcripción a los extremos globales y multirregionales de Dialogflow de EE.UU. se encuentran en la región us-central1.