Speech-to-Text Chirp 3로 스크립트 사용하기

Google Cloud's Speech-to-Text (STT) API v2에서 제공하는 최신 세대의 Google 다국어 자동 음성 인식 (ASR) 전용 생성 모델인 Chirp 3를 음성 스크립트 작성에 사용할 수 있습니다.

설정

Speech-to-Text Chirp 3로 스크립트 작성을 사용 설정하려면 다음 단계를 따르세요.

콘솔

Agent Assist 콘솔을 사용하여 대화 프로필을 만들거나 업데이트할 때 다음 단계에 따라 Speech-to-Text 설정을 구성하여 Chirp 3 모델을 사용하세요.

  1. 대화 프로필 을 클릭합니다.
  2. 프로필 이름을 클릭합니다.
  3. Speech to Text Config(음성 텍스트 변환 구성) 섹션으로 이동합니다.
  4. 모델로 Chirp 3 를 선택합니다.
  5. (선택사항) 오디오가 전화 통합을 통해 전송되는 경우 AA Telephony SipRec 통합에 긴 양식 모델 사용 을 선택합니다.
  6. (선택사항) 언어 코드 와 최대 하나의 대체 언어 코드언어 제한 스크립트 작성의 경우 구성합니다.
  7. (선택사항) auto언어에 관계없는 스크립트 작성의 언어 코드로 구성합니다.
  8. (선택사항) 음성 적응을 위한 구문을 구성하여 모델 적응으로 정확도를 개선합니다.

REST API

API를 직접 호출하여 대화 프로필을 만들거나 업데이트할 수 있습니다. 다음 예와 같이 ConversationProfile.sttConfig.useSttV2 필드로 STT V2를 사용 설정합니다. 구성 예시:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

권장사항

Chirp 3 모델로 음성 스크립트 작성을 최대한 활용하려면 다음 제안사항을 따르세요.

오디오 스트리밍

Chirp 3 성능을 극대화하려면 오디오를 거의 실시간으로 전송하세요. 즉, 오디오가 X초인 경우 대략 X초에 스트리밍합니다. 오디오를 프레임 크기가 각각 100ms인 작은 청크로 나눕니다. 오디오 스트리밍 권장사항에 대한 자세한 내용은 Speech-to-Text 문서를 참고하세요.

음성 적응 사용

대화 프로필에 구성된 인라인 구문이 있는 경우에만 Chirp 3 음성 적응으로 스크립트 작성을 사용합니다.

확장 스트리밍 없이 사용

음성 스크립트 작성에 Chirp 3를 사용하는 경우 확장 스트리밍을 사용 설정하지 마세요. 확장 스트리밍에는 단일 발화 구성을 지원하는 모델이 필요합니다.

지역 및 언어 지원

Chirp 3는 출시 준비가 다양한 모든 Speech-to-Text 언어Agent Assist 지역에서 northamerica-northeast1, northamerica-northeast2, asia-south1을 제외하고 사용할 수 있습니다.

할당량

Chirp 3 모델을 사용하는 스크립트 작성 요청 수는 리소스 유형으로 라벨이 지정된 chirp_3가 있는 SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 할당량에 따라 제한됩니다. 할당량 사용량 및 할당량 상향을 요청하는 방법은 Google Cloud 할당량 가이드를 참고하세요.

할당량의 경우 전역 및 미국 멀티 리전 Dialogflow 엔드포인트에 대한 스크립트 작성 요청은 us-central1 리전에 있습니다.