Speech-to-Text Chirp 3 で音声文字変換を使用する

Google Cloudの Speech-to-Text(STT)API v2 で提供される Google の最新世代の多言語自動音声認識(ASR)専用生成モデルである Chirp 3 は、音声文字変換に使用できます。

設定

Speech-to-Text Chirp 3 で文字起こしを有効にする手順は次のとおりです。

コンソール

Agent Assist コンソールを使用して会話プロファイルを作成または更新する場合は、次の手順に沿って Speech-to-Text 設定を構成し、Chirp 3 モデルを使用します。

  1. [会話プロファイル] をクリックします。
  2. プロファイルの名前をクリックします。
  3. [Speech to Text Config] セクションに移動します。
  4. モデルとして Chirp 3 を選択します。
  5. (省略可)音声がテレフォニー統合を介して送信される場合は、[Use Long Form Model for AA Telephony SipRec Integration] を選択します。
  6. (省略可)言語制限付き文字起こし言語コードと最大 1 つの代替言語コードを構成します。
  7. (省略可)言語に依存しない文字起こしの言語コードとして auto を構成します。
  8. (省略可)音声適応のフレーズを構成して、モデル適応で精度を向上させます。

REST API

API を直接呼び出して、会話プロファイルを作成または更新できます。次の例に示すように、ConversationProfile.sttConfig.useSttV2 フィールドを使用して STT V2 を有効にします。構成の例:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

ベスト プラクティス

Chirp 3 モデルによる音声文字変換を最大限に活用するには、次の提案を参考にしてください。

オーディオ ストリーミング

Chirp 3 のパフォーマンスを最大化するには、ほぼリアルタイムで音声を送信します。つまり、X 秒の音声がある場合は、約 X 秒でストリーミングします。音声を 100 ミリ秒のフレームサイズで小さなチャンクに分割します。音声ストリーミングのベスト プラクティスについては、Speech-to-Text のドキュメントをご覧ください。

音声適応を使用する

Chirp 3 音声適応による文字起こしは、会話プロファイルで構成されたインライン フレーズでのみ使用します。

拡張ストリーミングなしで使用する

音声文字変換に Chirp 3 を使用する場合は、拡張ストリーミングを有効にしないでください。拡張ストリーミングには、単一発話構成をサポートするモデルが必要です。

地域と言語のサポート

Chirp 3 は、すべての Speech-to-Text 言語(リリース準備状況は言語によって異なります)と、northamerica-northeast1northamerica-northeast2asia-south1 を除くすべての Agent Assist の地域で利用できます。

割り当て

Chirp 3 モデルを使用する文字起こしリクエストの数は、リソースタイプとして chirp_3 のラベルが付いた SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 割り当てによって制限されます。割り当ての使用状況と割り当ての増加をリクエストする方法については、 Google Cloud 割り当てガイドをご覧ください。

割り当ての場合、グローバルおよび米国マルチリージョン Dialogflow エンドポイントへの文字起こしリクエストは us-central1 リージョンにあります。