Menggunakan transkripsi dengan Speech-to-Text Chirp 3

Chirp 3, model generatif khusus Pengenalan Ucapan Otomatis (ASR) multi-bahasa generasi terbaru dari Google yang ditawarkan oleh Google CloudSpeech-to-Text (STT) API v2, tersedia untuk transkripsi Suara.

Siapkan

Ikuti langkah-langkah berikut untuk mengaktifkan transkripsi dengan Speech-to-Text Chirp 3.

Konsol

Saat Anda membuat atau memperbarui profil percakapan menggunakan konsol Agent Assist, ikuti langkah-langkah berikut untuk mengonfigurasi setelan Speech-to-Text agar menggunakan model Chirp 3.

  1. Klik Conversation profiles.
  2. Klik nama profil Anda.
  3. Buka bagian Speech to Text Config.
  4. Pilih Chirp 3 untuk model.
  5. (Opsional) Pilih Use Long Form Model for AA Telephony SipRec Integration jika audio ditransmisikan melalui Integrasi Telepon.
  6. (Opsional) Konfigurasi Language Code dan hingga satu Alternative Language Codes untuk transkripsi yang dibatasi bahasa.
  7. (Opsional) Konfigurasi auto sebagai kode bahasa untuk transkripsi yang tidak bergantung pada bahasa.
  8. (Opsional) Konfigurasi Phrases for speech adaptation untuk meningkatkan akurasi dengan adaptasi model.

REST API

Anda dapat memanggil API secara langsung untuk membuat atau memperbarui profil percakapan. Aktifkan STT V2 dengan kolom ConversationProfile.sttConfig.useSttV2, seperti yang ditunjukkan dalam contoh berikut. Contoh Konfigurasi:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

Praktik terbaik

Ikuti saran berikut untuk mengoptimalkan transkripsi suara dengan model Chirp 3.

Streaming audio

Untuk memaksimalkan performa Chirp 3, kirim audio dalam waktu hampir real time. Artinya, jika Anda memiliki audio X detik, streaming audio tersebut dalam waktu sekitar X detik. Bagi audio Anda menjadi bagian-bagian kecil, masing-masing dengan ukuran frame 100 md. Untuk mengetahui praktik terbaik streaming audio lainnya, lihat dokumentasi Speech-to-Text.

Gunakan adaptasi ucapan

Gunakan transkripsi dengan adaptasi ucapan Chirp 3 hanya dengan frasa inline yang dikonfigurasi dalam profil percakapan.

Gunakan tanpa streaming yang diperpanjang

Saat Anda menggunakan Chirp 3 untuk transkripsi suara, hindari mengaktifkan streaming yang diperpanjang. Streaming yang diperpanjang memerlukan model yang mendukung konfigurasi ucapan tunggal.

Dukungan regional dan bahasa

Chirp 3 tersedia untuk semua bahasa Speech-to-Text dengan kesiapan peluncuran yang berbeda, dan di semua region Agent Assist kecuali northamerica-northeast1, northamerica-northeast2, dan asia-south1.

Kuota

Jumlah permintaan transkripsi menggunakan model Chirp 3 dibatasi oleh kuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion dengan chirp_3 yang diberi label sebagai jenis resource. Lihat Google Cloud panduan kuota untuk mengetahui informasi tentang penggunaan kuota dan cara meminta penambahan kuota.

Untuk kuota, permintaan transkripsi ke endpoint Dialogflow multi-region global dan AS berada di region us-central1.