Chirp 3, model generatif khusus Pengenalan Ucapan Otomatis (ASR) multi-bahasa generasi terbaru dari Google yang ditawarkan oleh Google CloudSpeech-to-Text (STT) API v2, tersedia untuk transkripsi Suara.
Siapkan
Ikuti langkah-langkah berikut untuk mengaktifkan transkripsi dengan Speech-to-Text Chirp 3.
Konsol
Saat Anda membuat atau memperbarui profil percakapan menggunakan konsol Agent Assist, ikuti langkah-langkah berikut untuk mengonfigurasi setelan Speech-to-Text agar menggunakan model Chirp 3.
- Klik Conversation profiles.
- Klik nama profil Anda.
- Buka bagian Speech to Text Config.
- Pilih Chirp 3 untuk model.
- (Opsional) Pilih Use Long Form Model for AA Telephony SipRec Integration jika audio ditransmisikan melalui Integrasi Telepon.
- (Opsional) Konfigurasi Language Code dan hingga satu Alternative Language Codes untuk transkripsi yang dibatasi bahasa.
- (Opsional) Konfigurasi auto sebagai kode bahasa untuk transkripsi yang tidak bergantung pada bahasa.
- (Opsional) Konfigurasi Phrases for speech adaptation untuk meningkatkan akurasi dengan adaptasi model.
REST API
Anda dapat memanggil API secara langsung untuk membuat atau memperbarui profil percakapan. Aktifkan STT V2 dengan kolom ConversationProfile.sttConfig.useSttV2, seperti yang ditunjukkan dalam contoh berikut.
Contoh Konfigurasi:
{ "name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f "displayName": "CONVERSATION_PROFILE_NAME", "automatedAgentConfig": { }, "humanAgentAssistantConfig": { "notificationConfig": { "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID", "messageFormat": "JSON" }, "humanAgentSuggestionConfig": { "featureConfigs": [{ "enableEventBasedSuggestion": true, "suggestionFeature": { "type": "ARTICLE_SUGGESTION" }, "conversationModelConfig": { } }] }, "messageAnalysisConfig": { } }, "sttConfig": { "model": "chirp_3", "useSttV2": true, }, "languageCode": "en-US" }
Praktik terbaik
Ikuti saran berikut untuk mengoptimalkan transkripsi suara dengan model Chirp 3.
Streaming audio
Untuk memaksimalkan performa Chirp 3, kirim audio dalam waktu hampir real time. Artinya, jika Anda memiliki audio X detik, streaming audio tersebut dalam waktu sekitar X detik. Bagi audio Anda menjadi bagian-bagian kecil, masing-masing dengan ukuran frame 100 md. Untuk mengetahui praktik terbaik streaming audio lainnya, lihat dokumentasi Speech-to-Text.
Gunakan adaptasi ucapan
Gunakan transkripsi dengan adaptasi ucapan Chirp 3 hanya dengan frasa inline yang dikonfigurasi dalam profil percakapan.
Gunakan tanpa streaming yang diperpanjang
Saat Anda menggunakan Chirp 3 untuk transkripsi suara, hindari mengaktifkan streaming yang diperpanjang. Streaming yang diperpanjang memerlukan model yang mendukung konfigurasi ucapan tunggal.
Dukungan regional dan bahasa
Chirp 3 tersedia untuk semua bahasa Speech-to-Text dengan kesiapan peluncuran yang berbeda, dan di semua region Agent Assist kecuali northamerica-northeast1, northamerica-northeast2, dan asia-south1.
Kuota
Jumlah permintaan transkripsi menggunakan model Chirp 3 dibatasi oleh kuota SttV2StreamingRequestsPerMinutePerResourceTypePerRegion dengan chirp_3 yang diberi label sebagai jenis resource. Lihat Google Cloud panduan kuota untuk mengetahui informasi tentang penggunaan kuota dan cara meminta penambahan kuota.
Untuk kuota, permintaan transkripsi ke endpoint Dialogflow multi-region global dan AS berada di region us-central1.