Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cluster dan workload GKE Inferensi yang telah Dilatih AI

Untuk membuat aplikasi AI, sediakan cluster Google Kubernetes Engine (GKE) pribadi yang aman dan dioptimalkan untuk workload AI, lalu deploy workload Anda menggunakan diagram helm. Panduan ini menjelaskan template berikut, yang dapat Anda sesuaikan untuk men-deploy aplikasi AI:

Cluster GKE Inferensi yang Dilatih Sebelumnya dengan AI: membuat infrastruktur dasar yang diperlukan untuk penyajian model berperforma tinggi. Template ini menyiapkan cluster GKE pribadi yang aman dan dioptimalkan untuk inferensi AI.
Workload GKE Inferensi yang Dilatih Sebelumnya dengan AI (Pratinjau): men-deploy diagram helm yang menyertakan konfigurasi untuk workload AI. Gunakan diagram helm untuk men-deploy model Gemma yang dilatih sebelumnya menggunakan mesin penyajian vLLM. Workload dikonfigurasi untuk permintaan resource GPU yang efisien dan Horizontal Pod Autoscaler (HPA) untuk menskalakan berdasarkan penggunaan cache GPU.

Misalnya, Anda dapat men-deploy template cluster dan workload untuk memenuhi kebutuhan bisnis berikut:

Contoh	Kebutuhan bisnis	Penerapan
Analisis video real-time	Perusahaan keamanan perlu memproses streaming video dari ratusan kamera untuk mendeteksi anomali atau objek tertentu secara real-time.	Men-deploy model pemrosesan video di node pool yang mendukung GPU. GPU dapat memproses permintaan streaming video serentak dengan throughput tinggi dan latensi rendah.
Pemrosesan dokumen khusus	Perusahaan asuransi perlu mengekstrak informasi secara otomatis dari ribuan formulir klaim harian, yang berisi tata letak dan tulisan tangan yang bervariasi.	Gunakan cluster GKE untuk menghosting model kustom, dan pastikan data tidak pernah keluar dari lingkungan yang aman selama pemrosesan.
Mesin rekomendasi bervolume tinggi	Platform e-commerce perlu menyajikan rekomendasi produk yang dipersonalisasi kepada pengguna selama acara belanja liburan yang ramai.	Gunakan Google Kubernetes Engine Gateway API untuk merutekan traffic pengguna bervolume tinggi ke model rekomendasi. Gateway API dapat menangani lonjakan traffic yang tiba-tiba tanpa penurunan latensi.

Arsitektur

Gambar berikut menunjukkan komponen dan koneksi dalam template:

Cluster yang terhubung ke node pool di kanvas desain

Berikut ini deskripsi konfigurasi komponen dalam template ini:

Cluster GKE Standard: cluster pribadi yang aman tempat workload AI Anda berjalan.

Tabel berikut menjelaskan konfigurasi cluster dalam template ini:

Konfigurasi	Tujuan
`node_locations` ditetapkan ke `["us-central1-a", "us-central1-b", "us-central1-c"]`.	Memastikan ketersediaan tinggi dan ketahanan dengan menyebarkan node cluster di tiga zona di region `us-central1`.
`enable_intranode_visibility` ditetapkan ke `true`.	Mengaktifkan visibilitas untuk traffic pod-ke-pod di node yang sama di Log Aliran Traffic VPC. Visibilitas ini diperlukan untuk pemantauan jaringan, pemecahan masalah, dan analisis keamanan.
`gateway_api_config` diaktifkan menggunakan `{"channel":"CHANNEL_STANDARD"}`.	GKE Inference Gateway API membantu Anda mengelola traffic masuk ke layanan Kubernetes. API ini membantu Anda mengonfigurasi pemilihan rute yang mendetail, load balancing lanjutan, dan lampiran kebijakan terpusat.
`private_cluster_config.enable_private_endpoint` ditetapkan ke `false`. `private_cluster_config.enable_private_nodes` adalah `true`. `control_plane_endpoints_config.dns_endpoint_config.allow_external_traffic` ditetapkan ke `true`.	Memastikan bahwa node pekerja tempat model AI Anda berjalan memiliki alamat IP pribadi. Hal ini mengisolasi node Anda dari internet publik. Bidang kontrol GKE dikonfigurasi agar dapat diakses secara publik sehingga Anda dapat mengelola cluster di luar jaringan Virtual Private Cloud (VPC).
`release_channel` ditetapkan ke `{"channel":"REGULAR"}`.	Memastikan cluster GKE Anda menerima update yang stabil dan dapat diprediksi, sehingga memberikan keseimbangan antara fitur baru dan keandalan.

Node pool GKE: sekelompok node pekerja yang menjalankan container aplikasi.

Tabel berikut menjelaskan konfigurasi node pool dalam template ini:

Konfigurasi	Tujuan
`autoscaling.min_node_count` ditetapkan ke `0`. `autoscaling.max_node_count` ditetapkan ke `3` (default-nya adalah `100`).	Node pool dapat diperkecil skalanya sepenuhnya saat tidak ada workload AI yang berjalan, sehingga mengurangi biaya selama periode tidak aktif. Batas atas untuk penskalaan membantu mengontrol biaya dan konsumsi resource.
Parameter `node_config.guest_accelerator` ditambahkan. `gpu_driver_installation_config.gpu_driver_version:` ditetapkan ke `"LATEST"`. `gpu_sharing_config` diaktifkan dengan `TIME_SHARING`. `max_shared_clients_per_gpu:` ditetapkan ke `2`.	Menentukan penggunaan GPU NVIDIA L4 untuk tugas inferensi AI. Driver GPU yang diperlukan akan diinstal secara otomatis. Beberapa workload yang lebih kecil dapat berbagi satu GPU.
`node_config.machine_type` diubah menjadi `"g2-standard-8"`.	Jenis mesin ini dirancang khusus untuk melengkapi GPU L4. vCPU (8) dan memori (32 GB) dibuat untuk mendukung GPU dan menjalankan aplikasi inferensi AI Anda.
`node_config.oauth_scopes` mencakup `https://www.googleapis.com/auth/cloud-platform`.	Akun layanan node memiliki akses luas ke Google Cloud layanan, sehingga memungkinkan interaksi API untuk tugas seperti logging, pemantauan, dan menarik image container.
`node_config.shielded_instance_config.enable_secure_boot` ditetapkan ke `true`.	Booting Aman membantu melindungi node Anda dari malware level booting dengan memverifikasi tanda tangan kriptografi bootloader dan kernel sebelum dieksekusi.

Konfigurasi diagram helm

Tabel berikut mencantumkan konfigurasi diagram helm, yang telah disesuaikan untuk men-deploy dan menskalakan layanan inferensi AI di GKE.

Konfigurasi	Tujuan
`replicaCount: 1`	Membuat satu replika awal.
`image.repository: vllm/vllm-openai`	Menggunakan image vLLM, library yang dioptimalkan untuk inferensi Model Bahasa Besar (LLM), yang diekspos menggunakan API yang kompatibel dengan OpenAI.
`model.id: google/gemma-7b-it`	Menentukan model Gemma 7B yang disesuaikan dengan petunjuk sebagai model yang akan disajikan.
`model.hfSecret: hf-secret`	Menunjukkan bahwa model memerlukan autentikasi menggunakan Secret Kubernetes untuk pengelolaan kredensial yang aman.
`resources.limits` dan `requests` untuk `nvidia.com/gpu: "1"`	Memastikan setiap pod mendapatkan GPU khusus.
`nodeSelector.cloud.google.com/gke-accelerator: nvidia-l4`	Memastikan pod model AI Anda dijadwalkan secara eksklusif di node GKE Standard yang dilengkapi dengan GPU NVIDIA L4, yang ideal untuk inferensi berperforma tinggi dan hemat biaya.
`hpa.enabled: true`	Mengaktifkan Horizontal Pod Autoscaler, yang memungkinkan aplikasi menskalakan jumlah pod secara otomatis (antara `minReplicas: 1` dan `maxReplicas: 10`) berdasarkan `targetCPUUtilizationPercentage: 80%`. Memastikan performa selama beban puncak dan efisiensi biaya selama penggunaan rendah.
`tensorParallelSize: 1`	Menunjukkan bahwa model tidak dibagi di beberapa GPU dalam satu pod.
`maxModelLen: 512`	Mengontrol panjang urutan maksimum yang dapat diproses oleh model Gemma 7B.
`service.type: ClusterIP`	Layanan ini dikonfigurasi untuk akses internal dalam cluster.
`pdb.enabled: true` dan `minAvailable: 1`	Pod Disruption Budget diaktifkan untuk memastikan ketersediaan tinggi. Setidaknya satu replika model AI Anda tetap tersedia selama gangguan sukarela seperti pemeliharaan node.

Membuat aplikasi AI

Gunakan template cluster GKE dan workload Inferensi AI yang Dilatih Sebelumnya untuk men-deploy aplikasi AI Anda.

Men-deploy infrastruktur AI

Konfigurasi dan deploy template Cluster GKE Inferensi yang Dilatih Sebelumnya dengan AI untuk membuat infrastruktur dasar tempat workload AI Anda berjalan.

Duplikasikan dan deploy template Cluster GKE Inferensi yang Dilatih Sebelumnya dengan AI sebagai aplikasi.

Cluster GKE dibuat dalam project deployment yang Anda pilih.
Konfigurasikan komponen. Untuk mengetahui informasi selengkapnya, lihat referensi berikut:
- Mengonfigurasi cluster GKE Standard.
- Mengonfigurasi node pool GKE.
Klik Deploy. Aplikasi akan di-deploy setelah beberapa menit.
Di panel Application details, klik tab Outputs.
Identifikasi cluster_id untuk aplikasi Anda. Anda akan menggunakan informasi ini saat men-deploy diagram helm.

Men-deploy workload AI

Gunakan template Workload GKE Inferensi yang Dilatih Sebelumnya dengan AI untuk men-deploy workload AI ke dalam cluster yang Anda buat. Anda akan men-deploy diagram helm yang menyertakan konfigurasi workload AI.

Dari halaman Google catalog, di template AI Pre-trained Inference GKE workload, klik Create new application.
Di kolom Name, masukkan nama unik untuk aplikasi Anda.
Di area GKE Deployment Target, lakukan tindakan berikut:
1. Dari Project list, pilih project tempat Anda men-deploy cluster GKE dari aplikasi AI Pre-trained Inference GKE cluster.
2. Dari daftar Region, pilih region tempat Anda men-deploy cluster GKE.
3. Dari daftar Clusters, pilih cluster GKE yang di-deploy.
4. Dari daftar Namespace, masukkan namespace tempat Anda men-deploy cluster GKE. Jika Anda tidak mengubah namanya, masukkan default.
5. Klik Create application.
Aplikasi akan dibuat dan file konfigurasi akan ditampilkan.
Di panel Helm chart, lakukan tindakan berikut:
1. Tinjau detail konfigurasi.
2. Opsional: sesuaikan konfigurasi untuk memenuhi kebutuhan unik Anda.
3. Untuk men-deploy diagram helm ke cluster Anda, klik Deploy.
  
  Untuk mengetahui langkah-langkah mendetail, lihat Men-deploy aplikasi.
Setelah beberapa menit, konfigurasi diagram helm akan di-deploy ke cluster GKE Anda.

Langkah berikutnya

Duplikasikan dan sesuaikan template ini dengan membuat template Google.
Tentukan konfigurasi Anda sendiri dengan mendesain template aplikasi.
Identifikasi praktik terbaik arsitektur umum dengan Google Cloud Architecture Framework.