Pemrosesan Prioritas untuk Pelanggan API.
Pemrosesan Prioritas menawarkan kinerja yang andal dan berkecepatan tinggi dengan fleksibilitas untuk membayar sesuai pemakaian.
Dengan memilih pemrosesan Prioritas, Anda dapat membuka akses:
- Latensi rendah yang dapat diprediksi: Pemrosesan Prioritas membuat token lebih cepat dan dengan kecepatan yang lebih konsisten dibandingkan dengan layanan pemrosesan Standar, bahkan selama permintaan puncak.
- Fleksibilitas yang mudah digunakan: Seperti pemrosesan Standar, pemrosesan Prioritas dapat diakses secara fleksibel dengan model bayar sesuai penggunaan, tanpa memerlukan penyediaan sebelumnya.
| Harga per 1JT token masukan | Harga per 1JT token masukan (dengan cache) | Harga per 1JT token keluaran | SLA Waktu aktif3 | SLA Latensi3 | |
|---|---|---|---|---|---|
GPT-5.5 mengecualikan konteks panjang1 | US$12,50 | US$1,250 | US$75,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5.4 mini mengecualikan konteks panjang1 | US$1,50 | US$0,150 | US$9,00 | 99,9% | 99% > 100 token per detik2 |
GPT-5.4 mengecualikan konteks panjang1 | US$5,00 | US$0,500 | US$30,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5.2 mengecualikan konteks panjang1 | US$3,50 | US$0,350 | US$28,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5.1 mengecualikan konteks panjang1 | US$2,50 | US$0,250 | US$20,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5 mengecualikan konteks panjang1 | US$2,50 | US$0,250 | US$20,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5 mini mengecualikan konteks panjang1 | US$0,45 | US$0,045 | US$3,60 | 99,9% | 99% > 80 token per detik2 |
GPT-5.1 codex mengecualikan konteks panjang1 | US$2,50 | US$0,250 | US$20,00 | 99,9% | 99% > 50 token per detik2 |
GPT-5 codex mengecualikan konteks panjang1 | US$2,50 | US$0,250 | US$20,00 | 99,9% | 99% > 50 token per detik2 |
GPT-4.1 mengecualikan konteks panjang1 | US$3,50 | US$0,875 | US$14,00 | 99,9% | 99% > 80 token per detik2 |
GPT-4.1 mini mengecualikan konteks panjang1 | US$0,70 | US$0,175 | US$2,80 | 99,9% | 99% > 90 token per detik2 |
GPT-4.1 nano mengecualikan konteks panjang1 | US$0,20 | US$0,050 | US$0,80 | 99,9% | 99% > 100 token per detik2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4,25 | US$2,125 | US$17,00 | 99,9% | 99% > 80 token per detik2 |
gpt-4o-2024-05-13 | US$8,75 | — | US$26,25 | 99,9% | 99% > 80 token per detik2 |
GPT-4o mini | US$0,25 | US$0,125 | US$1,00 | 99,9% | 99% > 90 token per detik2 |
o3 | US$3,50 | US$0,875 | US$14,00 | 99,9% | 99% > 80 token per detik2 |
o4-mini | US$2,00 | US$0,500 | US$8,00 | 99,9% | 99% > 90 token per detik2 |
Cara kerjanya
Pelanggan dapat mengarahkan lalu lintas ke pemrosesan Prioritas berdasarkan setiap permintaan menggunakan parameter service_tier yang sudah ada, dengan opsi service_tier = “priority”.
Token yang diproses dengan pemrosesan Prioritas akan dikenakan biaya per token, dengan harga premium dibandingkan dengan tarif pemrosesan Standar.
Selain dikonfigurasi pada tingkat permintaan, Anda juga dapat mengatur proyek ke Prioritas secara default di Pengaturan proyek → Jenjang Layanan Default: Prioritas. Anda masih dapat menimpa (override) per permintaan.
Keterbatasan
- Batas laju pemrosesan prioritas dibagikan dengan tingkat layanan lainnya.
- Dalam kasus yang jarang terjadi, peningkatan cepat pada Token per Menit pemrosesan Prioritas Anda dapat menyebabkan tercapainya batas laju kenaikan (ramp rate limits). Jika Anda melebihi batas laju kenaikan, maka lalu lintas tambahan mungkin akan dialihkan ke pemrosesan Standar.