Pemrosesan Prioritas untuk Pelanggan API.

Pemrosesan Prioritas menawarkan kinerja yang andal dan berkecepatan tinggi dengan fleksibilitas untuk membayar sesuai pemakaian.

Dengan memilih pemrosesan Prioritas, Anda dapat membuka akses:

Latensi rendah yang dapat diprediksi: Pemrosesan Prioritas membuat token lebih cepat dan dengan kecepatan yang lebih konsisten dibandingkan dengan layanan pemrosesan Standar, bahkan selama permintaan puncak.
Fleksibilitas yang mudah digunakan: Seperti pemrosesan Standar, pemrosesan Prioritas dapat diakses secara fleksibel dengan model bayar sesuai penggunaan, tanpa memerlukan penyediaan sebelumnya.

	Harga per 1JT token masukan	Harga per 1JT token masukan (dengan cache)	Harga per 1JT token keluaran	SLA Waktu aktif³	SLA Latensi³
GPT-5.5 mengecualikan konteks panjang¹	US$12,50	US$1,250	US$75,00	99,9%	99% > 50 token per detik²
GPT-5.4 mini mengecualikan konteks panjang¹	US$1,50	US$0,150	US$9,00	99,9%	99% > 100 token per detik²
GPT-5.4 mengecualikan konteks panjang¹	US$5,00	US$0,500	US$30,00	99,9%	99% > 50 token per detik²
GPT-5.2 mengecualikan konteks panjang¹	US$3,50	US$0,350	US$28,00	99,9%	99% > 50 token per detik²
GPT-5.1 mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 mini mengecualikan konteks panjang¹	US$0,45	US$0,045	US$3,60	99,9%	99% > 80 token per detik²
GPT-5.1 codex mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-5 codex mengecualikan konteks panjang¹	US$2,50	US$0,250	US$20,00	99,9%	99% > 50 token per detik²
GPT-4.1 mengecualikan konteks panjang¹	US$3,50	US$0,875	US$14,00	99,9%	99% > 80 token per detik²
GPT-4.1 mini mengecualikan konteks panjang¹	US$0,70	US$0,175	US$2,80	99,9%	99% > 90 token per detik²
GPT-4.1 nano mengecualikan konteks panjang¹	US$0,20	US$0,050	US$0,80	99,9%	99% > 100 token per detik²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4,25	US$2,125	US$17,00	99,9%	99% > 80 token per detik²
gpt-4o-2024-05-13	US$8,75	—	US$26,25	99,9%	99% > 80 token per detik²
GPT-4o mini	US$0,25	US$0,125	US$1,00	99,9%	99% > 90 token per detik²
o3	US$3,50	US$0,875	US$14,00	99,9%	99% > 80 token per detik²
o4-mini	US$2,00	US$0,500	US$8,00	99,9%	99% > 90 token per detik²

1Permintaan diestimasikan pada token prompt >128K

2Dihitung sebagai latensi permintaan p50 per 5 menit. Untuk pelanggan dengan perjanjian enterprise yang ada, dengan SLA latensi yang dihitung sebagai latensi permintaan p50 per menit, SLA sebelumnya juga masih berlaku.

3Ini hanya berlaku bagi pelanggan Enterprise

Cara kerjanya

Pelanggan dapat mengarahkan lalu lintas ke pemrosesan Prioritas berdasarkan setiap permintaan menggunakan parameter service_tier yang sudah ada, dengan opsi service_tier = “priority”.

Token yang diproses dengan pemrosesan Prioritas akan dikenakan biaya per token, dengan harga premium dibandingkan dengan tarif pemrosesan Standar.

Selain dikonfigurasi pada tingkat permintaan, Anda juga dapat mengatur proyek ke Prioritas secara default di Pengaturan proyek → Jenjang Layanan Default: Prioritas. Anda masih dapat menimpa (override) per permintaan.

Keterbatasan

Batas laju pemrosesan prioritas dibagikan dengan tingkat layanan lainnya.
Dalam kasus yang jarang terjadi, peningkatan cepat pada Token per Menit pemrosesan Prioritas Anda dapat menyebabkan tercapainya batas laju kenaikan (ramp rate limits). Jika Anda melebihi batas laju kenaikan, maka lalu lintas tambahan mungkin akan dialihkan ke pemrosesan Standar.

Harga

Model

Batas laju

Pemrosesan prioritas memiliki batas laju kenaikan untuk memastikan kinerja tinggi yang konsisten bagi semua pelanggan, sambil tetap menyediakan harga yang fleksibel dan sesuai permintaan. Jika (a) Kinerja pemrosesan prioritas menurun DAN (b) lalu lintas pelanggan meningkat terlalu cepat, maka beberapa permintaan Prioritas dapat diturunkan menjadi Pemrosesan standar.

Batas laju kenaikan pemrosesan Prioritas saat ini ditetapkan sebagai pemrosesan setidaknya 1 juta TPM, dan meningkatkan lalu lintas lebih dari 50% Token Per Menit dalam waktu kurang dari 15 menit.

Permintaan yang diproses oleh tingkat layanan Standar akan dikenakan tarif standar, dan tidak memenuhi syarat untuk pemrosesan Prioritas Tujuan Level Layanan.

Permintaan yang diproses oleh jenjang layanan Standar akan mencantumkan service_tier=”Default” dalam responsnya.

Praktik terbaik untuk tetap berada dalam batas laju kenaikan Anda

Tingkatkan lalu lintas secara bertahap ketika berganti model. Misalnya, jika aplikasi Anda sedang bertransisi dari snapshot sebelumnya ke yang baru, gunakan fitur flag untuk mengalihkan trafik selama beberapa jam, bukan sekaligus.
Hindari menjalankan pemrosesan data besar atau pekerjaan asinkron pada pemrosesan Prioritas. Pekerjaan ini dapat meningkatkan lalu lintas dengan sangat cepat, dan sering kali tidak memerlukan peningkatan kinerja dari pemrosesan Prioritas.
Jika Anda sering menghadapi batas laju kenaikan, pertimbangkan untuk membeli kapasitas Jenjang Skala (Scale Tier) sebagai alternatif atau tambahan.

Keandalan

Kebijakan

Batas laju kenaikan pemrosesan Prioritas saat ini ditetapkan sebagai pemrosesan setidaknya 1 juta TPM, dan meningkatkan lalu lintas lebih dari 50% Token Per Menit dalam waktu kurang dari 15 menit.

Permintaan yang diproses oleh tingkat layanan Standar akan dikenakan tarif standar, dan tidak memenuhi syarat untuk pemrosesan Prioritas Tujuan Level Layanan.

Permintaan yang diproses oleh jenjang layanan Standar akan mencantumkan service_tier=”Default” dalam responsnya.

Praktik terbaik untuk tetap berada dalam batas laju kenaikan Anda

Tingkatkan lalu lintas secara bertahap ketika berganti model. Misalnya, jika aplikasi Anda sedang bertransisi dari snapshot sebelumnya ke yang baru, gunakan fitur flag untuk mengalihkan trafik selama beberapa jam, bukan sekaligus.
Hindari menjalankan pemrosesan data besar atau pekerjaan asinkron pada pemrosesan Prioritas. Pekerjaan ini dapat meningkatkan lalu lintas dengan sangat cepat, dan sering kali tidak memerlukan peningkatan kinerja dari pemrosesan Prioritas.
Jika Anda sering menghadapi batas laju kenaikan, pertimbangkan untuk membeli kapasitas Jenjang Skala (Scale Tier) sebagai alternatif atau tambahan.

Pemrosesan Prioritas untuk Pelanggan API.

Cara kerjanya

Keterbatasan

Harga

(Untuk pelanggan Enterprise) Bagaimana ini berinteraksi dengan Jenjang Skala (Scale Tier)?

(Untuk pelanggan Enterprise) Dapatkah saya secara otomatis mengirimkan lalu lintas Jenjang Skala yang dialihkan ke pemrosesan Prioritas?

(Untuk pelanggan Enterprise) Apakah komitmen tahunan Anda terkait dengan mode pemrosesan tertentu?

Apakah saya masih mendapatkan diskon untuk Token Input dengan Cache?

Bagaimana cara melihat penggunaan dan pengeluaran pemrosesan Prioritas saya?

Model

Apakah pemrosesan Prioritas tersedia untuk konteks panjang, model yang disesuaikan, penyematan, dll?

Bagaimana modalitas lain bekerja pada pemrosesan Prioritas?

Apakah model-model mendatang akan didukung?