Gói xử lý Ưu tiên cho khách hàng API.
Gói xử lý Ưu tiên mang lại hiệu suất cao, đáng tin cậy với sự linh hoạt của mô hình thanh toán theo mức sử dụng.
Bằng cách chọn gói xử lý Ưu tiên, bạn có thể mở khóa các quyền lợi:
- Độ trễ thấp có thể dự đoán: Xử lý ưu tiên tạo ra token nhanh hơn và ổn định hơn so với dịch vụ xử lý Tiêu chuẩn, ngay cả khi nhu cầu đạt đỉnh.
- Tính linh hoạt dễ sử dụng: Giống như gói xử lý Tiêu chuẩn, xử lý Ưu tiên có thể được truy cập linh hoạt theo mô hình thanh toán theo mức sử dụng thay vì yêu cầu cung cấp trước.
| Mức giá mỗi 1 triệu token đầu vào | Mức giá mỗi 1 triệu token đầu vào (đã lưu bộ nhớ tạm) | Mức giá mỗi 1 triệu token đầu ra | SLA thời gian hoạt động3 | SLA độ trễ3 | |
|---|---|---|---|---|---|
GPT-5.5 không bao gồm khối lượng nội dung lớn1 | 12,50 US$ | 1,250 US$ | 75,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5.4 mini không bao gồm khối lượng nội dung lớn1 | 1,50 US$ | 0,150 US$ | 9,00 US$ | 99,9% | 99% > 100 token mỗi giây2 |
GPT-5.4 không bao gồm khối lượng nội dung lớn1 | 5,00 US$ | 0,500 US$ | 30,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5.2 không bao gồm khối lượng nội dung lớn1 | 3,50 US$ | 0,350 US$ | 28,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5.1 không bao gồm khối lượng nội dung lớn1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5 không bao gồm khối lượng nội dung lớn1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5 mini không bao gồm khối lượng nội dung lớn1 | 0,45 US$ | 0,045 US$ | 3,60 US$ | 99,9% | 99% > 80 token mỗi giây2 |
GPT-5.1 codex không bao gồm khối lượng nội dung lớn1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-5 codex không bao gồm khối lượng nội dung lớn1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9% | 99% > 50 token mỗi giây2 |
GPT-4.1 không bao gồm khối lượng nội dung lớn1 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9% | 99% > 80 token mỗi giây2 |
GPT-4.1 mini không bao gồm khối lượng nội dung lớn1 | 0,70 US$ | 0,175 US$ | 2,80 US$ | 99,9% | 99% > 90 token mỗi giây2 |
GPT-4.1 nano không bao gồm khối lượng nội dung lớn1 | 0,20 US$ | 0,050 US$ | 0,80 US$ | 99,9% | 99% > 100 token mỗi giây2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 US$ | 2,125 US$ | 17,00 US$ | 99,9% | 99% > 80 token mỗi giây2 |
gpt-4o-2024-05-13 | 8,75 US$ | — | 26,25 US$ | 99,9% | 99% > 80 token mỗi giây2 |
GPT-4o mini | 0,25 US$ | 0,125 US$ | 1,00 US$ | 99,9% | 99% > 90 token mỗi giây2 |
o3 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9% | 99% > 80 token mỗi giây2 |
o4-mini | 2,00 US$ | 0,500 US$ | 8,00 US$ | 99,9% | 99% > 90 token mỗi giây2 |
Cách thức hoạt động
Bạn có thể chuyển hướng lưu lượng đến gói xử lý Ưu tiên cho từng yêu cầu bằng cách sử dụng tham số service_tier hiện có, với tùy chọn service_tier = “priority”.
Các token được xử lý bởi xử lý Ưu tiên sẽ bị tính phí trên cơ sở từng token, với mức giá cao hơn so với mức giá của gói xử lý Tiêu chuẩn.
Ngoài việc được cấu hình ở cấp độ yêu cầu, bạn cũng có thể mặc định một dự án thành Ưu tiên trong cài đặt Dự án → Cấp dịch vụ mặc định: Ưu tiên. Bạn vẫn có thể ghi đè theo từng yêu cầu.
Hạn chế
- Giới hạn tốc độ xử lý Ưu tiên được chia sẻ với các cấp cấp dịch vụ khác.
- Trong một số trường hợp hiếm hoi, việc tăng đột ngột số lượng token mỗi phút của xử lý Ưu tiên có thể dẫn đến việc chạm ngưỡng giới hạn tốc độ gia tăng. Nếu bạn vượt quá giới hạn tốc độ gia tăng, thì lưu lượng bổ sung có thể sẽ được chuyển sang xử lý Tiêu chuẩn.