Bỏ qua nội dung chính
OpenAI

Gói xử lý Ưu tiên cho khách hàng API.

Gói xử lý Ưu tiên mang lại hiệu suất cao, đáng tin cậy với sự linh hoạt của mô hình thanh toán theo mức sử dụng.

Bằng cách chọn gói xử lý Ưu tiên, bạn có thể mở khóa các quyền lợi:

  • Độ trễ thấp có thể dự đoán: Xử lý ưu tiên tạo ra token nhanh hơn và ổn định hơn so với dịch vụ xử lý Tiêu chuẩn, ngay cả khi nhu cầu đạt đỉnh.
  • Tính linh hoạt dễ sử dụng: Giống như gói xử lý Tiêu chuẩn, xử lý Ưu tiên có thể được truy cập linh hoạt theo mô hình thanh toán theo mức sử dụng thay vì yêu cầu cung cấp trước.
Mức giá mỗi 1 triệu token đầu vàoMức giá mỗi 1 triệu token đầu vào (đã lưu bộ nhớ tạm)Mức giá mỗi 1 triệu token đầu raSLA thời gian hoạt động3SLA độ trễ3
GPT-5.5
không bao gồm khối lượng nội dung lớn1
12,50 US$1,250 US$75,00 US$99,9%99% > 50 token mỗi giây2
GPT-5.4 mini
không bao gồm khối lượng nội dung lớn1
1,50 US$0,150 US$9,00 US$99,9%99% > 100 token mỗi giây2
GPT-5.4
không bao gồm khối lượng nội dung lớn1
5,00 US$0,500 US$30,00 US$99,9%99% > 50 token mỗi giây2
GPT-5.2
không bao gồm khối lượng nội dung lớn1
3,50 US$0,350 US$28,00 US$99,9%99% > 50 token mỗi giây2
GPT-5.1
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5 mini
không bao gồm khối lượng nội dung lớn1
0,45 US$0,045 US$3,60 US$99,9%99% > 80 token mỗi giây2
GPT-5.1 codex
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-5 codex
không bao gồm khối lượng nội dung lớn1
2,50 US$0,250 US$20,00 US$99,9%99% > 50 token mỗi giây2
GPT-4.1
không bao gồm khối lượng nội dung lớn1
3,50 US$0,875 US$14,00 US$99,9%99% > 80 token mỗi giây2
GPT-4.1 mini
không bao gồm khối lượng nội dung lớn1
0,70 US$0,175 US$2,80 US$99,9%99% > 90 token mỗi giây2
GPT-4.1 nano
không bao gồm khối lượng nội dung lớn1
0,20 US$0,050 US$0,80 US$99,9%99% > 100 token mỗi giây2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 US$2,125 US$17,00 US$99,9%99% > 80 token mỗi giây2
gpt-4o-2024-05-13
8,75 US$26,25 US$99,9%99% > 80 token mỗi giây2
GPT-4o mini
0,25 US$0,125 US$1,00 US$99,9%99% > 90 token mỗi giây2
o3
3,50 US$0,875 US$14,00 US$99,9%99% > 80 token mỗi giây2
o4-mini
2,00 US$0,500 US$8,00 US$99,9%99% > 90 token mỗi giây2
1Các yêu cầu ước tính ở mức >128.000 token lời nhắc
2Được tính dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi 5 phút. Đối với những khách hàng có thỏa thuận doanh nghiệp sẵn mà các SLA độ trễ được tính toán dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi phút, các SLA trước đó vẫn được áp dụng.
3Chỉ áp dụng cho khách hàng Enterprise.

Cách thức hoạt động

Bạn có thể chuyển hướng lưu lượng đến gói xử lý Ưu tiên cho từng yêu cầu bằng cách sử dụng tham số service_tier hiện có, với tùy chọn service_tier = “priority”.

Các token được xử lý bởi xử lý Ưu tiên sẽ bị tính phí trên cơ sở từng token, với mức giá cao hơn so với mức giá của gói xử lý Tiêu chuẩn. 

Ngoài việc được cấu hình ở cấp độ yêu cầu, bạn cũng có thể mặc định một dự án thành Ưu tiên trong cài đặt Dự án → Cấp dịch vụ mặc định: Ưu tiên. Bạn vẫn có thể ghi đè theo từng yêu cầu.

Hạn chế

  • Giới hạn tốc độ xử lý Ưu tiên được chia sẻ với các cấp cấp dịch vụ khác. 
  • Trong một số trường hợp hiếm hoi, việc tăng đột ngột số lượng token mỗi phút của xử lý Ưu tiên có thể dẫn đến việc chạm ngưỡng giới hạn tốc độ gia tăng. Nếu bạn vượt quá giới hạn tốc độ gia tăng, thì lưu lượng bổ sung có thể sẽ được chuyển sang xử lý Tiêu chuẩn.

Mức giá

Mô hình

Giới hạn tần suất

Độ tin cậy

Chính sách