Gói xử lý Ưu tiên cho khách hàng API.

Gói xử lý Ưu tiên mang lại hiệu suất cao, đáng tin cậy với sự linh hoạt của mô hình thanh toán theo mức sử dụng.

Bằng cách chọn gói xử lý Ưu tiên, bạn có thể mở khóa các quyền lợi:

Độ trễ thấp có thể dự đoán: Xử lý ưu tiên tạo ra token nhanh hơn và ổn định hơn so với dịch vụ xử lý Tiêu chuẩn, ngay cả khi nhu cầu đạt đỉnh.
Tính linh hoạt dễ sử dụng: Giống như gói xử lý Tiêu chuẩn, xử lý Ưu tiên có thể được truy cập linh hoạt theo mô hình thanh toán theo mức sử dụng thay vì yêu cầu cung cấp trước.

	Mức giá mỗi 1 triệu token đầu vào	Mức giá mỗi 1 triệu token đầu vào (đã lưu bộ nhớ tạm)	Mức giá mỗi 1 triệu token đầu ra	SLA thời gian hoạt động³	SLA độ trễ³
GPT-5.5 không bao gồm khối lượng nội dung lớn¹	12,50 US$	1,250 US$	75,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5.4 mini không bao gồm khối lượng nội dung lớn¹	1,50 US$	0,150 US$	9,00 US$	99,9%	99% > 100 token mỗi giây²
GPT-5.4 không bao gồm khối lượng nội dung lớn¹	5,00 US$	0,500 US$	30,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5.2 không bao gồm khối lượng nội dung lớn¹	3,50 US$	0,350 US$	28,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5.1 không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 mini không bao gồm khối lượng nội dung lớn¹	0,45 US$	0,045 US$	3,60 US$	99,9%	99% > 80 token mỗi giây²
GPT-5.1 codex không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-5 codex không bao gồm khối lượng nội dung lớn¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 token mỗi giây²
GPT-4.1 không bao gồm khối lượng nội dung lớn¹	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 token mỗi giây²
GPT-4.1 mini không bao gồm khối lượng nội dung lớn¹	0,70 US$	0,175 US$	2,80 US$	99,9%	99% > 90 token mỗi giây²
GPT-4.1 nano không bao gồm khối lượng nội dung lớn¹	0,20 US$	0,050 US$	0,80 US$	99,9%	99% > 100 token mỗi giây²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9%	99% > 80 token mỗi giây²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9%	99% > 80 token mỗi giây²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9%	99% > 90 token mỗi giây²
o3	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 token mỗi giây²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9%	99% > 90 token mỗi giây²

1Các yêu cầu ước tính ở mức >128.000 token lời nhắc

2Được tính dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi 5 phút. Đối với những khách hàng có thỏa thuận doanh nghiệp sẵn mà các SLA độ trễ được tính toán dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi phút, các SLA trước đó vẫn được áp dụng.

3Chỉ áp dụng cho khách hàng Enterprise.

Cách thức hoạt động

Bạn có thể chuyển hướng lưu lượng đến gói xử lý Ưu tiên cho từng yêu cầu bằng cách sử dụng tham số service_tier hiện có, với tùy chọn service_tier = “priority”.

Các token được xử lý bởi xử lý Ưu tiên sẽ bị tính phí trên cơ sở từng token, với mức giá cao hơn so với mức giá của gói xử lý Tiêu chuẩn.

Ngoài việc được cấu hình ở cấp độ yêu cầu, bạn cũng có thể mặc định một dự án thành Ưu tiên trong cài đặt Dự án → Cấp dịch vụ mặc định: Ưu tiên. Bạn vẫn có thể ghi đè theo từng yêu cầu.

Hạn chế

Giới hạn tốc độ xử lý Ưu tiên được chia sẻ với các cấp cấp dịch vụ khác.
Trong một số trường hợp hiếm hoi, việc tăng đột ngột số lượng token mỗi phút của xử lý Ưu tiên có thể dẫn đến việc chạm ngưỡng giới hạn tốc độ gia tăng. Nếu bạn vượt quá giới hạn tốc độ gia tăng, thì lưu lượng bổ sung có thể sẽ được chuyển sang xử lý Tiêu chuẩn.

Mức giá

Mô hình

Giới hạn tần suất

Gói xử lý Ưu tiên có giới hạn tần suất nới tăng từng nấc để đảm bảo hiệu suất cao ổn định cho tất cả khách hàng, đồng thời vẫn cung cấp mức giá linh hoạt theo nhu cầu. Nếu (a) hiệu suất xử lý Ưu tiên bị suy giảm VÀ (b) lưu lượng truy cập của khách hàng tăng quá nhanh, thì một số yêu cầu Ưu tiên có thể bị hạ cấp xuống xử lý tiêu chuẩn.

Giới hạn tần suất nới tăng từng nấc của tính năng xử lý Ưu tiên hiện tại được định nghĩa là xử lý ít nhất 1 triệu TPM và tăng lưu lượng thêm >50% token mỗi phút trong vòng chưa đầy 15 phút.

Các yêu cầu được xử lý bởi cấp dịch vụ Tiêu chuẩn sẽ bị tính phí theo mức giá tiêu chuẩn và không đủ điều kiện cho Mục tiêu cấp độ dịch vụ khi xử lý Ưu tiên.

Các yêu cầu được xử lý bởi cấp dịch vụ Tiêu chuẩn sẽ bao gồm service_tier=”Default” trong phản hồi.

Cách tốt nhất để không vượt quá giới hạn tần suất nới tăng từng nấc

Hãy tăng lưu lượng truy cập từ từ khi thay đổi mô hình. Ví dụ: nếu ứng dụng của bạn đang chuyển từ ảnh chụp nhanh trước đó sang ảnh chụp nhanh mới, hãy sử dụng cờ tính năng để chuyển tiếp lưu lượng trong vài giờ thay vì chuyển toàn bộ cùng lúc.
Tránh thực hiện các tác vụ xử lý dữ liệu lớn hoặc tác vụ không đồng bộ trên chế độ xử lý Ưu tiên. Các công việc này có thể làm tăng lưu lượng rất nhanh và thường không cần đến hiệu suất cải thiện của xử lý Ưu tiên.
Nếu bạn thường xuyên gặp giới hạn tốc độ gia tăng, hãy cân nhắc mua thêm hoặc chuyển sang sử dụng gói Scale Tier.

Độ tin cậy

Đối với khách hàng Enterprise, vui lòng liên hệ với AD của bạn nếu có bất kỳ câu hỏi hay thắc mắc nào.

Các thỏa thuận cấp độ dịch vụ (SLA) của xử lý Ưu tiên sẽ được đối xử giống như các SLA của Scale Tier; tín dụng dịch vụ sẽ được cung cấp nếu chúng tôi không đáp ứng được các SLA đó cho khách hàng có thỏa thuận doanh nghiệp trong một khoảng thời gian nhất định.

Chính sách

Các yêu cầu được xử lý bởi cấp dịch vụ Tiêu chuẩn sẽ bao gồm service_tier=”Default” trong phản hồi.

Cách tốt nhất để không vượt quá giới hạn tần suất nới tăng từng nấc

Hãy tăng lưu lượng truy cập từ từ khi thay đổi mô hình. Ví dụ: nếu ứng dụng của bạn đang chuyển từ ảnh chụp nhanh trước đó sang ảnh chụp nhanh mới, hãy sử dụng cờ tính năng để chuyển tiếp lưu lượng trong vài giờ thay vì chuyển toàn bộ cùng lúc.
Tránh thực hiện các tác vụ xử lý dữ liệu lớn hoặc tác vụ không đồng bộ trên chế độ xử lý Ưu tiên. Các công việc này có thể làm tăng lưu lượng rất nhanh và thường không cần đến hiệu suất cải thiện của xử lý Ưu tiên.
Nếu bạn thường xuyên gặp giới hạn tốc độ gia tăng, hãy cân nhắc mua thêm hoặc chuyển sang sử dụng gói Scale Tier.

Gói xử lý Ưu tiên cho khách hàng API.

Cách thức hoạt động

Hạn chế

Mức giá

(Dành cho khách hàng Enterprise) Điều này tương tác với gói Scale Tier như thế nào?

(Dành cho khách hàng Enterprise) Tôi có thể tự động gửi lưu lượng vượt mức của Scale Tier đến xử lý Ưu tiên không?

(Dành cho khách hàng Enterprise) Cam kết hàng năm của tôi có bị ràng buộc với một chế độ xử lý cụ thể không?

Tôi vẫn được giảm giá cho số token đầu vào đã lưu vào bộ nhớ tạm phải không?

Cách xem mức sử dụng và chi phí của gói xử lý Ưu tiên?

Mô hình

Xử lý Ưu tiên có áp dụng cho các mô hình ngữ cảnh dài, được tinh chỉnh, mô hình nhúng, v.v. không?

Các phương thức khác hoạt động với xử lý Ưu tiên như thế nào?

Liệu các mô hình trong tương lai có được hỗ trợ không?