Scale Tier cho khách hàng API

Ưu đãi này dành cho khách hàng doanh nghiệp. Vui lòng liên hệ đội ngũ bán hàng của chúng tôi⁠ để tìm hiểu thêm. Để tiếp cận các lợi ích cao cấp tương tự về độ trễ và độ tin cậy theo mô hình linh hoạt, thanh toán theo mức sử dụng, hãy xem Gói xử lý ưu tiên⁠.

Cấp năng lực xử lý cho phép bạn mua trước một số lượng token đầu vào và đầu ra API nhất định mỗi phút (được gọi là “đơn vị token”) để truy cập vào một ảnh chụp nhanh mô hình cụ thể. Mỗi đơn vị token được mua trong thời gian tối thiểu 30 ngày. Có thể thêm các mô hình khác tùy theo sở thích của khách hàng.

Khi lựa chọn Scale Tier, bạn có thể được hưởng những lợi ích sau:

Độ trễ có thể dự đoán được: Scale Tier được thiết kế để tạo mã thông báo nhanh hơn và với tốc độ nhất quán hơn so với dịch vụ trả theo thời gian sử dụng (PAYG), ngay cả khi nhu cầu cao điểm.
Mở rộng không giới hạn: Mọi lượt mua hạn mức với Cấp năng lực xử lý sẽ tự động được cộng vào giới hạn tốc độ của bạn, giúp bạn tự tin mở rộng hơn nữa.
Độ tin cậy cao hơn: Lưu lượng Cấp năng lực xử lý cung cấp SLA thời gian hoạt động 99,9% và khả năng tính toán ưu tiên.

	Gói đầu vào	Gói đầu ra	SLA thời gian hoạt động	SLA độ trễ
GPT-5.5	50.000 TPM 750,00 US$ mỗi đơn vị/ngày	Không áp dụng³	99,9%	99% > 100 token mỗi giây²
GPT-5.4 mini	50.000 TPM 100,00 US$ mỗi đơn vị/ngày	Không áp dụng³	99,9%	99% > 100 token mỗi giây²
GPT-5.4 không bao gồm ngữ cảnh dài⁴	50.000 TPM 300,00 US$ mỗi đơn vị/ngày	Không áp dụng³	99,9%	99% > 50 token mỗi giây²
GPT-5.2	25.000 TPM 105,00 US$ mỗi đơn vị/ngày	2.500 TPM 84,00 US$ mỗi đơn vị/ngày	99,9%	99% > 50 token mỗi giây²
GPT-5.1	25.000 TPM 75,00 US$ mỗi đơn vị/ngày	2.500 TPM 60,00 US$ mỗi đơn vị/ngày	99,9%	99% > 50 token mỗi giây²
GPT-5	25.000 TPM 75,00 US$ mỗi đơn vị/ngày	2.500 TPM 60,00 US$ mỗi đơn vị/ngày	99,9%	99% > 50 token mỗi giây²
GPT-5 mini	500.000 TPM 275,00 US$ mỗi đơn vị/ngày	50.000 TPM 220,00 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
GPT-4.1 không bao gồm ngữ cảnh dài¹	30.000 TPM 110,00 US$ mỗi đơn vị/ngày	2.500 TPM 36,00 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
GPT-4.1 mini không bao gồm ngữ cảnh dài¹	500.000 TPM 450,00 US$ mỗi đơn vị/ngày	50.000 TPM 175,00 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²
GPT-4.1 nano không bao gồm ngữ cảnh dài¹	500.000 TPM 110,00 US$ mỗi đơn vị/ngày	50.000 TPM 40,00 US$ mỗi đơn vị/ngày	99,9%	99% > 100 token mỗi giây²
GPT-4.1 fine tuning	30.000 TPM 165,00 US$ mỗi đơn vị/ngày	2.500 TPM 36,00 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
GPT-4.1 mini fine tuning	500.000 TPM 900,00 US$ mỗi đơn vị/ngày	50.000 TPM 175,00 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²
o3	25.000 TPM 75,00 US$ mỗi đơn vị/ngày	5.000 TPM 60,00 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
o4-mini	30.000 TPM 50,00 US$ mỗi đơn vị/ngày	5.000 TPM 32,50 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²
GPT-4o	30.000 TPM 124,59 US$ mỗi đơn vị/ngày	2.500 TPM 39,34 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
GPT-4o mini	500.000 TPM 114,75 US$ mỗi đơn vị/ngày	50.000 TPM 49,18 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²
GPT-4o mini fine tuning	500.000 TPM 229,50 US$ mỗi đơn vị/ngày	50.000 TPM 98,36 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²
o1	5.000 TPM 163,93 US$ mỗi đơn vị/ngày	1.000 TPM 131,15 US$ mỗi đơn vị/ngày	99,9%	99% > 80 token mỗi giây²
o3-mini	30.000 TPM 78,69 US$ mỗi đơn vị/ngày	5.000 TPM 52,46 US$ mỗi đơn vị/ngày	99,9%	99% > 90 token mỗi giây²

1Các yêu cầu ước tính ở mức >128.000 token lời nhắc

2Được tính dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi 5 phút. Đối với những khách hàng có thỏa thuận doanh nghiệp sẵn mà các SLA độ trễ được tính toán dựa trên độ trễ yêu cầu p50 trên cơ sở mỗi phút, các SLA trước đó vẫn được áp dụng.

3Với GPT-5.4, Gói Scale Tier được mua dưới dạng một gói gồm các token đầu vào và đầu ra kết hợp mỗi phút. Việc sử dụng token đầu vào, token đầu vào lưu bộ nhớ tạm và token đầu ra sẽ được tính vào gói kết hợp này theo các mức khác nhau. Xem phần Cách thức hoạt động bên dưới.

4Ngữ cảnh dài >272K

Cách thức hoạt động

Với Scale Tier, bạn có thể mua các đơn vị token đầu vào và đầu ra. Ví dụ, với GPT‑4.1, mỗi đơn vị đầu vào có giá 110 đô la/ngày và cho phép bạn sử dụng 30.000 token đầu vào/phút. Mỗi đơn vị đầu ra có giá $36/ngày và cho phép bạn sử dụng 2,5 nghìn token đầu ra/phút. Mỗi đơn vị token được mua trong thời gian tối thiểu 30 ngày.

Bạn có thể tìm hiểu thêm thông tin về cách Scale Tier tương tác với cơ chế Lưu lời nhắc vào bộ nhớ tạm trong phần Câu hỏi thường gặp bên dưới.

Với GPT‑5.4, bạn mua token đầu vào và đầu ra kết hợp mỗi phút. Điều này mang lại cho bạn sự linh hoạt hơn và loại bỏ nhu cầu phải dự đoán tỷ lệ token đầu vào và đầu ra. Khi bạn sử dụng Cấp năng lực xử lý, chúng tôi tính token vào Token kết hợp của bạn như sau:

Token đầu vào được tính là 1
Các token đầu vào đã lưu vào bộ nhớ tạm tuân theo cơ chế lưu vào bộ nhớ tạm theo từng mô hình như bên dưới trong phần Câu hỏi thường gặp
Số lượng token đầu ra được tính dựa trên tỷ lệ giá PayG giữa token đầu ra và token đầu vào của mô hình. Ví dụ, với GPT‑5.4, một token đầu ra được tính là 6.

Mức giá

Đối với mục đích thanh toán, số token mỗi phút (TPM) được tính bằng cách tính trung bình số token được sử dụng trong khoảng thời gian 15 phút tính từ đầu giờ (ví dụ: 3:00 đến < 3:15, 3:15 đến < 3:30, v.v.). Nếu tổng số token được sử dụng trong khoảng thời gian 15 phút thấp hơn mức quy định của Scale Tier, bạn sẽ không bị tính phí. Ví dụ: nếu bạn mua Scale Tier cho GPT‑4o với mức sử dụng 30.000 token đầu vào mỗi phút, bạn có thể sử dụng tối đa 450.000 token đầu vào trong một khoảng thời gian 15 phút bất kỳ mà không phải trả thêm phí. Bất kỳ token nào sử dụng vượt quá giới hạn này sẽ được tính giá theo mức sử dụng (PAYG).

Đơn vị token và giới hạn sử dụng

Bạn có thể xem giới hạn sử dụng hiện tại của mình trong trang cài đặt của bạn⁠⁠(mở trong cửa sổ mới). Khi bạn mua đơn vị token cho Scale Tier, giới hạn sử dụng của bạn cho mô hình đó sẽ tự động tăng theo số tiền bạn mua. Khi bạn sử dụng mô hình, các yêu cầu sẽ được xử lý trước bằng hạn mức Scale Tier nhanh hơn của bạn. Nếu bạn vượt quá hạn ngạch của mình, các yêu cầu bổ sung sẽ được xử lý bằng dịch vụ xử lý Tiêu chuẩn thông thường. Nếu bạn vượt quá tổng giới hạn xử lý trong một phút trên cả giới hạn xử lý của Cấp năng lực xử lý và Standard thông thường, thì các yêu cầu tiếp theo sẽ bị từ chối như bình thường với mã lỗi 429.

Có, bạn có thể sử dụng tham số ‘service_tier’ trong API Hoàn thiện hội thoại. Chỉ định “auto" sẽ sử dụng hạn mức Scale Tier nếu có. Chỉ định “default” sẽ sử dụng hạn mức xử lý tiêu chuẩn. Phản hồi cũng sẽ bao gồm tham số ‘service_tier’ cho biết dịch vụ nào thực sự xử lý yêu cầu. Giá trị có thể là Scale hoặc mặc định.

Chúng tôi cung cấp các mức chiết khấu khác nhau cho token đầu vào được lưu trong bộ nhớ cache (50%, 75% hoặc 90%) tùy thuộc vào mô hình. Nếu bạn gửi 50.000 TPM dưới dạng token đầu vào được lưu trong bộ nhớ cache trên một mô hình mà token được lưu trong bộ nhớ cache được giảm giá 50%, thì những token đó chỉ được tính vào 25.000 TPM trong hạn mức của bạn. Nếu bạn gửi 50.000 TPM trong token đầu vào đã lưu vào bộ nhớ tạm trên một mô hình mà các token đã lưu trong bộ nhớ tạm được giảm giá 75%, thì các token đó chỉ được tính là 12.500 TPM theo hạn mức của bạn. Tìm hiểu thêm về Lưu câu lệnh vào bộ nhớ tạm ↗⁠(mở trong cửa sổ mới)

Scale Tier cho khách hàng API

Cách thức hoạt động

Mức giá

Scale Tier được đặt mua và cung cấp như thế nào?

Khi nào thì chu kỳ thanh toán bắt đầu?

Phí sử dụng vượt mức được tính như thế nào khi tôi sử dụng Scale Tier?

Nếu tôi cam kết thanh toán hàng năm, chi tiêu của tôi có phải áp dụng cho Scale Tier không?

Cam kết hàng năm của tôi có gắn liền với một sản phẩm cụ thể nào không?

Nếu tôi đang sử dụng Dung lượng dự trữ, làm thế nào tôi có thể sử dụng Scale Tier cho GPT-4o?

Đơn vị token và giới hạn sử dụng

Làm thế nào để mua đơn vị token theo Scale Tier?

Tôi có thể xem TPM của mình như thế nào?

Làm sao để tôi tính được tổng giới hạn sử dụng của mình?

Tôi có thể chọn yêu cầu nào được áp dụng Scale Tier không?

Scale Tier hoạt động như thế nào với cơ chế Lưu lời nhắc vào bộ nhớ tạm?

Mô hình

Các phương thức khác hoạt động như thế nào với Scale Tier?

Scale Tier có hỗ trợ tính năng tinh chỉnh không?

Tôi có thể tự động chuyển lưu lượng vượt mức của Scale Tier sang Xử lý ưu tiên không?

Độ tin cậy

Điều gì sẽ xảy ra nếu cả SLA về độ trễ và thời gian hoạt động đều bị vi phạm?

Chính sách

Chính sách Không lưu giữ dữ liệu ngoài mức cần thiết (ZDR) hoạt động như thế nào đối với Scale Tier?