API 고객을 위한 우선 처리
우선 처리는 안정적이고 빠른 성능과 함께, 사용한 만큼 결제하는 유연성을 갖추고 있습니다.
우선 처리를 선택하면 다음 혜택이 제공됩니다.
- 예측 가능한 레이턴시: 우선 처리는 피크 시간대에도 표준 처리 서비스보다 더 빠르고 더 일관된 속도로 토큰을 생성합니다.
- 사용하기 쉬운 유연성: 우선 처리는 표준 처리와 마찬가지로 사전 프로비저닝 없이도 사용량 기반 방식으로 유연하게 이용할 수 있습니다.
| 입력 토큰 100만 개당 가격 | 입력 토큰 100만 개당 가격(캐시됨) | 출력 토큰 100만 개당 가격 | 가동 시간 SLA3 | 레이턴시 SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 Long-Context 제외1 | US$12.50 | US$1.250 | US$75.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5.4 mini Long-Context 제외1 | US$1.50 | US$0.150 | US$9.00 | 99.9% | 99% > 100개의 토큰/초2 |
GPT-5.4 Long-Context 제외1 | US$5.00 | US$0.500 | US$30.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5.2 Long-Context 제외1 | US$3.50 | US$0.350 | US$28.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5.1 Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 mini Long-Context 제외1 | US$0.45 | US$0.045 | US$3.60 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-5.1 codex Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-5 codex Long-Context 제외1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50개의 토큰/초2 |
GPT-4.1 Long-Context 제외1 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-4.1 mini Long-Context 제외1 | US$0.70 | US$0.175 | US$2.80 | 99.9% | 99% > 90개의 토큰/초2 |
GPT-4.1 nano Long-Context 제외1 | US$0.20 | US$0.050 | US$0.80 | 99.9% | 99% > 100개의 토큰/초2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4.25 | US$2.125 | US$17.00 | 99.9% | 99% > 80개의 토큰/초2 |
gpt-4o-2024-05-13 | US$8.75 | — | US$26.25 | 99.9% | 99% > 80개의 토큰/초2 |
GPT-4o mini | US$0.25 | US$0.125 | US$1.00 | 99.9% | 99% > 90개의 토큰/초2 |
o3 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80개의 토큰/초2 |
o4-mini | US$2.00 | US$0.500 | US$8.00 | 99.9% | 99% > 90개의 토큰/초2 |
작동 방식
고객은 service_tier = “priority” 옵션과 함께 기존의 service_tier 파라미터를 사용하여 각 요청에 대해 트래픽을 우선 처리로 디렉션할 수 있습니다.
우선 처리를 통해 제공되는 토큰은 토큰당 과금되며 표준 처리 요율보다 높은 프리미엄 가격이 적용됩니다.
요청 단위 설정 외에도 프로젝트 설정 → 기본 서비스 등급에서 프로젝트 기본값을 우선으로 지정할 수 있습니다. 요청마다 개별적으로 재정의할 수도 있습니다.
제약사항
- 우선 처리의 속도 제한은 다른 서비스 등급과 공유됩니다.
- 드문 경우지만 분당 우선 처리 토큰이 급증하면 램프 속도 제한에 도달할 수 있습니다. 램프 속도 제한을 초과하면 추가 트래픽이 표준 처리로 대신 전송될 수 있습니다.