메인 콘텐츠로 건너뛰기
OpenAI

API 고객을 위한 우선 처리

우선 처리는 안정적이고 빠른 성능과 함께, 사용한 만큼 결제하는 유연성을 갖추고 있습니다.

우선 처리를 선택하면 다음 혜택이 제공됩니다.

  • 예측 가능한 레이턴시: 우선 처리는 피크 시간대에도 표준 처리 서비스보다 더 빠르고 더 일관된 속도로 토큰을 생성합니다.
  • 사용하기 쉬운 유연성: 우선 처리는 표준 처리와 마찬가지로 사전 프로비저닝 없이도 사용량 기반 방식으로 유연하게 이용할 수 있습니다.
입력 토큰 100만 개당 가격입력 토큰 100만 개당 가격(캐시됨)출력 토큰 100만 개당 가격가동 시간 SLA3레이턴시 SLA3
GPT-5.5
Long-Context 제외1
US$12.50US$1.250US$75.0099.9%99% > 50개의 토큰/초2
GPT-5.4 mini
Long-Context 제외1
US$1.50US$0.150US$9.0099.9%99% > 100개의 토큰/초2
GPT-5.4
Long-Context 제외1
US$5.00US$0.500US$30.0099.9%99% > 50개의 토큰/초2
GPT-5.2
Long-Context 제외1
US$3.50US$0.350US$28.0099.9%99% > 50개의 토큰/초2
GPT-5.1
Long-Context 제외1
US$2.50US$0.250US$20.0099.9%99% > 50개의 토큰/초2
GPT-5
Long-Context 제외1
US$2.50US$0.250US$20.0099.9%99% > 50개의 토큰/초2
GPT-5 mini
Long-Context 제외1
US$0.45US$0.045US$3.6099.9%99% > 80개의 토큰/초2
GPT-5.1 codex
Long-Context 제외1
US$2.50US$0.250US$20.0099.9%99% > 50개의 토큰/초2
GPT-5 codex
Long-Context 제외1
US$2.50US$0.250US$20.0099.9%99% > 50개의 토큰/초2
GPT-4.1
Long-Context 제외1
US$3.50US$0.875US$14.0099.9%99% > 80개의 토큰/초2
GPT-4.1 mini
Long-Context 제외1
US$0.70US$0.175US$2.8099.9%99% > 90개의 토큰/초2
GPT-4.1 nano
Long-Context 제외1
US$0.20US$0.050US$0.8099.9%99% > 100개의 토큰/초2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$4.25US$2.125US$17.0099.9%99% > 80개의 토큰/초2
gpt-4o-2024-05-13
US$8.75US$26.2599.9%99% > 80개의 토큰/초2
GPT-4o mini
US$0.25US$0.125US$1.0099.9%99% > 90개의 토큰/초2
o3
US$3.50US$0.875US$14.0099.9%99% > 80개의 토큰/초2
o4-mini
US$2.00US$0.500US$8.0099.9%99% > 90개의 토큰/초2
1프롬프트 토큰 12만 8,000개 초과 시 예상 요청 수
25분마다 p50 요청 레이턴시로 계산됩니다. 기존 엔터프라이즈 계약에 1분마다 p50 요청 레이턴시로 계산되는 레이턴시 SLA가 포함된 고객은 기존의 SLA 역시 계속 적용됩니다.
3Enterprise 고객에게만 적용됩니다

작동 방식

고객은 service_tier = “priority” 옵션과 함께 기존의 service_tier 파라미터를 사용하여 각 요청에 대해 트래픽을 우선 처리로 디렉션할 수 있습니다.

우선 처리를 통해 제공되는 토큰은 토큰당 과금되며 표준 처리 요율보다 높은 프리미엄 가격이 적용됩니다. 

요청 단위 설정 외에도 프로젝트 설정 → 기본 서비스 등급에서 프로젝트 기본값을 우선으로 지정할 수 있습니다. 요청마다 개별적으로 재정의할 수도 있습니다.

제약사항

  • 우선 처리의 속도 제한은 다른 서비스 등급과 공유됩니다. 
  • 드문 경우지만 분당 우선 처리 토큰이 급증하면 램프 속도 제한에 도달할 수 있습니다. 램프 속도 제한을 초과하면 추가 트래픽이 표준 처리로 대신 전송될 수 있습니다.

가격

모델

속도 제한

신뢰성

정책