Nivel de capacidad para clientes de la API

Esta oferta está disponible para clientes Enterprise. Contacta con nuestro equipo de ventas⁠ para obtener más información. Para acceder a las mismas ventajas prémium de latencia y fiabilidad con una modalidad flexible de pago por uso, consulta procesamiento prioritario⁠.

El nivel de capacidad te permite comprar por adelantado un número determinado de tokens de entrada y salida de API por minuto (conocidos como «unidades de token») para acceder a una instantánea específica de un modelo. Cada token se compra por un mínimo de 30 días. Se pueden añadir modelos adicionales en función del interés de los clientes.

Al elegir nivel de capacidad, podrás desbloquear:

Latencia predecible: el nivel de capacidad se ha diseñado para generar tokens más rápido y a una velocidad más constante que el servicio de pago por uso (PAYG), incluso durante los picos de demanda.
Escalado sin límites: cualquier compra de cuota con nivel de capacidad se añade automáticamente a tus límites de velocidad, para que puedas seguir escalando con confianza.
Mayor fiabilidad: el tráfico del nivel de capacidad ofrece un acuerdo de nivel de servicio del 99,9 % de tiempo de actividad y capacidad de procesamiento prioritaria.

	Paquete de entrada	Paquete de salida	Tiempo de actividad garantizado	Latencia garantizada
GPT-5.5	50.000 TPM 750,00 US$ por unidad/día	No disponible³	99,9 %	99 % > 100 tókenes por segundo²
GPT-5.4 mini	50.000 TPM 100,00 US$ por unidad/día	No disponible³	99,9 %	99 % > 100 tókenes por segundo²
GPT-5.4 excluye contexto largo⁴	50.000 TPM 300,00 US$ por unidad/día	No disponible³	99,9 %	99 % > 50 tókenes por segundo²
GPT-5.2	25.000 TPM 105,00 US$ por unidad/día	2500 TPM 84,00 US$ por unidad/día	99,9 %	99 % > 50 tókenes por segundo²
GPT-5.1	25.000 TPM 75,00 US$ por unidad/día	2500 TPM 60,00 US$ por unidad/día	99,9 %	99 % > 50 tókenes por segundo²
GPT-5	25.000 TPM 75,00 US$ por unidad/día	2500 TPM 60,00 US$ por unidad/día	99,9 %	99 % > 50 tókenes por segundo²
GPT-5 mini	500.000 TPM 275,00 US$ por unidad/día	50.000 TPM 220,00 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
GPT-4.1 excluye contexto largo¹	30 000 TPM 110,00 US$ por unidad/día	2500 TPM 36,00 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
GPT-4.1 mini excluye contexto largo¹	500 000 TPM 450,00 US$ por unidad/día	50 000 TPM 175,00 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²
GPT-4.1 nano excluye contexto largo¹	500 000 TPM 110,00 US$ por unidad/día	50 000 TPM 40,00 US$ por unidad/día	99,9 %	99 % > 100 tókenes por segundo²
GPT-4.1 fine tuning	30 000 TPM 165,00 US$ por unidad/día	2500 TPM 36,00 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
GPT-4.1 mini fine tuning	500 000 TPM 900,00 US$ por unidad/día	50 000 TPM 175,00 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²
o3	25.000 TPM 75,00 US$ por unidad/día	5000 TPM 60,00 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
o4-mini	30.000 TPM 50,00 US$ por unidad/día	5000 TPM 32,50 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²
GPT-4o	30 000 TPM 124,59 US$ por unidad/día	2500 TPM 39,34 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
GPT-4o mini	500 000 TPM 114,75 US$ por unidad/día	50 000 TPM 49,18 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²
GPT-4o mini fine tuning	500 000 TPM 229,50 US$ por unidad/día	50 000 TPM 98,36 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²
o1	5000 TPM 163,93 US$ por unidad/día	1000 TPM 131,15 US$ por unidad/día	99,9 %	99 % > 80 tókenes por segundo²
o3-mini	30.000 TPM 78,69 US$ por unidad/día	5000 TPM 52,46 US$ por unidad/día	99,9 %	99 % > 90 tókenes por segundo²

1Solicitudes estimadas en >128 000 tókenes de indicación

2Se calcula como latencia p50 de solicitudes en intervalos de 5 minutos. Para los clientes que ya tengan acuerdos empresariales con ANS de latencia p50 de solicitudes por minuto, dichos acuerdos anteriores siguen siendo vigentes.

3Con GPT-5.4, El nivel de escala se adquiere como un paquete de tokens de entrada y salida combinados por minuto. El uso de tokens de entrada, tokens de entrada en caché y tokens de salida se contabiliza en este paquete combinado a diferentes tarifas. Consulta la sección Cómo funciona a continuación.

4El contexto largo supera los 272 000

Cómo funciona

Con nivel de capacidad, puedes comprar unidades de token de entrada y de salida. Por ejemplo, con GPT‑4.1 cada unidad de entrada cuesta 110 USD por día y te da derecho a 30 000 token de entrada por minuto. Cada unidad de salida cuesta 36 USD por día y te da derecho a 2500 tokens de salida por minuto. Cada token se compra por un mínimo de 30 días.

En la sección de preguntas frecuentes que aparece más abajo, encontrarás más información sobre cómo el nivel de capacidad interactúa con Prompt Caching.

Con GPT‑5.4 compras token de entrada y salida combinados por minuto. Esto te proporciona más flexibilidad y elimina la necesidad de predecir la proporción de token de entrada y salida. A medida que usas el nivel de capacidad, contabilizamos el token en tus tokens combinados de la siguiente manera:

Los tokens de entrada cuentan como 1
Los tokens de entrada en caché siguen el almacenamiento en caché por modelo, como se indica a continuación en la sección de preguntas frecuentes.
Cantidad de token de salida basada en la relación de precio de PayG de los tokens de salida con respecto a los tokens de entrada para el modelo. Por ejemplo, con GPT‑5.4 un token de salida equivale a 6.

Precios

Por motivos de facturación, los tokens por minuto (TPM) se calculan haciendo la media del número de tokens usados en intervalos de 15 minutos alineados con el comienzo de la hora (p. ej. de 03:00 a < 03:15, de 03:15 a < 03:30, etc.). Si el total de token usados en un periodo de 15 minutos es inferior a la capacidad incluida de tu nivel de capacidad, no se facturan. Por ejemplo, si compras nivel de capacidad para GPT‑4o con un derecho de 30 000 token de entrada por minuto, puedes usar hasta 450 000 token de entrada en cualquier periodo de 15 minutos sin incurrir en cargos adicionales. Cualquier token usado que sobrepase este límite se facturará según las tarifas de pago por uso (PAYG).

Unidades de token y límites

Puedes ver tus límites actuales en tu página de ajustes⁠⁠(se abre en una ventana nueva). Cuando compres unidades de token para el nivel de capacidad, tus límites de velocidad para ese modelo aumentarán automáticamente en la cantidad correspondiente a tu compra. Cuando uses el modelo, las solicitudes se procesarán, en primera instancia, usando tu cuota de nivel de capacidad más rápida. Si superas tu cuota, las solicitudes adicionales se procesarán mediante el servicio habitual de procesamiento estándar. Si superas tu límite total de velocidad en un minuto entre el nivel de capacidad y los límites habituales de procesamiento estándar, las solicitudes posteriores se rechazarán como de costumbre con un código de error 429.

Sí, puedes usar el parámetro «service_tier» dentro de la API para completar chats. Si especificas «auto», se usará la cuota de nivel de capacidad si está disponible. Si especificas «default», se usará la cuota de procesamiento estándar. La respuesta también incluirá el parámetro «service_tier», que indica con qué servicio se está procesando la petición. Los valores son «scale» o «default».

Ofrecemos distintos descuentos del 50 %, 75 % o 90 % en los tokens de entrada en caché, en función del modelo. Si envías 50 000 TPM en token de entrada en caché en un modelo en el que los tokens en caché tienen un descuento del 50 %, esos tokens cuentan solo por 25 000 TPM respecto de tu cuota. Si envías 50 000 TPM en tokens de entrada en caché en un modelo en el que los tokens en caché tienen un descuento del 75 %, esos tokens cuentan solo por 12 500 TPM respecto de tu cuota. Obtén más información sobre Prompt Caching ↗⁠(se abre en una ventana nueva)

Nivel de capacidad para clientes de la API

Cómo funciona

Precios

¿Cómo se contrata y se aprovisiona el nivel de capacidad?

¿Cuándo empieza la facturación?

¿Cómo se calculan los excedentes del servicio de pago por uso mientras uso nivel de capacidad?

Si adquiero un compromiso anual, ¿mi gasto debe aplicarse al nivel de capacidad?

¿Mi compromiso anual está vinculado a un servicio concreto?

Si ya uso la capacidad reservada, ¿cómo puedo usar el nivel de capacidad para GPT-4o?

Unidades de token y límites

¿Cómo puedo comprar unidades de token en nivel de capacidad?

¿Cómo puedo saber mis TPM?

¿Cómo puedo saber mis límites totales?

¿Puedo elegir qué solicitudes están cubiertas por el nivel de capacidad?

¿Cómo funciona el nivel de capacidad con Prompt Caching?

Modelos

¿Cómo funcionan las otras modalidades con nivel de capacidad?

¿El nivel de capacidad es compatible con el ajuste fino?

¿Puedo enviar automáticamente el tráfico excedente de mi nivel de capacidad al procesamiento prioritario?

Fiabilidad

¿Qué ocurre cuando no se obtienen los tiempos de disponibilidad y latencia garantizados?

Políticas

¿Cómo funciona la retención cero de datos (ZDR) para nivel de capacidad?