Nivel de capacidad para clientes de la API

Esta oferta está disponible para clientes Enterprise. Comunícate con nuestro equipo de ventas⁠ para obtener más información. Para acceder a las mismas ventajas prémium de latencia y fiabilidad con una modalidad flexible de pago por uso, consulta procesamiento prioritario⁠.

El nivel de capacidad te permite comprar por adelantado un número determinado de tokens de entrada y salida de API por minuto (conocidos como “unidades de token”) para acceder a una instantánea específica de un modelo. Cada token se compra por un mínimo de 30 días. Se pueden añadir modelos adicionales en función del interés de los clientes.

Al elegir nivel de capacidad, podrás desbloquear:

Latencia predecible: el nivel de capacidad se ha diseñado para generar tokens más rápido y a una velocidad más constante que el servicio de pago por uso (PAYG), incluso durante los picos de demanda.
Escala sin límite: cualquier compra de cuota con nivel de capacidad se añade automáticamente a tus límites de velocidad, para que puedas seguir escalando con confianza.
Mayor fiabilidad: el tráfico del nivel de capacidad ofrece un acuerdo de nivel de servicio del 99.9 % de tiempo de actividad y capacidad de procesamiento prioritaria.

	Paquete de entrada	Paquete de salida	Tiempo en funcionamiento garantizado	Latencia garantizada
GPT-5.5	50,000 TPM USD 750.00 por unidad/día	N/A³	99.9%	99% > 100 tokens por segundo ²
GPT-5.4 mini	50,000 TPM USD 100.00 por unidad/día	N/A³	99.9%	99% > 100 tokens por segundo ²
GPT-5.4 excluye el contexto largo⁴	50,000 TPM USD 300.00 por unidad/día	N/A³	99.9%	99% > 50 tokens por segundo ²
GPT-5.2	25,000 TPM USD 105.00 por unidad/día	2,500 TPM USD 84.00 por unidad/día	99.9%	99% > 50 tokens por segundo ²
GPT-5.1	25,000 TPM USD 75.00 por unidad/día	2,500 TPM USD 60.00 por unidad/día	99.9%	99% > 50 tokens por segundo ²
GPT-5	25,000 TPM USD 75.00 por unidad/día	2,500 TPM USD 60.00 por unidad/día	99.9%	99% > 50 tokens por segundo ²
GPT-5 mini	500,000 TPM USD 275.00 por unidad/día	50,000 TPM USD 220.00 por unidad/día	99.9%	99% > 80 tokens por segundo ²
GPT-4.1 excluye el contexto extenso¹	30 000 tokens por minuto USD 110.00 por unidad/día	2,500 tokens por minuto USD 36.00 por unidad/día	99.9%	99% > 80 tokens por segundo ²
GPT-4.1 mini excluye el contexto extenso¹	500 000 tokens por minuto USD 450.00 por unidad/día	50 000 tokens por minuto USD 175.00 por unidad/día	99.9%	99% > 90 tokens por segundo ²
GPT-4.1 nano excluye el contexto extenso¹	500 000 tokens por minuto USD 110.00 por unidad/día	50 000 tokens por minuto USD 40.00 por unidad/día	99.9%	99% > 100 tokens por segundo ²
GPT-4.1 fine tuning	30 000 tokens por minuto USD 165.00 por unidad/día	2,500 tokens por minuto USD 36.00 por unidad/día	99.9%	99% > 80 tokens por segundo ²
GPT-4.1 mini fine tuning	500 000 tokens por minuto USD 900.00 por unidad/día	50 000 tokens por minuto USD 175.00 por unidad/día	99.9%	99% > 90 tokens por segundo ²
o3	25,000 TPM USD 75.00 por unidad/día	5,000 TPM USD 60.00 por unidad/día	99.9%	99% > 80 tokens por segundo ²
o4-mini	30,000 TPM USD 50.00 por unidad/día	5,000 TPM USD 32.50 por unidad/día	99.9%	99% > 90 tokens por segundo ²
GPT-4o	30 000 tokens por minuto USD 124.59 por unidad/día	2,500 tokens por minuto USD 39.34 por unidad/día	99.9%	99% > 80 tokens por segundo ²
GPT-4o mini	500 000 tokens por minuto USD 114.75 por unidad/día	50 000 tokens por minuto USD 49.18 por unidad/día	99.9%	99% > 90 tokens por segundo ²
GPT-4o mini fine tuning	500 000 tokens por minuto USD 229.50 por unidad/día	50 000 tokens por minuto USD 98.36 por unidad/día	99.9%	99% > 90 tokens por segundo ²
o1	5,000 TPM USD 163.93 por unidad/día	1,000 TPM USD 131.15 por unidad/día	99.9%	99% > 80 tokens por segundo ²
o3-mini	30,000 TPM USD 78.69 por unidad/día	5,000 TPM USD 52.46 por unidad/día	99.9%	99% > 90 tokens por segundo ²

1Solicitudes estimadas en >128 000 tokens de mensaje

2Calculado con la latencia de solicitud p50 en intervalos de 5 minutos. Las garantías de funcionamiento anteriores también siguen siendo aplicables a los clientes con contratos empresariales existentes que tienen acuerdos de latencia calculados según la latencia p50 de las solicitudes en intervalos por minuto.

3Con GPT-5.4, el nivel de escala se compra como un paquete de tokens de entrada y de salida combinados por minuto. El uso de tokens de entrada, tokens de entrada en caché y tokens de salida cuenta para este paquete combinado a diferentes tarifas. Consulta la sección Cómo funciona a continuación.

4El contexto largo es >272 000

Cómo funciona

Con nivel de capacidad, puedes comprar unidades de token de entrada y de salida. Por ejemplo, con GPT‑4.1 cada unidad de entrada cuesta USD 110 por día y te da derecho a 30 000 token de entrada por minuto. Cada unidad de salida cuesta USD 36 por día y te da derecho a 2500 token de salida por minuto. Cada token se compra por un mínimo de 30 días.

En la sección de preguntas frecuentes que aparece más abajo, encontrarás más información sobre cómo el nivel de capacidad interactúa con Prompt Caching.

Con GPT‑5.4 compras token de entrada y salida combinados por minuto. Esto te proporciona más flexibilidad y elimina la necesidad de predecir la proporción de token de entrada y salida. A medida que usas el nivel de capacidad, contabilizamos el token en tus tokens combinados de la siguiente manera:

Los token de entrada cuentan como 1
Los tokens de entrada en caché siguen el almacenamiento en caché por modelo, como se indica a continuación en la sección de preguntas frecuentes.
Cantidad de token de salida basada en la relación de precio de PayG de los tokens de salida con respecto a los tokens de entrada para el modelo. Por ejemplo, con GPT‑5.4 un token de salida equivale a 6.

Precios

Por motivos de facturación, los tokens por minuto (TPM) se calculan haciendo la media del número de tokens usados en intervalos de 15 minutos alineados con el comienzo de la hora (p. ej. de 03:00 a < 03:15, de 03:15 a < 03:30, etc.). Si el total de token usados en un periodo de 15 minutos es inferior a la capacidad incluida de tu nivel de capacidad, no se facturan. Por ejemplo, si compras nivel de capacidad para GPT‑4o con un derecho de 30 000 token de entrada por minuto, puedes usar hasta 450 000 token de entrada en cualquier periodo de 15 minutos sin incurrir en cargos adicionales. Cualquier token usado que sobrepase este límite se facturará según las tarifas de pago por uso (PAYG).

Unidades de token y límites

Puedes ver tus límites actuales en tu página de configuración⁠⁠(se abre en una nueva ventana). Cuando compres unidades de token para el nivel de capacidad, tus límites de velocidad para ese modelo aumentarán automáticamente en la cantidad correspondiente a tu compra. Cuando uses el modelo, las solicitudes se procesarán, en primera instancia, usando tu cuota de nivel de capacidad más rápida. Si superas tu cuota, las solicitudes adicionales se procesarán mediante el servicio habitual de procesamiento estándar. Si superas tu límite total de velocidad en un minuto entre el nivel de capacidad y los límites habituales de procesamiento estándar, las solicitudes posteriores se rechazarán como de costumbre con un código de error 429.

Sí, puedes usar el parámetro “service_tier” dentro de la API para completar chats. Si especificas “auto”, se usará la cuota del nivel de capacidad si está disponible. Si especificas “default”, se usará la cuota de procesamiento estándar. La respuesta también incluirá un parámetro “service_tier”, que indica con qué servicio se está procesando la petición. Los valores son “scale” o “default”.

Ofrecemos distintos descuentos del 50 %, 75 % o 90 % en los tokens de entrada en caché, en función del modelo. Si envías 50 000 TPM en token de entrada en caché en un modelo en el que los tokens en caché tienen un descuento del 50 %, esos tokens cuentan solo por 25 000 TPM respecto de tu cuota. Si envías 50 000 TPM en tokens de entrada en caché en un modelo en el que los tokens en caché tienen un descuento del 75 %, esos tokens cuentan solo por 12 500 TPM respecto de tu cuota. Obtén más información sobre Prompt Caching ↗⁠(se abre en una nueva ventana)

Nivel de capacidad para clientes de la API

Cómo funciona

Precios

¿Cómo se contrata y se aprovisiona el nivel de capacidad?

¿Cuándo empieza la facturación?

¿Cómo se calculan los excedentes del servicio de pago por uso mientras uso nivel de capacidad?

Si adquiero un compromiso anual, ¿mi gasto debe aplicarse al nivel de capacidad?

¿Mi compromiso anual está vinculado a un servicio concreto?

Si ya uso la capacidad reservada, ¿cómo puedo usar el nivel de capacidad para GPT-4o?

Unidades de token y límites

¿Cómo puedo comprar unidades de token en nivel de capacidad?

¿Cómo puedo saber mis TPM?

¿Cómo puedo saber mis límites totales?

¿Puedo elegir qué solicitudes están cubiertas por el nivel de capacidad?

¿Cómo funciona el nivel de capacidad con Prompt Caching?

Modelos

¿Cómo funcionan las otras modalidades con nivel de capacidad?

¿El nivel de capacidad es compatible con el ajuste fino?

¿Puedo enviar automáticamente el tráfico excedente de mi nivel de capacidad al procesamiento prioritario?

Confiabilidad

¿Qué ocurre cuando no se obtienen los tiempos de disponibilidad y latencia garantizados?

Políticas

¿Cómo funciona la retención cero de datos (ZDR) para nivel de capacidad?