Procesamiento prioritario para clientes de la API

El procesamiento prioritario te brinda un rendimiento confiable y de alta velocidad con la flexibilidad del pago por uso.

Si optas por el procesamiento prioritario, podrás obtener:

Latencia previsiblemente baja: el procesamiento prioritario genera tokens más rápido y a una velocidad más constante que el servicio de procesamiento estándar, incluso durante los picos de demanda.
Flexibilidad fácil de usar: al igual que el procesamiento estándar, el procesamiento prioritario se puede usar de manera flexible y con pago por uso, sin necesidad de aprovisionamiento anticipado.

	Precio por millón de tókenes de entrada	Precio por millón de tókenes de entrada (en caché)	Precio por millón de tókenes de salida	Tiempo de actividad garantizado³	Latencia garantizada³
GPT-5.5 excluye contexto largo¹	12,50 US$	1,250 US$	75,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5.4 mini excluye contexto largo¹	1,50 US$	0,150 US$	9,00 US$	99,9 %	99 % > 100 tókenes por segundo ²
GPT-5.4 excluye contexto largo¹	5,00 US$	0,500 US$	30,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5.2 excluye contexto largo¹	3,50 US$	0,350 US$	28,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5.1 excluye contexto largo¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5 excluye contexto largo¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5 mini excluye contexto largo¹	0,45 US$	0,045 US$	3,60 US$	99,9 %	99 % > 80 tókenes por segundo ²
GPT-5.1 codex excluye contexto largo¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-5 codex excluye contexto largo¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tókenes por segundo ²
GPT-4.1 excluye contexto largo¹	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tókenes por segundo ²
GPT-4.1 mini excluye contexto largo¹	0,70 US$	0,175 US$	2,80 US$	99,9 %	99 % > 90 tókenes por segundo ²
GPT-4.1 nano excluye contexto largo¹	0,20 US$	0,050 US$	0,80 US$	99,9 %	99 % > 100 tókenes por segundo ²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9 %	99 % > 80 tókenes por segundo ²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9 %	99 % > 80 tókenes por segundo ²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9 %	99 % > 90 tókenes por segundo ²
o3	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tókenes por segundo ²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9 %	99 % > 90 tókenes por segundo ²

1Solicitudes estimadas en >128 000 tókenes de indicación

2Se calcula como latencia p50 de solicitudes en intervalos de 5 minutos. Para los clientes que ya tengan acuerdos empresariales con ANS de latencia p50 de solicitudes por minuto, dichos acuerdos anteriores siguen siendo vigentes.

3Aplicable únicamente a los clientes de Enterprise

¿Cómo funcionan?

Los clientes pueden dirigir el tráfico al procesamiento prioritario en función de cada solicitud utilizando el parámetro service_tier existente, con la opción service_tier = “priority”.

Los tokens a los que se aplique el procesamiento prioritario se facturarán por token, a un precio superior al de la tasa de procesamiento estándar.

Además de configurarse a nivel de solicitud, también puedes establecer un proyecto como Prioritario en Configuración del proyecto → Nivel de servicio predeterminado: Prioritario. Todavía puedes anular por cada solicitud.

Limitaciones

Los límites de velocidad del procesamiento prioritario se comparten con otros niveles de servicio.
En raras ocasiones, los aumentos rápidos de tus tokens por minuto de procesamiento prioritario pueden provocar que alcances los límites de aumento de la velocidad de tráfico. Si excedes el límite de aumento de la velocidad de tráfico, el tráfico adicional podría ser enviado al procesamiento estándar.

Precios

Modelos

Límites de velocidad

El procesamiento prioritario tiene límites en la velocidad de aumento del tráfico para garantizar un rendimiento consistentemente alto para todos los clientes, al mismo tiempo que mantiene precios flexibles y bajo demanda. Si (a) el rendimiento del procesamiento prioritario se degrada y (b) el tráfico de un cliente aumenta demasiado rápido, algunas solicitudes prioritarias podrían degradarse a procesamiento estándar.

El límite actual en la velocidad de aumento del procesamiento prioritario se define como procesar al menos 1 millón de TPM y no incrementar el tráfico en más del 50 % de tokens por minuto en un periodo menor a 15 minutos.

Las solicitudes procesadas con el nivel de servicio estándar se facturarán a tarifas estándar y no serán elegibles para los objetivos de nivel de servicio del procesamiento prioritario.

Las solicitudes procesadas por el nivel de servicio estándar incluirán service_tier="Default" en la respuesta.

Mejores prácticas para mantenerte dentro de tu límite en la velocidad de aumento del tráfico

Aumenta el tráfico de forma gradual al cambiar de modelo. Por ejemplo, si tu aplicación pasa de una versión anterior a una nueva, utiliza un flag de funcionalidades para desviar el tráfico durante unas horas en lugar de hacerlo de golpe.
En el procesamiento prioritario, evita ejecutar grandes volúmenes de datos o trabajos asíncronos. Este tipo de trabajos puede aumentar rápidamente el tráfico y, a menudo, no requiere el rendimiento mejorado del procesamiento prioritario.
Si con frecuencia te encuentras con límites de aumento de la velocidad de tráfico, considera adquirir capacidad de Scale Tier, ya sea como alternativa o como complemento.

Fiabilidad

Políticas

Las solicitudes procesadas con el nivel de servicio estándar se facturarán a tarifas estándar y no serán elegibles para los objetivos de nivel de servicio del procesamiento prioritario.

Las solicitudes procesadas por el nivel de servicio estándar incluirán service_tier="Default" en la respuesta.

Mejores prácticas para mantenerte dentro de tu límite en la velocidad de aumento del tráfico

Aumenta el tráfico de forma gradual al cambiar de modelo. Por ejemplo, si tu aplicación pasa de una versión anterior a una nueva, utiliza un flag de funcionalidades para desviar el tráfico durante unas horas en lugar de hacerlo de golpe.
En el procesamiento prioritario, evita ejecutar grandes volúmenes de datos o trabajos asíncronos. Este tipo de trabajos puede aumentar rápidamente el tráfico y, a menudo, no requiere el rendimiento mejorado del procesamiento prioritario.
Si con frecuencia te encuentras con límites de aumento de la velocidad de tráfico, considera adquirir capacidad de Scale Tier, ya sea como alternativa o como complemento.

Procesamiento prioritario para clientes de la API

¿Cómo funcionan?

Limitaciones

Precios

(Para clientes Enterprise) ¿Cómo interactúa esto con Scale Tier?

(Para clientes Enterprise) ¿Puedo enviar automáticamente el tráfico excedente de mi Scale Tier al procesamiento prioritario?

(Para clientes Enterprise) ¿Mi compromiso anual está ligado a un modo de procesamiento en particular?

¿Sigo teniendo un descuento en los tokens de entrada en caché?

¿Cómo puedo ver el uso y gasto de mi procesamiento prioritario?

Modelos

¿El procesamiento prioritario está disponible para contextos largos, modelos afinados, incrustaciones, etc.?

¿Cómo funcionan las otras modalidades con el procesamiento prioritario?

¿Será compatible con los próximos modelos?