Priority Processing per a clients de l’API

Priority processing ofereix un rendiment fiable i d’alta velocitat amb la flexibilitat de pagament segons l’ús.

En triar Priority processing, obteniu:

Latència baixa i previsible: Priority processing genera segments més ràpid i a una velocitat més constant que el servei Standard processing, fins i tot durant els pics de demanda.
Flexibilitat fàcil d’utilitzar: Igual que Standard processing, es pot accedir a Priority processing de manera flexible i segons l’ús, sense necessitat d’aprovisionament previ.

	Preu per milió de segments d'entrada	Preu per milió de segments d'entrada (a la memòria cau)	Preu per un milió de segments de sortida	SLA de temps d'activitat³	SLA de latència³
GPT-5.5 exclou el context llarg¹	12,50 USD	1,250 USD	75,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5.4 mini exclou el context llarg¹	1,50 USD	0,150 USD	9,00 USD	99,9 %	99 % > 100 segments per segon²
GPT-5.4 exclou el context llarg¹	5,00 USD	0,500 USD	30,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5.2 exclou el context llarg¹	3,50 USD	0,350 USD	28,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5.1 exclou el context llarg¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5 exclou el context llarg¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5 mini exclou el context llarg¹	0,45 USD	0,045 USD	3,60 USD	99,9 %	99 % > 80 segments per segon²
GPT-5.1 codex exclou el context llarg¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-5 codex exclou el context llarg¹	2,50 USD	0,250 USD	20,00 USD	99,9 %	99 % > 50 segments per segon²
GPT-4.1 exclou el context llarg¹	3,50 USD	0,875 USD	14,00 USD	99,9 %	99 % > 80 segments per segon²
GPT-4.1 mini exclou el context llarg¹	0,70 USD	0,175 USD	2,80 USD	99,9 %	99 % > 90 segments per segon²
GPT-4.1 nano exclou el context llarg¹	0,20 USD	0,050 USD	0,80 USD	99,9 %	99 % > 100 segments per segon²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 USD	2,125 USD	17,00 USD	99,9 %	99 % > 80 segments per segon²
gpt-4o-2024-05-13	8,75 USD	—	26,25 USD	99,9 %	99 % > 80 segments per segon²
GPT-4o mini	0,25 USD	0,125 USD	1,00 USD	99,9 %	99 % > 90 segments per segon²
o3	3,50 USD	0,875 USD	14,00 USD	99,9 %	99 % > 80 segments per segon²
o4-mini	2,00 USD	0,500 USD	8,00 USD	99,9 %	99 % > 90 segments per segon²

1Sol·licituds estimades a >128.000 segments d'indicació

2Calculat com a latència de sol·licitud p50 per cada període de 5 minuts. Per als clients amb acords d'empresa existents que tenen SLA de latència calculats com la latència de sol·licitud p50 per minut, els SLA anteriors també continuen sent aplicables.

3Això només s'aplica als clients Enterprise

Com funciona

Els clients poden dirigir trànsit a Priority processing per sol·licitud mitjançant el paràmetre existent service_tier, amb l’opció service_tier = “priority”.

Els segments servits per Priority processing es facturaran per segment, amb un preu superior en relació amb les tarifes de Standard processing.

A més de configurar-se a nivell de sol·licitud, també podeu establir per defecte un projecte a Priority a Project settings → Default Service Tier: Priority. Encara ho podeu anul·lar per sol·licitud.

Limitacions

Els límits de taxa de Priority processing es comparteixen amb altres nivells de servei.
En casos poc freqüents, augments ràpids dels vostres Tokens per Minute de Priority processing poden fer que s’assoleixin els límits de ritme d’increment. Si supereu aquest límit, és possible que el trànsit addicional s’enviï a Standard processing.

Preus

Models

Límits de taxa

Priority processing té límits de ritme d’increment per garantir un rendiment alt i constant per a tots els clients, tot oferint alhora preus flexibles i sota demanda. Si (a) el rendiment de Priority processing es degrada I (b) el trànsit d’un client augmenta massa ràpid, algunes sol·licituds Priority poden passar-se a Standard processing.

El límit actual de ritme d’increment de Priority processing es defineix com processar com a mínim 1M TPM i augmentar el trànsit en >50% Tokens Per Minute en menys de 15 minuts.

Les sol·licituds processades pel nivell de servei Standard es facturaran a tarifes estàndard i no poden optar als Service Level Objectives de Priority processing.

Les sol·licituds processades pel nivell de servei Standard inclouran service_tier=”Default” a la resposta.

Pràctiques recomanades per mantenir-vos dins del vostre límit de ritme d’increment

Augmenteu gradualment el trànsit quan canvieu de models. Per exemple, si la vostra aplicació passa d’una instantània anterior a una de nova, feu servir un feature flag per fer la transició del trànsit al llarg d’unes hores en lloc de fer-ho tot de cop.
Eviteu executar grans processaments de dades o tasques asíncrones a Priority processing. Aquestes tasques poden augmentar el trànsit molt ràpidament i sovint no necessiten la millora de rendiment de Priority processing.
Si habitualment us trobeu amb límits de ritme d’increment, valoreu comprar capacitat de Scale Tier en lloc d’això o a més a més.

Fiabilitat

Polítiques

El límit actual de ritme d’increment de Priority processing es defineix com processar com a mínim 1M TPM i augmentar el trànsit en >50% Tokens Per Minute en menys de 15 minuts.

Les sol·licituds processades pel nivell de servei Standard es facturaran a tarifes estàndard i no poden optar als Service Level Objectives de Priority processing.

Les sol·licituds processades pel nivell de servei Standard inclouran service_tier=”Default” a la resposta.

Pràctiques recomanades per mantenir-vos dins del vostre límit de ritme d’increment

Augmenteu gradualment el trànsit quan canvieu de models. Per exemple, si la vostra aplicació passa d’una instantània anterior a una de nova, feu servir un feature flag per fer la transició del trànsit al llarg d’unes hores en lloc de fer-ho tot de cop.
Eviteu executar grans processaments de dades o tasques asíncrones a Priority processing. Aquestes tasques poden augmentar el trànsit molt ràpidament i sovint no necessiten la millora de rendiment de Priority processing.
Si habitualment us trobeu amb límits de ritme d’increment, valoreu comprar capacitat de Scale Tier en lloc d’això o a més a més.

Priority Processing per a clients de l’API

Com funciona

Limitacions

Preus

(Per a clients Enterprise) Com interactua això amb Scale Tier?

(Per a clients Enterprise) Puc enviar automàticament el trànsit sobrant de Scale Tier a Priority processing?

(Per a clients Enterprise) El meu compromís anual està vinculat a un mode de processament concret?

Continuo tenint descompte en els segments d’entrada en memòria cau?

Com puc veure l’ús i la despesa de Priority processing?

Models

Està disponible Priority processing per a context llarg, models ajustats, embeddings, etc.?

Com funcionen altres modalitats amb Priority processing?

S’admetran models futurs?