Priority Processing API მომხმარებლებისთვის

Priority processing გთავაზობთ საიმედო, მაღალსიჩქარიან მუშაობას pay-as-you-go მოქნილობით.

Priority processing-ის არჩევით მიიღებთ:

სტაბილურად დაბალი შეყოვნება: Priority processing token-ებს ქმნის უფრო სწრაფად და უფრო თანმიმდევრული სიჩქარით, ვიდრე Standard processing სერვისი, პიკური დატვირთვის დროსაც კი.
მარტივად გამოსაყენებელი მოქნილობა: Standard processing-ის მსგავსად, Priority processing-ზე წვდომა შესაძლებელია მოქნილი, pay-as-you-go მოდელით წინასწარი რესურსების გამოყოფის მოთხოვნის გარეშე.

	ფასი 1M შემავალი ტოკენისთვის	ფასი 1M შეყვანის ტოკენზე (cached)	ფასი 1M გამომავალი ტოკენებისთვის	SLA-ს უწყვეტი მუშაობის გარანტია³	დაყოვნების SLA³
GPT-5.5 გამორიცხავს ხანგრძლივ კონტექსტს¹	12,50 US$	1,250 US$	75,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5.4 mini გამორიცხავს ხანგრძლივ კონტექსტს¹	1,50 US$	0,150 US$	9,00 US$	99,9%	99% > 100 ტოკენი წამში²
GPT-5.4 გამორიცხავს ხანგრძლივ კონტექსტს¹	5,00 US$	0,500 US$	30,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5.2 გამორიცხავს ხანგრძლივ კონტექსტს¹	3,50 US$	0,350 US$	28,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5.1 გამორიცხავს ხანგრძლივ კონტექსტს¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5 გამორიცხავს ხანგრძლივ კონტექსტს¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5 mini გამორიცხავს ხანგრძლივ კონტექსტს¹	0,45 US$	0,045 US$	3,60 US$	99,9%	99% > 80 ტოკენი წამში²
GPT-5.1 codex გამორიცხავს ხანგრძლივ კონტექსტს¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-5 codex გამორიცხავს ხანგრძლივ კონტექსტს¹	2,50 US$	0,250 US$	20,00 US$	99,9%	99% > 50 ტოკენი წამში²
GPT-4.1 გამორიცხავს ხანგრძლივ კონტექსტს¹	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 ტოკენი წამში²
GPT-4.1 mini გამორიცხავს ხანგრძლივ კონტექსტს¹	0,70 US$	0,175 US$	2,80 US$	99,9%	99% > 90 ტოკენი წამში²
GPT-4.1 nano გამორიცხავს ხანგრძლივ კონტექსტს¹	0,20 US$	0,050 US$	0,80 US$	99,9%	99% > 100 ტოკენი წამში²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9%	99% > 80 ტოკენი წამში²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9%	99% > 80 ტოკენი წამში²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9%	99% > 90 ტოკენი წამში²
o3	3,50 US$	0,875 US$	14,00 US$	99,9%	99% > 80 ტოკენი წამში²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9%	99% > 90 ტოკენი წამში²

1მოთხოვნები, რომლებიც ფასდება როგორც >128K ტოკენი

2გამოითვლება p50 მოთხოვნის დაყოვნების მიხედვით ყოველ 5 წუთზე. იმ მომხმარებლებისთვის, რომლებსაც აქვთ მოქმედი კორპორაციული ხელშეკრულებები და რომელთა დაყოვნების SLA-ები გამოითვლება როგორც p50 მოთხოვნის დაყოვნება წუთობრივ ჭრილში, წინა SLA-ები კვლავ ძალაში რჩება.

3ეს ვრცელდება მხოლოდ კორპორაციულ მომხმარებლებზე

როგორ მუშაობს

მომხმარებლებს შეუძლიათ ტრაფიკი მიმართონ Priority processing-ზე თითოეული მოთხოვნის საფუძველზე არსებული service_tier პარამეტრის გამოყენებით, ოფციით service_tier = “priority”.

Priority processing-ით დამუშავებული token-ები დაიბილინგება თითო token-ზე, Standard processing-ის ტარიფებთან შედარებით უფრო მაღალი ფასით.

მოთხოვნის დონეზე კონფიგურაციის გარდა, ასევე შეგიძლიათ პროექტისთვის ნაგულისხმევად დააყენოთ Priority: Project settings → Default Service Tier: Priority. თითო მოთხოვნაზე გადაფარვა მაინც შესაძლებელი იქნება.

შეზღუდვები

Priority processing-ის rate limit-ები გაზიარებულია სხვა service tier-ებთან.
იშვიათ შემთხვევებში, თქვენი Priority processing Tokens per Minute-ის სწრაფმა ზრდამ შეიძლება ramp rate limit-ებს მიაღწიოს. თუ ramp rate limit-ს გადააჭარბებთ, დამატებითი ტრაფიკის ნაწილი შესაძლოა სანაცვლოდ Standard processing-ზე გაიგზავნოს.

ფასები

Priority processing-ით დამუშავებული token-ების სანახავად გადადით Usage dashboard-ში, აირჩიეთ Chat Completions ან Responses და შემდეგ Group by Service Tier.

Priority processing-ის ხარჯის სანახავად გადადით Usage dashboard-ში და აირჩიეთ Group by Line Item.

მოდელები

Priority processing მხარს უჭერს იმავე მულტიმოდალურ შესაძლებლობებს, რაც ხელმისაწვდომია Standard-ზე. კერძოდ, სურათები შეიძლება გამოყენებულ იქნას Priority processing-ის შეყვანებად და მუშავდება იმავე სწრაფი შეყოვნებით.

rate limit-ები

Priority processing-ს აქვს ramp rate limit-ები, რათა ყველა მომხმარებლისთვის მუდმივად მაღალი წარმადობა უზრუნველყოს და ამავე დროს მოქნილი, მოთხოვნაზე დაფუძნებული ფასწარმოქმნა შეინარჩუნოს. თუ (a) Priority processing-ის წარმადობა გაუარესებულია და (b) მომხმარებლის ტრაფიკი ზედმეტად სწრაფად იზრდება, მაშინ ზოგიერთი Priority მოთხოვნა შესაძლოა სანაცვლოდ Standard processing-ზე დაქვეითდეს.

ამჟამინდელი Priority processing ramp rate limit განისაზღვრება როგორც მინიმუმ 1M TPM-ის დამუშავება და ტრაფიკის >50%-ით ზრდა Tokens Per Minute-ში 15 წუთზე ნაკლებ დროში.

Standard service tier-ით დამუშავებული მოთხოვნები დაიბილინგება სტანდარტული ტარიფებით და მათზე არ ვრცელდება Priority processing-ის Service Level Objectives.

Standard service tier-ით დამუშავებული მოთხოვნები პასუხში მოიცავს service_tier=”Default”.

საუკეთესო პრაქტიკები ramp rate limit-ის ფარგლებში დასარჩენად

მოდელების შეცვლისას ტრაფიკი გაზარდეთ თანდათან. მაგალითად, თუ თქვენი აპლიკაცია წინა snapshot-იდან ახალზე გადადის, გამოიყენეთ feature flag, რათა ტრაფიკი რამდენიმე საათის განმავლობაში გადაიტანოთ და არა ერთბაშად.
მოერიდეთ დიდი მოცულობის მონაცემთა დამუშავების ან ასინქრონული ამოცანების გაშვებას Priority processing-ზე. ასეთ ამოცანებს ტრაფიკის ძალიან სწრაფად გაზრდა შეუძლიათ და ხშირად არ სჭირდებათ Priority processing-ის გაუმჯობესებული წარმადობა.
თუ რეგულარულად აწყდებით ramp rate limit-ებს, სანაცვლოდ ან დამატებით განიხილეთ Scale Tier capacity-ის შეძენა.

საიმედოობა

Enterprise მომხმარებლებმა, ნებისმიერი კითხვის ან შეშფოთების შემთხვევაში, მიმართეთ თქვენს AD-ს.

Priority processing-ის SLA-ები ისევე დამუშავდება, როგორც Scale Tier-ის SLA-ები; თუ მოცემულ დროის მონაკვეთში enterprise ხელშეკრულების მქონე მომხმარებლებისთვის ამ SLA-ებს ვერ დავაკმაყოფილებთ, შემოგთავაზებთ სერვისის კრედიტებს.

პოლიტიკები

Standard service tier-ით დამუშავებული მოთხოვნები პასუხში მოიცავს service_tier=”Default”.

საუკეთესო პრაქტიკები ramp rate limit-ის ფარგლებში დასარჩენად

მოდელების შეცვლისას ტრაფიკი გაზარდეთ თანდათან. მაგალითად, თუ თქვენი აპლიკაცია წინა snapshot-იდან ახალზე გადადის, გამოიყენეთ feature flag, რათა ტრაფიკი რამდენიმე საათის განმავლობაში გადაიტანოთ და არა ერთბაშად.
მოერიდეთ დიდი მოცულობის მონაცემთა დამუშავების ან ასინქრონული ამოცანების გაშვებას Priority processing-ზე. ასეთ ამოცანებს ტრაფიკის ძალიან სწრაფად გაზრდა შეუძლიათ და ხშირად არ სჭირდებათ Priority processing-ის გაუმჯობესებული წარმადობა.
თუ რეგულარულად აწყდებით ramp rate limit-ებს, სანაცვლოდ ან დამატებით განიხილეთ Scale Tier capacity-ის შეძენა.

Priority Processing API მომხმარებლებისთვის

როგორ მუშაობს

შეზღუდვები

ფასები

(Enterprise მომხმარებლებისთვის) როგორ ურთიერთქმედებს ეს Scale Tier-თან?

(Enterprise მომხმარებლებისთვის) შემიძლია ჩემი Scale Tier spill-over ტრაფიკი ავტომატურად გავაგზავნო Priority processing-ზე?

(Enterprise მომხმარებლებისთვის) არის თუ არა ჩემი წლიური ვალდებულება მიბმული კონკრეტულ processing რეჟიმზე?

კვლავ მივიღებ თუ არა ფასდაკლებას Cached input token-ებზე?

როგორ ვნახო ჩემი Priority processing-ის გამოყენება და ხარჯი?

მოდელები

არის თუ არა Priority processing ხელმისაწვდომი long context-ისთვის, fine-tuned მოდელებისთვის, embeddings-ისთვის და ა.შ.?

როგორ მუშაობს სხვა მოდალობები Priority processing-თან ერთად?

იქნება თუ არა მხარდაჭერილი მომავალი მოდელები?