Стоимость OpenAI API: полное руководство по расчёту и оптимизации расходов
Как устроена система тарификации OpenAI
OpenAI взимает плату за каждые 1000 или 1 000 000 токенов, проходящих через модель. Токен — это минимальная смысловая единица текста: слово, часть слова, знак препинания или пробел. Вы платите отдельно за токены, которые отправляете модели (входные, prompt tokens), и за токены, которые модель генерирует в ответ (выходные, completion tokens).
Цены на входные и выходные токены различаются в несколько раз. Например, для GPT-4o входные токены стоят $2.50 за миллион, а выходные — $10.00 за миллион. Такая разница отражает вычислительную сложность генерации текста по сравнению с его анализом.
Обзор актуальных моделей и их тарифов
Флагманская модель GPT-4o предлагает наилучшее соотношение цены и качества для большинства задач: $2.50 за миллион входных и $10.00 за миллион выходных токенов. Её облегчённая версия GPT-4o mini стоит всего $0.15 за входные и $0.60 за выходные токены — в 16 раз дешевле при достойном качестве для простых задач.
GPT-4 Turbo ($10.00 / $30.00) остаётся востребованной для сложных аналитических задач с большим контекстом. Модели серии o1 (o1-preview за $15.00 / $60.00 и o1-mini за $3.00 / $12.00) добавляют «рассуждающие» токены — модель тратит время на обдумывание ответа, и эти скрытые токены также тарифицируются как выходные.
Как оценить количество токенов до запуска
Точное число токенов можно узнать только через API или токенизатор tiktoken, но есть практические ориентиры. Одно русское слово — примерно 1.3–1.5 токена, одно английское — 1.2–1.3 токена. Сообщение длиной в 500 русских слов содержит около 650–750 токенов. Системный промпт на 2000 символов — это примерно 500–600 токенов.
Для типового чат-бота поддержки один запрос с контекстом занимает 400–800 входных токенов, а ответ модели — 200–500 выходных. Для генерации развёрнутой статьи на 3000 слов потребуется около 4000 выходных токенов и 500–1000 входных (инструкция).
Расчёт месячных расходов: практический подход
Допустим, вы запускаете сервис с GPT-4o mini, обрабатывающий 5000 запросов в день. Средний запрос: 600 входных токенов и 400 выходных. Считаем: (600 × $0.15 / 1 000 000 + 400 × $0.60 / 1 000 000) × 5000 × 30 = (0.00009 + 0.00024) × 150 000 = 0.00033 × 150 000 = $49.50 в месяц.
Тот же объём на GPT-4o обошёлся бы в (600 × $2.50 + 400 × $10.00) / 1 000 000 × 150 000 = (1500 + 4000) / 1 000 000 × 150 000 = 0.0055 × 150 000 = $825 в месяц. Разница в 16 раз — достаточный повод внимательно выбирать модель под задачу.
Стратегии снижения затрат
Первое правило экономии — сокращайте контекст. Не отправляйте всю историю диалога, если достаточно последних трёх сообщений. Используйте суммаризацию длинных документов перед передачей модели. Выбирайте модель под сложность задачи: для классификации текста или простых ответов GPT-4o mini справляется не хуже старших моделей.
Кэшируйте частые запросы — если пользователи спрашивают одно и то же, храните ответы и не обращайтесь к API повторно. Настройте лимиты на длину ответа (max_tokens), чтобы модель не генерировала избыточный текст. И главное — тестируйте промпты на малых объёмах перед масштабированием.
Скрытые факторы, увеличивающие счёт
Многие забывают, что системный промпт отправляется с каждым запросом. Если вы заложили 2000 токенов инструкций, при 10 000 запросах это 20 миллионов входных токенов — на GPT-4o это $50 только за системный промпт. Модели o1 дополнительно генерируют скрытые рассуждения, которые могут в 3–5 раз превышать видимый ответ.
История диалога растёт лавинообразно: после десяти реплик пользователя контекст может достигать 8000 токенов. Каждый следующий запрос в рамках одной сессии дороже предыдущего. Решение — ограничивать глубину истории или переодически суммаризировать диалог.
Сравнение с конкурентами и рыночный контекст
Google Gemini 1.5 Flash предлагает схожие цены — около $0.075 за миллион входных токенов, но с другой структурой скидок. Claude 3.5 Sonnet от Anthropic стоит $3.00 за входные и $15.00 за выходные токены — чуть дороже GPT-4o. Выбор модели сегодня определяется не только ценой, но и качеством ответов на специфических задачах, длиной контекстного окна и поддерживаемыми языками.
Практический чек-лист перед запуском
Перед тем как выставлять счёт клиентам или закладывать бюджет, проверьте пять пунктов. Во-первых, оцените реальное количество токенов на сотне тестовых запросов — не полагайтесь на догадки. Во-вторых, заложите 20–30% запаса на пиковые нагрузки и рост контекста. В-третьих, настройте мониторинг расходов в личном кабинете OpenAI с алертами при превышении бюджета. В-четвёртых, протестируйте более дешёвую модель — возможно, пользователи не заметят разницы. В-пятых, помните о НДС и валютных колебаниях, если вы работаете в рублёвой зоне.