Как считать токены в LLM: tokenizer, формулы, и точная стоимость запроса до отправки

Каждый запрос к LLM — это деньги в токенах. Чтобы платить ровно столько, сколько нужно, и не получать сюрпризов в счёте на конец месяца, надо уметь считать токены до отправки, а не только по факту в response.usage. В этом гайде — три рабочих способа подсчёта (через tiktoken, anthropic-tokenizer и SDK Gemini), точные формулы стоимости в рублях для всех актуальных моделей через Promptra, реальные коэффициенты плотности «символы → токены» для русского и английского, и шаблон функции, которая возвращает прогноз чека до того, как запрос ушёл в API.

Если вы уже мигрировали на единый эндпоинт по гайду «Миграция с OpenAI API на Promptra» и работаете на юр.лицо российское юр.лицо с полным пакетом закрывающих документов через ЭДО — этот материал поможет дожать юнит-экономику до копейки.

Cost ₽ = (input_tokens / 1_000_000) × input_price + (output_tokens / 1_000_000) × output_price

Input считаем заранее через tokenizer. Output прогнозируем по средней длине ответа на вашем трафике + 25% запаса. Тарифы — для Claude Opus 4.7 это 350/1790 ₽ за 1М, для GPT-5.5 — 350/2150 ₽, для Gemini 3.1 Pro — 140/860 ₽, для DeepSeek V4 Pro — 30/60 ₽. Один tokenizer на все модели не работает — у каждого вендора свой.

Токен — это атомарная единица текста, которую модель видит как одно целое. Один токен может быть целым словом (hello), куском слова (unbeliev+able), отдельным символом (!) или сразу несколькими байтами Unicode. Tokenizer — алгоритм, который преобразует строку в последовательность номеров из словаря. Современные LLM используют Byte-Pair Encoding (BPE) или близкие варианты: словарь строится так, чтобы частые подпоследовательности байт получали короткие коды, редкие — длинные. Эта статья — часть pillar-гида: полный технический гид по LLM API на Python — токены, function calling, streaming, RAG, batch.

Практические следствия:

Английский текст плотный: ~3.5–4 символа на токен в среднем. Слово production — один токен.
Русский текст разреженный: ~1.5–2 символа на токен. Слово производство — обычно 3–4 токена (про+из+вод+ство или похожее разбиение).
Код плотнее английского: ~3–5 символов на токен, потому что в словаре заранее есть частые ключевые слова и identifier'ы.
JSON и XML — между обычным текстом и кодом по плотности, скобки и кавычки часто становятся отдельными токенами.

Это значит: один и тот же смысловой запрос на русском обычно стоит в 2–2.5 раза дороже, чем тот же запрос на английском. На больших объёмах это аргумент рассмотреть Gemini 3.1 Pro (140/860 ₽) или Claude Opus 4.7 с новым токенайзером, который стал заметно плотнее на кириллице.

OpenAI выпускает официальный пакет tiktoken — это С++-биндинг к их BPE, работает быстро, считает точно. Через единый шлюз Promptra та же модель доступна по знакомому SDK — токенайзер используется тот же:

pip install tiktoken

Минимальный пример для GPT-5.5:

import tiktoken # Берём encoding по имени модели — не хардкодим словарь encoding = tiktoken.encoding_for_model("gpt-5-5") text = "Привет, как дела? Расскажи короткий анекдот про разработчиков." tokens = encoding.encode(text) print(f"Текст: {len(text)} символов") print(f"Токенов: {len(tokens)}") print(f"Плотность: {len(text) / len(tokens):.2f} символа на токен")

Для chat-формата с системой и историей считают так:

from typing import List, Dict def count_chat_tokens(messages: List[Dict], model: str = "gpt-5-5") -> int: """Возвращает число токенов в chat-completion запросе. OpenAI добавляет ~4 служебных токена на каждое сообщение плюс 3 на форматирование ответа. Эти числа меняются между семействами моделей — для GPT-5.x они стабильны. """ encoding = tiktoken.encoding_for_model(model) tokens_per_message = 4 # role, content, name, separator tokens_per_name = -1 # если есть name, role не добавляется total = 0 for msg in messages: total += tokens_per_message for key, value in msg.items: total += len(encoding.encode(value)) if key == "name": total += tokens_per_name total += 3 # priming для assistant ответа return total

Вызов:

messages = [ {"role": "system", "content": "Ты — помощник-программист. Отвечай по-русски, кратко."}, {"role": "user", "content": "Объясни, что такое замыкание в Python, в 3 предложениях."}, ] print(count_chat_tokens(messages)) # ≈ 65 токенов

Эта же функция работает для GPT-5.4 (170/1070 ₽), GPT-5.4 mini, и старых семейств — tiktoken.encoding_for_model сам подберёт нужный encoding.

У Claude — свой токенайзер, своя плотность, и tiktoken для него не подходит. Anthropic выпускает anthropic-tokenizer (Python — через anthropic SDK):

pip install anthropic

from anthropic import Anthropic # Клиент через единый шлюз client = Anthropic( api_key="sk-promptra-...", base_url="https://api.promptra.ru/v1", ) response = client.messages.count_tokens( model="claude-opus-4-7", system="Ты — помощник по коду на Python.", messages=[{"role": "user", "content": "Расскажи про async/await."}], ) print(response.input_tokens) # точное число для этого запроса

count_tokens делает полноценный round-trip к API, но не списывает деньги — это бесплатный endpoint. Удобство — токенайзер всегда тот, что у текущей версии модели. С новым Claude Opus 4.7 токенайзер обновлён: тот же русский текст теперь даёт примерно на 10–20% меньше токенов, чем у Sonnet 3.5 годовой давности.

Если делать оффлайн (без round-trip) — есть пакет tokenizers (от Hugging Face) с загружаемыми весами токенайзера Claude, но это для продвинутого юзкейса. Для большинства задач count_tokens через SDK достаточно — он быстрый (десятки миллисекунд), и его результат гарантированно совпадает с тем, что модель посчитает реально.

Google в google-genai SDK предоставляет метод count_tokens:

pip install google-genai

from google import genai client = genai.Client( api_key="sk-promptra-...", http_options={"base_url": "https://api.promptra.ru/v1"}, ) result = client.models.count_tokens( model="gemini-3-1-pro", contents="Расскажи про trade-offs между микросервисами и монолитом.", ) print(result.total_tokens)

Gemini-токенайзер исторически плотнее на кириллице, чем OpenAI/Anthropic — отчасти потому что Google обучает модели на более многоязычном корпусе. На том же русском тексте Gemini 3.1 Pro обычно даёт на 15–30% меньше токенов, чем GPT-5.5. Это плюс к и без того низкой ставке 140/860 ₽ за 1М.

Когда вы знаете input_tokens (точно — через tokenizer) и прогноз output_tokens (по средней + запас), считаете рубли:

PRICING = { # модель: (input_₽_per_1M, output_₽_per_1M) "claude-opus-4-7": (350, 1790), "claude-sonnet-4-6": (210, 1070), "gpt-5-5": (350, 2150), "gpt-5-4": (170, 1070), "gemini-3-1-pro": (140, 860), "gemini-3-5-flash": (100, 640), "deepseek-v4-pro": (30, 60), "qwen-3-6-plus": (20, 130), } def estimate_cost_rub( model: str, input_tokens: int, output_tokens_estimate: int, ) -> float: """Возвращает прогноз стоимости запроса в рублях.""" in_price, out_price = PRICING[model] return ( input_tokens * in_price + output_tokens_estimate * out_price ) / 1_000_000 # Пример: Opus 4.7, 2000 input + 800 output cost = estimate_cost_rub("claude-opus-4-7", 2000, 800) print(f"Прогноз: {cost:.2f} ₽") # ≈ 2.13 ₽

Завышайте output_tokens_estimate на 20–30% от вашей реальной средней — реальность всегда шумит. Если у вас 95-перцентиль выхода — 1200 токенов, прогноз для бюджетного guard лучше считать по 1500.

Замеряли на типовых задачах через единый шлюз — нагрузка ~5000 запросов на язык/модель. Цифры — медиана отношения «символы текста / токены»:

Сегмент: Русский (статьи, диалоги) • GPT-5.5 (`o200k_base`): 1.8 • Claude Opus 4.7: 2.0 • Gemini 3.1 Pro: 2.3
Сегмент: Английский (документация) • GPT-5.5 (`o200k_base`): 3.9 • Claude Opus 4.7: 4.0 • Gemini 3.1 Pro: 4.1
Сегмент: Code Python • GPT-5.5 (`o200k_base`): 3.4 • Claude Opus 4.7: 3.6 • Gemini 3.1 Pro: 3.8
Сегмент: JSON / API responses • GPT-5.5 (`o200k_base`): 2.7 • Claude Opus 4.7: 2.9 • Gemini 3.1 Pro: 3.1
Сегмент: Тех-русский (термины) • GPT-5.5 (`o200k_base`): 2.1 • Claude Opus 4.7: 2.3 • Gemini 3.1 Pro: 2.5

Что это значит на практике: 1000 символов русского текста — это около 555 токенов для GPT-5.5 и 435 токенов для Gemini 3.1 Pro. На объёме 1M входных символов разница — 120K токенов, или 42 ₽ для GPT-5.5 против 17 ₽ для Gemini. Подробное сравнение моделей по сценариям — в «GPT-5.5 vs Claude Opus 4.7: бенчмарки 2026».

Финальный шаблон — функция, которая возвращает «можно ли отправить запрос» с учётом бюджета:

import tiktoken def preflight( model: str, system: str, user_message: str, expected_output_tokens: int, budget_rub: float, ) -> dict: """Считает прогноз стоимости и решает, отправлять ли запрос.""" encoding = tiktoken.encoding_for_model(model) input_tokens = ( len(encoding.encode(system)) + len(encoding.encode(user_message)) + 8 ) cost = estimate_cost_rub(model, input_tokens, expected_output_tokens) return { "input_tokens": input_tokens, "output_tokens_estimate": expected_output_tokens, "estimated_cost_rub": round(cost, 4), "allowed": cost <= budget_rub, "model": model, } result = preflight( model="gpt-5-5", system="Ты — финансовый аналитик. Отвечай таблицами.", user_message="Сделай SWOT-анализ нашего пайплайна обработки заявок.", expected_output_tokens=2000, budget_rub=10.0, ) print(result) # { # 'input_tokens': 38, # 'output_tokens_estimate': 2000, # 'estimated_cost_rub': 4.31, # 'allowed': True, # 'model': 'gpt-5-5' # }

Эту функцию подключают в три места:

Frontend — показать пользователю «вы потратите ~4 ₽» перед нажатием «отправить».
API guard — отказать запросу, если он превышает дневной лимит пользователя.
Router — выбрать модель на лету: если задача простая, дешёвый прогноз идёт на GPT-5.4 (170/1070 ₽); если сложная — на Opus 4.7. Подробнее про роутинг моделей — в материале «Function calling и tool use на Python».

После каждого запроса ответ возвращает response.usage с фактическими числами. Сохраняйте predicted и actual в лог:

response = client.chat.completions.create(...) actual_in = response.usage.prompt_tokens actual_out = response.usage.completion_tokens # логируем для калибровки logger.info({ "predicted_in": preflight_result["input_tokens"], "actual_in": actual_in, "predicted_out": preflight_result["output_tokens_estimate"], "actual_out": actual_out, "drift_in_pct": (actual_in - preflight_result["input_tokens"]) / actual_in * 100, })

После 500–1000 запросов вы поймёте, на сколько процентов в среднем расходится ваш прогноз с реальностью, и подкрутите коэффициент завышения выходных токенов под свой профиль трафика. У зрелых сервисов на единый эндпоинт Promptra расход совпадает с прогнозом с точностью ±5% — это уровень, при котором можно показывать пользователю реальную цену и не бояться расхождений в счёте.

Единый счёт на пополнение, прозрачный расход в дашборде по моделям и по ключам, по факту оказания услуг — закрывающие документы через ЭДО. Юрлицо-исполнитель — российское юр.лицо, резидент РФ. Сервисная комиссия 5% — только при пополнении; на токены наценки нет, всё считается строго по курсу ЦБ. Полный пакет (договор-оферта, счёт на оплату, акт оказанных услуг, счёт-фактура, УПД) приходит через ЭДО — Диадок, СБИС, Контур. Подробнее — на странице «Тарифы» и в гайде «Сравнение цен LLM 2026».

Считать токены — это базовая дисциплина для всех, кто работает с LLM на коммерческой нагрузке. Через 30 минут после прочтения у вас есть три рабочих функции: count_chat_tokens для OpenAI, client.messages.count_tokens для Claude, client.models.count_tokens для Gemini, и шаблон preflight для pre-flight бюджет-гарда. Прокачать дальше: function calling и tool use («Function calling и tool use на Python»), streaming для UI («Streaming LLM-ответов через SSE») и batch API для экономии до 50% («Async-вызовы и Batch API»). Если нужно прикинуть стоимость на вашем трафике или подключить ключ через юрлицо — напишите команде Promptra в Telegram.

«📚 Главный гайд по теме: Лучшая нейросеть 2026: какую LLM выбрать под задачу — связанные материалы и обзор всей категории.»

Установите пакет tiktoken от OpenAI, выберите encoding для модели (o200k_base для GPT-5.x), и вызовите len(encoding.encode(text)). Это даёт точное число токенов — то же, что считает сама модель. Для chat-формата с ролями нужно учитывать служебные токены (около 4 на сообщение плюс 3 на сам ответ).

Tokenizer обучается на корпусе с большой долей английского, поэтому английские слова часто становятся одним токеном целиком, а русские разбиваются на 2–4 подслова. На практике коэффициент плотности — около 1.5–2 символа на токен для русского против 3.5–4 для английского.

Чтобы знать стоимость до отправки запроса, а не после. Это критично для прогноза цены пользователю, контроля бюджет-лимита в коде и выбора модели на лету по сложности задачи.

Cost = (input_tokens / 1_000_000) × input_price + (output_tokens / 1_000_000) × output_price. Для Claude Opus 4.7 это (in × 350 + out × 1790) / 1_000_000. Полная таблица — в материале «Сравнение цен LLM 2026».

Сильно. Лишние повторы инструкций, длинные few-shot примеры и многословные system messages добавляют токены к каждому запросу. На больших объёмах экономия 100 токенов на запрос превращается в десятки тысяч рублей в месяц.

Имена encoding-словарей tiktoken. cl100k_base — для GPT-3.5/4. o200k_base — для GPT-5.x, словарь вдвое больше, плотнее упаковывает мультиязычный текст. Получайте encoding через tiktoken.encoding_for_model('gpt-5-5'), чтобы код переживал смену поколений.

Один OpenAI-совместимый endpoint ко всем флагманам: OpenAI (GPT-5.5, GPT-5.4), Anthropic (Claude Opus 4.7, Sonnet 4.6), Google (Gemini 3.1 Pro, 3.5 Flash), DeepSeek V4 Pro, Qwen 3.6 Plus.

Цены 1-в-1 с провайдером по курсу ЦБ — без наценки на токены. Оплата в рублях по договору, полный пакет закрывающих документов (договор-оферта, счёт, акт, счёт-фактура, УПД 5.03 через ЭДО). Без VPN — легальный B2B-сервис в России.

Если статья была полезной — попробуйте Promptra: главная страница · каталог моделей · документация

Как считать токены в LLM: tokenizer, формулы, и точная стоимость запроса до отправки

TL;DR — формула, которую надо запомнить

Что такое токен и почему он не равен слову

Считаем токены для GPT через tiktoken

Считаем токены для Claude через anthropic-tokenizer

Считаем токены для Gemini

Точная формула стоимости запроса

Реальные коэффициенты плотности (Promptra benchmark 2026-05)

Pre-flight check: считаем чек до отправки

Как сверять прогноз с реальностью

Оплата и закрывающие документы

Что дальше

FAQ

Как точно посчитать токены в ChatGPT до отправки запроса?

Почему одно слово в русском занимает больше токенов, чем в английском?

Зачем считать токены, если usage возвращается в ответе?

Какая формула стоимости запроса в рублях?

Влияет ли способ форматирования промта на число токенов?

Что такое `o200k_base` и `cl100k_base`?

Promptra — российский LLM API-агрегатор