Токены - это части текста, с которыми работает модель, для английского текста обычно 1 токен = 4 символа, для русского - 2 символа. Самая большая и дорогущая GPT-4-32k могла обрабатывать контекст длиной 32К токенов, то есть примерно 75 страниц текста, дешевая рабочая модель GPT-3-Turbo-16k - 16K токенов, 37 страниц. Кажется, что это огроменная туча текста, если заставлять GPT травить анекдоты или помогать с домашкой по литературе, но для рабочих многошаговых задач это очень мало. Например, небольшой рабочий проект с основными метаданными занимает порядка 30К токенов и уже после нескольких вопросов и манипуляций начинает задыхаться. Анализ получасового интервью на английском еле-еле вписывался в 16К, а на русском - в 32К. Вопросы-ответы по документации типа большой PDF-ки или справки сразу же требовали всю дребедень с RAG (Retrieval Augmented Generation), векторными базами, разделением на кусочки и так далее, не говоря уже о база знаний или нескольких исследований с результатами. В итоге для некоторых вещей можно было использовать API Claude с 100К контекстом, но получить у них доступ к API в Европе сложно, а лимиты в персональном аккаунте быстро заканчиваются.