Делюсь опытом, как резать косты на токены.

Я помню, как впервые столкнулся с API GPT - это был восторг, но вскоре пришла и головная боль. Мой первый MVP, бот для разговорного английского Speakadora в Telegram, работал как часы.

Число юзеров начало расти, счёт за токены рос тоже, будто я скупаю Биткоин в 2017-м. В стартапе каждая копейка на счету!

Я быстро понял: без жесткой дисциплины промптов я пойду ко дну. Пришлось буквально «зачистить» лишние слова в промптах, убирая "пожалуйста" и синтаксический мусор.

Я перестал думать о красоте и начал думать о плотности информации на токен. Это был первый, самый болезненный, но самый эффективный шаг.

Потом я заметил, что самые дорогие запросы - это те, где модель должна помнить весь контекст диалога с пользователем. Так я пришёл ко второму ключевому трюку стартаперов: грамотное управление окном контекста.

Я начал использовать резюмирование (summarization), чтобы сжать длинную старую часть диалога до нескольких ключевых тезисов. Модель помнит суть, а я экономлю токены. Это стало критически ощутимо, когда пользователи наговорили уже 1 600 часов!

Следующий прорыв случился, когда я осознал: не для всего нужен GPT-4. Зачем платить гпт’хе за задачу, которую ее младший нейро брат сделает не хуже? Третий подход - это каскадная архитектура (cascading).

Для быстрых, простых проверок грамматики в Speakadora я использовал GPT-3.5-Turbo. А вот для сложных ролевых игр или детальных объяснений - только GPT-4. По сути просто выбирал нужный "инструмент" под конкретную "гайку".

Финальный шаг был, пожалуй, самым хитрым. Я начал сравнивать сервисы-прослойки, которые продают доступ к тем же моделям. Такие стартапы закупают токены оптом или получают спец. условия как партнеры, и цена для конечного разработчика может быть ниже. В один момент я заметил, что одна и та же модель в разных сервисах имеет совсем разные цены (!!!).

Например, во vsellm.ru токены могут стоить до 90% от цены на openrouter.ai! Это стало четвертым, неочевидным источником экономии. Особенно на фоне того, что в первом можно еще и РФ картой платить. Ребята из таких сервисов будто специально продалбываются. Но нам все равно. Для нас это способ хакнуть юнит-экономику.

Суммарно эти подходы позволили мне кратно сократить расходы. Только посмотрите: за 30 дней мы сжигаем 12М+ токенов, и это при том, что у нас зарегистрировано 25к человек! Мы научились быть эффективными. Благодаря этой экономии мы смогли выйти на стабильный доход: общее число платных подписок 643.

Мой подход превратился из бездумного "дай мне ответ" в стратегическое "дай мне ответ с минимальными затратами токенов". Это позволило почти всем моим продуктам остаться на плаву дольше, не разорившись на хайпе AI.

Еще один способ не влез в пост, но он тут.

И, честно говоря, это чувство победы над расходами не менее приятно, чем то, что мы помогаем людям: каждые 30 дней присоединяется по 500 новых "говорунов" чисто на органике.

И, если совсем честно, Разработку Спикадоры мы заморозили и перешли на другой продукт, где мы больше разбираемся в маркетинге. Как пойдут первые оплаты, я обязательно расскажу.

1
Начать дискуссию