Эра дешевого ИИ заканчивается

Видеокардмен кошмарит топов 
Видеокардмен кошмарит топов 

В 2023 году я платил за доступ к ChatGPT 20 баксов и думал, что переплачиваю. Сейчас я плачу за Claude Max €100 и €200 в месяц, и часто вижу сообщения: "Лимит сессии достигнут — не хотите ли докупить ещё немного токенов"?

Все крупные поставщики подписок давно выкатили планы по 100 и 200 долларов/евро ценой. То, что недавно воспринималось оверпрайсом, дикостью и кошмаром, внезапно нашло своего потребителя. На Российском рынке вы можете купить те же подписки по сниженным ценам на известных площадках типа Авито — но суть остается та же. Есть категория людей, которым как воздух оказались необходимы большие лимиты этих подписок. Объяснять всё одной лишь жадностью провайдеров уже недостаточно: рынок явно показал, что у дорогих тарифов есть платёжеспособный спрос.

Поразмышлять над этим вопросом меня подтолкнул вот этот пост на Реддите и комментарии к нему:

Автор поста предполагает, что стоимость работы ИИ компании Антропик (модель Опус 4.6-4.7) при не заметной но не экстремальной рабочей нагрузке в течение 8-часового рабочего дня может превысить 30 долларов — если использовать API-вызовы. Что ставит под вопрос использование такого инструмента вне подписочной модели для многих программистов вне рабочего места. Разница с доступными локальными open-weight решениями для среднего пользователя остаётся существенной по качеству, устойчивости и удобству работы.

Если же пытаться приблизиться к облачному уровню качества локально, порог входа резко растёт. Для перехода к серьезному локальному ИИ нужны мощности, сопоставимые по стоимости с дешевым автомобилем — главным становится GPU, VRAM, поддержка unified memory.

Типичная современная рабочая лошадка разработчика — MacBook Pro-класса с 32 Gb памяти и процессором уровня M4 Max. Это позволяет использовать модели размера 14B, 22B и 24B в квантизованном виде. Самый практичный диапазон для ежедневной работы — 7B–14B комфортно, 22B–24B уже реалистично, а 32B обычно уже ближе к режиму “можно запустить, но это не лучший повседневный баланс”. Это подтверждается хотя бы тем, что Mistral Small 24B прямо позиционируется как модель, которая помещается на 32GB RAM MacBook в квантизованном виде.

Указанные веса моделей в десятки раз меньше исходных весов опубликованных "рабочих" моделей. Это означает, что пользователь на потребительском ноутбуке работает не с тем же самым классом ИИ, который показывают в облаке, а с его сильно уменьшенной, упрощённой и, как правило, дополнительно квантованной версией. Иначе говоря, локальный стек сегодня — это не “тот же frontier, только у себя дома”, а компромиссный инженерный суррогат, пригодный для части повседневых задач, но не для полноценной замены старших облачных систем.

Для комфортной работы необходим монстр уровня MacStudio c 512 Gb памяти стоимостью около 10 тысяч долларов, а то и целый кластер из 4-х таких MacStudio! Что ещё будет гораздо дешевле специализированных серверов c решениями от Nvidia. Ниже можете полюбоваться на этих монстров.

Кластер из MacStudio под управлением Exo
Кластер из MacStudio под управлением Exo
Nvidia DGX H200 
Nvidia DGX H200 

Разница по цене в 6 раз. По производительности сам считать не берусь, но по заявленным Nvidia сырым цифрам должна быть примерно на порядок (10-кратная). Возможно, с выходом M5 Ultra и развитием новых драйверов Apple сможем поправить ситуацию в свою пользу, но пока это дело ближайших лет, а не месяцев.

Что это обозначает на практике

Гладко было на бумаге, да забыли про овраги. Использовать передовые ИИ-модели в скором времени может оказаться весьма накладно.

Это не кризис ИИ как технологии, а кризис прежней модели дешёвого доступа к сильному ИИ. Оказывается, мы только-только подошли к тому моменту, когда производительность ИИ стала чем-то значимым для человека и показала первые результаты. Как обычно — начали с программирования. Самые первые шаги показали, что нелинейная сложность программного обеспечения даёт такие же нелинейные затраты на "думательную энергию" и программисты не зря занимались всё более и более высокими уровнями абстракции, углубляясь в проектирование вместо оптимизации. Посмотрим, как с этим справятся электронные надмозги.

Взрывной рост прекращается и начинается эра оптимизации. От повсеместного бездумного использовании переходим к бережливой продуктовой экономике — покупай продукт, а не обещание.

Начать дискуссию