Взять и захостить собственную LLM — зачем это нужно [и нужно ли вообще]

Очевидно, что ИТ-индустрия проявляет интерес к большим языковым моделям (LLM). Многие компании — в том числе стартапы и разработчики — предпочитают self-hosting открытых LLM работе с API проприетарных решений. Мы в beeline cloud решили обсудить плюсы и минусы такого подхода, в том числе с финансовой точки зрения.

Изображение — Bernd Dittrich — Unsplash.com
Изображение — Bernd Dittrich — Unsplash.com

Селфхостинг и его потенциал

Одно из ключевых преимуществ самостоятельного хостинга — это возможность дообучения и тонкой настройки языковой модели под конкретные задачи. В отличие от решений на основе API, работа c открытыми LLM вроде LLaMA 2 на собственной инфраструктуре предоставляет полный контроль над ее параметрами и окружением для эффективной адаптации. В то же время ряд исследований показывает, что даже компактные модели обладают достойной производительностью на узком спектре задач. Так, разработчики LLaMa-7B с 7 млрд параметров утверждают, что качество её ответов продолжает улучшаться даже после первого триллиона токенов.

Как отмечают специалисты из Института искусственного интеллекта AIRI и НИУ ВШЭ, повысить качество ответов компактных моделей можно и за счет обучения на разных типах данных — например, не только текстовых корпусах, но и изображениях. Так, внедряя новые модальности в процесс обучения LLM, можно получить более «умные» модели. Сделать это в рамках работы с API проприетарного решения — с привязкой к данным организации — достаточно затруднительно. Еще одним преимуществом хостинга открытых LLM является наличие доступных и открытых инструментов для кастомизации, развертывания и инференса, над которыми трудится широкое сообщество разработчиков.

Но если затронуть экономическую сторону вопроса, то, на первый взгляд, ситуация складывается не в пользу самостоятельного хостинга. По оценкам экспертов, для self-hosted модели, обрабатывающий порядка 10 тыс. запросов ежедневно, потребуется бюджет в размере 40–60 тыс. долларов в месяц. Эта сумма включает стоимость закупки и дальнейшей поддержки оборудования для сбора данных, а также наём специалистов. Обработка такого же количества вопросов с помощью API коммерческих решений обойдется примерно в 1 тыс. долларов в месяц. Но многие проприетарные продукты устанавливают лимиты на число запросов. При достижении порога каждая дополнительная тысяча запросов обходится все дороже и может превратиться в серьезную статью расходов для компаний, активно использующих возможности систем ИИ. Зависимость от внешнего провайдера API также накладывает определенные риски, такие как изменения в политике ценообразования или даже прекращение обслуживания, что может потребовать перехода на другое решение и увеличить затраты бизнеса.

Самостоятельный хостинг также решает важные вопросы, связанные с безопасностью персональных данных. Например, многие провайдеры API для работы с системами ИИ в условиях использования прописывают, что компания может дообучать модель на данных клиентов. Узнать, какие именно данные собирает разработчик системы ИИ (и тем более их удалить), как правило, очень сложно. Специалисты по ИБ даже отмечают, что такая практика может противоречить законодательству целого ряда стран. В свою очередь, селфхостинг предоставляет полный контроль, позволяя компаниям хранить и обрабатывать персональные данные в соответствии с требованиями регуляторов.

Другое будущее

Открытые LLM модели, которые можно хостить самостоятельно, обладают своими преимуществами. Однако проблема кроется в ограниченном доступе к данным для обучения. Корпорации сегодня обладают колоссальным количеством информации, поэтому разработанные и натренированные ими модели часто оказываются более точными и функциональными по сравнению с их открытыми аналогами.

Так, модель GPT-4 показывает себя на 20% лучше, чем LLaMA 2 на задачах бенчмарка MMLU, который включает 16 тыс. вопросов из 57 академических областей. По данным сайта Artificial Analysis, который составляет рейтинг больших языковых моделей, первые строчки в списке занимают API-решения (например, GPT-4o и Gemini 1.5 Pro), уступая open source моделям лишь в цене.

Ключевой аспект self-hosting LLM — потребность в вычислительных ресурсах. Но даже компактные модели машинного обучения требуют значительных мощностей. Затраты, необходимые для хостинга и обслуживания, могут оказаться непосильными для разработчиков или небольших компаний. В этом контексте на старте может быть дешевле использовать коммерческие модели машинного обучения с доступом по API. Расчёты показывают, что развернутая на своем хостинге Large Language Model (LLM) будет дешевле только в том случае, если количество диалогов превышает 8 тыс.

Децентрализация как компромисс

Компромиссом между мощными универсальными LLM и самостоятельным хостингом могут быть децентрализованные языковые модели. Один из примеров такого подхода — проект Petals. В его основе лежит технология BitTorrent для обмена данными между участниками сети, каждый из которых загружает лишь часть модели. Вывод генерируется со скоростью до шести токенов в секунду для LLaMA 2 (70B) и до четырех токенов в секунду для Falcon (180B), что подходит для чат-ботов и интерактивных приложений. Взглянуть на демоверсию решения можно на официальном сайте разработчиков.

Изображение — Kelvin Ang — Unsplash.com
Изображение — Kelvin Ang — Unsplash.com

Но несмотря на привлекательность распределенных платформ, есть мнение, что все же нас ожидает централизованное будущее — как это происходило в других отраслях. Например, блокчейн и криптовалюты изначально создавали с целью децентрализации финансовой системы. Но на практике работа идет на централизованных биржах, и криптосферу к централизации также подталкивает регулирование.

C системами ИИ может произойти похожая история. Проще открыть страницу инференса в браузере или интегрировать API в приложение, чем настраивать децентрализованные узлы или дообучать собственную модель. Плюс регуляторы и здесь подталкивают индустрию к централизации. В частности, государства внедряют новые нормы для разработчиков систем ИИ, которым приходится следовать. Например, европейский AI Act наложит на бизнес обязательства, связанные с безопасностью данных и этическими стандартами. Небольшие и средние компании могут столкнуться с трудностями при соблюдении нормативных требований, поэтому им будет проще обратиться к инструментарию API провайдера и работать с его системой ИИ. Очевидно, что крупному игроку вроде OpenAI проще следовать новым регламентам (и компания будет вынуждена это делать, чтобы не потерять рынки и аудиторию развитых стран).

beeline cloud — secure cloud provider.

Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Начать дискуссию