Как получить преимущество юзая open-source модели
Говоря про нейросети, мы сразу представляем: ChatGPT, Sora, Nano Banana и т.п. Это самые популярные, но далеко не самые интересные модели с большим количеством ограничений. Вот вам 4 тейка в пользу локалок:
1. Они более гибкие и поддаются fine-tuning'у
2. Экономичнее
3. Лучше справляются с тяжелыми задачами
4. Безопаснее и приватнее
Гибкость и fine-tuning
Вы всегда увидите сгенерированое видео или фото. Любые инструменты, решающие широкий спектр задач - будут решать их одинаково плохо. С нейронками есть 2 момента:
1. вы не знаете, какой результат она выдаст
2. его трудно перенести на другие задачи
01 - Нейросети / ИИ - это такой же инструмент, как Photoshop или Blender, но вы не контролируете кисть или полигоны, и не можете предсказать результат генерации - нужно итеративно двигаться к хорошему результату. Первая генерация всегда выглядит плохо - это заметно. Нужно потратить время на поиск и шлифовку.
02 - Представим, вы собрали нужный промпт, инструкции и даже референс для стиля - гуд. Теперь нужно сделать обьект не в этом окружении, а в другом, поменять свет, может добавить персонажа, а что если это заголовок или логотип? Придется делать все заново, потому что: | - поменялся контект, слова имеют другой смысл - вы никогда не знаете состав датасета - и не контролируете процес генерации
У локальных нейросете есть 2 решения:
01 - кастомные workflow. ComfyUI позволяет собрать pipeline из разных нод, можно собрать ControlNet сшивая 2 изображения или использовать 2-step генерацию, когда оба инпута будут иметь свой VAE encode и потом будут собираться вместе. Понимаете? Можно собрать любую трубу - прямую, с датчиком или разделить ее на 2 потока.
02 - fine-tuning. Рандомность можно снизить, если направить модель в нужном направлении - собрать узкий набор данных, а потом оттренировать ее (пример такого подхода). Или прикрутить доп. модуль, или собрать MoE решение - способов много.
Экономичность
Цена стандартного набора (первая цифра - обычная подписка, вторая - Pro):
- Google AI - $20 / $125
- ChatGPT - $20 / $200
- Kling AI - $98 / $98
- Runway - $35 / $95
Минималка: $173
Если вы Pro: $518
(это все в месяц)
Для ленивой работы может хватить минималки, если работать плотно - не хватит и Pro версии, вы перешагнете лимиты и будете использовать токены. У Ai molodca есть текст, цитата:
"Другие подтверждают: расходы на Midjourney, Runway, Kling, Luma составляют $100–200 в месяц. При активной работе — столько же в день."
С такими затратами сложно обучать нейро-инструментам. Модели и workflow меняются каждый день. Всегда нужно тестить и осваивать что-то новое. И, говорю как художник: "тратить деньги для работы или личных тестов - болезненно".
Покупать отдельно каждую модель - бред, сжигать токены за 1 генерацию дорого, иногда очень дорого (Package 1 от Kling - $4200). Еще дороже, если вы команда или компания - все эти расходы нужно умножать на каждого человека в команде.
Соло художник может купить 70 или 90 tier видеокарту и окупить ее за несколько месяцев, команды могут арендовать сервер, а не модели напрямую или собрать собственный. Имея свою вычислительную мощность - вам доступны все open-source модели, которые закрывают большинство потребностей (даже 3D подтягивается).
Большинство AI компаний в операционном минусе, они by design убыточны. В ближайшие годы можно ждать, или:
- резкое повышение цен и тотальный дефицит чипов / памяти - лопнувший AI пузырь - технологический прорыв, который нас спасет
В интересное время живем, господа.
Тяжелые задачи
Нейросети могут предсказывать результат на основе предыдущих данных - это основа. Их лучшее применение - это помощь в автоматизации или copilot для выполнения сложных и трудоемких задач. Они либо слишком рутинные, либо требуют тонну экспертизы для выполнения. Логично переложит эти задачи на нейросеть. Но что если нам нужно обработать кучу документов, видео или презентаций?
У GPT лимит запроса ≈ 120–130к токенов, в 300-страничной книге ≈ 300–400к токенов (в 3-4 раза больше), ограничение на изображения в GPT примерно 10, легко понять что этого уже слишком мало.
Плюс быстро слетает контекст (LLM), стиль или композиция (image & video), если вы планируете работать с длинным проектом - это большая проблема.
По большей степени - это ограничения железа и рентабельности, а не моделей. Используя нейросети локально - вам не нужно думать сколько будет стоить 1 запрос и насколько большой кусок данных должна проглотить модель. Вы получаете весь профит от железа и его мощности.
Безопасность и приватность
Забивая промпт или картинку - вы добровольно передаете эти данные OpenAi, Google или Tencent.
OpenAI Privacy policy, цитата: "- User Content: We collect Personal Data that you provide in the input to our Services (“Content”), including your prompts and other content you upload, such as files, images, and audio, depending on the features you use." Я лично видел требование: "не использвать AI", от клиента. Некоторые не могут легально пользоваться AI, либо по соображениями NDA, либо из-за безопасности и приватности.
Представьте, что Disney, используя LumaLabs в начале проекта, обнаружит что-то в обновлении:
Вы: "Luma сделай изображении в стиле Disney"
Luma: "Хорошо, вот новый персонаж из невышедшего проекта Disney"
Disney: "Интересный дизайн. Погодите..."
Про гос. компании можно и не говорить.
С локальными моделями подобных казусов легко избежать, если она не ходит в интернет, а логи контролируете вы - проблема уходит. Потом можно завернуть лубую безопасность, и все наработки останутся у вас.