Как получить преимущество юзая open-source модели

Говоря про нейросети, мы сразу представляем: ChatGPT, Sora, Nano Banana и т.п. Это самые популярные, но далеко не самые интересные модели с большим количеством ограничений. Вот вам 4 тейка в пользу локалок:

1. Они более гибкие и поддаются fine-tuning'у

2. Экономичнее

3. Лучше справляются с тяжелыми задачами

4. Безопаснее и приватнее

Вы всегда увидите сгенерированое видео или фото. Любые инструменты, решающие широкий спектр задач - будут решать их одинаково плохо. С нейронками есть 2 момента:

1. вы не знаете, какой результат она выдаст

2. его трудно перенести на другие задачи

01 - Нейросети / ИИ - это такой же инструмент, как Photoshop или Blender, но вы не контролируете кисть или полигоны, и не можете предсказать результат генерации - нужно итеративно двигаться к хорошему результату. Первая генерация всегда выглядит плохо - это заметно. Нужно потратить время на поиск и шлифовку.

02 - Представим, вы собрали нужный промпт, инструкции и даже референс для стиля - гуд. Теперь нужно сделать обьект не в этом окружении, а в другом, поменять свет, может добавить персонажа, а что если это заголовок или логотип? Придется делать все заново, потому что: | - поменялся контект, слова имеют другой смысл - вы никогда не знаете состав датасета - и не контролируете процес генерации

У локальных нейросете есть 2 решения:

01 - кастомные workflow. ComfyUI позволяет собрать pipeline из разных нод, можно собрать ControlNet сшивая 2 изображения или использовать 2-step генерацию, когда оба инпута будут иметь свой VAE encode и потом будут собираться вместе. Понимаете? Можно собрать любую трубу - прямую, с датчиком или разделить ее на 2 потока.

02 - fine-tuning. Рандомность можно снизить, если направить модель в нужном направлении - собрать узкий набор данных, а потом оттренировать ее (пример такого подхода). Или прикрутить доп. модуль, или собрать MoE решение - способов много.

Цена стандартного набора (первая цифра - обычная подписка, вторая - Pro):

- Google AI - $20 / $125

- ChatGPT - $20 / $200

- Kling AI - $98 / $98

- Runway - $35 / $95

Минималка: $173

Если вы Pro: $518

(это все в месяц)

Для ленивой работы может хватить минималки, если работать плотно - не хватит и Pro версии, вы перешагнете лимиты и будете использовать токены. У Ai molodca есть текст, цитата:

"Другие подтверждают: расходы на Midjourney, Runway, Kling, Luma составляют $100–200 в месяц. При активной работе — столько же в день."

С такими затратами сложно обучать нейро-инструментам. Модели и workflow меняются каждый день. Всегда нужно тестить и осваивать что-то новое. И, говорю как художник: "тратить деньги для работы или личных тестов - болезненно".

Покупать отдельно каждую модель - бред, сжигать токены за 1 генерацию дорого, иногда очень дорого (Package 1 от Kling - $4200). Еще дороже, если вы команда или компания - все эти расходы нужно умножать на каждого человека в команде.

Соло художник может купить 70 или 90 tier видеокарту и окупить ее за несколько месяцев, команды могут арендовать сервер, а не модели напрямую или собрать собственный. Имея свою вычислительную мощность - вам доступны все open-source модели, которые закрывают большинство потребностей (даже 3D подтягивается).

Большинство AI компаний в операционном минусе, они by design убыточны. В ближайшие годы можно ждать, или:

- резкое повышение цен и тотальный дефицит чипов / памяти - лопнувший AI пузырь - технологический прорыв, который нас спасет

В интересное время живем, господа.

Нейросети могут предсказывать результат на основе предыдущих данных - это основа. Их лучшее применение - это помощь в автоматизации или copilot для выполнения сложных и трудоемких задач. Они либо слишком рутинные, либо требуют тонну экспертизы для выполнения. Логично переложит эти задачи на нейросеть. Но что если нам нужно обработать кучу документов, видео или презентаций?

У GPT лимит запроса ≈ 120–130к токенов, в 300-страничной книге ≈ 300–400к токенов (в 3-4 раза больше), ограничение на изображения в GPT примерно 10, легко понять что этого уже слишком мало.

Плюс быстро слетает контекст (LLM), стиль или композиция (image & video), если вы планируете работать с длинным проектом - это большая проблема.

По большей степени - это ограничения железа и рентабельности, а не моделей. Используя нейросети локально - вам не нужно думать сколько будет стоить 1 запрос и насколько большой кусок данных должна проглотить модель. Вы получаете весь профит от железа и его мощности.

Забивая промпт или картинку - вы добровольно передаете эти данные OpenAi, Google или Tencent.

OpenAI Privacy policy, цитата: "- User Content: We collect Personal Data that you provide in the input to our Services (“Content”), including your prompts and other content you upload, such as files⁠, images⁠, and audio⁠, depending on the features you use." Я лично видел требование: "не использвать AI", от клиента. Некоторые не могут легально пользоваться AI, либо по соображениями NDA, либо из-за безопасности и приватности.

Представьте, что Disney, используя LumaLabs в начале проекта, обнаружит что-то в обновлении:

Вы: "Luma сделай изображении в стиле Disney"

Luma: "Хорошо, вот новый персонаж из невышедшего проекта Disney"

Disney: "Интересный дизайн. Погодите..."

Про гос. компании можно и не говорить.

С локальными моделями подобных казусов легко избежать, если она не ходит в интернет, а логи контролируете вы - проблема уходит. Потом можно завернуть лубую безопасность, и все наработки останутся у вас.

"Андреев | TехАрт", Telegram

Как получить преимущество юзая open-source модели

Гибкость и fine-tuning

Экономичность

Тяжелые задачи

Безопасность и приватность