Kami Kami

+1
с 2023
0 подписчиков
0 подписок

Кто? Кто в России на собственной инфраструктуре сидит? Яндекс и Сбер? Ну окей, только у них качество уровня MidJourney v3, и по сути доработанный SD 1.5, собранный на том же LAION-дата-сете или своем собственном, что мало вероятно.

Про дата-центр — не путайте тёплое с мягким. Фронт и сервер на Timeweb — это оболочка, а сами GPU-серваки стоят в РФ, и именно они делают всю генерацию.

А насчёт «вклада» — при чём тут вообще SDXL? Я написал про развитие отечественных проектов, а не про то, что мы SDXL будем дальше гнать. В России сейчас нет условий, чтобы с нуля собрать своё полноценное ядро, поэтому всё «импортозамещение» пока формальное. Вопрос только в том, кто реально сможет адаптировать и развивать технологии локально, а не просто болтать. Если для вас наличие русского языка в промпте считается «более честным импортозамещением» — хорошо. Но смысла спорить тут нет, если вы лучше меня знаете, как устроены модели ИИ изнутри.

SDXL — это больше 2.3 млрд параметров, обученных на сотнях миллионов англоязычных картинок и подписей.
«Добавить русский» — это не галочку поставить. Новых параметров модель не получает, она переписывает старые веса, и качество падает.
На русском у нас просто нет корпусов в таких масштабах, поэтому токены остаются сырыми, а англоязычные знания размываются.

Чтобы русский работал «на равных», нужен свой отдельный датасет в сотни миллионов примеров и по сути новая модель за сотни миллионов долларов.

Яндекс идёт именно по этому пути: у них тоже модель на том же принципе, просто они сознательно пожертвовали частью качества ради поддержки русского. Поэтому говорить «сделайте русский язык и будет российская модель» — это чистая демагогия.

Может вообще убрать апач? импортозамещение же)). С формой регистрации соглашусь, подумываю изменить её и упростить. Возможно в следующем обновлении затрону и форму регистрации тоже.

1

Русский модель понимает как «ну ты это… сделай красиво». Английский — это «что, где, свет, ракурс, стиль». Пока не соберём тонну русских данных и не перепилим модель — RU даёт лотерею. Поэтому язык сейчас и закрыт.
Как только закончим тесты и убедимся, что модель правильно воспринимает русский — он появится. А делать костыль в виде переводчика внутри логики — это тупо и ненадёжно, потому что теряется смысл и качество.