5 важных недостатков популярных нейросетей (Часть 1)

Многие читатели справедливо заметят: о нейросетях стали говорить слишком много, а зачастую даже чрезмерно нахваливают их возможности. Я же стараюсь не нахваливать, но искреннее удивление от прогресса скрыть не могу.

Тем не менее, несмотря на способности ИИ генерировать тексты, рисовать, обрабатывать аудио/видео и ещё очень много всего, у существующих нейросетей есть много проблем, которые я собрал в этом материале.

Некоторые из них известны большинству, а какие-то могут стать открытием для читателя (спойлер: пункт 4). Давайте смотреть.

1. Midjourney и рисование рук

Midjourney я могу назвать первым популяризатором нейронок до появления ChatGPT. Нейросеть генерирует фантастические изображения по текстовому описанию, которые лично мой мозг сам не всегда в состоянии даже вообразить.

Тем не менее, с генерацией некоторых деталей у сервиса возникают регулярные проблемы, одна из них — руки. Пальцев то слишком много, то их не хватает. Иногда вовсе становятся похожи на щупальца.

Для чистоты эксперимента я прописал prompt, где указал "рукопожатие". Вот какой результат получил с первого раза:

5 важных недостатков популярных нейросетей (Часть 1)

2. ChatGPT и текст на русском

Если с английским языком у модели всё обстоит более, чем хорошо, то вот с русским — не очень.

Во-первых, текст создаётся сильно медленнее. Примерно раз в 5.

Во-вторых, по моим наблюдениям, он гораздо чаще обрывается и вынуждает писать "продолжи", чтобы закончить повествование. Зачастую он продолжает не с того места или теряет логику.

3. Изображение текста

Насколько знаю, проблема с изображением текста есть не только у Midjourney. Если попросить нанести какую-нибудь запись, вы увидите совершенно новый язык.

Здесь я попросил сгенерировать UI бледно-розового сайта и нанести буквы VC. Получилось это:

5 важных недостатков популярных нейросетей (Часть 1)

По такому принципу работают любые просьбы нанести текст. Как бы чётко не прописывались prompt, результат всегда не тот.

4. Enhance Speech от Adobe глушит речь

По задумке нейросеть должна улучшать качество речи на записи, убирая посторонние шумы и эхо. С этими задачами она справляется, но результат иногда далёк от идеального, особенно если голос записан не на профессиональный микрофон.

Речь после обработки становится слегка "приглушенной". По моим ощущениям похоже на то, если бы вы прислонились к уху человека и что-то начали тихо говорить сквозь пальцы.

Ко всему прочему, сильные посторонние шумы могут иногда слиться с речью и нейросеть просто вырежет этот отрывок вместе с вашим голосом.

С хорошим оборудованием такие проблемы случаются реже, но с ним использовать нейронку может быть не всегда целесообразно, потому что изначально звук должен сильно отличаться от качества телефонного микрофона.

Я сделал 2 записи. В первом случае я не обрабатывал нейросетью, во втором я добавил помехи в виде звука перфоратора (осторожно, может быть громко). Шум Enhance Speech не убрал, а мои слова стали звучать как-то странно... С неестественным для меня акцентом.

5. Нейросети и цензура

Вот что точно может сделать художник, но не может нейронка — добавить изображению пикантности. В свою очередь писатель может добавить мат, где считает уместным, а его искусственный помощник — нет.

Порой ChatGPT не говорит со мной на вполне нормальные темы, если ему кажется, что это неуместно или в моём запросе есть что-то неприличное. Ну и Midjourney не захочет рисовать темнокожего человека, если в запросе будет указано "стоп-слово".

По итогу

При всём при этом прогресс очень заметен. В статьях, которые были написаны год назад, нейросети в принципе мало что умели и без помощи человека не могли сделать что-то реально классное. Уже сейчас это в корне изменилось, а что будет в недалёком будущем — мы с вами увидим.

Если материал вам понравился, то приглашаю в свой Телеграм. Там я изучаю нейросети, рассказываю об их возможностях и провожу весёлые исследования.

Буду очень рад поддержке и вашим комментариям. Всех люблю.

1818
18 комментариев

Тоже тестил Enhance Speech для своего подкаста – в итоге у гостей с хорошими микрофонами все было супер, а у меня с моей петличкой звук был как из бочки. Вывод – надо покупать норм микрофон и к нему в комплекте часто идет софт от разработчика, который тоже на основе нейросетей.

2
Ответить

Тоже пробовал обработать подкаст через Enhance Speech, перед этим в ручную обработал и получилось, что он обрезал окончания слов и добавлял паузы, где их не должно быть. Также обрабатывал старый подкаст, где на фоне было очень шумно, шум приглушил идеально, но и окончания слов обрезал за одно... Но пробовал обработать звук с устройств дома в тишине, сразу через Enhance Speech, получилось неплохо.

2
Ответить

недавно видел что кто то хотел сделать на midjourney логотип маникюрного салона, я даже сохранил результат

2
Ответить

Ахахахахахаххаха
Комбо

Ответить

Всратое гавно конечно

Ответить

Про цензуру - вполне логично. Стоит только снять запрет 18+, как в адских масштабах начнет генерироваться порно-видеоконтент. Ведь это мечта. Теперь не надо перерывать десятки роликов, чтобы найти подходящий. Можно делать под запрос. С девушками нужной комплекции, нужным количеством участников, нужными позами и пр.
Поэтому да, цензура. И использование только по рабочим вопросам.

1
Ответить

На самом деле нет, не так логично. Цензура делается для того, чтобы компании не теряли в своей репутации, потому что оценивая риски им выгоднее просто заблокировать такой функционал даже с учётом "недобранных денег". Уже существуют порнушные нейросетки, хотя количество их контента пока не превысило того, что кожаные мешки сами снимают.
Везде где одна компания намеренно избегает возможностей или ЦА, другая получит лояльную аудиторию и деньги.

2
Ответить