{"id":14289,"url":"\/distributions\/14289\/click?bit=1&hash=892464fe46102746d8d05914a41d0a54b0756f476a912469a2c12e8168d8a933","title":"\u041e\u0434\u0438\u043d \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442 \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u043b \u043f\u0440\u043e\u0434\u0430\u0436\u0438 \u043d\u0430 5%, \u0430 \u0441\u0440\u0435\u0434\u043d\u0438\u0439 \u0447\u0435\u043a \u2014 \u043d\u0430 20%","buttonText":"","imageUuid":""}

5 важных недостатков популярных нейросетей (Часть 1)

Многие читатели справедливо заметят: о нейросетях стали говорить слишком много, а зачастую даже чрезмерно нахваливают их возможности. Я же стараюсь не нахваливать, но искреннее удивление от прогресса скрыть не могу.

Тем не менее, несмотря на способности ИИ генерировать тексты, рисовать, обрабатывать аудио/видео и ещё очень много всего, у существующих нейросетей есть много проблем, которые я собрал в этом материале.

Некоторые из них известны большинству, а какие-то могут стать открытием для читателя (спойлер: пункт 4). Давайте смотреть.

1. Midjourney и рисование рук

Midjourney я могу назвать первым популяризатором нейронок до появления ChatGPT. Нейросеть генерирует фантастические изображения по текстовому описанию, которые лично мой мозг сам не всегда в состоянии даже вообразить.

Тем не менее, с генерацией некоторых деталей у сервиса возникают регулярные проблемы, одна из них — руки. Пальцев то слишком много, то их не хватает. Иногда вовсе становятся похожи на щупальца.

Для чистоты эксперимента я прописал prompt, где указал "рукопожатие". Вот какой результат получил с первого раза:

2. ChatGPT и текст на русском

Если с английским языком у модели всё обстоит более, чем хорошо, то вот с русским — не очень.

Во-первых, текст создаётся сильно медленнее. Примерно раз в 5.

Во-вторых, по моим наблюдениям, он гораздо чаще обрывается и вынуждает писать "продолжи", чтобы закончить повествование. Зачастую он продолжает не с того места или теряет логику.

3. Изображение текста

Насколько знаю, проблема с изображением текста есть не только у Midjourney. Если попросить нанести какую-нибудь запись, вы увидите совершенно новый язык.

Здесь я попросил сгенерировать UI бледно-розового сайта и нанести буквы VC. Получилось это:

По такому принципу работают любые просьбы нанести текст. Как бы чётко не прописывались prompt, результат всегда не тот.

4. Enhance Speech от Adobe глушит речь

По задумке нейросеть должна улучшать качество речи на записи, убирая посторонние шумы и эхо. С этими задачами она справляется, но результат иногда далёк от идеального, особенно если голос записан не на профессиональный микрофон.

Речь после обработки становится слегка "приглушенной". По моим ощущениям похоже на то, если бы вы прислонились к уху человека и что-то начали тихо говорить сквозь пальцы.

Ко всему прочему, сильные посторонние шумы могут иногда слиться с речью и нейросеть просто вырежет этот отрывок вместе с вашим голосом.

С хорошим оборудованием такие проблемы случаются реже, но с ним использовать нейронку может быть не всегда целесообразно, потому что изначально звук должен сильно отличаться от качества телефонного микрофона.

Я сделал 2 записи. В первом случае я не обрабатывал нейросетью, во втором я добавил помехи в виде звука перфоратора (осторожно, может быть громко). Шум Enhance Speech не убрал, а мои слова стали звучать как-то странно... С неестественным для меня акцентом.

5. Нейросети и цензура

Вот что точно может сделать художник, но не может нейронка — добавить изображению пикантности. В свою очередь писатель может добавить мат, где считает уместным, а его искусственный помощник — нет.

Порой ChatGPT не говорит со мной на вполне нормальные темы, если ему кажется, что это неуместно или в моём запросе есть что-то неприличное. Ну и Midjourney не захочет рисовать темнокожего человека, если в запросе будет указано "стоп-слово".

По итогу

При всём при этом прогресс очень заметен. В статьях, которые были написаны год назад, нейросети в принципе мало что умели и без помощи человека не могли сделать что-то реально классное. Уже сейчас это в корне изменилось, а что будет в недалёком будущем — мы с вами увидим.

Если материал вам понравился, то приглашаю в свой Телеграм. Там я изучаю нейросети, рассказываю об их возможностях и провожу весёлые исследования.

Буду очень рад поддержке и вашим комментариям. Всех люблю.

0
18 комментариев
Написать комментарий...
Дмитрий Беговатов

Тоже тестил Enhance Speech для своего подкаста – в итоге у гостей с хорошими микрофонами все было супер, а у меня с моей петличкой звук был как из бочки. Вывод – надо покупать норм микрофон и к нему в комплекте часто идет софт от разработчика, который тоже на основе нейросетей.

Ответить
Развернуть ветку
Vladislav Birukov

Тоже пробовал обработать подкаст через Enhance Speech, перед этим в ручную обработал и получилось, что он обрезал окончания слов и добавлял паузы, где их не должно быть. Также обрабатывал старый подкаст, где на фоне было очень шумно, шум приглушил идеально, но и окончания слов обрезал за одно... Но пробовал обработать звук с устройств дома в тишине, сразу через Enhance Speech, получилось неплохо.

Ответить
Развернуть ветку
Vladislav Birukov

Послушать аудиодорожки, можно у автора статьи в Telegram в комментариях https://t.me/neuralON/30?comment=90

Ответить
Развернуть ветку
justkost

недавно видел что кто то хотел сделать на midjourney логотип маникюрного салона, я даже сохранил результат

Ответить
Развернуть ветку
Андрей Герцен
Автор

Ахахахахахаххаха
Комбо

Ответить
Развернуть ветку
Планетарная печенька

Всратое гавно конечно

Ответить
Развернуть ветку
Михаил Барабаш

Про цензуру - вполне логично. Стоит только снять запрет 18+, как в адских масштабах начнет генерироваться порно-видеоконтент. Ведь это мечта. Теперь не надо перерывать десятки роликов, чтобы найти подходящий. Можно делать под запрос. С девушками нужной комплекции, нужным количеством участников, нужными позами и пр.
Поэтому да, цензура. И использование только по рабочим вопросам.

Ответить
Развернуть ветку
Олег Комаров

На самом деле нет, не так логично. Цензура делается для того, чтобы компании не теряли в своей репутации, потому что оценивая риски им выгоднее просто заблокировать такой функционал даже с учётом "недобранных денег". Уже существуют порнушные нейросетки, хотя количество их контента пока не превысило того, что кожаные мешки сами снимают.
Везде где одна компания намеренно избегает возможностей или ЦА, другая получит лояльную аудиторию и деньги.

Ответить
Развернуть ветку
Константин Брежнев

Чего это сразу с девушками-то? :)

Ответить
Развернуть ветку
Планетарная печенька

Хотел няшных котиков, а оно кучу членокотиков начнет генерить, ну уж нет, спасибо

Ответить
Развернуть ветку
Arina Here

Про запись голоса – очень любопытно. Во втором аудио не просто неестественный акцент, там совсем всё не очень🥲 Здесь нейросетям пока не победить.

Ответить
Развернуть ветку
Планетарная печенька

Базу Clubhause для этого собирали отчасти

Ответить
Развернуть ветку
Ogfrgfkar

ИИ это человек ))), а вы пишите про ЭВС — электронная вычислительная структура, к примеру такое название, или еще много названий есть, но никак не искусственный интеллект и нейросеть.

Ответить
Развернуть ветку
Fabiola Gentle

ну хоть кто то решил написать о недостатках,а то все хвалят)

Ответить
Развернуть ветку
Андрей Герцен
Автор

Надо стараться смотреть на любые вещи объективно

Ответить
Развернуть ветку
Кибер Мастера

А почему с пальцами у мд такие проблемы? Вопрос именно в техническом плане.

Ответить
Развернуть ветку
Алексей Соловьёв

А есть тут спецы по ИИ?

Ищу специалиста, который может сделать MVP бота, который будет отвечать на вопросы как CHAT-GPT, но обученный на текстах Илона Маска и чтобы писал в стиле Илона Маска. Пишите в телегу @lehard

Ответить
Развернуть ветку
Эльвира Яманова

Интересно, как скоро все эти недостатки устранят? Может появятся совершенно новые

Ответить
Развернуть ветку
15 комментариев
Раскрывать всегда