Если ИИ такие умные такие, почему им сложно писать и считать?

Инструменты генеративного ИИ, такие как Midjourney, Stable Diffusion и DALL-E 2, поразили нас своей способностью создавать замечательные изображения за считанные секунды. Однако, несмотря на их достижения, остается загадкой, почему у них не получается рисовать пальцы или писать текст на своих творениях.

Если генеративный ИИ достиг таких беспрецедентных высот в творческом самовыражении, почему он не справляется с задачами, которые может выполнить даже ученик начальной школы?

Люди могут легко распознавать текстовые символы (такие как буквы, цифры и символы), написанные различными шрифтами и почерком. Мы также можем создавать текст в разных контекстах и понимать, как контекст может изменить смысл.

Нынешним генератором изображений ИИ не хватает этого врожденного понимания. У них нет истинного понимания того, что означают любые текстовые символы. Эти генераторы построены на искусственных нейронных сетях, обученных на огромном количестве графических данных, из которых они «изучают» ассоциации и делают прогнозы.

Комбинации фигур на обучающих изображениях связаны с различными сущностями. Например, две пересекающиеся линии, обращенные внутрь, могут представлять собой кончик карандаша или крышу дома.

Но когда дело доходит до текста и количества, ассоциации должны быть невероятно точными, так как заметны даже незначительные несовершенства. Наш мозг может не заметить небольшие отклонения в кончике карандаша или крыше, но не в такой степени, когда речь идет о том, как написано слово или о количестве пальцев на руке.

Что касается моделей преобразования текста в изображение, текстовые символы представляют собой просто комбинации линий и фигур. Поскольку текст представлен в стольких разных стилях, а буквы и цифры используются, казалось бы, в бесконечных сочетаниях, модель не может эффективно воспроизводить текст.

Основной причиной этого является недостаточное количество обучающих данных.

Проблемы также возникают при работе с более мелкими объектами, требующими сложной детализации, например руками.

На тренировочных изображениях руки часто маленькие, держащие предметы или частично закрытые другими элементами. ИИ становится сложно связать термин «рука» с точным изображением человеческой руки с пятью пальцами.

Следовательно, руки, сгенерированные ИИ, часто выглядят деформированными , имеют дополнительные или меньшие пальцы или руки частично закрыты такими предметами, как рукава или сумочки.

Мы видим аналогичную проблему, когда речь идет о количествах. В моделях ИИ отсутствует четкое понимание величин, таких как абстрактное понятие «четыре».

Таким образом, генератор изображений может ответить на запрос «четыре яблока», опираясь на множество изображений с большим количеством яблок, и вернуть результат с неправильным количеством.

Другими словами, огромное разнообразие ассоциаций в обучающих данных влияет на точность величин в выходных данных.

Важно помнить, что преобразование текста в изображение и текста в видео — относительно новая концепция ИИ. Текущие генеративные платформы — это версии «низкого разрешения» того, что мы можем ожидать в будущем.

Благодаря прогрессу в процессах обучения и технологиях искусственного интеллекта будущие генераторы изображений искусственного интеллекта, вероятно, будут гораздо более способны создавать точные визуализации.

Также стоит отметить, что большинство общедоступных платформ ИИ не предлагают высочайшего уровня возможностей. Генерация точного текста и количества требует высоко оптимизированных и адаптированных сетей, поэтому платная подписка на более продвинутые платформы, скорее всего, даст лучшие результаты.

А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -

t.me

Подслушано AI | ChatGPT | Midjourney | Нейросети

#ии #иибудущее #chatgpt #chatgpt4 #midjourney #stablediffusion #dalle #dalle2 #midjourneyv5 #нейросети #искусственныйинтеллект

Если ИИ такие умные такие, почему им сложно писать и считать?

Ограничения ИИ с письмом

Трагедия рук ИИ

Сможет ли когда-нибудь ИИ писать и считать?