Если ИИ такие умные такие, почему им сложно писать и считать?

Инструменты генеративного ИИ, такие как Midjourney, Stable Diffusion и DALL-E 2, поразили нас своей способностью создавать замечательные изображения за считанные секунды. Однако, несмотря на их достижения, остается загадкой, почему у них не получается рисовать пальцы или писать текст на своих творениях.

Если ИИ такие умные такие, почему им сложно писать и считать?

Если генеративный ИИ достиг таких беспрецедентных высот в творческом самовыражении, почему он не справляется с задачами, которые может выполнить даже ученик начальной школы?

Ограничения ИИ с письмом

Люди могут легко распознавать текстовые символы (такие как буквы, цифры и символы), написанные различными шрифтами и почерком. Мы также можем создавать текст в разных контекстах и понимать, как контекст может изменить смысл.

Нынешним генератором изображений ИИ не хватает этого врожденного понимания. У них нет истинного понимания того, что означают любые текстовые символы. Эти генераторы построены на искусственных нейронных сетях, обученных на огромном количестве графических данных, из которых они «изучают» ассоциации и делают прогнозы.

Комбинации фигур на обучающих изображениях связаны с различными сущностями. Например, две пересекающиеся линии, обращенные внутрь, могут представлять собой кончик карандаша или крышу дома.

Но когда дело доходит до текста и количества, ассоциации должны быть невероятно точными, так как заметны даже незначительные несовершенства. Наш мозг может не заметить небольшие отклонения в кончике карандаша или крыше, но не в такой степени, когда речь идет о том, как написано слово или о количестве пальцев на руке.

Если ИИ такие умные такие, почему им сложно писать и считать?

Что касается моделей преобразования текста в изображение, текстовые символы представляют собой просто комбинации линий и фигур. Поскольку текст представлен в стольких разных стилях, а буквы и цифры используются, казалось бы, в бесконечных сочетаниях, модель не может эффективно воспроизводить текст.

Основной причиной этого является недостаточное количество обучающих данных.

Трагедия рук ИИ

Проблемы также возникают при работе с более мелкими объектами, требующими сложной детализации, например руками.

Если ИИ такие умные такие, почему им сложно писать и считать?

На тренировочных изображениях руки часто маленькие, держащие предметы или частично закрытые другими элементами. ИИ становится сложно связать термин «рука» с точным изображением человеческой руки с пятью пальцами.

Следовательно, руки, сгенерированные ИИ, часто выглядят деформированными , имеют дополнительные или меньшие пальцы или руки частично закрыты такими предметами, как рукава или сумочки.

Мы видим аналогичную проблему, когда речь идет о количествах. В моделях ИИ отсутствует четкое понимание величин, таких как абстрактное понятие «четыре».

Таким образом, генератор изображений может ответить на запрос «четыре яблока», опираясь на множество изображений с большим количеством яблок, и вернуть результат с неправильным количеством.

Другими словами, огромное разнообразие ассоциаций в обучающих данных влияет на точность величин в выходных данных.

Если ИИ такие умные такие, почему им сложно писать и считать?

Сможет ли когда-нибудь ИИ писать и считать?

Важно помнить, что преобразование текста в изображение и текста в видео — относительно новая концепция ИИ. Текущие генеративные платформы — это версии «низкого разрешения» того, что мы можем ожидать в будущем.

Благодаря прогрессу в процессах обучения и технологиях искусственного интеллекта будущие генераторы изображений искусственного интеллекта, вероятно, будут гораздо более способны создавать точные визуализации.

Если ИИ такие умные такие, почему им сложно писать и считать?

Также стоит отметить, что большинство общедоступных платформ ИИ не предлагают высочайшего уровня возможностей. Генерация точного текста и количества требует высоко оптимизированных и адаптированных сетей, поэтому платная подписка на более продвинутые платформы, скорее всего, даст лучшие результаты.

А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -

33
2 комментария

Комментарий недоступен

Комментарий недоступен