Шуруповёрт из Cyberpunk 2077
Роботы Figure на кухне
Nothing Phone 3a
Робот-человек
Nikola всё
Uber для охраны
iPhone 16e
Смартфон Huawei с 3 экранами
Аниме: Улицы разбитых фонарей
Рикша Hyundai

Если ИИ такие умные такие, почему им сложно писать и считать?

Инструменты генеративного ИИ, такие как Midjourney, Stable Diffusion и DALL-E 2, поразили нас своей способностью создавать замечательные изображения за считанные секунды. Однако, несмотря на их достижения, остается загадкой, почему у них не получается рисовать пальцы или писать текст на своих творениях.

Если ИИ такие умные такие, почему им сложно писать и считать?

Если генеративный ИИ достиг таких беспрецедентных высот в творческом самовыражении, почему он не справляется с задачами, которые может выполнить даже ученик начальной школы?

Ограничения ИИ с письмом

Люди могут легко распознавать текстовые символы (такие как буквы, цифры и символы), написанные различными шрифтами и почерком. Мы также можем создавать текст в разных контекстах и понимать, как контекст может изменить смысл.

Нынешним генератором изображений ИИ не хватает этого врожденного понимания. У них нет истинного понимания того, что означают любые текстовые символы. Эти генераторы построены на искусственных нейронных сетях, обученных на огромном количестве графических данных, из которых они «изучают» ассоциации и делают прогнозы.

Комбинации фигур на обучающих изображениях связаны с различными сущностями. Например, две пересекающиеся линии, обращенные внутрь, могут представлять собой кончик карандаша или крышу дома.

Но когда дело доходит до текста и количества, ассоциации должны быть невероятно точными, так как заметны даже незначительные несовершенства. Наш мозг может не заметить небольшие отклонения в кончике карандаша или крыше, но не в такой степени, когда речь идет о том, как написано слово или о количестве пальцев на руке.

Если ИИ такие умные такие, почему им сложно писать и считать?

Что касается моделей преобразования текста в изображение, текстовые символы представляют собой просто комбинации линий и фигур. Поскольку текст представлен в стольких разных стилях, а буквы и цифры используются, казалось бы, в бесконечных сочетаниях, модель не может эффективно воспроизводить текст.

Основной причиной этого является недостаточное количество обучающих данных.

Трагедия рук ИИ

Проблемы также возникают при работе с более мелкими объектами, требующими сложной детализации, например руками.

Если ИИ такие умные такие, почему им сложно писать и считать?

На тренировочных изображениях руки часто маленькие, держащие предметы или частично закрытые другими элементами. ИИ становится сложно связать термин «рука» с точным изображением человеческой руки с пятью пальцами.

Следовательно, руки, сгенерированные ИИ, часто выглядят деформированными , имеют дополнительные или меньшие пальцы или руки частично закрыты такими предметами, как рукава или сумочки.

Мы видим аналогичную проблему, когда речь идет о количествах. В моделях ИИ отсутствует четкое понимание величин, таких как абстрактное понятие «четыре».

Таким образом, генератор изображений может ответить на запрос «четыре яблока», опираясь на множество изображений с большим количеством яблок, и вернуть результат с неправильным количеством.

Другими словами, огромное разнообразие ассоциаций в обучающих данных влияет на точность величин в выходных данных.

Если ИИ такие умные такие, почему им сложно писать и считать?

Сможет ли когда-нибудь ИИ писать и считать?

Важно помнить, что преобразование текста в изображение и текста в видео — относительно новая концепция ИИ. Текущие генеративные платформы — это версии «низкого разрешения» того, что мы можем ожидать в будущем.

Благодаря прогрессу в процессах обучения и технологиях искусственного интеллекта будущие генераторы изображений искусственного интеллекта, вероятно, будут гораздо более способны создавать точные визуализации.

Если ИИ такие умные такие, почему им сложно писать и считать?

Также стоит отметить, что большинство общедоступных платформ ИИ не предлагают высочайшего уровня возможностей. Генерация точного текста и количества требует высоко оптимизированных и адаптированных сетей, поэтому платная подписка на более продвинутые платформы, скорее всего, даст лучшие результаты.

А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -

33
реклама
разместить
2 комментария

Комментарий недоступен

Комментарий недоступен

реклама
разместить
Apple отключит сквозное шифрование в iCloud для пользователей в Великобритании

После новостей о требовании местных властей предоставить доступ к зашифрованным данным пользователей iCloud по всему миру.

Источник: Apple / The Verge
1212
99
22
11
11
Кровавое Mi-6 или это другое?
Как интроверту преуспеть в нетворкинге: практическое руководство

Разговор по телефону, опенспейс и нетворкинг — страшные слова для интроверта. Однако спешим вас обрадовать, нетворкинг не обязательно означает натянутые беседы на мероприятиях. Он может быть удобным и даже приятным. Мы составили нетворк-руководство для волков-одиночек, чтобы они не взвыли от ужаса перед социальным взаимодействием!

Крупнейший взлом Bybit. Вся правда, как хакеры вывели $1,4 млрд в Ethereum.
Крупнейший взлом Bybit. Вся правда, как хакеры вывели $1,4 млрд в Ethereum.

21 февраля 2025 года криптовалютная биржа Bybit подверглась масштабной хакерской атаке, в результате которой злоумышленники похитили около 401 346 ETH (Ethereum) на сумму примерно $1,4-1,5 миллиарда. Это событие уже называют крупнейшим взломом криптобиржи за последние годы и одним из самых значительных инцидентов в истории криптовалютного рынка. Но…

44
Ozon начнёт удерживать с продавцов расходы на услуги курьеров, если покупатель не принял заказ или отменил его, когда курьер был в пути

Раньше продавец оплачивал «последнюю милю» — доставку до ПВЗ, постамата или в руки — только при успешной покупке или возврате.

Источник фото: РБК
88
33
11
Продавцы в свою очередь заявили, что они и не продавцы вовсе, а лица, предоставляющие услуги по передаче товаров на бартерной основе покупателям, тем самым уверяют, что к ним данная комиссия не относится. Ozon они рекомендовали заняться поиском тех самых продавцом, к которым они собрались применять комиссию.
«Аэрофлот» запустит прямые рейсы на китайский Хайнань из Санкт-Петербурга, Казани и Уфы

На фоне роста турпотока из России.

88
Правила въезда в Аргентину в 2025 году

Нужна ли россиянам виза в Аргентину? Как оформить ВНЖ (DNI) в Аргентине? Какие документы требуются для въезда в Аргентину...

«У нас электричество заканчивается»: директор по развитию ИИ «Яндекса» предупредил о нехватке энергии для обучения моделей

Эксперты отмечают, что дефицит может возникать в некоторых регионах, но проблем с производством электричества в стране нет.

Фото ТАСС
6060
88
11
Если Абхазии даром энергию не отдавать, то и Яндексу хватит. Хотя чего это я? Лучше Абхазии даром, а россиянам тариф повысить.
[]