Искусственный интеллект для чайников. Как выжить и победить среди машин в 2024 году. Часть 1

Искусственный интеллект для чайников. Как выжить и победить среди машин в 2024 году. Часть 1

В этой статье для начинающих я постараюсь простыми словами объяснить, как работает ИИ и с чем его едят.

Подписывайтесь на наш Telegram-канал "софт с хэппи-эндом", там мы рассказываем о полезном софте, который помогает делать операционку в бизнесе быстрее и дешевле.

Введение. Как компьютеры начали творить и размышлять

Долгое время компьютеры в нашем восприятии ограничивались ролью усовершенствованных калькуляторов. Однако сегодня, в эру технологического взлета, они переродились в нечто более захватывающее — компьютеры начали учиться, думать и общаться, как мы с вами.

Другими словами, теперь машина способна выполнять творческую интеллектуальную работу, которую раньше могли делать только люди, и даже принимать решения в условиях неопределенности. Эту технологию мы называем генеративным искусственным интеллектом (ИИ).

Возможно, вы уже слышали о ChatGPT, благодаря которому интеллект стал доступен как услуга, которую может приобрести каждый.

Супер-мозг, у которого можно спросить всё, что угодно.
Супер-мозг, у которого можно спросить всё, что угодно.

Да, он не идеален, но удивительно быстро улавливает контекст, адаптируется и эволюционирует.

Очевидно, что существование такой технологии со временем повлияет на человечество и его развитие, хотим мы этого или нет. А это значит, что понимание ИИ и навык работы с ним станет не просто желательным, а стратегически важным.

ИИ-всезнайка в офисе

Представьте, что в офисе появился новый коллега, которого вы коллективно прозвали «Ломоносов». Он — всезнайка, запомнивший всё, что знали умные люди, когда-либо жившие на этом свете. Вы можете обращаться к Ломоносову с любым вопросом в любое время дня и ночи. У него прямая связь с космосом, поэтому он отвечает на все в течение нескольких секунд, а еще никогда не устает. Он также может примерить на себя любую роль — комика, поэта, врача, тренера — и высказываться в соответствующем стиле.

Правда, шутит он пока так себе.
Правда, шутит он пока так себе.

Как и у любого другого человека, у него есть некоторые ограничения. Он может ошибаться, делать поспешные выводы. А еще он может вас не понимать.

Есть такая полезная поговорка: «Если вас не поняли, значит, вы плохо объяснили». Навык объясняться и задавать правильные вопросы коллеге Ломоносову сейчас называется промт-инжиниринг, и в эпоху искусственного интеллекта он так же важен, как умение читать и писать.

Большинство людей заметно недооценивают способности этого всезнайки. Это так, как если бы вы обратились к самому Ломоносову с просьбой проверить ваш школьный доклад или попросили шеф-повара мирового класса почистить картошку. Но я не вижу ничего плохого в использовании искусственного интеллекта в таком контексте.

От нейронов к нарративам: как ИИ превращает данные в диалог

Итак, как же это все на самом деле работает? Большая языковая модель — это искусственная нейронная сеть, сплетенная из множества числовых параметров, похожих на наш мозг, но в цифровом исполнении.

Нейронные сети обрабатывают лишь числа. Подавайте им цифры, и они выдают результаты в виде новых чисел. Все что угодно — текст, изображения, можно перевести в числа. Написал «собаки — это», модель превращает это в числа, обрабатывает их, а затем выводит результат обратно в текст, например «животные». Или еще дальше: «Собаки — это ангелы, оставшиеся с людьми на земле». 🐶

Таким образом, большая языковая модель угадывает следующее слово на основе ввода и предыдущего вывода. Взяв вывод и объединив его с вводом, а затем пропустив через модель снова, она продолжит добавлять новые слова. Когда вы общаетесь с ChatGPT, это и происходит. Модель генерирует целую историю, и вы можете продолжать добавлять запросы для получения большей информации. Поэтому модель вроде GPT не даст вам совет, как ограбить банк. Она знает, как это сделать, но благодаря обучению она понимает, что не должна помогать совершать преступления.

После завершения обучения модель в основном не меняется, за исключением некоторой дополнительной настройки. Вот что означает «P» в GPT: pretrained — предварительно обученный. В будущем, возможно, появятся модели, которые могут обучаться непрерывно, не только во время базового обучения и настройки.

GPT и его сородичи: эволюция и разнообразие языковых моделей.

Можно сказать, что с запуска ChatGPT мы открыли ящик Пандоры. Как вы уже могли догадаться, GPT — не единственная языковая модель на рынке. На самом деле новые модели возникают как грибы после дождя, и они сильно различаются по скорости, возможностям и стоимости. Есть модели, которые можно легко скачать и запустить локально, другие доступны только онлайн. Некоторые предоставляются бесплатно с открытым исходным кодом, в то время как другие являются коммерческими продуктами. Есть простые в использовании, но есть и такие, которые требуют сложной технической настройки. Некоторые специализированы для конкретных случаев использования, другие — общие и могут быть использованы почти для любых задач. Есть и те, что встроены в продукты как копилоты или чат-окна. Добро пожаловать в Дикий Запад, где часто получаешь ровно столько, сколько заплатил, так что с бесплатной моделью вы, возможно, получите не Ломоносова, а умного старшеклассника.

Разница между GPT-3.5 и GPT-4 существенна. Обратите внимание, что существуют разные типы моделей генеративного искусственного интеллекта, которые генерируют разный контент. Модели текст-в-текст, такие как GPT-4, принимают текст в качестве входных данных и генерируют текст в качестве выходных данных. Текст может быть естественным языком, а также структурированной информацией, такой как код, JSON, HTML. Я часто использую это для создания кода при программировании. Это экономит огромное количество времени, плюс я учусь новому.

Модели текст-изображение создают изображения по вашему описанию и выбранному стилю. Модели изображение-изображение могут преобразовывать или объединять изображения. Есть также модели изображение-текст, описывающие содержимое изображения, модели речь-текст, создающие транскрипции голоса, и текст-аудио модели, генерирующие музыку или звуки.

Наконец, есть модели текст-видео, создающие видео по вашему запросу. Такие, как Sora от OpenAI:

Промт: Трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соленая пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета.

Мы не за горами от бесконечных сериалов, адаптированных к вашим вкусам, автоматически генерирующих следующий эпизод, пока вы смотрите. Довольно пугающе, если подумать.

Мастера мультимодальности: как ИИ превосходит ожидания во всех форматах.

Одним из актуальных трендов являются мультимодальные продукты ИИ, объединяющие различные модели в один продукт, чтобы работать с текстом, изображениями, аудио и т. д., не переключаясь между инструментами. Мобильное приложение ChatGPT с моделью GPT-4-Turbo-Vision-128K — отличный пример такого подхода.

Ради хохмы я прикрепил ему эту фотографию и спросил, где я могу что-нибудь спрятать. Было интересно, что ChatGPT упомянул духовку, но предупредил, что там может быть жарко.
Ради хохмы я прикрепил ему эту фотографию и спросил, где я могу что-нибудь спрятать. Было интересно, что ChatGPT упомянул духовку, но предупредил, что там может быть жарко.

Мне интересно, что еще можно попробовать. Может быть, попросить описание ландшафта и запросить, как бы выглядела его звуковая дорожка? Или даже предложить создать мультимедийный проект, объединяя текст, изображения и звуки.

От статистических машин до творцов новой эры

Изначально языковые модели были просто предсказателями слов — статистическими машинами с ограниченным практическим применением. Чем больше машины обучались, тем быстрее и качественнее прогрессировали в своих возможностях и в конечном итоге стали выдавать результаты, которые поражали разработчиков этой технологии. Они научились создавать качественный код, писать тексты к песням, предоставлять юридические и медицинские консультации, обучать и учить — в общем, выполнять творческие и интеллектуальные задачи, которые ранее считались прерогативой человека. Когда модель видит достаточно информации (текста, изображений), она начинает понимать более сложные структуры подобно ребенку, осваивающему мир.

Давайте рассмотрим простой пример. Представим, что я показываю GPT-4 изображение, на котором изображены нить, ножницы, яйцо, кастрюля и огонь. Затем я спрашиваю, что произойдет, если я использую ножницы. Возможно, модель и не была обучена этому сценарию. Тем не менее она вполне сможет предоставить сносный ответ, демонстрируя базовое понимание свойств ножниц, яиц, гравитации и тепла. И это лишь малая часть возможностей GPT-4, которые я открыл в своем творческом путешествии.

Во второй части статьи мы попробуем погрузиться глубже в этот вопрос — поговорим о последствиях использования ИИ.

Подписывайтесь на мой канал, чтобы не пропустить вторую часть Марлезонского балета!

Продолжение читайте тут:

Начать дискуссию