Свет мой, зеркальце, скажи, что такое GPT (и все остальные странные термины из сферы ИИ)

Все слышали об искусственном интеллекте, нейросетях, чат-ботах, машинном обучении, Big Data и прочих ажиотажных явлениях. Но сможете ли вы объяснить, как это работает? Что происходит внутри ChatGPT, когда вы задаёте ему вопрос? Являются ли слова «ИИ» и «нейросеть» синонимами? Разбираемся в терминах, которые звучат сегодня из каждого утюга.

Свет мой, зеркальце, скажи, что такое GPT (и все остальные странные термины из сферы ИИ)

Основы основ

Искусственный интеллект (Artificial Intelligence, AI) — это набор технологий, которые позволяют компьютерам выполнять множество расширенных функций: «понимать» текст, анализировать и структурировать данные, давать рекомендации. ИИ имитирует деятельность человеческого мозга, однако не в полной мере идентичен ему: учёные не знают, как работает мозг, а вот механизмы существующих ИИ вполне объяснимы.

ИИ может быть слабым или сильным — и это не о производительности.

Слабый ИИ (Narrow AI) — это прикладной искусственный интеллект, который разработан для решения ограниченного множества задач. Подлинного сознания у таких разработок нет, они работают по заданным моделям и не могут выйти за их пределы. Голосовой помощник «Алиса», ChatGPT, Midjourney и даже медицинские ИИ, которые предсказывают приступы эпилепсии или диагностируют опухоли, — всё это примеры слабого ИИ.

Сильный ИИ (General AI) — гипотетическая технология, которая может мыслить так же гибко, как человек (или даже ещё лучше). Такой ИИ способен самостоятельно обучаться, адаптироваться к любым новым условиям и понимать контекст, обладает самосознанием, волей и мотивацией. Пока что сильного ИИ не существует: с одной стороны, из-за того, что нынешние технологии далеки от подобной универсальности, с другой — из-за этических споров вокруг темы.

Идём дальше!

Машинное обучение (Machine Learning, ML) — популярнейший класс методов искусственного интеллекта. ML-алгоритмы обучаются искать закономерности на больших коллекциях примеров. На машинном обучении основаны, скажем, рекомендации в ваших любимых соцсетях.

Как происходит машинное обучение? Есть четыре модели:

  • Контролируемое обучение (обучение с учителем). Если ваша ML-модель должна распознавать собак на фотографиях, то вы будете давать машине фотографии с собаками и без них — сразу помечая, где собаки есть. Система будет искать сходство между теми изображениями, где собаки есть, и в конце концов начнёт отбирать изображения с собаками вне зависимости от породы или стилизации фотографии.
  • Неконтролируемое обучение (обучение без учителя). Здесь правильных ответов не предусмотрено, алгоритму просто «скармливают» огромные массивы неструктурированных и неразмеченных данных, а он выявляет закономерности.
  • Полуконтролируемое обучение сочетает в себе первые две модели. В этом случае часть учебных данных размечена, а часть — нет. Размеченные данные, даже если их немного, ускоряют процесс. На полуконтролируемом обучении чаще всего построено распознавание лиц.
  • Обучение с подкреплением не подразумевает готовых правильных соответствий между входными данными и конкретными ответами. Однако ML-инженер задаёт правила и набор допустимых результатов — и может вести «диалог», отмечая правильность/неправильность выводов алгоритма. «Подкрепление» — выраженное в числе нечто, которое машина должна собрать. Качество обучения зависит от практики — количества попыток получить вознаграждение (и приумножить его).

Машинное обучение с подкреплением похоже на шахматы: ребёнок учится правилам и затем наращивает навык в течение многих игр. Взрослый показывает, насколько верны те или иные ходы, или помогает проанализировать, почему в результате конкретной игры ребёнок выиграл или нет.

Нейронные сети работают благодаря машинному обучению, но отличаются от других видов ИИ особой природой, схожей с системой нейронных связей. Нейросеть состоит из «нейронов» — информационных узлов, которые обмениваются сигналами. Нейроны организованы в слои: первый получает входные данные от человека, последний — выдаёт результат, а между ними есть ещё N слоёв, которые скрыты от пользователя.

Вес — параметр связи между нейронами, который показывает, насколько важен входной сигнал для выходного сигнала, то есть для «решения», которое принимает нейросеть. Веса подбираются таким образом, чтобы результат был как можно точнее.

Откуда нейросеть знает, как работать с входными сигналами и насколько её ответ соответствует действительности? Благодаря обучению. Разработчики «говорят» нейросети, когда она выдаёт правильный, а когда — ошибочный результат.

Генеративные нейросети обучены синтезировать что-то новое: текст, изображения, музыку и т. д. Подробнее о том, как это работает, расскажем чуть ниже.

Когда речь идёт о сложных формах машинного обучения, основанных на нейросетях, включается термин глубинное/глубокое обучение (Deep Learning, DL).

Свет мой, зеркальце, скажи, что такое GPT (и все остальные странные термины из сферы ИИ)

Компьютерное зрение (Computer Vision, CV) — ещё один подраздел машинного обучения. Его миссия — научить машину видеть и понимать, что происходит на цифровых изображениях: фотографиях и видео. Компьютерное зрение:

  • выявляет границы объекта, определяя его форму и размеры;
  • присваивает пикселям теги, чтобы их можно было объединять по разнообразным характеристикам;
  • сопоставляет данные с уже существующей базой;
  • определяет, к какой категории относится объект (например, собака ли изображена на фотографии — или даже к какой породе относится эта собака).

На технологии компьютерного зрения во многом основано умное видеонаблюдение. Об этом у нас тоже есть интересная статья.

NLP, но не нейролингвистическое программирование

Если вы интересуетесь массовой психологией, то наверняка слышали об NLP как о псевдонаучной теории межличностного общения. Её сторонники считают, что с помощью языка можно программировать себя или других людей на определённое поведение. В ИТ-отрасли аббревиатура расшифровывается по-другому и имеет совсем другой смысл.

NLP (Natural Language Processing) — обработка естественного языка. Это направление машинного обучения, которое посвящено распознаванию, обработке и генерации человеческой речи — письменной и устной. Алгоритм, заточенный на NLP, может определить значение слова, проведя анализ предложения.

NLP позволяет голосовым помощникам вроде Siri или «Алисы» понимать команды и вопросы пользователей, а переводчикам Google Translate и «Яндекс Переводчику» — достаточно точно перекладывать тексты с одного языка на другой. Также обработка естественного языка лежит в основе работы генеративных нейросетей. Способ реализации NLP на основе нейросети называется большой языковой моделью (Large Language Model).

Часто нейросети наподобие ChatGPT или YandexGPT называют чат-ботами. Но не любой чат-бот умеет обрабатывать язык.

Вы могли встречать чат-боты, закреплённые за диалогами бизнес-страниц в социальных сетях. Возможно, вы общались с роботами-ассистентами, когда хотели получить поддержку в банковском приложении, в приложении мобильного оператора или на «Госуслугах». Эти чат-боты не понимают контекст и запрограммированы отвечать только на узкий ряд вопросов — и они ищут в ваших сообщениях определённые слова-маркеры. Если запрос сформулирован необычным образом или ответ не предусмотрен разработчиками, чат-бот не может дать вам консультацию и зовёт на помощь человека.

Свет мой, зеркальце, скажи, что такое GPT (и все остальные странные термины из сферы ИИ)

Чат-боты на основе NLP могут не понимать многозначные слова, сарказм, метафоры и другие литературные тропы. Однако это более продвинутые инструменты, нежели чат-боты, которые работают по простым сценариям.

Ну и как же работает ChatGPT?

Аббревиатура расшифровывается как «Generative Pre-trained Transformer» — «генеративный, предобученный трансформер». Трансформер — это вид нейросетевой архитектуры, который хорошо подходит для обработки последовательностей данных (например, предложений текста). Трансформер создаёт цифровое представление каждого элемента последовательности, учитывая важную информацию о нём и контексте.

Когда вы вводите текст, ChatGPT разбивает его на токены — отдельные слова, части слов или символы. Например, предложение «Привет, как дела?» может быть преобразовано в [Привет, ,, как, дела, ?]. Токены превращаются в числовые представления (векторы), с которыми работает модель.

Далее модель читает текст, учитывая каждый символ, слово и их порядок. Векторы проходят через десятки слоёв с нейронами, где каждый слой анализирует информацию с определённой стороны: порядок, смысл, контекст. Нейросеть понимает, что слова связаны: например, «как дела» и «без дела» — разные вещи.

После анализа нейросеть «думает», какое слово должно быть следующим, чтобы ответ был осмысленным. При обучении ChatGPT просканировал миллиарды текстов и узнал, как общаются люди. На «Привет, как дела?» люди обычно отвечают что-то вроде «Привет, нормально, а у тебя?». Важно и то, что модель анализирует весь диалог, включая предыдущие сообщения ветки. От этого тоже зависит вероятность, что новые токены будут релевантными.

Сгенерированные токены снова преобразуются в текст и выводятся на экран пользователя.

ChatGPT не понимает мир так же, как человек. По сути, это огромная статистическая машина, которая делает текстовые прогнозы. Эти прогнозы оказываются удачными потому, что разработчики постарались собрать по-настоящему большой массив учебных данных. Но если какая-то тема не нашла место в этом массиве, нейросеть не сможет выдать полезный результат.

Свет мой, зеркальце, скажи, что такое GPT (и все остальные странные термины из сферы ИИ)

Прочие генеративные нейросети устроены таким же образом. Качество генерации зависит от глобальности учебной базы.

А что такое большие данные (Big Data)?

Big Data — это огромные массивы информации. «Огромные» здесь означает не абстрактное число, а от 150 гигабайтов в день.

Сущность Big Data описывается тремя буквами «V»:

  • Volume — объём. Big Data фактически невозможно обрабатывать вручную, то есть когда способы и качество обработки контролирует человек.
  • Velocity — скорость. Информация поступает непрерывно, и её нужно анализировать почти в режиме реального времени.
  • Variety — разнообразие. Данные бывают структурированными (таблицы) и неструктурированными (тексты, фото, видео) — и самого разного содержания.

Примеры Big Data: отчёт о транзакциях внутри какого-либо банка, все фотографии, загруженные пользователями в соцсети, GPS-координаты от автомобилей.

Большие данные — это «сырой» материал, который сам по себе ничего не говорит. Ценность появляется, только если мы правильно анализируем информацию и находим закономерности. Тогда Big Data действительно может помочь с оптимизацией бизнеса, запуском новых продуктов или журналистскими расследованиями, которые изобличают социальные проблемы.

Как большие данные связаны с ИИ? С одной стороны, искусственный интеллект может обучаться на больших данных. Вернёмся к примеру с фотографиями из соцсетей: ML-инженер сможет выкачать их в учебную базу и отдать на съедение алгоритму машинного обучения — в размеченном или неразмеченном виде.

Качество анализа зависит от того, насколько структурированы и верифицированы массивы данных. Как говорят специалисты по Big Data, мусор во входном сигнале даёт мусор на выходе: «Garbage in — Garbage out». По заданной теме может оказаться статистически больше неточных или фальсифицированных фактов.

С другой стороны, ИИ помогает структурировать и анализировать большие данные. Это взаимодополняющие инструменты: чем больше Big Data, тем лучше обучается ИИ; чем лучше ИИ, тем эффективнее он анализирует и извлекает ценность из данных.

Поздравляем!

Теперь вы можете лучше понимать новости из мира ИТ и уверенно поддерживать светские беседы об актуальных цифровых инструментах :)

Подписывайтесь на наш VC-блог и Telegram-канал. Мы публикуем полезную информацию об ИТ для бизнеса и объясняем технологические тренды.

33
11
Начать дискуссию