На что способен искусственный интеллект в анализе данных?

Промпт 1: «Кот исследует математическую таблицу, рисует график, японская гравюра»
Промпт 1: «Кот исследует математическую таблицу, рисует график, японская гравюра»

Меня зовут Роман Полянский, и я эксперт систем машинного обучения в Quillis. За годы исследования способов применения математического моделирования в сферах здравоохранения и образования у нас появилось общее представление о способе интерпретации данных через призму математических моделей. В статье вы найдете несколько слов о нашей философии в работе.

В мире нейронных сетей невольно думаешь: «а почему нельзя создать машину, которая будет создавать другие нейронные сети и обучаться произвольно, делая себе подобных»?

Каждый день бы решалось множество задач, которые многим умам не под силу решить и за сотни лет. Но так как мы живем в мире с ограниченным количеством ресурсов, машина подобного рода требовала бы их все больше, а ее поддержание расходовало бы гигантские объемы энергии. Ради такой машины человеку придется снова изобрести носитель, способный вмещать более «640 килобайт».

В мире ограниченных ресурсов мы приходим к задаче их оптимизации: сокращение расходов или увеличение притока ресурсов. Когда речь заходит о том, нужна ли нам система, предлагающая оптимизацию ресурсов, встает вопрос: а окупит ли система сама себя? Помимо философских вопросов, в более приземленном мире мы встречаем задачи, которые направлены на сокращение времени принятия решений, увеличение выручки за счет количества продаваемых товаров или увеличение продолжительности жизни в результате диагностики рака на ранней стадии. Все это частные случаи оптимизации ресурсов.

И все-таки, на что способен ИИ в анализе данных? В каждой задаче мы ищем способ найти нужный нам экстремум функции, которую пытаемся моделировать. Время, деньги или другая метрика в простом понимании способны показать, как хорошо мы это делаем. И с точки зрения ИИ, это поиск неординарной комбинации параметров, при которых мы получаем желаемое приближение моделируемого поведения.

Промпт 2: «Кот пишет в тетради знак вопроса, японская гравюра»
Промпт 2: «Кот пишет в тетради знак вопроса, японская гравюра»

Для любого котика в жизни можно рассмотреть три объекта взаимодействия:

• Причина;

• Ситуация;

• Следствие.

Для математического моделирования точно так же. Мы берем объект моделирования как причину взаимодействия, в ситуации участвует способ моделирования, а следствием является модель ситуации с выходными данными. Проще говоря, ввод, обработка, вывод. Как с любым терминалом.

Когда все пункты ясны, все становится на свои места: как происходит процесс принятия решений и его обработка. И несмотря на то, что модель — это всего лишь малая часть продукта, она уже сможет помочь решать поставленную задачу.

Исходя из шаблона, машинное обучение можно применить к совершенно разным задачам:

• Астрономы решают задачи поиска новых планет;

• В клиниках Москвы анализируют вашу кожу на предмет опасных воспалений;

• Каждый день текстовый поиск адаптирует выдачу сайтов.

И так можно продолжать на несколько страниц. Для каждого найдется место и сфер применения великое множество. Главное – начать! ;)

Промпт 3: «8 Котов, японская гравюра»
Промпт 3: «8 Котов, японская гравюра»

Но прежде, чем моделировать жизнь, приходится отвечать на другие жизненные вопросы. Формулировки встречаются разные, но я предлагаю обсудить следующие ключевые моменты:

• Где взять такие данные, которые описывают ситуацию как можно точнее?

Только вы сами можете собрать такие данные. Лучше всего, если вы полностью контролируете процесс либо используете методики контроля ваших поставщиков данных. Готовых чистых данных у вас не будет в реальной жизни. В текущем мире это утопия. Нужно изначально в систему закладывать такой способ хранения, который будет соответствовать стандартам хранения данных.

• Нужна ли вообще сложная система? Или проще написать условие «да/нет»?

Не всегда нужно создавать сложные системы. Иногда, чтобы решить задачу, нужно ответить всего лишь на 5 уточняющих вопросов. Словно играя в Акинатор. Напишите дерево принятия решений из пяти вопросов и у вас готовая модель. Обычно простые модели составляют, чтобы от них отталкиваться при построении более сложных систем принятия решений.

• Какой подход выбрать?

Разные данные — разные архитектуры. Прежде всего, нужно понять задачу и описать, как видит ее заказчик и разработчик. Только после этого можно продумать архитектуру, выбрать метрику, затем начать разработку.

• Как понять, что данных достаточно?

Вовочка сегодня не выспался, поэтому получил двойку на уроке. Зато вчера показал себя лучше всех: заработал пятерку. Что получит Вовочка завтра?

Многие модели включают в себя данные, основанные на коротком промежутке времени, точнее говоря, содержат нерепрезентативную выборку. Чтобы этого избежать, нужно собрать как можно больше данных или оценить размер выборки.

• Что будет, если данные изменятся?

Придется переобучать модель, но для этого нужно сначала создать систему мониторинга данных. В качестве оценки изменчивости может выступать простая статистка - график распределения данных. Гистограмма покажет смещение данных прошлого и текущего периодов, но, если визуально сравнивать долго, можно использовать классические меры статистики: среднее, медиану и моду. Возможно, вам помогут тест Колмогорова-Смирнова и тест Шапиро-Уилка для оценки нормальности распределения.— график

От мониторинга системы будет зависеть ее работоспособность. В том числе это связано с вопросом изменчивости данных. Если в маршруте автобуса убрали остановку А, но не сказали об этом модели данных, она будет учитывать ее в расчете времени прибытия на остановку Б.

• У данных подходящее качество?

Выборка должна быть репрезентативной, ее происхождение понятно и описано. Никто никогда не расскажет обо всех нюансах в получаемых данных. Иногда встречаются нарушения здравой логики: у школьника может измениться пол или школьник напишет учителю множество нецензурных песен.

• Где будет храниться результат работы системы?

Базы данных — классическое представление такой системы. Базы повсеместно используются для хранения ваших данных. Учитывая правило «чем больше данных, тем лучше», данные иногда перетекают в NoSQL формат хранения.

• Как часто система будет использоваться?

От ответа на этот вопрос зависит скорость принятия решений в модели машинного обучения. Иногда можно усложнить модель настолько, что она будет рассчитывать результат несколько часов, даже на суперкомпьютере. Для ускорения прибегают к хитростям, которые немного упрощают модель, но делают ее значительно быстрее.

• Зависят ли от системы важные процессы?

Вопрос надежности появляется сам собой. Когда от модели зависит многомиллионный оборот, приходится с этим считаться и вводить дополнительные проверки ее точности. Косвенно, но иногда машинное обучение помогает спасать жизнь - своевременная диагностика показателей здоровья повысит шанс обнаружения злокачественных образований.

Эта лишь малая часть вопросов, которые нужно задать при попытке использовать ИИ в рабочих задачах.

На что способен ИИ в анализе данных?

ИИ способен на все, но нужен ли он вам?

33
Начать дискуссию