Искусственный интеллект — еще один модуль на котором строится Exorde
В предыдущих статьях мы обсудили, что такое блкочейн Ethereum, который отвечает за экономику проекта и децентрализованную сеть хранения данных Filecoin, которую использует Exorde.
Так вот, еще одной необходимой компонентой в проекте является и модуль искусственного интеллекта NLP (ИИ), который и будет работать с неструктурированным текстом. NLP — это не только нейролингвистическое программирование, которое взяли на вооружение пикаперы. Под этой аббревиатурой также скрывается другое понятие, и без него было бы невозможно развитие многих современных технологий. Речь об обработке естественного языка (natural language processing, NLP) — области искусственного интеллекта, направленной на создание машин, которые могут понимать текст и произносимые слова так же, как люди, и реагировать на полученные данные, то есть отвечать на них собственными текстами или речью.
Где же ИИ возьмет данные для анализа?
Объектом исследования в NLP является текст, поэтому одним из основных вопросов в рамках анализа ставится выбор релевантных источников текстовых материалов. В зависимости от поставленных задач, источниками данных могут быть электронные базы СМИ, данные социальных сетей, открытые языковые корпусы и другие, в том числе открытые и доступные научно-исследовательские ресурсы.
Данные СМИ позволят анализировать социальные, политические, информационные аспекты и настроения в обществе. Данные из социальных сетей позволяют проводить маркетинговый анализ компаниям и корпорациям, оценить нестроение различных социальных слоев общества. Открытые языковые корпусы и научные ресурсы направлены, главным образом, на исследования и проверку различных феноменов, гипотез, научных фактов.
Задачи NLP: распознать и устранить
Чтобы такие инструменты функционировали как надо, они должны правильно обрабатывать и понимать человеческий язык. Но он полон двусмысленностей, и это затрудняет создание программного обеспечения, которое в точности определяет предполагаемое значение текстовых или голосовых данных. Омонимы, омофоны, сарказм, идиомы, метафоры, грамматические ошибки и исключения из правил, вариации в структуре предложений — вот лишь некоторые из отклонений человеческого языка, на изучение которых у людей уходят годы.
Задачи, которые приходится решать технологиям NLP, включают:
распознавание речи. Это задача перевода голосовых данных в текст. Задача осложняется, если люди говорят быстро, с невнятным произношением, акцентом и разной интонацией, неправильной грамматикой;
определение части речевых тегов (грамматических тегов). Проще говоря, система должна понять, к какой части речи относится конкретное слово на основе его употребления и контекста. Например: «Она пила кофе каждое утро» и «Пила может работать без подзарядки два часа»;
устранение неоднозначности смысла слова. Это выбор нужного значения из нескольких посредством семантического анализа. Например, слово «хвост» может означать и хвост животного, и заднюю часть поезда или конец очереди. Система должна найти тот вариант, который имеет наибольший смысл в данном контексте;
распознавание именованных сущностей (named entity recognition, NER). Так, если в тексте встречаются имена собственные, то система должна выявить их и определить, к какому классу отнести, будь то имя человека, географическое название или наименование организации. Это могут быть и другие именованные сущности, например даты, валюты, денежные суммы;
разрешение совместных ссылок. Если в тексте есть несколько разных отсылок к одному объекту, задача NLP — понять, что они связаны. Наиболее распространенный пример — определить объект, к которому относится местоимение («она» = «Мария»). Другой случай — выявить метафоры или идиомы в тексте: «медведь» иногда не животное, а крупный волосатый человек;
анализ настроений. Это попытка извлечь из текста субъективные характеристики: эмоции, сарказм, замешательство, подозрительность и так далее;
генерация естественного языка (natural language generation, NLG). Преобразование структурированной информации в голосовые данные. Иногда эта задача описывается как противоположная процессу преобразования речи в текст.
Сегодня использование ИИ переживает бум за счет доступа к огромному массиву данных и увеличения вычислительной мощности устройств. Это открывает возможности для создания полезных инструментов NLP в таких сферах, как здравоохранение, СМИ, финансы и прочих. В корпоративном мире технологии NLP тоже востребованы — для оптимизации бизнес-процессов и повышения производительности труда.
· NLP помогает распознавать и прогнозировать заболевания. Так, сервис Amazon Comprehend Medical извлекает информацию о диагнозах, медицинских препаратах и результатах лечения из карт пациентов, отчетов о клинических испытаниях и других электронных медицинских записей и устанавливает взаимосвязи, скажем, между названием препарата и дозировкой.
· Системы обработки естественного языка позволяют компаниям узнавать, что в соцсетях или других источниках говорят об их услуге или продукте клиенты.
· Благодаря NLP появляются когнитивные помощники, которые работают как персонализированная поисковая система. Сначала они собирают о вас информацию, а потом напоминают вам то, что вы не можете вспомнить в нужный момент — будь то название песни или имя дальнего родственника.
· Такие компании, как Yahoo и Google, фильтруют и классифицируют ваши электронные письма с помощью NLP. Анализируя текст в сообщениях, проходящих через их серверы, они останавливают спам еще до того, как он попадет в ваш почтовый ящик.
· Группа по NLP в Массачусетском технологическом институте разработала новую систему для идентификации фальшивых новостей. Технология определяет, является ли источник точным или политически предвзятым и можно ли ему доверять.
· Alexa от Amazon и Siri от Apple — примеры интеллектуальных голосовых интерфейсов, которые используют NLP для ответов и реакций на голосовые запросы, например найти конкретный магазин, сообщить прогноз погоды, предложить лучший маршрут до офиса или включить дома свет.
· Трейдеры используют NLP для отслеживания новостей, отчетов компаний, комментариев о возможных слияниях — все это затем может быть включено в торговый алгоритм для получения прибыли.
Так вот, что же мы можем сказать об интеграции NLP в экосистему Exorde? В нашем проекте модуль искусственного интеллекта позволит распознавать объекты в тексте, извлекать предложения, факты, сопоставлять их друг с другом и выполнять проверки на сходство. Такой подход сделает совместную работу участников и ИИ наиболее эффективной, позволит отслеживать актуальную и свежую информацию, получаемую сетью, формировать более объективное мнение.
И в качестве заключения, я бы хотела отметить следующее: использование NLP сегодня — это хороший тон. NLP позволит лучше понять исследуемую область и выявить характеристики текста, которые могут быть упущены при ручной обработке. При этом важно запомнить: NLP лишь вспомогательный инструмент, и без внимательного сопровождения это лишь игрушка в руках исследователя.
Exorde project approved by Coinlist. (https://blog.coinlist.co/introducing-the-coinlist-seed-winter-2022-batch/).
Join to Discord: https://discord.gg/e4y7bjQSwW
Reddit: https://reddit.com/r/Exorde
Site: https://exorde.network/
Twitter: https://twitter.com/ExordeLabs
LinkedIn: https://linkedin.com/company/exorde
Medium: https://medium.com/@ExordeLabs
Telegram Chat: https://t.me/exorde