Компьютерная лингвистика: заменят ли роботы переводчиков и журналистов через 10 лет

Общение компьютера и человека на естественном, всем нам привычном языке – одна из актуальных и понятных задач развития технологий. Ее качественное решение позволит увеличить скорость нашего взаимодействия с интерфейсами устройств и приложений, эффективно распределять внимание при работе с ними, обойти связанные с незнанием языков барьеры, автоматизировать рутинные операции при обработке информации.

Это прикладное направление науки о языке развивают с 1950-х компьютерные лингвисты. В те годы казалось, что еще несколько десятилетий или даже лет, и человек будет общаться с машиной на привычном ему языке. Спустя 70 лет, в 2019-м, поиск ответов, решений и технологий продолжается.

С какими особенностями языка это связано, и ждет ли нас серьезный скачок в обработке естественного языка в ближайшие 10 лет? Будет ли в 2030 году искусственный интеллект писать за нас письма и статьи, синхронно переводить видеоролики и сочинять детям сказки? Отвечает на вопросы Илья Калагин, руководитель Центра когнитивных технологий «АйТеко».

Компьютерная лингвистика оказалась весьма сложной областью для предсказаний. Начало ее развития связано с оптимизмом первопроходцев — специалистов, реализовавших первые попытки машинного перевода. В 1950-х представлялось, что для успеха стоит лишь загрузить в память компьютера описание одного языка, выделить универсальные принципы, решить технические проблемы, и у человечества появится инструмент для письменного общения на любых языках. Этого не произошло из-за ряда причин, в том числе упущенной из виду важности контекста и многозначности слов.

И речь не только о том, что слово «лук» при едином написании имеет разные значения, но и о том, что словоформа «двери» может в русском языке быть формой пяти падежей. Все эти проблемы остались актуальны и в 2019-м. Давняя задача разрешения анафоры остается в фокусе хакатонов, соревнований и отраслевых конференций компьютерных лингвистов. Под ней понимаются предложения типа «Владимир поднялся на холм, он был пологий», в которых мы легко понимаем, что пологим был холм, а не Владимир, но для машины установить эти отношения сложно.

Язык оказался сложнее наших представлений о нем, а развитие технологии — не укладывающимся в экспертные прогнозы. В 1980-х было сложно предсказать значение статистических методов, использование которых уже в следующем десятилетии серьезно изменило ситуацию в машинном переводе.

Компания IBM получила доступ к документации двуязычного канадского парламента – корпус параллельного текста на английском и французском языках. Ранее использовался подход на правилах: в машину загружались сотни правил, регламентирующих, как именно переводить ту или иную языковую конструкцию. Эти инструкции разрабатывались лингвистами. IBM предложила машинный перевод на основе статистических данных: правила не загружались в систему специалистами, а автоматически выделялись машиной на основе примеров перевода из параллельных текстов.

Прогнозы в компьютерной лингвистике нам в первую очередь помогают понимать настоящее и анализировать тенденции, а уже во вторую – предсказывать будущее. Невозможно было предугадать и превращение дистрибутивной семантики в один из самых ярких трендов отрасли. В её основе лежит гипотеза, что значение слова определяется контекстом. Если слова встречаются в одном и том же контексте, то можно предположить, что и значения у них будут синонимичные, либо они будут иметь тесные семантические связи (связи значений).

Для использования моделей дистрибутивной семантики не нужно привлекать лингвистов, поскольку анализ контекста происходит в виде математических операций. Для рядового пользователя не всегда очевидно, что компьютер не оперируют «словами», он может взаимодействовать только с числами, поэтому слово так или иначе должно быть переведено в числовой вид.

В дистрибутивной семантике слово превращается, например, в трехсотмерный вектор, то есть в последовательность из 300 чисел, которая и содержит данные о контексте его употребления. Эта числовая последовательность и позволяет нам определить, что различные слова или написания – это синонимы. С помощью дистрибутивной семантики можно установить, что разные написания МГУ обозначают одну организацию. На практике это позволяет, к примеру, находить договоры с одним поставщиком или качественно проводить патентную экспертизу.

Все чаще в новостной ленте попадаются сообщения, что искусственный интеллект пишет новости для той или иной площадки или СМИ, создал целый роман или сценарий, написал продолжение известной серии романов. Создается впечатление, что в скором будущем мы будем читать созданные робожурналистами новостные заметки, умные приложения будут писать сочинения и эссе вместо школьников, а цифровые писатели будут создавать под наш индивидуальный заказ романы в заданном формате, жанре и сеттинге.

Новости имеют под собой реальную основу. Известные СМИ, в числе которых The New York Times и Forbes, используют роботизированные системы для генерации текстов. Стоит помнить, что шаблон готовит чаще всего человек, а новыми данными его обогащает ИИ, поэтому инструмент подходит для создания биржевых сводок, спортивных и криминальных новостей, прогнозов погоды. Такая текстовая заготовка может генерироваться и с применением статистических методов.

Мы видим, что генерация уже реализована для текстов небольшого объема с жесткой структурой, определенной тематикой и жанровой принадлежностью. Такие инструменты в будущем получат еще более широкое распространение, но вряд ли смогут использоваться для генерации аналитических статей, расследований или репортажей.

На стадии сбора информации для их подготовки будут востребованы решения на базе ИИ для обработки больших объемов данных и интеллектуального поиска информации. Помимо этого, современная компьютерная лингвистика позволяет автоматически извлекать из текстов такие типы данных, как физические и юридические лица, топонимы, реквизиты. В журналистской и бизнес-практике это уже используется для выявления аффилированных связей.

Подобное использование технологий станет частью повседневной работы журналиста, но вряд ли сможет его заменить. Ключевой проблемой компьютерных алгоритмов остается невозможность работать с тем, что человек воспринимает как «смысл текста». Текстовая информация отличается от визуальной: мы не можем однозначно оценить, как удаление определенного элемента отразится на передаче смысла. Мы можем убрать из текста 10 слов без ощутимых потерь, а можем изменить всего лишь одно слово так, что это кардинально изменит смысл сообщения.

Программы и роботы могут работать со «смыслом» лишь на уровне имитации его формальных признаков и вряд ли смогут выйти на другой уровень в обозримой перспективе. Также автор при создании текста держит в уме потенциальный опыт читателя, его знакомство с определенными терминами и концепциями, общие культурные коды. На основе этого знания он оценивает, какая новая информация в тексте требует дополнительного разъяснения, а какая – нет. Для машин в настоящем и обозримом будущем такая работа с контекстом останется недостижимой.

И стоит помнить, что если тексты и будут писать роботы, то читать их по-прежнему будут люди. И здесь мы сталкиваемся со сложной системой отношений текста, автора и читателя: часто у читателя есть запрос не на данные, а на экспертную их оценку; ему важен уровень доверия автору и личное отношение. Если посмотреть на контент соцмедиа, то становится очевидно, что текст для нас не только информация, но и развлечение, и общение. Нам важно не только что написано, но и кем и как.

Еще более справедливо это для художественной литературы, функции которой состоят в том числе в передаче личного опыта, переживаний, описания внутреннего мира, а также в получении удовольствия от использования автором художественных средств, языковых игр и юмора. Существует понятие метатекста, вывести формулу которого маловероятно. Но можно спрогнозировать привлечение писателями ИИ для анализа существующих текстов и генерации имен персонажей, названий локаций, возможных сюжетных поворотов и других подобных задач.

Наверное, одно из самых показательных направлений для демонстрации существующий ограничений – это средства проверки орфографии и пунктуации, так называемые спелл-чекеры. Если вы пользуетесь популярными офисными пакетами или приложениями, то знаете, что встроенные инструменты проверки написания постоянно совершенствуются, но до совершенства им далеко.

Существуют платные решения, в том числе облачные сервисы, которые проводят проверку более качественно, но и они не способны выявить большинство ошибок. В пример можно привести часто встречающиеся опечатки – случаи неверного согласования: «отдал коллеги», «красивая платье». Сложности обусловлены именно омонимией, когда одна форма может употребляться в нескольких падежах. На качество проверки влияют и низкочастотные слова, которые система проверки воспринимает как незнакомые и неверные.

Сейчас все чаще появляются граммар-чекеры — сервисы, которые работают уже не с отдельными словами, а языковыми конструкциями. В будущем, скорее всего, идеального универсального спелл-чекера не появится, но будут развиваться отраслевые решения, учитывающие актуальный для пользователя контекст. Также проблема написания низкочастотных слов может быть решена за счет подключения справочников, тезаурусов и персональных настроек словаря.

Здесь же уместно будет упомянуть и рост исследований прагматической составляющий языка, то есть его функционального использования говорящим или пишущим. Среди практических задач можно привести в пример разработку решений flame detection для выявления нерегламентированного поведения в деловой коммуникации. Например, если вы написали письмо, нарушающее корпоративные правила переписки, система выдаст предупреждение и попросит исправить сообщение.

Подобные разработки могут использоваться для автоматизации лингвистической экспертизы в судебной практике, например, для установления факта оскорбления. Интересно отметить и рост количества размеченных текстовых ресурсов с примерами употребления юмора, иронии, сарказма, который связан с возросшим спросом на автоматическое выявление этих явлений в текстах.

Одной из особенностей развития машинного перевода прошлых лет был фокус рынка на так называемых высокоресурсных языках, к которым относят английский, французский, немецкий, испанский и китайский. При этом многие языки с миллионами носителей оставались без внимания из-за отсутствия коммерческого интереса к регионам их распространения. Классическим примером является амхарский язык, на котором говорит около 25 миллионов человек в Африке.

В последнее время мы наблюдаем изменение этой ситуации, в частности, компании начали инвестировать в развитие сервисов и качество машинного перевода для тюркских языков Средней Азии. Объясняется это также экономическими причинами, в первую очередь интересами западных и местных нефтяных компаний в этом регионе. Причиной развития инструментов перевода для таких языков, как бенгали и панджаби, стал перенос производства и ИТ-разработки в индийские штаты с более низким уровнем оплаты труда.

За прошедшее десятилетие в машинном переводе произошел качественный скачок, связанный, прежде всего, с использованием нейросетевых технологий. В перспективе 5-10 лет стоит говорить о всё более уверенном движении в сторону перевода не на уровне текста, а на уровне предложения. Можно ожидать разрешение проблемы анафоры для таких развитых пар языков, как английский-испанский.

При этом уже на достаточном уровне качества реализована задача перевода технических текстов и документации, в дальнейшем процесс будет совершенствоваться. Но ожидать в рассматриваемом отрезке автоматизации художественного и синхронного перевода не стоит. Стоит ждать решений на базе стремительно развивающихся речевых технологий, которые позволят нам смотреть, например, англоязычные видеоролики на YouTube с озвучкой на русском языке. Технологии машинного перевода уже сейчас позволяют создавать субтитры, которые с помощью систем синтеза речи будут озвучиваться.

Компьютерная лингвистика: заменят ли роботы переводчиков и журналистов через 10 лет

Сложность языка, сложность предсказаний

Соавторство интеллектов

Работа над ошибками

Переводчиков заменят, но не всех