Электронные словари с контекстами или во что эволюционировали шумерские глоссы

«Хотите узнать, что такое любовь, - посмотрите в словаре», - сказал нам однажды преподаватель современного русского языка и культуры речи. Это, конечно, шутка, но в каждой шутке есть доля правды, ведь испокон веков словари помогают человеку понимать значение слов и узнавать их эквиваленты на самых разных языках. В этой статье я расскажу, как изменились словари со времен шумеров и какие возможности лексикографии стали доступны в связи с развитием компьютерных технологий и корпусной лингвистики.

Самые ранние прототипы словарей – глоссы (от греческого glossa – «язык, слово») – появились еще до нашей эры в Месопотамии. Шумеры создавали не только толковые глоссы, которые представляли собой рукописи со значениями незнакомых слов на полях, но и переводные словари – глиняные таблички, разделенные на 2 части: на одной части было написано шумерское слово, а на другой – его перевод на иностранный, например, аккадский или арамейский язык. Вплоть до появления книгопечатания в середине 15 века словари так и представляли собой написанные от руки произвольные списки иностранных или необычных слов, с которыми приходилось сталкиваться в текстах на древних языках. Это были ценные документы, с них делали много копий вручную, поэтому позднее, благодаря возникновению книгопечатания, словари оказались в числе первой печатной продукции.

Распространение книг, освоение новых территорий, рост торговли, развитие образования способствовали возникновению лексикографии – науки, которая занимается разработкой технологий и принципов составления разных типов словарей. Прошли столетия, прежде чем словари получили современную структуру и содержание: слова, расположенные в алфавитном порядке, подробные толкования или переводы, нормы написания, произношения и употребления в разных ситуациях или контекстах. Стали возникать самые разнообразные словари: толковые, переводные, орфографические.

Если книгопечатание было первой революцией в лексикографии, то второй стало развитие информационных технологий. Появилась компьютерная лексикография: рукописная лексикография развилась в цифровую, и на смену бумажным словарям пришли электронные.

Термин «электронный словарь» не слишком удачен и может использоваться для обозначения почти любого упорядоченного лингвистического материала, который хранится в электронном виде и несет информацию о написании, значении, переводе или использовании слов. Однако в основном под электронным словарем понимают трансформацию классических бумажных словарей в словари, доступные на компьютерах и любых других гаджетах.

В процессе перехода словарей из бумажной в электронную форму пришлось решить многие задачи. Например, разработать структуру электронных баз данных для разных языков, создать эффективные инструменты для организации поиска, морфологического анализа, придумать интерфейсы для отображения информации, полученной из нескольких словарных статей. Но самое главное – электронная форма словарей открыла беспрецедентные по скорости и объему информации возможности.

У электронных словарей много преимуществ перед бумажными аналогами – например, для них нет проблемы большого объема данных, их терминологическая база в большинстве случаев превышает количество словарных статей любого бумажного словаря. Кроме того, электронный словарь дает возможность с легкостью обновлять и добавлять контент.

Для пользователей главным преимуществом стал быстрый и удобный поиск по всему объему словаря, что невозможно в бумажной версии. Если при работе с бумажным словарем пользователь мог полагаться только на свою память и знания, редкие отсылки к другим словарным статьям, то в электронном словаре к его услугам – поиск слова не только в канонической форме, но и по словоформе (например, при запросе took большинство электронных словарей откроют словарную статью глагола take), пользователю не нужно помнить в точности, как пишется слово – при вводе появятся подсказки, можно получить информацию по всем релевантным словарным статьям одновременно. И все это за считанные секунды.

Учителя говорят, что современные школьники совсем не умеют работать с бумажными словарями, и детей можно понять – у них уже есть опыт работы с электронными словарями, и бумажные кажутся слишком неудобными.

Развитие интернета дало нам еще больше возможностей и упростило доступ к лингвистическому контенту, особенно к двуязычным словарям. На смену программам, которые нужно было устанавливать на компьютер, пришли онлайн-сервисы и мобильные приложения.

Многие ведущие издательства, такие как PONS, Merriam-Webster, Duden открыли онлайн-словари. Возникли новые бренды, такие как WordReference, Dict.cc, Abbyy Lingvo Live и, конечно, Multitran. Интересно, что и сервисы онлайн-перевода текстов стали развивать функции онлайн-словарей со всеми классическими атрибутами – указанием части речи, рода у существительных, типов склонения у глаголов и других. Словарь как база данных для перевода слов и словосочетаний и программы для полнотекстового перевода стали «сливаться» – мы это видим на примере Google Translate, PROMT, Яндекс.Переводчика и других сервисов.

Функции словарей стали включать и в другие компьютерные программы: текстовые редакторы, мобильные приложения, ридеры. Пользователю достаточно напечатать или выделить нужное слово в тексте, и вся необходимая информация тут же появится на экране – он мгновенно получит информацию о значении слова, его переводе на выбранный язык, транскрипцию, а еще сможет прослушать, как это слово произносится (вот этой функции у бумажных словарей вообще не было).

В середине 20 века в связи с развитием компьютерных технологий возникло новое явление – корпусная лингвистика. Корпусная лингвистика занимается практикой создания корпусов, то есть, электронного собрания текстов на одном языке (от нескольких сотен миллионов до миллиардов сегментов), которое помогает специалистам в считанные секунды получать примеры того, что они изучают. Вот так описывает применение корпусов доктор филологических наук Владимир Плунгян: «Занимаюсь я, например, употреблением падежей. Как традиционно поступали лингвисты? Открывали книжку, выписывали разные формы падежа, заполняли карточки. Занимало это очень много времени – долгие месяцы и даже годы. Корпус эту часть очень сократил, и материал – десятки, сотни тысяч примеров – теперь можно собрать за секунды, за минуты. То есть, вот эту непроизводительную техническую работу лингвиста корпус очень сильно сократил, как вообще техника это делает и в других областях нашей жизни».

Первый языковой корпус был разработан в Брауновском университете в США в 1960-е годы. Специалисты по статистике взяли тексты, разделили их на равные части и в результате получили маленький английский корпус, который использовался для прикладных задач ученых. В те времена появлялись и другие корпуса, но в целом к ним никто серьезно не относился, так как тогда считалось, что пригодиться они не могли. Но время шло, возможности компьютеров росли, и, вместе с тем, росли и объемы языковых корпусов. Почему лингвисты так оценили и полюбили корпуса? Дело в том, что количество и качество материала, который можно получить с помощью корпуса, несопоставимы с тем, что можно было получить в докорпусную эпоху. Во многих случаях лингвисты стали по-другому смотреть на язык: если раньше специалисты думали, что десяти примеров вполне достаточно, чтобы понять, в каких значениях употребляется то или иное слово, то с появлением корпусов стало ясно, что на десяти тысячах примеров очень многие вещи выглядят в совершенно ином свете.

К 21 веку корпуса существовали для многих языков: английского, чешского, финского, японского, французского, русского и стали, как отметил Плунгян, «престижным атрибутом». Современные корпусы насчитывают уже не сотни миллионов, а миллиарды сегментов, включая самые разнообразные тексты: и из художественной литературы, и из научной, и из публицистики.

Очень важную роль в развитии словарей сыграли и двуязычные корпусы. Двуязычный или параллельный корпус предполагает выровненный (чаще всего по предложениям) текст оригинала и его перевод на какой-то другой язык: отдельные фрагменты оригинала должны совпадать с соответствующими фрагментами перевода.

Стали появляться новые проекты, основанные на сборе текстов и их переводов на разные языки. Например, В 2006 году появился сайт Tatoeba, позволяющий добавлять новые и изменять существующие предложения на различных языках.

Такое обилие данных на разных языках и появление двуязычных корпусов параллельных текстов стало мощным толчком к развитию нового типа словарей, включающих многочисленные примеры употребления слов в разных контекстах.

Давайте разберемся, кому и зачем нужны словари нового типа с многочисленными примерами употребления слов в виде законченных предложений на одном языке и их переводами. Все дело в том, что для того, чтобы хорошо овладеть иностранным языком, недостаточно выучить много слов и грамматические правила – нужно уметь эти слова употреблять и грамотно сочетать. И здесь корпуса параллельных текстов, структурированные по предложениям, открывают потрясающие возможности, ведь предложения, взятые непосредственно из книг, статей, субтитров, очень хорошо иллюстрируют контексты, в которых употребляется то или иное слово. Если к этим предложениям добавить их перевод, то это поможет не просто запомнить, как переводится слово, но и понять, как употребляется перевод, с какими другими словами сочетается.

Но где же пользователь может посмотреть такие примеры перевода? Например, на онлайн-сервисах – в словарях или даже онлайн-переводчиках с расширенными возможностями.

Сегодня многие онлайн-словари и онлайн-переводчики не просто дают все переводы для слова или словосочетания, но и предлагают «контексты» или примеры употребления на одном языке и их переводы.

Рассмотрим на примере онлайн-словаря Linguee – проекта немецкой компании DeepL, онлайн-переводчика PROMT.One и сервиса Reverso.Context. Возьмем английское многозначное слово performance, напечатаем его в поисковой строке и посмотрим, какие примеры предлагают нам эти сервисы.

Linguee

Электронные словари с контекстами или во что эволюционировали шумерские глоссы

PROMT.One

Reverso.Context

На скриншотах видно, что каждый сервис дает разнообразные примеры употребления слова performance и его варианты перевода на примере научных статей, Википедии, художественной литературы.

А теперь давайте посмотрим, какие дополнительные возможности дают нам представленные сервисы. Я сравнила функции рассматриваемых сайтов, и вот какая получилась картина:

Многовековая эволюция изменила словарь до неузнаваемости, и глиняные таблички со словами трансформировались в быстрые и доступные каждому пользователю онлайн-сервисы. Однако главное назначение словаря осталось неизменным – он помогает людям лучше понимать язык. Шумерские глоссы содержали информацию о переводе и значении отдельных слов и использовались очень узким кругом людей, а современные контекстные словари включают очень объемный контент и доступны миллионам пользователей.

Электронные словари с контекстами или во что эволюционировали шумерские глоссы

Первые прототипы

Электронные словари

Корпусная лингвистика и новые возможности

Контекстные словари