Почему деление на «физиков» и «лириков» в современном мире невозможно

Вышка создает центр Digital Humanities

Анастасия Бонч-Осмоловская
Руководитель проекта Факультета Гуманитарных Наук НИУ ВШЭ "Цифровые гуманитарии", Доцент

Раньше мир делили на «физиков» и «лириков», то есть на две группы людей с якобы принципиально разным способом познания мира.

У первых познание мира происходит через абстрактную модель, доказуемость, эксперимент. Важно, что они пытаются найти закономерности в повторяющихся событиях: протоны одинаково летают в ускорителях и вчера, и сегодня, и полетят завтра.

У вторых — через агрегацию разного культурного знания, понимание культурных процессов. Они работают с уникальными событиями: Пушкин не повторится, второй «Герой нашего времени» не будет написан.

Сейчас в науке и в целом в мире происходят интересные вещи, связанные со взаимным проникновением гуманитарной и естественно-научной парадигм. Так, выясняется, что умения выявлять и анализировать смыслы текстов, других семиотических систем, понимать иерархию неформализируемых, сложных понятий востребованы не только у гуманитариев. Невозможно развивать искусственный интеллект, не понимая, как устроена когнитивная сфера людей, как происходит коммуникация, что такое творчество.

Например, компьютерщики любят генерировать стихи, потому что речь пока у компьютеров получается не очень осмысленная. А в стихах «все можно», любая глупость будет звучать интересно. Гуманитарии, основываясь на своем опыте, могут показать, где граница между бессмыслицей и настоящими стихами. Где кончается технология и начинается настоящий интеллект. Об этом как раз недавно вышла статья сотрудников нашего центра Бориса Орехова и Франка Фишера.

<i>Анна Андреева/Школа дизайна НИУ ВШЭ</i>
Анна Андреева/Школа дизайна НИУ ВШЭ

С другой стороны, необходимость экспериментального доказательства становится неотъемлемой частью практически всех наук, включая гуманитарные области. Существует довольно устойчивая, уже футурологическая теория о том, что в будущем все, что поддается формализации, — написание кода, производство, сервис и т.д. — будет автоматизировано, а все сложное, непредсказуемое, связанное с человеком, — все это останется людям. Деление на «физиков» и «лириков» окончательно уйдет в прошлое: технологии поглотят нас, и, чтобы правильно развивать эти технологии, нужно соединять в себе и знание технологий как таковых, и фундаментальную систему гуманитарного мышления. Почему так плохо формализуется гуманитарное знание? В значительной степени потому, что у нас очень мало данных приведено в такой вид, который подлежит серьезному анализу.

Важно еще вот что: гуманитарное знание континуально, а формализация требует дискретности. Просто непонятно, где нужно «резать». Поэтому легче всего формализуется то, где уже много столетий есть понятные схемы, подразумевающие атомарные факты (Витгенштейн).

Например, стиховедение. В стихе таким атомарным фактом является слог, ударение и т.д. Или язык художественной литературы, потому что текст делится на слова. А вот понять, что делать с композицией, смыслом, сюжетом, то есть высокими уровнями организации текста, очень трудно. Чтобы гуманитарная наука смогла работать по общим для всех наук правилам, чтобы смогла использовать методы Data Science, формулировать и проверять гипотезы, нужно решить задачу создания фундамента для этой науки, а именно доступных и машиночитаемых гуманитарных данных — качественных размеченных корпусов текстов, полных баз данных, цифровых изданий и т.д.

Без преувеличения, качество публикуемых цифровых данных будет определять потенциал гуманитарных наук на пятьдесят и более лет вперед.

Прошлое и настоящее

В мире в целом и в России в частности есть опыт формального подхода к гуманитарному знанию. В начале XX века существовала формалистская школа ОПОЯЗ (Общество изучения поэтического языка, или Общество изучения теории поэтического языка). Сегодня практически любое знакомство с мировой историей Digital Humanities начинается с имен русских формалистов, например Владимира Проппа или Бориса Ярхо (статьи Ярхо были недавно переведены на английский язык и опубликованы сотрудниками нашего центра). Не менее важной в истории науки стала московско-тартуская семиотическая школа. Есть также целая плеяда русских поэтов, тяготевших к математике. Например, квантитативными исследованиями стиха занимался Андрей Белый. А представители русской математической школы, со своей стороны, стремились «просчитывать» поэзию. Есть такие исследования у Андрея Колмогорова. Современная наука, помимо мощной традиции, располагает совершенно другими технологическими возможностями. Так, например, выдающийся ученый Михаил Гаспаров много лет занимался тем, что считал метрические схемы русского стиха. Сегодня такие подсчеты можно поручить искусственному интеллекту, а главной задачей ученого становится правильная постановка задач. В современном прочтении сообщество Digital Humanities еще очень молодое. Мы верим в свое большое будущее, но пока еще чувствуем себя этаким меньшинством, напряженно высматриваем друг друга на научном ландшафте. Но точки роста появляются повсюду. В Вышке мы раз в год устраиваем встречи для людей, которые испытывают интерес к этому направлению науки. Сильные команды цифровых гуманитариев есть в трех наших кампусах — в Москве, Перми, Санкт-Петербурге.

<i>Ольга Шмырева/Школа дизайна НИУ ВШЭ</i><br />
Ольга Шмырева/Школа дизайна НИУ ВШЭ

Центр Digital Humanities в ВШЭ

Для того чтобы обеспечить современную науку необходимой базой, на ФГН ВШЭ запускается проект развития центра Digital Humanities.

Центр будет формироваться в трех направлениях.

Первая — проектная часть. Это просветительские, образовательные проекты и конкретные истории, в которых нужен проектный менеджмент. Например, мы сейчас готовим совместный проект с Институтом Гёте, это будет уникальная выставка, посвященная столетию ГАХН (Государственной академии художественных наук). С помощью цифровых интерактивных методов посетители отправятся в философское путешествие, маршрут которого каждый участник выставки выстроит сам, переходя от одного цифрового объекта к другому. При этом маршрут любого участника может повлиять и на сам облик пространства выставки.

Вторая часть — инфраструктурная. Должен быть создан технологический офис, обеспечивающий открытую и удобную среду для гуманитариев, которым необходимо использовать цифровые ресурсы в своих исследованиях. В перспективе этот дата-хаб для гуманитарных проектов будет выходить за пределы Вышки. Все данные, необходимые исследователям, будут храниться в этой системе и индексироваться в международных базах данных.

Третье направление — экспериментальное.

Например, есть такая современная область исследований — культуромика, где ученые анализируют связь важных исторических событий и частотность в печати слов, которые эти события обозначают. Разгорается эпидемия — все начинают писать название поражающей людей болезни. Но пока это на уровне отдельных наблюдений. А нужно поставить эксперимент и выяснить, в каких областях жизни это работает, а в каких нет.

Эксперименты предполагается ставить не только в области филологических исследований, но и в других областях гуманитарного знания. Например, мы собираемся заняться совместной работой с проектом «Орнамика». Это собранный силами очень интересной команды архив из семи тысяч узоров, распространенных на территории проживания главным образом славянских народов. Между прочим, орнамент — это хорошая иллюстрация для вот этого смешения гуманитарного и точного: орнамент — это одновременно и некая рассказанная история, и в определенном смысле предок современного программного кода. Мы будем сравнивать части этого кода, находить повторяющиеся паттерны, которые еще не описаны этнологами, и попытаемся обнаружить некие новые, объединяющие их параметры. Мы умеем работать и с кино. В последнее время ощутимо шагнули вперед технологии компьютерного зрения. Но инженерам сложно поставить правильные вопросы, чтобы находить ответы в области истории культуры, в области психологии, понимания, в каких отношениях человек находится с миром вокруг него. Цифровые гуманитарии могут ставить такие вопросы и могут переводить их на технический язык компьютерного зрения. Например, как режиссер заставляет зрителя чувствовать то же, что чувствует герой, если показать его лицо крупным планом, в каких жанрах это проявляет себя чаще, в какой части фильма.

Прежде вскопать, потом засеять

Из всех задач, стоящих перед центром, самая масштабная и нетривиальная — создание репозитория для хранения цифровых гуманитарных объектов. На данный момент большинство гуманитарных исследовательских центров, во всяком случае в нашей стране, похожи на сараи, в которых, если добраться до них и покопаться там как следует, можно найти ценнейшие вещи. Но пока эти данные не оцифрованы должным образом и не индексируются международными базами, добраться до них практически невозможно.

Создания репозитория гуманитарных данных — это не просто техническая задача, это задача, требующая экспертного знания: качественного описания данных и их взаимосвязи, правильной расстановки весов «культурного влияния». В частности, опять встает вопрос об уникальном и поточном, массовом. Есть, например, известный кейс такого рода о французских импрессионистах: если посмотреть на срез продаж художественных салонов начала XX века в Париже, импрессионисты будут занимать в этом потоке ничтожное место. Но их реальный вес был очень велик. Или, допустим, перед нами сейчас стоит задача составления полного корпуса всех русских романов XIX века. Но есть список романов, которые до нас дошли. А сколько еще не дошли?

Огромное количество всего не оцифровано! Этот огород нужно еще даже не засеять, а вскопать! Там целина. Или есть кусочки, которые кто-то пытался вскопать, но все безнадежно заросло, и лучше уж начать копать заново.

Но параллельно со вскапыванием этого огорода мы хотим что-то уже и высаживать.

А именно — заниматься исследованиями. Конкретные проекты, которые могут произрастать на базе центра, очень разные. Например, у нас есть проект по биографии Пастернака. В школе филологии есть проектная группа под руководством Константина Поливанова, которая собирает материалы про каждый день жизни Пастернака, и мы хотим объединить всю эту информацию в машиночитаемую систему, которую мы планируем организовать в виде таймлайна. Это тоже в какой-то степени инфраструктурный проект, потому что мы хотим создать архитектуру, которую можно будет воссоздавать для любого исторического лица и в которой бы объединялся поиск по событиям жизни, творчества и связанным с ними источникам. Интересно, что такой проект уже был в 1990-х годах в Смоленске, там тоже собрали в мультимедийной форме факты о жизни Пастернака, но в итоге все это пропало по какой-то дурацкой причине.

Наша задача — отстроить нашу инфраструктуру так, чтобы никакие данные не терялись. У нас есть ресурс RusDraCor — созданный под руководством Франка Фишера Russian Drama Corpus, где собрано большое количество драматических произведений. Они снабжены разметкой, позволяющей представить произведение в виде такого графа: кто с кем разговаривает, встречается и т.д. И таким образом мы можем вычленить внутреннюю структуру произведений, и уже эти структуры изучать: как они менялись во времени, по жанрам.

Также мы готовим проект корпуса русского романа. Эта задача будет решаться совместно с другой проектной группой ФГН — Russian and Comparative Literature. Есть аналогичные корпуса английского, французского, американского романов, а русского еще нет. Исследования по компаративистике позволяют увидеть взаимовлияние культур, влияние отдельных авторов на целые поколения своих современников, можем исследовать, как менялись жанры, герои, язык. Мы сделаем такой корпус произведений с середины XVIII по начало XX века. Помимо этого, у нас в центре есть большой проект, который выиграл несколько грантов, — это проект по оцифровке журнала «Отечественные записки».

Оцифровать — это не просто сфотографировать. Нужно сделать машиночитаемый текст, он должен храниться так, чтобы его понимал компьютер, знал, откуда он и чему посвящен. Чтобы там был поиск, несмотря на старую орфографию. И из этого проекта возникла новая, более универсальная работа: сделать рабочую станцию оцифровщика дореволюционных изданий, включающую в себя новые нейросетевые модели распознавания текста, алгоритмы исправления ошибок и интерфейс взаимодействия с пользователем.

Мы участвуем в разработке востребованной очень многими цифровыми гуманитариями во всем мире системы подготовки электронных публикаций рукописей «Текстограф». Прежде чем рукопись появится на сайте, текстологу нужно очень многое оформить в специальном формате. До сих пор почти все делают это вручную, а «Текстограф» — это такой Word для текстолога, который позволяет не разбираться в сложных технических форматах и сделать все, нажимая на кнопки в дружественном интерфейсе.

Вокруг нас появляется множество культурно-ориентированных данных, которые нужно анализировать и извлекать закономерности. Например, уже несколько лет Министерство культуры РФ предоставляет открытые данные о музейных коллекциях. Беда в том, что эти данные очень пестрые, их нужно предварительно привести к одному формату, прежде чем можно будет составить картину того, что в каком музее и в каком количестве хранится. Это можно сделать с помощью инструментов автоматической обработки естественного языка.

33
3 комментария

Краткое изложение для тех, кому лень читать такой длинный текст: мир очень сложный и все будет только усложняться; гуманитариям придется осваивать цифровые технологии и нужно много всего занести в компьютер; хорошо бы это делать не руками; мы в ВШЭ делаем кучу разных вещей и будем делать еще больше, не очень понимаем, что все это даст и зачем нужно; но когда-нибудь обязательно поймем, для того и работаем. 

Классика классикой, но современным гуманитариям стоит брать пример с технарей в плане написания ясных, лаконичных и легких в восприятии текстов. Мнение гуманитария, выпускника ВШЭ, редактора и журналиста.

2
Ответить

Да, такое разделение на технарей и гуманитариев если и давало какое-то преимущество в прошлом, то сейчас это скорее тормозит процесс. 

1
Ответить

Создание искусственного разума решает все проблемы. Не туда смотрите и не то развиваете. Конкретики не вижу. 

Ответить