Как Python и простые метрики помогают раскрыть различия в стиле двух великих русских поэтов.
Лексическое разнообразие, длина слов и предложений, частотность частей речи — всё это можно измерить и интерпретировать.
Можно ли с помощью Python и математических метрик лучше понять поэзию? В этой статье я покажу, как с помощью кода можно количественно сравнить стили Александра Пушкина и Михаила Лермонтова. Я вычислю индекс лексического разнообразия, среднюю длину слова и предложения, а также частотность частей речи. Результаты сопоставлю с известными литературоведческими интерпретациями. Цель — показать, как количественный анализ может дополнять и обогащать традиционное литературное исследование.
До 1837 г. Лермонтов не мог быть широко известен читающей публике. Слава Лермонтова началась именно с момента распространения в списках стихотворения «Смерть поэта».
Вполне естественно, что успех лермонтовского стихотворения, посвященного Пушкину, неизбежно толкал мысль современников к сопоставлению двух поэтов — погибшего и того, кто поднял голос возмущения. «Новый поэт, выступивший на защиту умершего поэта, становится в представлении современников наследником Пушкина» - писала тогда поэтесса Евдокия Ростопчина. Мысль, что Лермонтов — наследник Пушкина, стала в 19 веке всеобщей. Виссарион Белинский впоследствии, после смерти Лермонтова, прямо сказал: «мы... смотрели на него (на Лермонтова), как на преемника Пушкина».
Первый шаг — получить тексты для анализа. В реальном исследовании это были бы большие корпусы (все стихи поэта), но для демонстрации моей подойдут фрагменты.
Здесь будет полезно лемматизировать слова — привести их к начальной форме. Это позволяет считать "идёт", "идти", "шёл" как один элемент при подсчёте уникальных слов. Для этого использую библиотеку pymorphy3.
Метрика 1: Лексическое разнообразие (TTR и индекс Хердана)
Первая метрика — насколько разнообразна лексика автора. Использую два популярных показателя:
TTR (Type-Token Ratio): количество уникальных слов / общее количество слов. Простой, но чувствительный к длине текста.
Индекс Хердана, рассчитанный австрийским лингвистом Густавом Хердманом в 1955 г, учитывает длину текста и даёт более стабильную оценку лексического разнообразия для текстов разного объёма: log(V) / log(N), где V — уникальные слова, N — общее количество. Более стабилен к длине текста.
Результат (на примере фрагментов):
Пушкин — TTR: 0.6214, Индекс Хердана: 0.8973
Лермонтов — TTR: 0.7027, Индекс Хердана: 0.9180
У Лермонтова выше и TTR, и индекс Хердана. Это говорит о том, что в его фрагменте использовано больше уникальных лексем по сравнению с Пушкиным (на единицу общего числа слов). Стиль Лермонтова в этом отрывке менее повторяющийся, лексически насыщеннее. У Пушкина стиль стройнее, гармоничнее, с меньшим разбросом в использовании разных слов — это соответствует его классическому подходу к языку.
Метрика 2: Средняя длина слова и предложения
Следующие метрики — средняя длина слова (в символах) и средняя длина предложения (в словах). Они дают представление о сложности и ритме стиля.
Результат (на примере фрагментов):
Пушкин:
Средняя длина слова: 4.90 символов
Средняя длина предложения: 14.71 слов
Лермонтов:
Средняя длина слова: 4.24 символов
Средняя длина предложения: 10.57 слов
У Пушкина длиннее среднее слово — это может говорить о большем количестве сложных, книжных форм (например, "томленьях", "вдохновенье", "небесные").
У Лермонтова короче среднее слово — стиль динамичнее, энергичнее, с простыми, яркими словами.
У Пушкина длиннее среднее предложение — это может говорить о сложной синтаксической структуре, развёрнутых образах, лирических размышлениях.
У Лермонтова короче — эмоциональная выразительность, напряжённость, драматизм.
Метрика 3: Частотность частей речи (POS-теггинг)
Последняя метрика — частотность частей речи. Это позволяет увидеть, какой тип информации (описание, действие, субъективность) преобладает в тексте.
Результат (на примере фрагментов):
Пушкин использует больше прилагательных и наречий. Это указывает на описательность, живописность, визуальный образ («чистой красоты», «нежный голос», «небесные черты»).
Лермонтов использует больше местоимений и частиц, а также меньше глаголов . Это говорит о субъективности, внутреннем переживании, эмоциональной насыщенности («я», «тебя», «же», «ли», «же»). Больше союзов у Лермонтова — это может быть связано с логическими связями, обоснованием, представлением идеи («и», «но», «что»).
Python и простые метрики позволяют объективно выявить различия в стилях двух великих поэтов. Из анализа видно:
Лермонтов использует более разнообразную лексику и менее длинные слова, создавая динамичный и эмоционально насыщенный стиль.
Пушкин демонстрирует стройность и гармонию, с описательными образами и сложной синтаксической структурой.
Этот количественный подход не заменяет качественный литературоведческий анализ, но дополняет его, позволяя обнаружить паттерны, которые сложно заметить при обычном чтении. Это мощный инструмент для цифровых гуманитариев и всех, кто интересуется новыми гранями в изучении классики.
Подробнее этот разбор на видео https://dzen.ru/video/watch/691af7490cb0213ccaa5697c