Т9 для юридических документов. Как составить договор мышкой, не напечатав ни слова

Как юристы сегодня работают с документами? Создают их в Microsoft Word. В большинстве случаев текст документа набирают вручную. Или используют ранее созданные документы в качестве основы, и затем вручную подгоняют под текущую ситуацию. Часто используют функцию «копировать/вставить» для перемещения подходящих частей текста между документами. Вот и все технологии, которые сегодня используют юристы при работе с текстом.

Знаете, когда был изобретен этот способ работы с текстом? В далеком 1983 году — 39 лет назад, когда была написана первая версия текстового редактора для IBM PC, использующих DOS. Позднее появилась версия для Apple Macintosh (1984), SCO UNIX и Microsoft Windows (1989).

Уже более 39 лет мы живем этой технологией и используем ее базовые возможности. Пришло время менять привычку, ведь технологии искусственного интеллекта (ИИ) позволяют сделать качественный скачок в работе с юридическими текстами (и не только юридическими).

В Doczilla мы мечтаем и стремимся к тому, чтобы после переговоров и обсуждения деталей участники сторон просто могли сказать: «Алиса, подготовь договор!». И через несколько секунд он будет сгенерирован и подписан.

Microsoft Word — великолепный инструмент, изменивший нашу привычку писать документы на бумаге. Он сделал процесс работы с текстом кратно эффективным, гибким, быстрым. Но Ms Word сегодня — это всего лишь блестящая альтернатива «ручке и бумаге». Притом, что в разрозненных файлах Microsoft Word хранится нечто невероятно ценное. Мы говорим про данные, про контент, про опыт команд и отдельных юристов, которые писали, пишут и еще долгие годы будут писать документы в текстовых редакторах. Эти знания — бесценны.

Сейчас эти знания хранятся в двух местах:

(а) в файлах Microsoft Word, разрозненных по общим дискам, папками, ПК, ноутбукам, СЭД;

(б) в головах юристов, которые эти знания создают, перерабатывают и хранят.

Как нам эти знания аккумулировать и использовать при работе с документами?

Знания человека никак не сохранить в общее виртуальное пространство и не транслировать на всю команду или другому человеку. Такие технологии мгновенного обучения пока недоступны, хотя Илон Маск со своим Neuralink стремиться это изменить. Может быть он купил Twitter, чтобы через него и Neuralink чуть позже обучить население планеты в несколько кликов? Это шутка :)

Часто руководители юридических департаментов и партнеры юридических фирм сталкиваются с болью, когда талантливый, блестящий юрист уходит из компании и вместе с ним уходит весь его опыт и знания. Эту проблему технологически никак сегодня не решить. Мы можем только работать над удержанием и постоянным развитием талантливого и опытного юриста через различные инструменты мотивации.

А вот сбор данных из разрозненных документов компании, аккумулирование знаний и опыта каждого сотрудника из таких документов, и предоставление доступа к этим знаниям всей команде — это задача, выполнимая уже сегодня. Команда Doczilla работает над ее решением в рамках реализации исследовательского проекта в области искусственного интеллекта.

Для реализации задуманного необходимо выполнить две глобальные задачи:

Этап 1: в онлайн режиме обрабатывать все создаваемые командой документы, автоматически извлекать из них весь контент (формулировки, предложения, статьи, разделы документов) и аккуратно сохранять его в единое пространство - общую библиотеку знаний команды/компании;

Этап 2: дать юристам и другим командам возможность легкого и быстрого доступа к базе знаний для извлечения релевантного контента, полезного при подготовке документов.

Этап 1. Обработка данных

При обработке документов и сохранении их контента в Библиотеку знаний, Doczilla Pro выполняет несколько действий:

Обрабатывает создаваемые юристами документы и трансформирует их контент в записи в базе данных, которые могут быть представлены в виде отдельных слов, словосочетаний, формулировок, предложений, статей, разделов документов.

При парсинге алгоритмы ИИ Doczilla Pro определяют тип документа по его содержанию. Например, они понимают, что сохраняют формулировку из договора аренды.
Также ИИ проводит разметку документа для определения его структуры, что позволяет определить из какой части документа формулировка сохраняется в базу данных (например, что эта формулировка в этом документе содержится в разделе «Передача помещения»).

Опытные пользователи MS Word и Google Docs могли заметить, что при открытии некоторых документов в панели навигации отображается их структура. Разумеется, это не магия, ничего сложного в такой технологии нет: MS Word строит структуру исходя из свойств стилей (это элемент форматирования), а Google обращает внимание на другие формальные признаки (например, на абзацы, которые отмечены как «Заголовок»).

Этой функциональности для автоматической разметки документа на разделы явно недостаточно, так как в реальной жизни мало кто из пользователей задумывается о корректной настройке наименований статей. Например, о том, чтобы отметить их в качестве заголовка или применить к нему особый стиль Microsoft Word.

Поэтому необходимо новое решение, которое по разным признакам (жирность, положение, наклон, стиль, семантика и многое другое) будет автоматически выполнять такую разметку. Мы научили Doczilla Pro выполнять эту задачу. Для обучения модели мы разметили вручную сотни документов.

Также мы обучили модель распознавать тип документа по контенту. Для чего мы это сделали? В Библиотеке знаний могут храниться тысячи формулировок, и необходимо из этого множества показывать пользователю именно те формулировки, которые нужны здесь и сейчас. Например, если пользователь работает над договором поставки или отчетом о юридической проверки объекта недвижимости, то нет смысла предлагать формулировки из корпоративного договора.

Именно поэтому мы ввели разделение по типу документа и разделение по типу раздела документа. Если с первым все понятно (есть относительно конечное количество типов юридических документов), то категоризация разделов документа стала задачей со звездочкой уже на этапе разметки. Например, разделам «Обстоятельства непреодолимой силы» и «Форс-мажор» присваивался один и тот же тэг. Но есть задачки посложнее.

Что делать с пересекающимися разделами? Допустим, это «Обязанности сторон» и «Права и обязанности покупателя». Для решения задачи мы ввели понятие семантического компонента — минимальной единицы смысла. Так, в контексте договора купли-продажи «Обязанности сторон» = «Обязанности покупателя» + «Обязанности продавца», тогда как «Права и обязанности покупателя» = «Обязанности покупателя» + «Права покупателя». Этот эксплицитный образ представления заголовков юридических документов позволит в будущем создать онтологию, полезную и для изучения теории создания юридических документов как класса.

Хорошо, все знания из документов мы собрали в едином пространстве, там тысячи, миллионы записей, бережно структурированных алгоритмами ИИ. Что теперь? Как теперь этим пользоваться?

Мы работаем над созданием двух инструментов легкого доступа к знаниям:

предиктивный ввод
умный поиск формулировок в библиотеке знаний

Это старый-добрый «Т9», но только не в телефоне, а в текстовом редакторе Doczilla Pro. Идея в том, что машина анализирует в онлайн режиме поведение пользователя в текстовом редакторе Doczilla Pro, определяет, в каком типе документа работает пользователь, в каком разделе документа находится курсор пользователя, какой текст юрист уже ввел, и предлагает пользователю варианты завершения фразы или целого предложения контентом из Библиотеки знаний. При этом, в топ предложений выводятся формулировки с учетом следующих критериев:

- анализ самой формулировки и контекста вокруг нее (производится семантический анализ с помощью векторных моделей);

- отмечена ли формулировка как стандартная для компании;

- частота ее использования в других документах командой;

- рейтинг автора документа, который формируется автоматически исходя из его активности в текстовом редакторе Doczilla Pro, генерируемого контента и частоты его использования другими членами команды.

Есть и другие данные, которые мы стремимся анализировать для повышения точности предиктивного ввода.

Вот как работает наш опытный образец. Интерфейсы еще предстоит улучшить, сейчас фокусируемся на движке:

Кейс:

Пользователь работает над договором купли-продажи, и начинает создавать с нуля статью про обязательства по возмещению потерь. Программа в онлайн режиме в текстовом редакторе предлагает формулировки по подобным статьям, которые он или его коллега использовали ранее в договоре купли-продажи по другому проекту. Вместо подготовки формулировки из памяти, юрист может использовать ранее созданную популярную формулировку, которая ранее прошла согласование внутри команды и была включена в финальную версию договора.

Этот сценарий применяют, когда юрист находится не внутри документа в текстовом процессоре, а хочет путешествовать по базе знаний и искать по разным характеристикам формулировки, которые могут быть полезны для составления документа.

Кейс:

Юрист работает над заключением по результатам проверки титула по объекту недвижимости, и должен описать риск того, что объект может быть признан самовольной постройкой по статье 222 ГК РФ. Он точно знает, что уже много раз его описывал либо он сам, либо кто-то из его коллег. Чтобы не искать описание этого риска в старых отчетах или разрозненных файлах, юрист обращается к Библиотеке знаний. Здесь 100% необходимых формулировок уже сохранены, так как программа обработала все ранее созданные отчеты и сохранила полезные формулировки в библиотеку.

В декабре 2021 года мы сформировали команду, которая работает над этим R&D проектом. Планируем завершить проект и выпустить релиз в первом полугодии 2023 года.

У нас еще много работы, но уже в первом квартале 2023 года нашим пользователям будет доступна бесплатная бета-версия этого продукта. Мы с нетерпением ждем этого момента и обратной связи от коллег-юристов, энтузиастов, стремящихся первыми протестировать в своей работе новые технологические решения.

Т9 для юридических документов. Как составить договор мышкой, не напечатав ни слова

Данные — новая нефть

Как это работает?

Легкий и удобный доступ к накопленным знаниям

Предиктивный ввод

Поиск формулировок в библиотеке знаний

Наши планы