В предыдущей заметке я рассказал, почему для поиска юридических формулировок в сканах лучше использовать Vision-модели (VLM), а не обычный OCR. Сегодня перейдем к практике: как подготовить PDF-файл, чтобы нейросеть смогла его "прочитать".
Пишу заметки об автоматизации юридических процессов здесь и рефлексирую на другие темы в телеграме https://t.me/law_coder
В предыдущей заметке я рассказал, почему для поиска юридических формулировок в сканах лучше использовать Vision-модели (VLM), а не обычный OCR. Сегодня перейдем к практике: как подготовить PDF-файл, чтобы нейросеть смогла его "прочитать".
В этой серии статей я разберу создание инструмента, который помогает резидентам "Сколково" автоматизировать проверку договорной базы на соответствие требованиям налогового кодекса и правилам использования интеллектуальной собственности.
Знаете это чувство, когда написал отличную статью в любимом заметочнике (Notion, Obsidian, да хоть Блокнот), а потом тратишь час на то, чтобы перенести её на VC? Копируешь, вставляешь, и тут начинается ад: заголовки слетели, картинки не встали, код превратился в тыкву, а списки стали сплошным текстом.
Я устал от этого. Я юрист, моё время стои…
Мы прошли долгий путь. Данные собраны, структурированы, проверены алгоритмами, обработаны нейросетью и очищены от мусора. У нас на руках идеальный JSON-объект с информацией для Дополнительного Соглашения. Остался последний шаг — превратить этот JSON в документ, который можно распечатать и подписать.
Это шестая часть большой серии, где я опишу…
Мы уже обсудили данные, грамматику и промпты. Теперь поговорим о транспорте. Как именно наш Python-скрипт передает информацию локальной модели и получает ответ?
Это пятая часть большой серии, где я опишу подробно каждый раздел из общей части. Подписывайся на меня в телеграм, если тоже любишь автоматизировать юридические процессы.
Автоматизация документов на английском языке — это прогулка в парке. Написал "Section {number}" — и готово. В русском языке мы сталкиваемся с падежами, родами и склонениями. "Дополнить Статью 5", но "Руководствоваться Статьей 5". "В лице Директора Иванова", но "Подписал Директор Иванов".
Если мы просто возьмем данные из JSON договора (где всё…
В предыдущих частях мы настроили LLM на выдачу строгого JSON. Но структура — это только полдела. Если модель вернет технически валидный JSON, в котором написано "2 + 2 = 5" или придуман несуществующий пункт договора, автоматизация принесет больше вреда, чем пользы.
Это третья часть большой серии, где я опишу подробно каждый раздел из общей ча…
В первой части мы рассмотрели общую архитектуру решения для автоматической генерации Дополнительных Соглашений. Мы выяснили, что ключ к успеху — это не просто "поболтать" с моделью, а заставить её работать как часть жесткого алгоритма.
Сегодня мы углубимся в техническую реализацию этого "принуждения". Как заставить творческую языковую модель…
В этой статье я расскажу о разработке решения для автоматической генерации Дополнительных Соглашений (ДС) к договорам. Основная задача — избавить юристов и менеджеров от рутины, переложив анализ текста договора и формирование «рыбы» документа на искусственный интеллект.
Это первая часть большой серии, где я опишу процесс в общих чертах, а дал…
В современном юридическом бизнесе время — самый ценный ресурс. Юристы часто сталкиваются с рутинной работой: создание типовых договоров, контроль сроков и дедлайнов, управление версиями документов. Все это отнимает драгоценные часы, которые можно было бы потратить на консультации и стратегическое развитие. Именно здесь на помощь приходит Google App…
В эпоху повсеместного внедрения искусственного интеллекта и автоматизации юридической практики многие юристы сталкиваются с необходимостью работы с генеративными моделями и системами обработки естественного языка. Часто путь начинается с роли промт-инженера — специалиста, который формулирует запросы к ИИ, чтобы получить нужный результат. Однако сущ…