Aнтиплагиат и битва двух ИИ

Битва двух ИИ, или Просто ли подготовить научную статью средствами искусственного интеллекта?

В октябре 2023 года мы провели свой первый хакатон. Идея организации хакатона уже давно витала в воздухе, но многие годы она оставалась лишь идеей. Решительности нам придало приглашение акселератора «Воробьёвы горы» выступить одним из организаторов. Дальше всё стремительно: на разработку кейса было не более недели, мастер-классы, содержание питч-сессий и внутренняя подготовка велись уже в процессе финального этапа выхода на хакатон.

Антиплагиат — компания — создатель одноимённой системы по поиску плагиата в текстах и изображениях. Основными нашими клиентами являются организации и компании, работающие в сфере образования и науки, а также все, кто так или иначе сталкивается с различными вопросами авторского права. С появлением ChatGPT искусственно сгенерированные тексты стали в этом году самой горячей темой в академическом мире, неудивительно, что именно эту проблематику мы и взяли за основу кейса для участников хакатона, именно поэтому наш хакатон получил название CheckAIHack. И нет, мы не хотели завалить организаторов конференций фейковыми статьями, поэтому рассказываем, как это было и для чего.

Мы получили 111 заявок, было зарегистрировано 35 команд, до финала дошли 8, и как итог — 3 финалиста поделили призовой фонд в 300 000 руб.!

Мы хотим сказать спасибо всем, кто проявил интерес к событию и поучаствовал в нашем хакатоне. Помимо технической стороны вопроса, в поставленной задаче важно было нащупать идею, оценить её и творчески подойти к реализации.

А теперь по порядку…

Что нужно было сделать

Для всех участников была поставлена одна задача — придумать алгоритм генерации научных статей при помощи искусственного интеллекта.

«Привет, ChatGPT! Сгенерируй мне, пожалуйста, научную статью», — скажете вы.

«Не всё так просто!» — ответим мы.

Для генерации участникам был предложен список с 50 темами из Государственного рубрикатора научно-технической информации (ГРНТИ). На каждую из тем командам требовалось получить 3 статьи на русском языке, каждая из которых соответствует формату IMRAD*, а весь объём от и до сгенерирован разработанным алгоритмом.

Допускалось использование языковых генеративных моделей, которые размещены в открытом доступе или доступны по подписке. Строго запрещалось использование собственноручных вставок фрагментов из иных научных статей и любые видоизменения текста. Ах да, вишенкой на торте был формат сабмита: каждая из 150 статей должна была быть представлена в виде PDF-файла с форматированием. Всё по-настоящему, только TeX — и только хардкор!

Объём сгенерированной статьи принимался от 4 до 20 страниц A4, а также от 7000 до 40 000 символов текста.

* IMRAD-формат: название статьи, аннотация, ключевые слова, введение, материалы и методы, результаты, выводы, список литературы.

Зачем нам это

Антиплагиат — компания — создатель одноимённой системы по поиску плагиата в текстах и изображениях. Основными нашими клиентами являются организации и компании, работающие в сфере образования и науки, а также все, кто так или иначе сталкивается с различными вопросами авторского права.

В начале 2023 года широкое распространение получили модели генерации текстовых последовательностей, что на долгие годы изменит подход к оценке научных документов. Ведь теперь в работе помимо старого доброго плагиата потенциально может скрываться фрагмент, сгенерированный искусственным интеллектом. Впрочем, мы быстро достали из собственного архива наработки предыдущих лет по реализации детектора машинно сгенерированных текстов, стряхнули пыль, доработали его и выпустили в продакшен, об этом можно почитать нашу статью на «Хабре».

Как и любая система, наш детектор ИИ-текстов постоянно требует промышленного тестирования, внедрения новых идей и оттачивания бесперебойной работы. Здесь нам на помощь приходит хакатон CheckAI. В процессе прочтения условий мероприятия, возможно, у вас, как у внимательных читателей, назрел вопрос: «А как оценивать статьи участников?»

Ответ: полученная статья должна суметь обмануть нашу систему детекции машинно сгенерированных текстов. Чем меньше процент текста, который мы пометим плашкой «Сгенерирован» во всей работе, тем выше скор у данной статьи. Итоговый результат команды складывается усреднением скоров по всем засабмиченным научным работам. Таким образом, цель данного мероприятия воплощает в реальность самый что ни на есть настоящий hacker + marathon = hackathon.

И как всё прошло

Путь от начала и до конца состоял из двух чекпойнтов, одного мастер-класса и онлайн-поддержки участников от команды экспертов. На воплощение идей у команд было чуть меньше двух суток.

На первом чекпойнте можно было задать вопросы экспертам, на втором — загрузить пробные версии статей на проверку в систему «Антиплагиат», чтобы приоткрыть «чёрный ящик» и понять, насколько верное направление движения приняла команда.

Мы прекрасно понимали, что для большинства участников этап перевода сырого текстового представления в форматированный PDF может вызвать затруднения, поэтому на мастер-классе презентовали базовое решение — использование и комбинацию методов пакета PyLaTex для получения TeX-формата с форматированием. Данное решение могло успешно лечь в основу проектируемого алгоритма генерации научных статей.

Кстати, к моменту мастер-класса, примерно через сутки после старта, отсеялось около 70% участников, мы даже на секунду засомневались в посильности поставленной задачи. Уверенности придавало только то, что была независимая команда наших разработчиков, которая не участвовала в финале, но работала над кейсом и позволяла контролировать корректность организации каждого этапа с нашей стороны.

Идейные штурмы, какие за собой несёт хакатон, однозначно точно нужны компаниям — как минимум для изучения поведения системы, которое почти наверно и не встретишь в обычной «продуктовой» среде. К примеру, мы сами себе подложили грабли: дали участникам свободу выбора в использовании функционала для перевода в PDF-документ с форматированием. Во время второго чекпойнта мы стали замечать неладное: распознанный текст из PDF-файлов содержит в себе шумовые символы, которые мешают корректному отображению текста. Первая мысль — команда использует обходы. Но всё оказалось куда интереснее… Мы уточнили функционал, который ребята использовали для перевода из сырого текста в PDF, быстро завели его у себя, подгрузили документ в систему, и каково же было наше удивление — шум воспроизвёлся. Ведь подобные сервисы были последними «подозреваемыми», а оказалось, что они способны зашумлять текст большим количеством неинформативных символов. Благо и для таких ситуаций в нашей системе находится решение — OCR, или оптическое распознавание символов, опирающееся лишь на поданную «обложку». Если человек в таком документе не видит шума, то его не увидит и OCR. Проблема зашумленных текстовых представлений была решена с багажом полученного опыта.

Победители — кто они?

Итоговая оценка команды складывалась из результатов, полученных в нашей системе (процент машинной генерации, процент плагиата, процент соответствия структуре IMRAD и процент соответствия заявленным рубрикам), помимо этого учитывалась презентация решения и оценка членов жюри.

С отрывом в 2 балла первое место занял проект команды под названием boobies в составе шести человек. Ребята в срок чуть меньше двух суток придумали систему из нескольких умных модульных промптов, которые позволяли контролировать структуру IMRAD при запросах к генеративной модели. Помимо соответствия структуре, участники команды реализовали систему оценки схожести свежесгенерированной статьи и настоящих вариантов.

Вот что рассказали нам победители по итогам: «Решение пришло практически сразу же. Долго искали, на каком API делать генерацию текстов, рассматривали GigaChat, YaGPT, GPT OpenAI. В итоге прорабатывалось две версии: первая с дообучением готовой LLM на генерацию научных текстов; вторая с использованием полностью готовой общей модели по типу тех, что выше перечислили. Потеряли время на попытке заставить работать GigaChat (разбор API, установка сертификатов Минцифры и подбор гиперпараметров). По итогу GigaChat выдавал очень предсказуемые тексты и не мог генерировать несколько вариантов ответа на один вопрос.

Но самым сложным было сгенерировать датасет из 150 статей. Так как форматирующие скрипты и переводчик “Яндекса” перестали работать ночью воскресенья, нам пришлось всю ночь не спать и вторую половину датасета форматировать руками, используя старый добрый Word».

Иначе выглядит рассказ команды ikanam, занявшей второе место: «Решение пришло сразу, мы сразу же знали, какую модель использовать — самую современную нейросеть для генерации текстов Mistral 7B. И дальше прорабатывали множество различных промптов для наилучшей генерации и так же анализировали множество научных статей с целью найти зависимости в реальных данных и сравнить с генерацией. Самой сложной задачей оказалось получить правильное форматирование статьи в нужной форме для оценки алгоритма. Потому что легче всего было просто сгенерировать текст, самая важная часть, на которой многие погорели, — это правильно выдержать структуру статьи и все моменты, присущие научным статьям».

Кстати, в финальных презентациях всех участников сквозило или было написано прямым текстом, что создавать научные работы, неотличимые системой и соответствующие всем академическим правилам, очень сложная задача.

Итоги

Наша компания получила бесценный опыт проведения хакатонов, оглядываясь на рабочие чаты, кажется, что мы пережили не менее бурный всплеск эмоций во время мероприятия, чем сами участники. В целом хакатон оправдал наши ожидания. Мы ждали свежих решений по использованию зоопарка языковых генеративных моделей, и это произошло. Были раскрыты как сильные, так и слабые стороны нашей системы, позволяющие взглянуть на продукт под другим углом и наблюдать сейчас его более точную и устойчивую версию. Нам понравилось, а это значит, что этот хакатон от команды «Антиплагиата» не последний. Следите за новостями!

0
Комментарии
-3 комментариев
Раскрывать всегда