Воспитываю дочь и ИИ: один день из жизни контент-аналитика в кибербезе

Воспитываю дочь и ИИ: один день из жизни контент-аналитика в кибербезе

За что мы точно благодарны цифровизации — она позволяет преодолеть ограничения: собрать в команде людей по всей стране, гармонично сочетать рабочие и личные дела на удаленке и даже понемногу побеждать стереотипы о «мужских» профессиях. В Международный женский день про свой обычный рабочий день расскажет контент-аналитик Ольга Шарапатова.

Ольга Шарапатова
Старший аналитик, Центр технологий кибербезопасности ГК «Солар»

Я — лидер группы контент-аналитиков в команде Solar webCAT — категоризатора компании «Солар». Он призван определять категории для веб-ресурсов в интернете, а в дальнейшем эта информация используется для настроек политик контентной фильтрации — то есть, позволяет блокировать вредные и нежелательные сайты. Наш webCAT включен как модуль в продукт Solar WebProxy, а также в некоторые другие решения. Например, он помогает защитить от опасного контента школы и колледжи. В нашем модуле используется искусственный интеллект, но ни один ИИ не обходится без присутствия и помощи людей. Поэтому и существует в команде специально отведенная роль — специалист контентной фильтрации, или контент-аналитик.

Каждый день контент-аналитика в команде webCAT — это всегда что-то новое, непознанное! То, о чем ты раньше мог и не подозревать. Хотя кому-то может показаться: что там может быть интересного — в сайтах ковыряться и категории им проставлять… Но интернет наш полон неожиданностей, от которых иногда вскипает мозг. Давайте разбираться вместе.

Утро.

Так как работаем на удаленке, обычно я никуда не спешу. Однако с этого года у ребенка началась школа, поэтому приходится вставать пораньше. Пять будильников с интервалом в пять минут... На шестой заставляю себя подняться. Теперь надо поднять дочь...

Быстро что-то перекусили, заплели косы и побежали в школу. Мини-прогулка с утра, плюс заодно можно забежать за вкусняшками. По возвращении домой можно спокойно и не спеша выпить кофе и параллельно подумать о том, что сегодня по планам. А можно попробовать пока не включать мозги и просто посидеть в тишине. Возможно, погладить кота, но это только если он согласится.

9:00. Лечебные травы — не всегда про медицину

Включаю ноутбук. Открываю ежедневник и синхронизируюсь по статусам и текущим активностям. Что день грядущий нам готовит? Какие сюрпризы встретим под внешне благопристойными сайтами?

Девчонки из моей команды сегодня собирают обучающие датасеты для модели ИИ. Именно на основе собранных данных наша модель учится корректно определять категории сайтов, поэтому важно правильно и максимально полно их собрать! Иначе результат будет непредсказуемым, а качество категоризации будет хромать.

На повестке категория «Еда и напитки». Интересно, как туда попал ресурс про алкогольный «Ягермейстер»? Может показаться, что всё логично — это же напиток. Но нет: ему место в категории «Алкоголь», чтобы он оказался заблокированным, если заказчик настроит политики таким образом. Но этот напиток еще и на лечебных травах — надо, чтоб ИИ не подумал, что это сайт про медицину. Предусмотрим это, когда будем собирать обучающие данные для категории «Медицина».

Так же появились новые задачи на ревью. Новички не сразу легко вливаются в процессы категоризации, поэтому у нас есть программа адаптации и менторинга, какое-то время направляем их работу. Справочник категорий устроен немного сложнее, чем может показаться. Например, ресурсы о спорте могут быть совершенно разными: это может быть форум триатлонистов, могут быть спортивные новости, а может быть спортивный магазин. И это нужно уметь различать самим, а потом еще суметь обучить этому модель ИИ! Вырабатываем внимательность и критическое мышление.

Воспитываю дочь и ИИ: один день из жизни контент-аналитика в кибербезе

11:00. Изгоняем бесов опасного контента

Синк с контент-аналитиками. Наша команда распределена по всей стране — я и часть коллег в Краснодаре, кто-то в Питере, кто-то в Москве, а кто-то в горных районах Кавказа — в Нальчике и Махачкале, поэтому общаемся и сбиваемся по задачам онлайн. Датасеты продвигаются, аналитики успешно распознали и обошли несколько ловушек. Например, вот ресурс про детские сказки. И картинки все детские. Но в глубине кроется то самое неожиданное и неизведанное: совсем не детский контент! Это частая история: внешне безобидные названия доменов могут содержать в себе шок-контент. Если присвоить неверную категорию, ресурс может попасть в список разрешенных для детей, а это недопустимо. Поэтому ставим категорию, подходящую под 18+. Не будем давать возможности злоумышленникам реализовывать свои коварные планы.

Или, например, ресурс всеми своими заголовками заявляет, что несет информацию о вреде курения и алкоголя, но на самом деле содержит статьи в подразделах, которые рассказывают, как надо затягиваться и чем. Очевидно, этот сайт не относится к теме заботы о здоровье.

Или сайт с заголовком «Две монашки помогают священнику изгнать бесов». Как они изгоняли бесов, показано в прикрепленном видео, и там именно то, о чем вы подумали — контент не по теме «Религия». Текущие возможности ИИ имеют сложности с распознаванием медиа, а контент-аналитик вовремя среагирует и ресурс будет заблокирован. В этом одна из ценностей нашего труда.

13:30. Минутка вдохновения

Дейли с командой: обсудили текущие активности. Внутри системы встроен переводчик, и чем точнее и качественнее перевод иностранного сайта, тем легче модели ИИ определить корректную категорию. После недавних обновлений, над которыми трудились наши разработчик и ML-инженер, переводчик стал переводить иностранные сайты лучше, и модель теперь точнее определяет категории. Отлично!

Появился запрос: оценить качество категоризации относительно конкурентных решений. Сделаем! Задача мотивирует, я в наш продукт верю: у нас хорошая точность, а покрытие за прошлый год увеличилось втрое. А что у нас впереди... горы свернем!

14:00. Отдых — это смена деятельности

Время обеда, но я бегу отводить дочь на тренировку по футболу… Пообедаю потом за ноутбуком.

15:00. Как помочь ИИ помочь человеку?

Прилетели запросы от заказчиков: в основном скорректировать категории у единичных конкретных ресурсов. Быстренько с ними разбираюсь, а в голове появились свежие мысли по оптимизации содержимого категорий и критериев отнесения к ним. Дело в том, что некоторые категории в справочнике имеют пересекающийся смысл. Человеку понятно, а вот ИИ может запутаться. Составляю вопросы для заказчиков и пользователей системы, чтобы собрать обратную связь. Стараемся постоянно улучшать наше решение, чтобы оно отвечало всем потребностям.

16:00. Нет предела совершенству — в категоризации точно

Время забирать ребенка, но у нас справедливое разделение обязанностей – за ней пойдет муж. Кстати, он тоже работает в «Соларе», но в отделе аналитики инцидентов. Кажется, ему тоже сегодня пришлось пообедать за ноутбуком...

А я тем временем займусь взаимодействием с отделом сервиса. Получили топ логов по самым посещаемым ресурсам от ключевых заказчиков — надо проверить, что присвоенные категории не потеряли свою актуальность. Вообще говоря, базу категорированных ресурсов следует проверять регулярно, так как ресурсы могут стать недоступными, заблокированными, взломанными или просто поменять контент и быть теперь совсем не о том, о чем они были год/месяц/пару дней тому назад. Сейчас обучаем систему справляться с этой задачей в больших объемах ресурсов автоматизированными методами. Обновлю категории по топу руками и отпишусь коллегам. На этом часть работ по этой активности завершена.

17:30. От умственной активности к физической

Мой рабочий день закончился.

Сейчас дождемся мужа-папу и поедем заниматься здоровьем тела: папа с дочкой налево — на скалодром, ну а мама — направо, на фитнес и в бассейн. Не очень люблю спорт, но понимание важности физического здоровья и его влияния на эмоциональную составляющую заставляет шевелиться.

О, нет... Кажется, я забыла про ужин... Хорошо, что по дороге домой есть супермаркет с хорошей готовой едой. Сегодня у нас будет удон и любимые дочкины наггетсы.

23:00. Как спит ночами контент-аналитик после всего увиденного?

Загляну перед сном в чат-бот Телеграм: сегодня база категорированных ресурсов пополнилась на несколько десятков тысяч — неплохо!

Воспитываю дочь и ИИ: один день из жизни контент-аналитика в кибербезе

Вообще, когда работаешь долгое время с большим объемом разнообразных ресурсов, появляется способность не вникать сильно в содержимое и оценивать контент «краем глаза», не впечатляясь и уже не сильно удивляясь разнообразию информации. Хотя может показаться, что через пару месяцев работы контент-аналитик может сойти с ума — столько информации через себя пропускает мало кто! Но мы учимся быть хладнокровными и в хорошем смысле отстраненными от негатива. При этом удается эффективно подхватывать то полезное, что встречается в сети.

Возможно, сегодня ночью мне снова будет сниться категоризация… Но это не точно :) Спокойной ночи и хорошего завтрашнего дня!

55
1 комментарий

Как я жил без этой статьи, спасибо

[]