Китайские разработчики создали ИИ-цензор для поиска «запрещённой» информации на основе алгоритма Google Статьи редакции

Он может находить данные с точностью в 91% и пригодится для цензуры интернет-изданий, заявляют исследователи.

  • Разработчики из Шэньянского университета Лигун и Китайской академии наук создали технологию с элементами ИИ на основе алгоритма BERT от Google, который может фильтровать «вредную информацию» в интернете с высокой точностью, пишет South China Morning Post.
  • Он позволяет находить подлежащие цензуре тексты с точностью в 91%, утверждают исследователи. При этом, например, поиск по ключевым словам даёт точность в 70%, а у обученной людьми нейросети — 80%.
  • Алгоритм Google BERT с открытым кодом не может анализировать тексты длиной более 512 слов, поэтому разработчики создали алгоритм, который разбивает длинный текст на сегменты, доступные для анализа, а затем собирает текст обратно.
  • Как утверждают исследователи, решение содержит словарь с ключевыми словами и их формами. Также алгоритм может искать скрытый между строк подтекст, так как пользователи в Китае используют омонимы или добавляют дефисы между символами, чтобы избежать цензуры.
  • Интернет в Китае жестко контролируют, многие сайты, в том числе Google, Facebook, Twitter заблокированы, а часть контента на доступных сайтах запрещена. При этом китайский язык слишком сложный, чтобы использовать обычные решения для поиска «запрещенной» информации, отмечает издание.
  • Решение было бы полезно, чтобы «найти и отфильтровать информацию из интернет-изданий», заявили ведущий исследователь Ли Шу и её коллеги. Сейчас китайское правительство и компании полагаются на «армию цензоров», которые вручную проверяют контент в интернете, но это слишком дорого и неэффективно, пишет издание.
0
130 комментариев
Написать комментарий...
Денис Демидов

Тексты уходят в прошлое, теперь эра аудио и видео, китайская цензура обречена на пробуксовку. 
Как рухнул СССР, так и рухнет КНР, на лжи и лицемерии (коммунистическая партия Китая состоит сплошь из миллиардеров и миллионеров ) ничего долговечного не построить.

Ответить
Развернуть ветку
Михаил М

STT отлично работает уже лет 15, проснись.

Ответить
Развернуть ветку
Денис Демидов
Ответить
Развернуть ветку
Михаил М

Какие метрики? Для тех кто в танке (тебя), можешь убедится в идеальном распозновании речи хоть гуглом, хоть яндексом, да даже тиньковым, просто запустив соответствующее приложение на телефоне.

Ответить
Развернуть ветку
Денис Демидов

Даже сири не понимает смысл и контекст, куда поделками тинька и яндекса до нее?

Ответить
Развернуть ветку
127 комментариев
Раскрывать всегда