Китайские разработчики создали ИИ-цензор для поиска «запрещённой» информации на основе алгоритма Google Статьи редакции

Он может находить данные с точностью в 91% и пригодится для цензуры интернет-изданий, заявляют исследователи.

  • Разработчики из Шэньянского университета Лигун и Китайской академии наук создали технологию с элементами ИИ на основе алгоритма BERT от Google, который может фильтровать «вредную информацию» в интернете с высокой точностью, пишет South China Morning Post.
  • Он позволяет находить подлежащие цензуре тексты с точностью в 91%, утверждают исследователи. При этом, например, поиск по ключевым словам даёт точность в 70%, а у обученной людьми нейросети — 80%.
  • Алгоритм Google BERT с открытым кодом не может анализировать тексты длиной более 512 слов, поэтому разработчики создали алгоритм, который разбивает длинный текст на сегменты, доступные для анализа, а затем собирает текст обратно.
  • Как утверждают исследователи, решение содержит словарь с ключевыми словами и их формами. Также алгоритм может искать скрытый между строк подтекст, так как пользователи в Китае используют омонимы или добавляют дефисы между символами, чтобы избежать цензуры.
  • Интернет в Китае жестко контролируют, многие сайты, в том числе Google, Facebook, Twitter заблокированы, а часть контента на доступных сайтах запрещена. При этом китайский язык слишком сложный, чтобы использовать обычные решения для поиска «запрещенной» информации, отмечает издание.
  • Решение было бы полезно, чтобы «найти и отфильтровать информацию из интернет-изданий», заявили ведущий исследователь Ли Шу и её коллеги. Сейчас китайское правительство и компании полагаются на «армию цензоров», которые вручную проверяют контент в интернете, но это слишком дорого и неэффективно, пишет издание.
0
130 комментариев
Написать комментарий...
Денис Демидов

Тексты уходят в прошлое, теперь эра аудио и видео, китайская цензура обречена на пробуксовку. 
Как рухнул СССР, так и рухнет КНР, на лжи и лицемерии (коммунистическая партия Китая состоит сплошь из миллиардеров и миллионеров ) ничего долговечного не построить.

Ответить
Развернуть ветку
Sergei Timofeyev

ГуголЮтьюб легко со звуком работает и находит нарушение авторских прав.

Ответить
Развернуть ветку
Денис Демидов

Вы не находите, что найти используемый фрагмент аудио намного легче, чем понять между строк смысл китайской беседы ?

Ответить
Развернуть ветку
Иван Иванов

Там даже анализирует не аудио а микроволны, ну вы просто представьте каких мощностей должен быть сервер чтобы триллионы залитых часов аудио сравнивать с закопирайчеными звуками 

Ответить
Развернуть ветку
Денис Демидов

У меня канал на ютубе существует уже много лет, тысячи видео залитых пользователями, которые демонстрируют купленный у меня товар за бонус в 10%. У многих вставлена музыка (хоть просим этого не делать), за всю историю прилетело лишь одно предупреждение по авторским правам.
Скорее всего, алгоритмы там не большую часть работы делают, скорее всего сами правообладатели стучат на популярный контент.

Ответить
Развернуть ветку
127 комментариев
Раскрывать всегда