Что выставлено на госторгах — «хиппи», «чих-пых» и мочалка
В первой статье мы научились получать все актуальные лоты с сайта torgi.gov.ru. Затем рассматривалась функциональность гибкого поиска. Теперь разберёмся, а что вообще там представлено — в процентном отношении.
Собственно, достаточно пробежаться по описанию всех лотов, сгруппировать одинаковые слова и упорядоченно вывести в зависимости от частоты употребления. Очевидно, необходим чёрный список - то, что исключаем из учитываемых слов: предлоги, союзы и прочие сокращение, коих оказалось предостаточно. Кроме того, сокращения мешали группировке подобных слов. Впоследствии, было решено сокращения не исключать из учёта, но исключить из группировки слов. Также, встречаются склеенные пары или более слов.
Рассмотрим топ (выборочно), и в принципе то, что видим:
В первой позиции у нас кв - одно из сокращений из чёрного списка, квартира или квадрат - неизвестно, но пусть будет в списке. Даже в этом маленьком примере, можно увидеть склеенные слова. В том числе, видим объединение в общем разных слов под одну группу - трансгаз, трансформатор и трансмиссия.
Пока, из ~22тыс. уникальных слов получается ~10тыс. групп - всёж-таки достаточно много встречается уникальных слов, имена собственные и т.п.
Чтоб не выглядеть голословным, обещанные: хиппи (корова), чих-пых (аттракцион), мочалка (несколько тысяч штук предметов личной гигиены).
В отличии от предыдущих реализаций, данный разбор пока статичен, но есть возможность посмотреть полные результаты: wgroup.txt - все группы, walone.txt - все слова, wtorgi.zip - список всех лотов подвергшихся разбору.
Очевидно, возможно будет интересно добавить какие-либо ещё ограничения или разрезы, так что если есть предложения к улучшению, вопросы или замечания, высказывайте.