Что выставлено на госторгах — «хиппи», «чих-пых» и мочалка

В первой статье мы научились получать все актуальные лоты с сайта torgi.gov.ru. Затем рассматривалась функциональность гибкого поиска. Теперь разберёмся, а что вообще там представлено — в процентном отношении.

Собственно, достаточно пробежаться по описанию всех лотов, сгруппировать одинаковые слова и упорядоченно вывести в зависимости от частоты употребления. Очевидно, необходим чёрный список - то, что исключаем из учитываемых слов: предлоги, союзы и прочие сокращение, коих оказалось предостаточно. Кроме того, сокращения мешали группировке подобных слов. Впоследствии, было решено сокращения не исключать из учёта, но исключить из группировки слов. Также, встречаются склеенные пары или более слов.

Рассмотрим топ (выборочно), и в принципе то, что видим:

КВ: 4,66601[[КВ]] ПЛОЩА: 3,27896 [ПЛОЩАДЬЮ(56,62), ПЛОЩАДЬ(42,42), ПЛОЩАДКА(0,36), ПЛОЩАДКИ(0,25), ПЛОЩАДКЕ(0,15), ПЛОЩАДИ(0,10), ПЛОЩА-ДЬЮ(0,04), ПЛОЩАДЬЗДАНИЯ(0,04), ПЛОЩАДОК(0,02), ПЛОЩАД(0,01), ПЛОЩАДКУ(0,00), ] НЕЖИЛ: 2,31204 [НЕЖИЛОЕ(75,48), НЕЖИЛОГО(16,05), НЕЖИЛЫЕ(4,44), НЕЖИЛЫХ(1,77), НЕЖИЛОМ(0,98), НЕЖИЛОЕКАДАСТРОВЫЕ(0,39), НЕЖИЛОЕКАДАСТРОВЫЙ(0,35), НЕЖИЛЫМ(0,27), НЕЖИЛОЕСУЩЕСТВУЮЩИЕ(0,06), НЕЖИЛЫМИ(0,05), НЕЖИЛО(0,04), НЕЖИЛЕ(0,03), НЕЖИЛОЙ(0,03), НЕЖИЛО-ГО(0,02), НЕЖИЛОМУ(0,01), НЕЖИЛОЕИМУЩЕСТВЕННЫЕ(0,01), НЕЖИЛЫЕПОМЕЩЕНИЯ(0,01), НЕЖИЛОЕТЕХНИЧЕСКИЙ(0,01), НЕЖИЛОЕФАКТИЧЕСКОЕ(0,01), ] ЗЕМЕЛЬ: 2,30969 [ЗЕМЕЛЬНОГО(46,32), ЗЕМЕЛЬНЫЙ(29,04), ЗЕМЕЛЬ(11,61), ЗЕМЕЛЬНЫМ(9,04), ЗЕМЕЛЬНОМ(2,77), ЗЕМЕЛЬНЫХ(0,75), ЗЕМЕЛЬНЫМИ(0,20), ЗЕМЕЛЬНЫЕ(0,13), ЗЕМЕЛЬ-ЗЕМЛИ(0,11), ЗЕМЕЛЬНОМУ(0,03), ] ПОМЕЩ: 2,07884[[ПОМЕЩЕНИЕ(73,61), ПОМЕЩЕНИЯ(20,75), ПОМЕЩЕНИЙ(3,01), ПОМЕЩЕНИИ(1,24), ПОМЕЩЕНИЕКАДАСТРОВЫЙ(0,27), ПОМЕЩ(0,27), ПОМЕЩЕНИЕМ(0,25), ПОМЕЩЕНИЯНАЗНАЧЕНИЕ(0,18), ПОМЕЩЕНИЕ-КВАРТИРА(0,14), ПОМЕЩЕНИЯМИ(0,07), ПОМЕЩЕНИЕ-КОМНАТА(0,04), ПОМЕЩЕНИЯХ(0,03), ПОМЕЩЕНИЕС(0,03), ПОМЕЩЕИЕ(0,03), ПОМЕЩЕНИЕ-ДВУХКОМНАТНАЯ(0,03), ПОМЕЩЕНИЕЦЕЛЕВОЕ(0,01), ПОМЕЩЕНИЕМЕСТОПОЛОЖЕНИЕ(0,01), ПОМЕЩЕНИЕНАЗНАЧЕНИЕ(0,01), ПОМЕЩАЛАСЬ(0,01), ]] ЗДАНИ: 1,08230 [ЗДАНИЕ(64,85), ЗДАНИЯ(23,21), ЗДАНИИ(6,28), ЗДАНИЕМ(2,56), ЗДАНИЙ(1,47), ЗДАНИЮ(0,37), ЗДАНИЕНАЗНАЧЕНИЕ(0,35), ЗДАНИЯНАЗНАЧЕНИЕ(0,32), ЗДАНИЯМИ(0,08), ЗДАНИЯХ(0,06), ЗДАНИЕКАДАСТРОВЫЙ(0,05), ЗДАНИЕ-ОБЩЕЖИТИЕ(0,05), ЗДАНИЕ-БАНЯ(0,04), ЗДАНИЕ-КОНЮШНЯ(0,04), ЗДАНИЯНАРУЖНЫЕ(0,03), ЗДАНИЯ-ДИСПЕТЧЕРСКОЙ(0,03), ЗДАНИЯ-ПРАЧЕЧНАЯ(0,03), ЗДАНИЕ-КОНТОРА(0,02), ЗДАНИЕ-КОРПУС(0,02), ЗДАНИЕ-ШТАБ(0,02), ЗДАНИЯФАКТИЧЕСКОЕ(0,02), ЗДАНИЯЛЕНТОЧНЫЙПЕРЕГОРОДКИ(0,02), ЗДАНИЕКОЛИЧЕСТВО(0,02), ЗДАНИЕНАИМЕНОВАНИЕ(0,02), ЗДАНИЕИМУЩЕСТВЕННЫЕ(0,02), ЗДАНИЯБЕТОННЫЙ(0,02), ЗДАНИЯКАДАСТРОВЫЙ(0,02), ЗДАНИЕПРАВО(0,01), ] МОСКВ: 0,98225 [МОСКВА(68,15), МОСКВЫ(31,23), МОСКВОРЕЧЬЕ(0,36), МОСКВА-АРХАНГЕЛЬСК(0,06), МОСКВИТИНА(0,06), МОСКВЕ(0,05), МОСКВОРЕЦКАЯ(0,03), МОСКВОРЕЦКИЙ(0,03), МОСКВИТИНСКОГО(0,02), МОСКВИТИНО(0,02), ] VIN: 0,86423 [VIN(95,57), VINХТА(0,84), VINХТТ(0,76), VINХ(0,34), VINJTJBM(0,29), VINSG(0,29), VINWDB(0,28), VINX(0,26), VINJF(0,19), VIN-XТТ(0,12), VINZ(0,11), VINXU(0,11), VINХТС(0,11), VINTU(0,09), VINZCFC(0,09), VINXTH(0,08), VINXUN(0,08), VINGE(0,07), VINХТН(0,06), VINОТСУТСТВУЕТ(0,06), VINTAGE(0,04), VINJTMBDREV(0,04), VIN-X(0,04), VINИЛИ(0,03), VIN-ОТСУТСТВУЕТ(0,03), VIN-GRS(0,02), ] АВТОМ: 0,58022[[АВТОМОБИЛЬ(80,30), АВТОМОБИЛЯ(7,44), АВТОМОБИЛЬНЫЙ(3,94), АВТОМОБИЛЕЙ(1,49), АВТОМОБИЛЬНОЙ(0,66), АВТОМАТИЧЕСКАЯ(0,61), АВТОМАШИНА(0,60), АВТОМОБИЛЬНЫХ(0,56), АВТОМАТИЧЕСКИЙ(0,50), АВТОМОБИЛЬНЫЕ(0,35), АВТОМАТОВ(0,25), АВТОМОБИЛЮ(0,25), АВТОМАШИН(0,24), АВТОМОБИЛЬНОГО(0,22), АВТОМ(0,22), АВТОМОБИЛЬ-АВТОФУРГОН(0,21), АВТОМОЙКИ(0,20), АВТОМОБИЛЬНАЯ(0,20), АВТОМАТИЧЕСКОЙ(0,18), АВТОМОБИЛЬ-САМОСВАЛ(0,14), АВТОМАТИЧЕСКИМ(0,13), АВТОМОТОРНАЯ(0,13), АВТОМОБИЛИСТ(0,12), АВТОМАТА(0,11), АВТОМАШИНЫ(0,10), АВТОМОБИЛИ(0,08), АВТОМАГНИТОЛА(0,08), АВТОМОБИЛЕМ(0,08), АВТОМОБИЛЕ(0,07), АВТОМАТОМ(0,07), АВТОМОБИЛЬ-КИА(0,06), АВТОМАТ(0,06), АВТОМОТОТРАНСПОРТА(0,05), АВТОМАТИЗАЦИИ(0,05), АВТОМОЙКУ(0,05), АВТОМОБИЛЬНЫМИ(0,05), АВТОМОБИЛЬ-ФУРГОН(0,04), АВТОМОБИЛЬНОГ(0,04), АВТОМАТИКИ(0,03), АВТОМОЕК(0,03), ]] ПОДВАЛ: 0,51556 [ПОДВАЛ(82,80), ПОДВАЛЕ(9,98), ПОДВАЛА(3,53), ПОДВАЛЬНОЕ(1,41), ПОДВАЛЬНЫЙ(0,73), ПОДВАЛОМ(0,45), ПОДВАЛЬНОМ(0,38), ПОДВАЛЬНОГО(0,28), ПОДВАЛЬНОЙ(0,27), ПОДВАЛЬНЫЕ(0,10), ПОДВАЛЬНЫМ(0,04), ПОДВАЛЬНЫЕ-ЖЕЛЕЗОБЕТОННЫЕ(0,04), ] ТРАНС: 0,38879 [ТРАНСПОРТНОЕ(54,22), ТРАНСПОРТНОГО(29,26), ТРАНСФОРМАТОРНАЯ(3,29), ТРАНСПОРТА(3,04), ТРАНСПОРТНАЯ(1,81), ТРАНСФОРМАТОРОМ(1,36), ТРАНСПОРТНЫХ(1,21), ТРАНСФОРМАТОРНОЙ(1,19), ТРАНСПОРТНЫЕ(0,90), ТРАНСФОРМАТОР(0,59), ТРАНСПОРТИРОВКЕ(0,41), ТРАНСФОРМАТОРНОЙПОДСТАНЦИИ(0,35), ТРАНСПОРТ(0,33), ТРАНСФОРМАТОРЫ(0,31), ТРАНСПОРТЕР(0,27), ТРАНСФОРМАТОРА(0,27), ТРАНСПОРТИРОВАНИЯ(0,19), ТРАНСНЕФТЬ-ПРИКАМЬЕ(0,17), ТРАНСМИССИЯ(0,15), ТРАНСПОРТНОЙ(0,12), ТРАНСНЕФТЬ-ДРУЖБА(0,11), ТРАНСПОРТИРОВКИ(0,10), ТРАНСПОНДЕР(0,06), ТРАНСПОРТИРОВКА(0,06), ТРАНСФЕРТА(0,06), ТРАНСПОРТНЫЙ(0,06), ТРАНСИВЕРЫ(0,05), ТРАНСГАЗ(0,04), ] АУКЦИОН: 0,38054 [АУКЦИОНА(45,71), АУКЦИОН(23,62), АУКЦИОНЕ(15,95), АУКЦИОННОЙ(14,67), АУКЦИОНЛОТ(0,05), ] МАШИН: 0,37184 [МАШИНО-МЕСТО(65,01), МАШИНЫ(10,23), МАШИНО-МЕСТА(7,99), МАШИНОМЕСТО(6,77), МАШИНА(6,24), МАШИН(1,15), МАШИНОСТРОИТЕЛЕЙ(0,70), МАШИНКА(0,64), МАШИНО-СТРОИТЕЛЬНАЯ(0,40), МАШИНУ(0,21), МАШИНОСТРОИТЕЛЬНАЯ(0,17), МАШИНСВИДЕТЕЛЬСТВО(0,10), МАШИННОГО(0,09), МАШИНЕ(0,09), МАШИНЫ-СВЕКЛОУБОРОЧНЫЙ(0,07), МАШИНЫ-СМ(0,07), МАШИН-НЕТ(0,06), ] МЕСТО: 0,36531 [МЕСТОПОЛОЖЕНИЕ(42,04), МЕСТОНАХОЖДЕНИЕ(29,49), МЕСТО(17,50), МЕСТОНАХОЖДЕНИЯ(3,30), МЕСТОРОЖДЕНИЯ(1,23), МЕСТОРОЖДЕНИЙ(1,20), МЕСТОПОЛОЖЕНИЕМ(1,18), МЕСТОРОЖДЕНИЕ(1,13), МЕСТОМ(0,70), МЕСТОПОЛОЖЕНИЯ(0,44), МЕСТОНАХОЖДЕНИЮ(0,39), МЕСТОРОЖДЕНИИ(0,38), МЕСТОРАСПОЛОЖЕНИЕ(0,33), МЕСТОНАХОЖДЕНИИ(0,20), МЕСТОРОЖДЕНИЕМ(0,17), МЕСТО-НАХОЖДЕНИЕ(0,15), МЕСТОРАСПОЛОЖЕНИЯ(0,13), МЕСТО-ПОЛОЖЕНИЕ(0,05), ]

В первой позиции у нас кв - одно из сокращений из чёрного списка, квартира или квадрат - неизвестно, но пусть будет в списке. Даже в этом маленьком примере, можно увидеть склеенные слова. В том числе, видим объединение в общем разных слов под одну группу - трансгаз, трансформатор и трансмиссия.

Замыкающие слова выглядят примерно так:

ПЕШЕХОДНЫЙ: 0,00020 [ПЕШЕХОДНЫЙ] СТАКАН: 0,00020 [СТАКАН(50,00), СТАКАНОМ(50,00), ] ПОХОДНЫЙ: 0,00019 [ПОХОДНЫЙ] РОУТЕР: 0,00015 [РОУТЕР] КНЯЗЯ: 0,00014 [КНЯЗЯ] ЛАПШИ: 0,00014 [ЛАПШИ] ТАЧКА: 0,00013 [ТАЧКА] ВОЛНА: 0,00013 [ВОЛНА] МИТСУБИСИ: 0,00013 [МИТСУБИСИ] БИКРОСТ: 0,00013 [БИКРОСТ] ДОИЛЬНЫМ: 0,00012 [ДОИЛЬНЫМ] СВОДИКИ: 0,00009 [СВОДИКИ] СТАВНИ: 0,00009 [СТАВНИ]

Пока, из ~22тыс. уникальных слов получается ~10тыс. групп - всёж-таки достаточно много встречается уникальных слов, имена собственные и т.п.

Чтоб не выглядеть голословным, обещанные: хиппи (корова), чих-пых (аттракцион), мочалка (несколько тысяч штук предметов личной гигиены).

В отличии от предыдущих реализаций, данный разбор пока статичен, но есть возможность посмотреть полные результаты: wgroup.txt - все группы, walone.txt - все слова, wtorgi.zip - список всех лотов подвергшихся разбору.

Очевидно, возможно будет интересно добавить какие-либо ещё ограничения или разрезы, так что если есть предложения к улучшению, вопросы или замечания, высказывайте.

22
Начать дискуссию