Честно говоря, был удивлен тем, что запросы не цензурируются. Т.е. можно вбить вообще что угодно: и 18+, и политические темы.
Интересно, почему не сделали хотя бы какой-то базовый "черный" список? Ну и в NLP даже для русского языка уже существуют, насколько помнится, разные опенсорсные либы для этого.
Мы не видели смысла. Любой такой фильтр можно обойти, а само его наличие будет скорее провоцировать людей стремиться это сделать. Кроме того, моделька, лежащая в основе демки, всё равно выложена в открытый доступ.
Из обучающей выборки картинки с матерными описаниями, конечно, изъяли, но, опять же, отфильтровать все 120 млн картинок в обучающей выборке нереально, так что что-то просочилось, конечно
Ну вот в яндексовской "балаболе" - цензурируются. Причём довольно жёстко (Терешкову там точно упоминать нельзя). И прислали мне её как раз со ссылкой на то, что именно цензура не пропускает. Явно же неудачное решение?
Честно говоря, был удивлен тем, что запросы не цензурируются. Т.е. можно вбить вообще что угодно: и 18+, и политические темы.
Интересно, почему не сделали хотя бы какой-то базовый "черный" список? Ну и в NLP даже для русского языка уже существуют, насколько помнится, разные опенсорсные либы для этого.
Мы не видели смысла. Любой такой фильтр можно обойти, а само его наличие будет скорее провоцировать людей стремиться это сделать. Кроме того, моделька, лежащая в основе демки, всё равно выложена в открытый доступ.
Из обучающей выборки картинки с матерными описаниями, конечно, изъяли, но, опять же, отфильтровать все 120 млн картинок в обучающей выборке нереально, так что что-то просочилось, конечно
Ну вот в яндексовской "балаболе" - цензурируются. Причём довольно жёстко (Терешкову там точно упоминать нельзя). И прислали мне её как раз со ссылкой на то, что именно цензура не пропускает. Явно же неудачное решение?