{"id":14279,"url":"\/distributions\/14279\/click?bit=1&hash=4408d97a995353c62a7353088166cda4ded361bf29df096e086ea0bbb9c1b2fc","title":"\u0427\u0442\u043e \u0432\u044b\u0431\u0435\u0440\u0435\u0442\u0435: \u0432\u044b\u0435\u0445\u0430\u0442\u044c \u043f\u043e\u0437\u0436\u0435 \u0438\u043b\u0438 \u0437\u0430\u0435\u0445\u0430\u0442\u044c \u0440\u0430\u043d\u044c\u0448\u0435?","buttonText":"","imageUuid":""}

Как выигрывать в игру "5 букв" в приложении Тинькофф и получать повышенный cashback и при чем здесь порка

В Тинькофф сейчас идет 2й сезон игры "5 букв", победители игры получают бонусы (например, повышенный cashback). Это статья про то, как используя аналитику, я смог выработать оптимальную стратегию победы и получить бонусы.

Суть игры “5 букв”.

Игра "5 букв" - аналог игры Wordle, где нужно угадать слово из 5 букв за 6 попыток. Каждая попытка должна быть существительным в единственном числе. Если буквы в этом слове нет, то она окрашивается серым, если есть, но на другом месте, то белым, если есть и на правильном месте, то желтым.

Один раунд в 5 букв

Очевидная стратегия, которую подсказывает игра.

Нужно получать максимум информации из каждой попытки. Информация - это угаданная буква, угаданное место буквы, отсутствие той или иной буквы тоже информация. Так постепенно можно узнать о слове все больше и зная 3-4 буквы загаданного слова можно угадать слово целиком.

В русском языке частотность букв (доля появления конкретной буквы к суммарному количеству букв в тексте) сильно различается, поэтому важно в первую очередь использовать буквы, которые с большей вероятностью будут выпадать в игре. Вики, как всегда, знает все и про частотность букв тоже. Статистика собрана на основе данных национального корпуса русского языка https://ru.wikipedia.org/wiki/Частотность#Частотность_букв_русского_языка Самые распространенные 5 букв русского языка — это О, Е, А, И, Н. К сожалению, из них не составить слово, но если добавить чуть менее частотные буквы, то обнаруживается, что самое лучшее слово для первого хода в этой логике – ОКЕАН.

Однако проблема такого начального слова в том, что гласных в русском языке всего 9 (в игре е и ё одна буква), а согласных 23, поэтому перебрав 3 гласных в первом слове, сложно будет сочинить второе без повтора выбывших букв, если таковых не оказалось. Поэтому лучше сразу придумать пару слов на первые 2 хода с максимально частотными и неповторяющимися буквами, например СОНЕТ-МИРАЖ, ТЕНОР-ВАЛИК, суммарная частотность 10 букв в этих словах превышает 60%, поэтому по матожиданию эти пары слов будут содержать 3 из 5 букв загаданного слова.

Дальнейшая часть стратегии тезисно такова:

• Перебирать слова идя от слов с более частотными буквами к менее частотным

• Если какой-то буквы в слове нет, постараться не использовать ее в дальнейших попытках, нужно пробовать другие буквы

• Если буква есть в слове, но не на своем месте, то в следующей попытке переставить ее в другое место. За 4 попытки можно перебрать все варианты

• Если буква есть и ее место угадано, но нет хорошей догадки о слове целиком, то лучше в следующей попытке ее исключить. Угаданная буква уже не принесет дополнительной информации, а вот на ее место можно поставить еще не использованную букву и получить информацию о ней.

• Есть проблема с повторяющимися буквами в слове. Каждая из них будет желтой на своем месте, поэтому после угадывания одной из них, вторая не будет искаться. Практика показывает, что проще найти остальные 2-3 буквы и по ним отгадать слово, чем тратить попытки на поиски дублей найденных букв.

В принципе хорошая стратегия, позволять угадать за 4-5 попыток, но я решил пойти дальше.

Более глубокая аналитика.

Мы отгадываем 5-буквенные существительные и частотность букв в них тоже может иметь свои особенности. Для того, чтобы узнать какие, я загуглил датасеты русских слов, нашел на гитхабе вот такой https://github.com/dkulagin/kartaslov/tree/master/dataset/kartaslovsent

Скачал, обработал в питоне, выделил 5-буквенные существительные, выгрузил в эксель и посчитал частотность как букв в 5-буквенных словах в целом, так и их частотность на определенных местах.

Получились следующие наблюдения:

• В 5-буквенных словах самые распространенные буквы – А и О из-за существительных в женском и среднем роде, причем А встречается 5й буквой в каждом 4м слове. Зато Е и И менее популярны некоторых согласных

• В 2 из 3 слов на 2м месте стоит гласная. Если слово не заканчивается на А, то скорее всего 4я буква будет гласная

• Буква К встречается значительно чаще, а вот Н наоборот реже, чем в целом в языке

• Есть буквы, которые встречаются на определенном месте: С или П скорее всего будут на 1м месте, У или Ы на 2м, Ь или Я на последнем

В связи с этим хочется пересмотреть выбор слов для начала игры. ОКЕАН уже не кажется таким хорошим словом, скорее нужно выбрать СОТКА или ПОРКА. Но в дальнейшем стратегия остается прежней.

ИТОГО!

  • Нужно начинать со слов СОТКА или ПОРКА, так как они содержат самые популярные сочетания букв, что позволит с первого хода собрать больше информации.
  • В последующих попытках можно ориентироваться на таблицу, где представлены вероятности:
Анализ частотности букв на различных позициях, в целом в 5-буквенных словах и в русском языке в целом

Попробовал эту стратегию сегодня и угадал слово за 3 попытки, чего и вам желаю. А вы пробовали в нее поиграть? Поделитесь своими результатами.

0
27 комментариев
Написать комментарий...
Игорь Белик
Автор

В зависимости от количества угаданных слов, которые появляются только раз в день. Чтобы что-то хорошее получить нужно месяц угадывать слова, а за пару слов будет для галочки, да

Ответить
Развернуть ветку
Maxim Lunegov

Там наверняка тоже будут оговорки. +10% к топливу - звучит слишком круто.

Ответить
Развернуть ветку
Бот ЦИПсО #66213

Можно просто загуглить ответы…

Ответить
Развернуть ветку
Игорь Белик
Автор

Можно, но это как то не спортивно ))

Ответить
Развернуть ветку
LyubovBabich

Ответы даются по истечении суток))

Ответить
Развернуть ветку
парагвака
Ответить
Развернуть ветку
Александр Пересветов

Кэшбэк там полезный дают или для галочки?

Ответить
Развернуть ветку
Maxim Lunegov

Это вторая версия игры, сейчас подтянули "спонсоров": кэшбэк в Додо, IVI и т.п. Считаю, что для галочки. А вот копировать результаты игры, чтобы ими поделиться в виде цветных квадратиков так и не научились.

Ответить
Развернуть ветку
Светлана Белик

Используя ПОРКУ отгадала слово ПРОЗА с 2 попыток. :) спасибо за статью и хорошее настроение

Ответить
Развернуть ветку
Андрей Трудков

угадали 1 из 8 получается)

Ответить
Развернуть ветку
Светлана Белик

Сегодня, ДОХОД :)))) блин, не так просто, как вчера

Ответить
Развернуть ветку
Алексей Каземиров

Заюзал сотку. "О" оказалась на своëм месте, "т" и "а" не на своëм. Проанализировал и отгадал со второй слово товар

Ответить
Развернуть ветку
Олег Сахно

Моделировал чуть сложнее. Взял все 5ти буквенные слова и смоделировал каждую пару (тактика отвечаем словом с самой высокой частотой по корпусу русского языка). Выбрал слова, после которых остаётся меньше всего вариантов. Лучшим первым словом получается НОРКА. После него остаётся в среднем 4% подходящих вариантов. Обычно угадываю на 3-4ей попытке. Сейчас серия из 23 побед

Ответить
Развернуть ветку
Олег Сахно

Вот, пример :)

Ответить
Развернуть ветку
Андрей Трудков

прикольно, вы прям так запарились (я про самую высокую частотность), но конкретно этот пример вообще ни о чём не говорит: после ввода слова "норка" в русском языке остаётся ещё 107 возможных слов, которые могут содержать в себе 1-2-3 из 24 оставшихся возможных букв алфавита.

P.S. и слова и буквы выбирались (из базы сущ-ных кол-вом 3537 слов) согласно тому чтобы в них не содержалось букв "Н, О, Р", а "К" и "А" содержались, но стояли не на указанных местах.

P.P.S. мне-то хватает массива слов, в котором всё зелёненькое, но чтобы показать с помощью скрина, сколько всего в нём слов есть ещё вывод, где всё в строчку, потому и белое

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Игорь Бычков

Часто отгадываю со второй попытки. Ответы найти можно, но так не интересно. После тога как отгадаю сам, интересно как ищет ответ жена)
Во второй попытке - ставка на третью "и"

Ответить
Развернуть ветку
Андрей Трудков

да как так-то?))
после первой попытки у вас остаётся 108 возможных слов, из которых
4 слова, где буква "И" только на 1-ой позиции,
21 на 3-ей,
35 на 4-ой,
6 на 5-ой
и ещё 2 слова, где буква "И" находится на 1-ой и 4-ой позициях.
По логике вещей вам надо было делать ставку на 2-ую или 4-ю "И".

Хотя ладно, с другой стороны: если делать ставку на 3-ю, то из всех 21 слов остаётся всего два нормальных (распространённых и простых): "ариец", "бридж", "жрица", "руина", "флирт", "шрифт" и собственно "юрист"

Ответить
Развернуть ветку
LyubovBabich

Мне игра очень понравилась, жаль, вступила поздно) Отгадываю практически с третьей попытки. Чувствую слова буквально на вкус)

Ответить
Развернуть ветку
Андрей Трудков

ну, кстати, после первых двух попыток из 3537-ми 5-тибуквенных сущ-ных только одно слово в русском языке и остаётся - как раз "эмаль"

Ответить
Развернуть ветку
LyubovBabich

Мне игра понравилась, жаль вступила поздно) Отгадываю буквально с третьей попытки. Чувствую слова на вкус)

Ответить
Развернуть ветку
Андрей Трудков

из 3537 слов подходят только: кадры, камыш, крыша. Ну, тут получается угадали)

Ответить
Развернуть ветку
Огурчик Игривый

Обычно начинаю со слова ОСИНА
правда тоже сразу три гласных, зато все буквы не ниже 7го ранга по частотности употребления.

Ответить
Развернуть ветку
TrueHD

а где буква "Ю" в Excel-табличке частотности букв? Какой у неё процент среди 5-буквенных существительных? Также нет буквы "Ъ" хотя на клавиатуре Тинькова это отдельная от "Ь" буква, то есть твердый и мягкий знаки это независимые буквы и каждую нужно угадывать отдельно.

Ответить
Развернуть ветку
TrueHD

Кстати, тот же вопрос насчет "Щ" и "Ш". Это разные блин буквы! И вероятность у них скорее всего разная. Но в табличке в статье дана вероятность только для "Ш", груснох...
Ребята, кто знает как без знания python и т.п. программирования самостоятельно выяснить частотность литер в 5ти-буквенных существительных по данным датасетам? Пробовал эту частотность нагуглить, результаты только вцелом по языку приходят, по 5-буквенным ничего нет...

Ответить
Развернуть ветку
TrueHD

И снова здравствуйте, буквы "Э" тоже нет в табличке... просто facepalm

Ответить
Развернуть ветку
Dmitriy Fan

Диван, спорт, кегля. Попыток в среднем 5, но угадываю всегда

Ответить
Развернуть ветку
Я Босс

Что я только что прочитал?😭 Такой гемор чего ради? Боже мой, лезть в питон, высчитывать какие то вероятности когда в сети куча сайтов с ответами, не говоря о том что ответы простые их школьник спокойно ответит! Я уверен что чел ещё и искренне верит что лям таким макаром заберет🤣🤣🤣

Ответить
Развернуть ветку
24 комментария
Раскрывать всегда