Таким образом, наш индекс будет похож на большую распределенную хэш-таблицу, где «ключом" будет слово, а "значением» — список TweetID всех твитов, содержащих это слово. Предположим, что в среднем у нас есть 40 слов в каждом твите, и поскольку мы не будем индексировать предлоги и другие маленькие слова, такие как «the", "an", "and» и т.д., давайте предположим, что у нас будет около 15 слов в каждом твите, которые нужно индексировать. Это означает, что каждый TweetID будет храниться в нашем индексе 15 раз. Итак, общий объем памяти, необходимый для хранения нашего индекса:
Комментарий недоступен
поправил, спасибо за замечание!