В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.
Странно. Посчитал, к примеру модель на 8 миллиардов параметров получается знаний на 16 миллиардов бит, это 1,86 GB информации.
Как в статье пришли к выводу что 20 миллиардов слов это 14 миллиардов знаний?