Авторы дают предварительный ответ, что знания могут компактно храниться внутри модели не слишком избыточным образом. Маловероятно, что только слои MLP хранят знания, поскольку слои Attention, имеющие сопоставимые размеры, также вносят вклад в хранение знаний (см. Результат 5). Более того, особенно в моделях, близких к границе емкости, удаление последнего слоя трансформера из L-слойной модели для "зондирования" оставшихся знаний показывает, что "оставшиеся знания" могут быть значительно меньше, чем 1 - 1/L от общего объема. Это предполагает, что знания хранятся не в отдельных слоях, а сложным образом, подобно сейфу с кодовыми замками, где удаление одного слоя может устранить гораздо больше, чем 1/L от общего объема знаний.
Странно. Посчитал, к примеру модель на 8 миллиардов параметров получается знаний на 16 миллиардов бит, это 1,86 GB информации.
Как в статье пришли к выводу что 20 миллиардов слов это 14 миллиардов знаний?