Странно. Посчитал, к примеру модель на 8 миллиардов параметров получается знаний на 16 миллиардов бит, это 1,86 GB информации. Как в статье пришли к выводу что 20 миллиардов слов это 14 миллиардов знаний?
Странно. Посчитал, к примеру модель на 8 миллиардов параметров получается знаний на 16 миллиардов бит, это 1,86 GB информации.
Как в статье пришли к выводу что 20 миллиардов слов это 14 миллиардов знаний?