Идея, из которой выросла Chinchilla, вот какая: у нас есть ограниченный объем вычислительных мощностей. Авторы статьи используют метрику FLOP – floating-point operations (число операций с числами с плавающей точкой – то есть, с дробной частью, например, 3,5). Это вообще очень популярный способ измерить вычислительные затраты в глубоком обучении (часть машинного обучения, которая про нейросети). FLOP – это число умножений, сложений, делений и вычитаний с нецелыми числами за то время, пока происходит обучение модели. Почему считают именно их? Их достаточно просто посчитать с высокой точностью, потому что числа с плавающей точкой хранятся в памяти компьютера в стандартизированном формате. На то, сколько времени потребуется компьютеру для произведения n операций, влияет число процессоров, способность выполнять некоторые вычисления параллельно, пропускная способность памяти и эффективность алгоритма. Помимо FLOP есть еще FLOPS – то же самое, только число операций в секунду. Немного подробнее о FLOPS и о том, где эта метрика используется, можно почитать здесь.
Где операции с числами в обучении моделей? Везде. В процессе обучения происходит подбор очень большого числа коэффициентов, на которые нужно умножить входные данные, чтобы получить правильные выходные данные. Чтобы освежить в памяти некоторые базовые понятия, можно обратиться вот к этому посту про принципы работы языковых моделей с текстом и вот этому – про модели для обработки изображений. Там не про текст, зато понятно, где коэффициенты, о которых я говорю.
Так вот, у нас есть ограниченный объем вычислительных мощностей. Ограничен он аппаратным обеспечением. В частности, производительностью процессора и числом доступных ускорителей – accelerators, – а также тем, сколько времени мы можем позволить себе это аппаратное обеспечение использовать (то есть, сколько мы готовы платить за электроэнергию, аренду оборудования, если оно не наше, и не использовать его для других важных задач). Авторы статьи задались целью рассчитать оптимальный размер модели и оптимальный размер обучающей выборки текстов, которые обеспечили бы наиболее высокую точность при заданном ограничении мощностей.
На момент написания статьи в числе ближайших конкурентов был Gopher, GPT-3 и некоторые другие модели (все они относятся к трансформерам).
наблюдать, как идет эволюция: от маленьких сетей, которые не могут сравниться с человеком, к огромным и производительным - вот это и пугает, тем более что эта эволюция происходит все быстрее и только ускоряется.