LLaMA была представлена миру в 2023 году, в статье «LLaMA: Open and Efficient Foundation Language Models». Это не одна конкретная модель, а целое семейство, которое изначально включало в себя модели с числом параметров от 7 до 65 миллиардов. Эти модели показали хорошие результаты в сравнении с ближайшими конкурентами: GPT-3, Chinchilla и PaLM. Большая радость для сообщества людей, интересующихся большими языковыми моделями, заключается в том, что модели из семейства LLaMa – это модели с открытым кодом, они доступны на гитхабе (здесь я прикрепляю ссылку на более ранние версии, после последнего релиза они больше не поддерживаются; но изучать и использовать их все равно можно).Идея, которая легла в основе разработки LLaMa, следующая: «Давайте вместо того, чтобы увеличивать число параметров, увеличим объем текстов, на которых мы ее обучаем». Огромные модели сложно запускать, обучать и использовать, поскольку они требуют использования графических процессоров. Таким образом, прорывные разработки в области естественного языка – это вотчина богатых крупных компаний. Работа с меньшими по размеру моделями должна была позволить включить в процесс небольшие исследовательские группы и отдельных энтузиастов (спойлер: получилось).
В основе LLaMa трансформер, который немного видоизменили, опираясь на успешный опыт других разработчиков (про устройство трансформера был вот этот пост). У GPT-3 позаимствовали предварительную нормализацию входа для каждого слоя (вместо нормализации выхода уже после обработки). У PaLM взяли функцию активации (она вносить нелинейность в преобразования, про PaLM и ее устройство осенью тоже будет пост). У GPTNeo подсмотрели механизм преобразования слов в векторы (embedding).
Все обучение было проведено на открытых данных, доступных для использования любому, кто в этом заинтересован. Среди источников англоязычная часть Common Crawl – открытого репозитория с данными, которые собраны со всего интернета путем скрапига веб-сайтов и регулярно пополняются, – данные из гитхаба и Википедии; проекта Gutenberg, который содержит 70 000 электронных книг, доступных бесплатно, и некоторых других. Весомый плюс использования открытых данных – возможность для других исследователей воспроизвести процесс обучения и улучшить его.
Ниже представлена таблица с результатами работы LLaMa по сравнению с ближайшими конкурентами (если не понятно, не волнуйтесь, сейчас я все объясню).