Apple в опенсорсе: OpenELM
В этот раз техногигант не просто выпускает новый продукт, а делает крупный шаг в AI-мире, выкладывая в открытый доступ серию своих новейших языковых моделей под названием Open-source Efficient Language Models (OpenELM). Доступные версии моделей варьируются от 270 миллионов до 3 миллиардов параметров, покрывая широкий спектр потребностей разработчиков и исследователей.
Интересный технический момент — Apple инновационно подошла к архитектуре трансформеров, используя так называемый layer-wise scaling, что позволяет распределить параметры неравномерно между слоями. Это дает моделям OpenELM возможность более глубоко и точно анализировать информацию, по мере того как они "проходят" через различные стадии обработки данных.
Кроме того, команда Apple отказалась от стандартной предварительной токенизации, что значительно упрощает создание и тестирование прототипов моделей в реальном времени.
В процессе обучения использовались объемные открытые датасеты, такие как RefinedWeb, Pile, RedPajama, и Dolma v1.6, общим объемом более 1,8 триллионов токенов. Результаты тестирования на бенчмарке LM Evaluation Harness показали, что OpenELM превосходит по эффективности такие модели, как MobiLlama и OLMo, существенно снижая при этом необходимость в ресурсах для предварительного обучения.
Apple демонстрирует, что эффективность и доступность могут идти рука об руку в разработке AI. OpenELM уже доступен для изучения и использования, что обещает новые возможности для разработчиков и исследователей в области искусственного интеллекта.