KAN: новый вид нейронных сетей
KAN (Kolmogorov-Arnold Networks) — инновационное решение от американских ученых, которое заметно отличается от популярного сегодня MLP-подхода.
Основная задача любой статистической модели, включая нейросети, заключается в нахождении функции, наиболее точно отражающей закономерности в данных. В MLP традиционно используются нелинейные фиксированные функции активации, соединенные между собой обучаемыми весами.
Новый подход
KAN основывается на теореме Колмогорова-Арнольда, которая утверждает, что любая непрерывная функция в многомерном пространстве может быть представлена с помощью конечного числа одномерных функций.
Обучение нейронной сети в KAN сводится к подбору оптимального набора таких функций. Для этого авторы используют аппроксимацию с помощью сплайнов, функции, область определения которых на каждом отрезке совпадает с некоторым многочленом.
Благодаря дифференцируемости сплайнов, архитектуру на их основе можно обучать, например, методом обратного распространения ошибки (backpropagation). Для решения проблемы масштабируемости KAN применяется простая композиция матриц функций из нескольких слоев.
Преимущества и недостатки KAN
+ KAN требует в несколько раз меньше нейронов, чем MLP, для достижения аналогичного уровня производительности.
Модель также лучше генерализуется и её легче интерпретировать, что делает её привлекательной для различных приложений.
- Для обучения KAN требуется примерно в 10 раз больше времени, чем для MLP :(
Ещё больше важных и интересных новостей про AI на других ресурсах: