Нейросети станут еще умнее: в США разработали новую архитектуру для ИИ

Ученые из США разработали новую архитектуру для искусственного интеллекта. Вместо многослойных перцептронов (MLP) они предлагают использовать архитектуру Kolmogorov-Arnold Networks (KAN). В теории новая модель сделает ИИ более гибким и точным. Рассказываем про устройство старой и новой архитектуры, какие преимущества и перспективы у KAN.

Нейросети станут еще умнее: в США разработали новую архитектуру для ИИ

Привет! Мы — Digex Co. Разрабатываем программное обеспечение, занимаемся цифровизацией, IT-консалтингом и импортозамещением.

Что такое MLP

Многослойный персептрон (MLP) — это вид нейросети, которых состоит из трех или более уровней: входного, скрытого и выходного. На втором и третьем уровне нейроны используют нелинейную функцию активации. Это один из видов математических функций, с помощью которой ИИ может учиться чему-то новому.

MLP обучаются с помощью метода, называемого обучением с учителем. Это означает, что сеть получает данные с правильными ответами и на основе этих данных учится давать правильные ответы для новых данных. Основной метод обучения MLP называется обратным распространением ошибки, который позволяет сети корректировать свои внутренние параметры, чтобы улучшать точность ответов.

Для активации нейронов в MLP часто используют сигмоидальные функции, такие как логистическая функция или гиперболический тангенс. Эти функции помогают сети обрабатывать и предсказывать сложные и нелинейные зависимости в данных.

MLP могут решать сложные задачи и использоваться для различных приложений. Например, они могут моделировать зависимости в данных (регрессия) или классифицировать данные по категориям. Благодаря своим универсальным свойствам, MLP могут строить как регрессионные модели, так и классификаторы.

MLP были популярны в 1980-ых годах. Тогда их использовали для машинного перевода, а также распознавания картинок и речи. Но со временем они утратили популярность, и им на смену пришли другие модели, например, метод опорных векторов. Новую славу архитектура MLP приобрела несколько лет назад в связи с развитием машинного обучения.

Первоначально концепция многослойного персептрона была выдвинута американским ученым Фрэнком Розенблаттом, но в современном виде MLP были разработаны Дэвидом Румельхартом, который внес вклад в развитие метода обратного распространения ошибки.

Что такое KAN

Над новой архитектурой Kolmogorov-Arnold Networks (KAN) работала команда ученых из нескольких институтов Америки. Новая архитектура позиционируется как альтернатива существующей модели многослойных перцептронов.

Многослойные перцептроны (MLP) работают так: данные проходят через несколько уровней, или «слоев», каждый из которых содержит «нейроны» с определенными функциями активации, определяющими, как данные обрабатываются на каждом этапе. В KAN, однако, вместо фиксированных функций активации используются обучаемые функции, которые находятся на «весах» — элементах, которые соединяют нейроны между собой. В KAN нет линейных весов, их заменяют одномерные функции, которые можно представить как плавные кривые или «сплайны».

В KAN функции активации находятся на связях между нейронами, в отличие от MLP, в которых функции расположились в самих нейронах. В новой модели функции также могут меняться в процессе обучения.

Преимущества новой архитектуры нейронных сетей KAN

У разработанной учеными новой архитектуры есть несколько преимуществ перед MLP:

  • Точность: по сравнению с MLP, даже меньшие по размеру KAN выдают более лучшие результаты.
  • Нелинейная обработка: применение нелинейности перед суммированием входов позволяет лучше контролировать влияние входных данных на выходные.
  • Эффективность: KAN умеет перестраивать работу сети.
  • Интуитивная визуализация: нейросеть легче визуализировать и понимать, что облегчает взаимодействие пользователей с сетью.
  • Нет катастрофического забывания: ИИ может обрабатывать новую информацию без потери ранее усвоенных данных.
  • Перемещение функций активации: в KAN функции активации расположены на связях между узлами, а не внутри узлов. Это меняет динамику обучения и повышает интерпретируемость сети.
  • Обработка сложных задач: благодаря своей архитектуре, нейросеть может быть более способной к решению сложных динамических задач, которые требуют гибкости и адаптивности.

Таким образом, архитектура Kolmogorov-Arnold Networks (KAN) — это инновационный подход к нейронным сетям, который потенциально может улучшить точность, эффективность и интерпретируемость по сравнению с методом MLP.

Как считайте: есть ли у KAN будущее или в ближайшее время нам не стоит ждать изменений в архитектуре ИИ? Пишите в комментариях.

Начать дискуссию