TabFM: модель для работы с табличными данными от Google

Google Research опубликовала (https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/) модель машинного обучения для классификации и регрессии на табличных данных. TabFM делает прогнозы на ранее не встречавшихся таблицах без отдельной тренировки под каждый набор данных.

Табличные данные лежат в основе множества прикладных задач - от прогноза оттока клиентов до выявления финансового мошенничества. Десятилетиями здесь доминировали алгоритмы на основе деревьев решений, которые требуют долгого подбора параметров и выстраивания признаков под каждую новую задачу.

TabFM использует подход, заимствованный у LLM - обучение в контексте.

Модель получает всю таблицу целиком как единый запрос и определяет связи между столбцами и строками прямо в момент прогноза, не меняя своих внутренних параметров. Эту архитектуру Гугл описывает как гибрид двух ранее опубликованных решений TabPFN (https://arxiv.org/pdf/2207.01848) и TabICL (https://arxiv.org/pdf/2502.05564).

TabFM обучалась на сотнях миллионов сгенерированных таблиц, построенных с помощью структурных причинных моделей.

Разработку проверили на бенчмарке TabArena (https://huggingface.co/spaces/TabArena/leaderboard), который ранжирует системы по итогам прямых сравнений между собой. Тестирование включало 38 наборов для классификации и 13 для регрессии, размером от 700 до 150 000 строк.

По результатам TabFM обошла тщательно настроенные отраслевые решения TabPFN-3, AutoGluon и RealMLP.

В ближайшие недели TabFM будет встроена в сервис Google BigQuery, там классификацию и регрессию можно будет запускать одной SQL-командой, без специальных знаний в области ML.

📌Лицензирование: Tabfm Non-commercial

🟡Блогпост (https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/) 🟡Модель (https://huggingface.co/google/tabfm-1.0.0-pytorch) 🖥GitHub (https://github.com/google-research/tabfm)

#AI #ML #TabFM #Google