Платформа для управления качеством аналитических данных Datafold с основателями из России привлекла $20 млн Статьи редакции
Средства направят на расширение команды и улучшение платформы.
- Раунд возглавила венчурная фирма NEA (New Enterprise Associates), также в нём участвовала компания Amplify Partners.
- Полученные средства компания направит на дальнейшее развитие платформы контроля данных и расширение команды. По данным основателя Глеба Межанского, сейчас в стартапе работают 18 человек.
- Стартап Datafold был запущен в 2020 году Глебом Межанским и Алексом Морозовым. Компания предлагает автоматизированную систему для поиска качественных данных, их исправления перед использованием в производстве, а также мониторинга тех данных, которые уже используются.
- Среди клиентов платформы есть Patreon, Thumbtack, Faire и Dutchie. По данным Crunchbase, с момента основания стартап привлёк $22,2 млн.
183
показа
3K
открытий
1
репост
Не очень понял, что они в итоге делают с данными? Заполняют пропуски средним?)
Скорее даёт алёрты в случае обнаружения проблем:
«With Datafold, changes made by data engineers in their extractions and transformations can be compared for unintentional changes. For instance, maybe a function that formerly returned an integer now returns a text string, an accidental mistake introduced by the engineer. Rather than wait until BI tools flop and a bunch of alerts come in from managers, Datafold will indicate that there is likely some sort of problem, and identify what happened».
https://techcrunch.com/2020/08/05/datafold-is-solving-the-chaos-of-data-engineering/
Это платформа для мониторинга качества данных.
Ведь на основе плохих данных может получиться, что "команда биг дата проанализировала" и привет
Профилируют данные по разным правилам и следят, чтобы по ходу времени профиль был стабилен. Если, например, в црмке обычно за день обновляются записи по 5000 клиентов, а за вчера было 30000 изменений - почему бы владельцу данных не обратить внимание на это.
Заменяют пробелы на тире в строке
И это с командой в 18 человек. Кажется, КПД у этой команды зашкаливает
Собственно идея, технология и движок там несложные. Основная сложность это пользовательские сценарии и UX.
Прямой кандидат на продажу Informatica, потому что это ещё одно слабо интегрируемое в стэк по управлению данными софтваре. У этого продукта сильно больше шансов заинтересовать клиентов если его грамотно пришьют к существующим платформам.
Думаю, у Informatica будущее не очень радостное, так как они уже прочно сидят в категории легаси. Не хотелось бы там оказаться :)
Мы интегрируемся с более модульным современным стэком: Snowflake, BigQuery, Redshift, Spark, Trino ну и, конечно, PostgreSQL в качестве аналитических БД/движков и Airflow, dbt, Dagster в качестве систем оркестрации.
Насчет трудоемкости - пожалуй, самая сложная часть сейчас - это Lineage - мы делаем статический анализ каждого SQL запроса в БД клиента и строим граф зависимостей, на котором можно отследить потоки аналитических данных с детализацией до столбца. А нужно это, чтобы ответить на вопрос, например, «если я поменяю логику в этой метрике, что поломается?» в больших компаниях десятки тысяч таблиц и сотни тысяч столбцов. Без линейджа людям приходится читать сорсы в огромных объемах глазами.
Искренне рад успехам ваших продуктов, если благодаря им на планете хотя кто-то перестанет страдать от непрозрачности в их же собственных данных.
Но как-то быстро вы записали в лигаси вендора с едва ли не лучшим покрытием стэка управления данными :) У них есть свои проблемы, это факт. Но если у вас нет своей платформы, или хотя бы внятной интеграции с оной, то вы так и застрянете в не самой жирной нише с парсингом сиквела, который линиджом называть можно с большой натяжкой. Грамотный клиент рано или поздно наестся этой радости и примет решение купить платформу. Вашим сервисам может и не найтись места в целевой архитектуре...
В любом случае, молодцы. Рынок катастрофически недоразвит и неосвоен.
Рад за ребят! :)
Тут, кстати, мы немного общались про историю компании (в частности, про то, как они попали в YCombinator) - https://www.youtube.com/watch?v=7Xk1ysONIm8 :)
Крутяга
Интересно, какая у них выручка, раз после 2млн сразу 20 подняли О_о
Или рынок перегрет или как в сериале кремниевая долина - выручки вообще нет, а если покажешь, то все спросят сколько?
Комментарий удален модератором
Думаете, эти компании им ничего не платят?
Думаем, пара небольших проектов, и остальные пилоты.
На скриншоте платящие клиенты в продакшне :)
Я делаю проекты вокруг данных, у меня есть данные, я анализирую данные, я разработчик - захожу на сайт, И Я НИЧЕГО НЕ ПОНИМАЮ :)
Два набора данных я могу сравнить в их сервисе?
А Сэндбокс не смотрел?
Посмотрел.
UI сравнения данных, статистика по данным БД, алерты ...
Кажется маркетологи проект возглавляют :)
Да нет, дата инженер из Lyft :)
Тогда как они умудрились так непонятно всё описать :)
Работаем над правильным представлением на лэндинге :)
Артем, если интересно - буду рад показать демо и рассказать что к чему: hn собака datafold.com
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Занятно, что такое раньше не придумали. Казалось бы, базам данных сто лет в обед.
Комментарий удален модератором