Обзор YC S23 стартапов по аналитике

Исследовал все стартапы по аналитике из Y Combinator в батче S23. Делюсь описанием их продуктов:

PeerDB

PeerDB - быстрый *ETL для **Postgres

*Extract transform load - процесс переноса и обработки данных из одного хранилища в другое.

**PostgreSQL - одна очень популярная СУБД

Какую проблему решают:

Существующие инструменты для переноса и обработки данных стремятся поддерживать большое количество *коннекторов в ущерб качеству. Это становится проблемой при масштабировании инфраструктуры. Большие компании тратят много ресурсов, чтобы создать свои инструменты, потому что существующие не подходят под требования производительности и надежности или им не хватает функционала.

*коннекторы - ПО, для того чтобы разные технологии могли взаимодействовать.

Продукт:

Создают быстрый, простой и эффективный способ отправлять данные из Postgres в другие системы.

Как работает:

  • Разворачиваете приложение. Есть open-source версия, где просто копируете с гита, а есть облачные, где со всем помогут.
  • Создаете подключения, т.е. указываете свои системы-источники данных.
  • Создаете “зеркала” для переноса данных. Упрощенно, это скрипты, похожие на SQL, по логике которых, будет происходить обработка и отправка данных

Фичи:

  • Получение данных в режиме реального времени. Гарантируют, что данные в конечной системе появятся не дольше чем за 30 секунд после их создания.
  • Поддерживают нестандартные форматы данных (JSONB, GEO)
  • Быстрая первичная загрузка. Т.е. Можно переносить уже существующие большие таблицы в короткий срок (в примерах говорят о 100млн строк за 4.5 минуты)

Доп преимущества:

  • Быстрый. По заявленным замерам - в 7-10 раз быстрее конкурентов в разных задачах.
  • Простой. Все реализовано в SQL интерфейсе.

Deasie

Deasie - контроль качества данных для больших языковых моделей.

Какую проблему решают:

Компании стали активно обращаться к большим объемам неструктурированных данных для использования с ИИ. Сейчас большинство компаний не может обеспечить требования безопасности, актуальности и согласованности данных для задач ИИ.

Продукт:

Создают платформу, которая проверяет качество и чувствительность неструктурированных данных для использования в языковых моделях.

*чувствительность в том плане, что это не тайная информация (персональные данные, коммерческая тайна и т.п.)

Как работает:

  • Подключаются источники данных (почта, файловые хранилища)
  • Чувствительная информация убирается или маскируется
  • Изначальные документы делятся на небольшие фрагменты
  • Каждый фрагмент размечается, согласно метаданным о его содержимом
  • Фрагменты подаются в языковую модель
  • Работа модели контролируется и улучшается за счет того, что ей подаются только доступные актуальные фрагменты

Фичи:

  • Автоматическое создание метаданных, которые описывают фрагменты данных
  • Поиск и скрытие чувствительной информации
  • Контроль доступности данных, т.е. можно определять каким пользователям какие данные будут доступны.

Revamp

Revamp - сегментация пользователей в ecommerce с помощью ИИ

Какую проблему решают:

Маркетологи плохо понимают пользовательское поведение, потому что:

  • данные разрознены и лежат в разных инструментах
  • В большинстве компаний не хватает технической экспертизы для сбора данных
  • Даже собранные данные тяжело анализировать

По итогу много денег уходит на нецелевые коммуникации.

Продукт:

Создают приложение, где собираются данные о пользователях и можно их анализировать.

Как работает:

  • Собираются и сопоставляются данные из разных источников
  • Автоматически создаются пользовательские сегменты
  • Для каждого сегмента приводятся выводы и метрики

Фичи:

  • Интеграция с Klaviyo и Shopify (обещают скоро новые интеграции)
  • Автоматическая пользовательская сегментация + настраиваемые параметры к ней
  • Возможность сравнения сегментов прямо в платформе
  • Загрузка сегментов сразу в Klaviyo

Shopify - делают платформу для онлайн торговли

Klaviyo - делают платформу для автоматизации маркетинга

Subsets

Subsets - ИИ помощник для подписочного бизнеса.

Какую проблему решают:

Подписки теряют 20-40% пользователей ежегодно. Люди завалены ненужными подписками. У CRM команд нет возможности узнать, что нужно пользователям для максимизации пользы от подписки. Существующие ИИ решения для улучшения подписок созданы для инженеров, а не для бизнеса.

Продукт:

Создают приложение, которое анализирует пользовательский путь и причины удержания пользователей и на основании анализа создает стратегию взаимодействия с разными пользователями.

Фичи:

  • Есть подключения как к *DWH, так и к системам-источникам данных
  • Автоматическая генерация отчетов о причинах удержания пользователей
  • Создание кампаний по улучшению удержания для разных групп пользователей

DWH - корпоративное хранилище данных

DSensei

DSensei - определим причину изменения KPI за минуты.

Какую проблему решают:

Существующие инструменты визуализации данных показывают изменение показателей, но не отвечают на вопрос, “почему” они изменились. Из-за этого у команд аналитики уходит много времени на ручной анализ, но он дорогой и не исчерпывающий.

Продукт:

Создают инструмент по анализу и визуализации данных, который автоматически анализирует все возможные комбинации признаков и определяет, какие привели к изменению метрики.

Как работает:

  • Подключаете данные
  • Задаете параметры анализа (какие атрибуты смотреть и за какой период)
  • Приложение перебирает все комбинации атрибутов и анализирует по ним метрику, оставляя только значимые
  • В интерфейсе показываются все выбранные сегменты + по ним можно проваливаться вглубь и смотреть детальную разбивку и влияние на метрику

Фичи:

  • Умеет получать данные из файлов, Snowflake и BigQuery
  • Полная настраиваемость параметров для анализа (выбор метрики, тип агрегации, выбор атрибутов, определение границ анализа)
  • Скорость. Посмотрел код, сверхъестественной оптимизации не делают, но используют polars, что существенно быстрее стандартного pandas.

Я сам периодически пользуюсь инструментом. Полноценного аналитика не заменит, но первичный или разовый анализ сделает быстро, поэтому очень хорош как помощь от банальных задач командам аналитики.

Outset

Outset - пользовательские интервью с помощью ИИ

Какую проблему решают:

Бизнесу и исследователям приходится выбирать между быстрыми результатами (опросники) и глубокими (интервью). На проведение интервью тратится множество времени (само интервью + со всем договориться по времени).

Продукт:

Создают платформу для проведения и анализа интервью с пользователями.

Как работает:

  • Загружаете руководство к диалогу и настраиваете параметры диалога
  • Отправляете ссылку пользователям, которых нужно опросить
  • Получаете выжимку выводов из исследований

Фичи:

  • Поддержка мультимедиа. Можете задавать не только текстовые вопросы, но концепты дизайна в разном формате (видео, картинки)
  • Поддержка многих языков. Конкретное число не указано, но под капотом используют GPT-4, у которого 26 языков
  • Разметка диалога. Определяет темы диалога, классифицирует подтемы, умеет выбирать полезные фразы собеседника.
  • Автоматический анализ интервью. Основные выводы из исследования, с подтверждением из диалогов можно скачать или посмотреть прямо на сайте.

Latentspace

Latentspace - ИИ аналитик данных

Какую проблему решают:

Все хотят принимать решения на основе данных, но:

  • У аналитиков данных забит бэклог
  • Самостоятельно разбираться в SQL - долго и дорого
  • Существующим AI помощникам нельзя доверять, потому что результаты сильно зависят от данных, на которых они тренировались

Продукт:

Создают веб-приложение с диалоговым ИИ ассистентом.

Как работает:

  • Подключаете данные (файл или данные для подключения к БД)
  • Задаете вопросы на естественном языке, как если бы вы общались с коллегой-аналитиком
  • Несколько моделей обрабатывают запросы и валидируют ответы друг друга.
  • Делитесь результатами, копируя нужные части диалога в один клик

Фичи:

  • Точность. Используют несколько моделей, которые проверяют ответы друг друга перед ответом пользователю.
  • Безопасность. Не сохраняют данные в процессе работы.
  • Прозрачность. Можно увидеть все проделанные шаги от получения данных до генерации выводов.
  • Поддержка разных форматов данных, в т.ч. неструктурированных

Egress

Egress - ИИ для работы с данными компании

Какую проблему решают:

Сильная команда по работе с данными это нечестное преимущество успешных компаний. Часто дата-команды тонут в запросах или этой команды в компании нет вовсе. Из-за этого у бизнес-пользователей нет доступа к качественной количественной информации для принятия решений.

Продукт:

Делают инструмент, который поможет нетехническим пользователям обрабатывать данные и принимать с их помощью решения.

Как работает:

  • Определяете источники данных
  • Описываете таблицу, которую хотите увидеть
  • Получете SQL запрос, генерирующий таблицу в нужном виде

Странно, но факт: вроде о запуске написали, но конкретики по взаимодействию не предлагают, а на сайте кроме прикольной анимации только почта

Vizly

Vizly - ИИ аналитик данных для компаний

Какую проблему решают:

BI инструменты сложные и обучаться им долго. Хотя компании пытаются становиться дата-центричными, распространение BI инструментов около 15%, из-за этого команды по анализу данных тонут в вопросах.

Продукт:

Создают BI инструмент, который будет доступен нетехническим пользователям.

Как работает:

  • Подключаете источник данных
  • Задаете вопросы о данных
  • В ответ получаете сгенерированный SQL запрос и результат запроса в виде таблиц и графиков.

Фичи:

  • Запускается локально, поэтому безопасность и сохранность данных зависит только от надежности корпоративной сети.
  • Оптимизированное. Часто для запуска приложений локально требуется много ресурсов, но фаундеры уверяют, что хватит мощности одного макбука.
  • Гибкое, у приложения множество настроек, которые регулируют параметры чата и визуализаций.

Orbio Earth

Orbio Earth - отслеживание выбросов метана с помощью спутников

Какую проблему решают:

Существующий процесс сбора климатических данных - слабый (во многом ручной, с устаревшим оборудованием и не регулярный). Плохой процесс сбора данных = некачественные данные = слабая аналитика устойчивости и рисков связанных с энергетическими активами.

Продукт:

Создают инструмент по сбору, обработке и анализу данных рисков, связанных с выбросами метана.

Как работает:

  • Физический движок создает модель выбросов метана с использованием данных с 8 спутников.
  • Эти данные сопоставляются с другими климатическими данными, для создания совокупного бенчмарка.
  • Итоговые данные доступны в платформе аналитики и их можно использовать для отчетности и аналитики.

Итоги:

1) 3/10 делают ИИ для дата-аналитики в общем виде. т.е. из разряда "дайте данные и задавайте о них любые вопросы". (vizly, latentspace, egress)

4/10 делают ИИ аналитика для конкретных целей:

  • dsensei - анализ драйверов метрики
  • subsets - анализ подписок
  • revamp - сегментация пользователей для маркетинга
  • outset - пользовательские интервью

3/10 делают промежуточную надстройку для существующих процессов

  • Orbio earth - сбор атмосферных данных, который потом используется в риск-моделировании
  • Deasie - платформа данных для языковых моделей и продуктов на их основе
  • PeerDB - инструмент для переноса и обработки данных

Спасибо, что дочитали до конца.

О своем пути аналитика данных в стартапы рассказываю в канале https://t.me/ppbaboshkin, подписывайтесь, если интересно)

2020
4 комментария

7/10 это ИИ стартапы, теперь сложно отличить где реальная технология и хорошая команда, а где супер грамотная пустышка, интересно сколько еще будет продолжаться этот хайп с искусственным интеллектом (как несколько лет назад с web3)

1

а до этого с криптой

Комментарий недоступен

Комментарий недоступен