Исследовал все стартапы по аналитике из Y Combinator в батче S23. Делюсь описанием их продуктов:PeerDBPeerDB - быстрый *ETL для **Postgres*Extract transform load - процесс переноса и обработки данных из одного хранилища в другое.**PostgreSQL - одна очень популярная СУБДКакую проблему решают:Существующие инструменты для переноса и обработки данных стремятся поддерживать большое количество *коннекторов в ущерб качеству. Это становится проблемой при масштабировании инфраструктуры. Большие компании тратят много ресурсов, чтобы создать свои инструменты, потому что существующие не подходят под требования производительности и надежности или им не хватает функционала. *коннекторы - ПО, для того чтобы разные технологии могли взаимодействовать. Продукт:Создают быстрый, простой и эффективный способ отправлять данные из Postgres в другие системы. Как работает: Разворачиваете приложение. Есть open-source версия, где просто копируете с гита, а есть облачные, где со всем помогут.Создаете подключения, т.е. указываете свои системы-источники данных.Создаете “зеркала” для переноса данных. Упрощенно, это скрипты, похожие на SQL, по логике которых, будет происходить обработка и отправка данныхФичи:Получение данных в режиме реального времени. Гарантируют, что данные в конечной системе появятся не дольше чем за 30 секунд после их создания.Поддерживают нестандартные форматы данных (JSONB, GEO)Быстрая первичная загрузка. Т.е. Можно переносить уже существующие большие таблицы в короткий срок (в примерах говорят о 100млн строк за 4.5 минуты)Доп преимущества: Быстрый. По заявленным замерам - в 7-10 раз быстрее конкурентов в разных задачах.Простой. Все реализовано в SQL интерфейсе.DeasieDeasie - контроль качества данных для больших языковых моделей. Какую проблему решают:Компании стали активно обращаться к большим объемам неструктурированных данных для использования с ИИ. Сейчас большинство компаний не может обеспечить требования безопасности, актуальности и согласованности данных для задач ИИ. Продукт: Создают платформу, которая проверяет качество и чувствительность неструктурированных данных для использования в языковых моделях. *чувствительность в том плане, что это не тайная информация (персональные данные, коммерческая тайна и т.п.) Как работает: Подключаются источники данных (почта, файловые хранилища)Чувствительная информация убирается или маскируетсяИзначальные документы делятся на небольшие фрагментыКаждый фрагмент размечается, согласно метаданным о его содержимомФрагменты подаются в языковую модельРабота модели контролируется и улучшается за счет того, что ей подаются только доступные актуальные фрагментыФичи: Автоматическое создание метаданных, которые описывают фрагменты данныхПоиск и скрытие чувствительной информацииКонтроль доступности данных, т.е. можно определять каким пользователям какие данные будут доступны.RevampRevamp - сегментация пользователей в ecommerce с помощью ИИКакую проблему решают:Маркетологи плохо понимают пользовательское поведение, потому что: данные разрознены и лежат в разных инструментахВ большинстве компаний не хватает технической экспертизы для сбора данныхДаже собранные данные тяжело анализироватьПо итогу много денег уходит на нецелевые коммуникации. Продукт: Создают приложение, где собираются данные о пользователях и можно их анализировать. Как работает: Собираются и сопоставляются данные из разных источниковАвтоматически создаются пользовательские сегментыДля каждого сегмента приводятся выводы и метрикиФичи: Интеграция с Klaviyo и Shopify (обещают скоро новые интеграции)Автоматическая пользовательская сегментация + настраиваемые параметры к нейВозможность сравнения сегментов прямо в платформеЗагрузка сегментов сразу в KlaviyoShopify - делают платформу для онлайн торговлиKlaviyo - делают платформу для автоматизации маркетингаSubsetsSubsets - ИИ помощник для подписочного бизнеса.Какую проблему решают:Подписки теряют 20-40% пользователей ежегодно. Люди завалены ненужными подписками. У CRM команд нет возможности узнать, что нужно пользователям для максимизации пользы от подписки. Существующие ИИ решения для улучшения подписок созданы для инженеров, а не для бизнеса. Продукт: Создают приложение, которое анализирует пользовательский путь и причины удержания пользователей и на основании анализа создает стратегию взаимодействия с разными пользователями. Фичи: Есть подключения как к *DWH, так и к системам-источникам данныхАвтоматическая генерация отчетов о причинах удержания пользователейСоздание кампаний по улучшению удержания для разных групп пользователейDWH - корпоративное хранилище данныхDSenseiDSensei - определим причину изменения KPI за минуты. Какую проблему решают:Существующие инструменты визуализации данных показывают изменение показателей, но не отвечают на вопрос, “почему” они изменились. Из-за этого у команд аналитики уходит много времени на ручной анализ, но он дорогой и не исчерпывающий. Продукт: Создают инструмент по анализу и визуализации данных, который автоматически анализирует все возможные комбинации признаков и определяет, какие привели к изменению метрики. Как работает: Подключаете данныеЗадаете параметры анализа (какие атрибуты смотреть и за какой период)Приложение перебирает все комбинации атрибутов и анализирует по ним метрику, оставляя только значимыеВ интерфейсе показываются все выбранные сегменты + по ним можно проваливаться вглубь и смотреть детальную разбивку и влияние на метрикуФичи: Умеет получать данные из файлов, Snowflake и BigQueryПолная настраиваемость параметров для анализа (выбор метрики, тип агрегации, выбор атрибутов, определение границ анализа)Скорость. Посмотрел код, сверхъестественной оптимизации не делают, но используют polars, что существенно быстрее стандартного pandas.Я сам периодически пользуюсь инструментом. Полноценного аналитика не заменит, но первичный или разовый анализ сделает быстро, поэтому очень хорош как помощь от банальных задач командам аналитики. OutsetOutset - пользовательские интервью с помощью ИИКакую проблему решают:Бизнесу и исследователям приходится выбирать между быстрыми результатами (опросники) и глубокими (интервью). На проведение интервью тратится множество времени (само интервью + со всем договориться по времени). Продукт: Создают платформу для проведения и анализа интервью с пользователями. Как работает: Загружаете руководство к диалогу и настраиваете параметры диалогаОтправляете ссылку пользователям, которых нужно опроситьПолучаете выжимку выводов из исследованийФичи: Поддержка мультимедиа. Можете задавать не только текстовые вопросы, но концепты дизайна в разном формате (видео, картинки)Поддержка многих языков. Конкретное число не указано, но под капотом используют GPT-4, у которого 26 языковРазметка диалога. Определяет темы диалога, классифицирует подтемы, умеет выбирать полезные фразы собеседника.Автоматический анализ интервью. Основные выводы из исследования, с подтверждением из диалогов можно скачать или посмотреть прямо на сайте.LatentspaceLatentspace - ИИ аналитик данныхКакую проблему решают:Все хотят принимать решения на основе данных, но:У аналитиков данных забит бэклогСамостоятельно разбираться в SQL - долго и дорогоСуществующим AI помощникам нельзя доверять, потому что результаты сильно зависят от данных, на которых они тренировалисьПродукт: Создают веб-приложение с диалоговым ИИ ассистентом.Как работает: Подключаете данные (файл или данные для подключения к БД)Задаете вопросы на естественном языке, как если бы вы общались с коллегой-аналитикомНесколько моделей обрабатывают запросы и валидируют ответы друг друга.Делитесь результатами, копируя нужные части диалога в один кликФичи: Точность. Используют несколько моделей, которые проверяют ответы друг друга перед ответом пользователю.Безопасность. Не сохраняют данные в процессе работы.Прозрачность. Можно увидеть все проделанные шаги от получения данных до генерации выводов.Поддержка разных форматов данных, в т.ч. неструктурированныхEgressEgress - ИИ для работы с данными компанииКакую проблему решают:Сильная команда по работе с данными это нечестное преимущество успешных компаний. Часто дата-команды тонут в запросах или этой команды в компании нет вовсе. Из-за этого у бизнес-пользователей нет доступа к качественной количественной информации для принятия решений. Продукт: Делают инструмент, который поможет нетехническим пользователям обрабатывать данные и принимать с их помощью решения. Как работает: Определяете источники данныхОписываете таблицу, которую хотите увидетьПолучете SQL запрос, генерирующий таблицу в нужном видеСтранно, но факт: вроде о запуске написали, но конкретики по взаимодействию не предлагают, а на сайте кроме прикольной анимации только почтаVizlyVizly - ИИ аналитик данных для компанийКакую проблему решают:BI инструменты сложные и обучаться им долго. Хотя компании пытаются становиться дата-центричными, распространение BI инструментов около 15%, из-за этого команды по анализу данных тонут в вопросах. Продукт: Создают BI инструмент, который будет доступен нетехническим пользователям. Как работает: Подключаете источник данныхЗадаете вопросы о данныхВ ответ получаете сгенерированный SQL запрос и результат запроса в виде таблиц и графиков.Фичи: Запускается локально, поэтому безопасность и сохранность данных зависит только от надежности корпоративной сети.Оптимизированное. Часто для запуска приложений локально требуется много ресурсов, но фаундеры уверяют, что хватит мощности одного макбука.Гибкое, у приложения множество настроек, которые регулируют параметры чата и визуализаций.Orbio EarthOrbio Earth - отслеживание выбросов метана с помощью спутниковКакую проблему решают:Существующий процесс сбора климатических данных - слабый (во многом ручной, с устаревшим оборудованием и не регулярный). Плохой процесс сбора данных = некачественные данные = слабая аналитика устойчивости и рисков связанных с энергетическими активами. Продукт: Создают инструмент по сбору, обработке и анализу данных рисков, связанных с выбросами метана. Как работает: Физический движок создает модель выбросов метана с использованием данных с 8 спутников.Эти данные сопоставляются с другими климатическими данными, для создания совокупного бенчмарка.Итоговые данные доступны в платформе аналитики и их можно использовать для отчетности и аналитики.Итоги:1) 3/10 делают ИИ для дата-аналитики в общем виде. т.е. из разряда "дайте данные и задавайте о них любые вопросы". (vizly, latentspace, egress)4/10 делают ИИ аналитика для конкретных целей:dsensei - анализ драйверов метрикиsubsets - анализ подписокrevamp - сегментация пользователей для маркетингаoutset - пользовательские интервью3/10 делают промежуточную надстройку для существующих процессовOrbio earth - сбор атмосферных данных, который потом используется в риск-моделированииDeasie - платформа данных для языковых моделей и продуктов на их основеPeerDB - инструмент для переноса и обработки данныхСпасибо, что дочитали до конца.О своем пути аналитика данных в стартапы рассказываю в канале https://t.me/ppbaboshkin, подписывайтесь, если интересно)
7/10 это ИИ стартапы, теперь сложно отличить где реальная технология и хорошая команда, а где супер грамотная пустышка, интересно сколько еще будет продолжаться этот хайп с искусственным интеллектом (как несколько лет назад с web3)
а до этого с криптой
Комментарий недоступен
Комментарий недоступен