Все события в мире синтетических данных за 2022 год

Все события в мире синтетических данных за 2022 год

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

  • 28 поставщиков структурированных синтетических данных,
  • 10 поставщиков синтетических тестовых данных,
  • 6 опенсорсных поставщиков,
  • и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:

Все события в мире синтетических данных за 2022 год

На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.

В мире структурированных данных появилось 17 новых имён, если считать вместе продукты для защиты приватности и тестовых синтетических данных. Их продают Aindo, Neutigers, Nuvanitic, Syntonym, Datacebo, Particle Health, Scale Synthetic, IvySys, Yet Analytics, DatProf, Esito, Accelario, Validata, Avo Automation, Broadcoam, Smart Data Foundry, Clearbox AI и Bulian AI.

Количество поставщиков синтетических тестовых данных растёт взрывными темпами. Однако компании используют термин «синтетические данные» достаточно произвольно. Некоторые поставщики создают симулированные данные на основе правил (фальшивые данные), а другие предлагают сгенерированные ИИ синтетические данные. Как бы то ни было, технология находится на подъёме, стимулируемая меньшим количеством ограничений для тех, кто разрабатывает фальшивые данные. Также компании используют готовые опенсорсные строительные блоки, упрощающие разработку новых функций. Благодаря этому мы наблюдаем сейчас, что поставщики ПО для DataOps, тестовых данных и автоматизации данных добавляют в свои решения функции генерации синтетических или фальшивых данных, делая акцент на конфиденциальности тестовых данных.

В списке поставщиков неструктурированных данных появились следующее пополнение: Infinity AI, vAIsual, Mirage Vision, Omniverse™ Replicator, Scale Synthetic, Datagrid, Kroop AI, Indika AI, CNAI, Deci, Alethea AI, Syntric AI и SBX Robotics.

В менее динамично развивающейся области синтетических текстовых данных появилась Bitext, а в области синтетического аудио возникла Deepsync.

Мы по-прежнему наблюдаем за активной разработкой решений для генерации неструктурированных синтетических данных. Ускорение развития в этой части рынка объясняется несколькими характеристиками:

  • зрелостью таких областей применения, как обучение компьютерному зрению,
  • доступностью вспомогательных технологий наподобие ПО для моделирования изображений и игровых движков,
  • всё более широким применением этих технологий в таких быстро растущих отраслях, как автомобилестроение, розничные продажи и видеоигры.

Наконец, расширилась сфера опенсорса. Недавно мы провели анализ экосистемы опенсорса, и оказалось, что список инструментов вырос до двадцати.

Стратегические разработки

Рынок сдвигается в сторону самой интересной части развития. Ниже представлены шесть трендов, замеченных за последние несколько месяцев в мире синтетических данных:

  • Финансирование: в последние месяцы ключевым элементом развития компаний стали инвестиции. За последние 18 месяцев их насчитывается не менее $325 миллионов.
  • Специализация: после первых лет однородности рынка поставщики начинают дифференцировать свои решения по сценариям использования или отраслям.
  • Отход от отрасли чистых продуктов: мы наблюдаем появление сервисов и новых бизнес-моделей в сфере, которая ранее фокусировалась на продуктах.
  • Внутренняя разработка: синтетические данные перестали быть прерогативой поставщиков из этой сферы. В последние месяцы крупные компании заявили о начале разработки внутренних проектов синтетических данных.
  • Партнёрские соглашения: параллельно внутренней разработке средств генерации синтетических данных другие крупные компании пошли путём заключения партнёрских соглашений, заключая сделки с игроками этой сферы, крупными технологическими или специализированными компаниями.

Финансирование

Все события в мире синтетических данных за 2022 год

За последние 18 месяцев сумма публично известных объёмов финансирования компаний, занимающихся синтетическими данными, достигла $328 миллионов. Это на $275 миллионов больше, чем в 2020. Компании, занимающиеся структурированными синтетическими данными:

Компании, занимающиеся неструктурированными синтетическими данными:

Специализация

Для поставщиков структурированных синтетических данных произошло два важных изменения: специализация по отраслям и расширение сценариев применения синтетических данных для тестирования. На нишах рынка начали специализироваться следующие компании:

  • FinCrime Dynamics представила инструмент Synthesizer®, предназначенный для финансовой отрасли и выявления мошенничества.
  • Nuvanitic выпустила Nuvanitic IntelliHealth TM — решение для фармацевтической отрасли, специализирующееся на синтетических данных клинических испытаний.
  • VAIsual объявила о выпуске решения для лицензирования интеллектуальной собственности в сфере B2B.
  • IvySys выпустила инструмент генерации синтетических данных для синтетических опасных транзакций.
  • Smart Data Foundry исследует синтетические финансовые датасеты для борьбы с мошенничеством и финансовых организаций Великобритании.

Кроме того, игроки, ранее занимавшиеся исключительно синтетическими данными, расширили свои сценарии использования генерацией тестовых данных. Это позволило устранить разрыв между упором на конфиденциальность и поставщиками, которые ранее занимались только синтетическими тестовыми данными. Например:

Также увеличиваются масштабы этого сегмента рынка, на котором синтетические данные продаются в качестве альтернативы тестовым датасетам или реальным данным в тестовых средах; свидетельством тому являются частые упоминания синтетических данных в описаниях вакансий для инженеров QA.

Все события в мире синтетических данных за 2022 год

В сфере неструктурированных данных фокус на областях применения тоже эволюционирует. Как сказал пользователь Reddit, он постепенно смещается от довольно популярного сектора рандомизации предметной области, поддерживающей создание множественных вариаций сценариев или изображений, к областям применения, создающих более реалистично выглядящие изображения, например, к синтетическим снимкам мозга.

Сервисы и новые бизнес-модели

Хотя большинство компаний разрабатывает программные решения с 2018-2019 годов, мы начинаем наблюдать появление на рынке сервисов и площадок, связанных с синтетическими данными. Сервисы API, площадок и синтетических данных с функцией самообслуживания должны идеально подходить под ситуативные потребности бизнесов и могут ускорить освоение технологий благодаря упрощению процессов тестирования.

Некоторые компании сделали ставку на упрощённый и быстрый доступ к синтетическим данным с целью ускорения их освоения. В результате появилась пара freemium-моделей и моделей с функцией самообслуживания:

Любопытно, что когда дело касается структурированных синтетических данных с функцией самообслуживания, продукты, требующие передачи данных, сталкиваются с теми же ограничениями на обработку данных, которые в первую очередь и привлекали пользователей к синтетическим данным, позволяющим сохранить конфиденциальность. Чтобы использовать персональные данные для таких сервисов по запросу, у клиентов должно быть юридическое обоснование и получено согласие субъектов персональных данных. В ответ на эти затруднения начали развиваться комбинации повышающих конфиденциальность технологий (Privacy-Enhancing Technology, PET).

  • В апреле Cybernetica объявила, что работает над прототипом сервиса для синтеза данных в защищённых средах исполнения (trusted execution environment, TEE).

Хотя продажей датасетов в основном занимались поставщики неструктурированных данных, разработчики структурированных данных тоже начали участвовать в реализации синтетических данных. Например, GeoTwin предлагает синтетические популяционные датасеты. За последние месяцы также возникли API и торговые площадки синтетических данных, построенные на другой модели доступа, но со схожими целями:

Аналогично тому, как для многих компаний сложностью становится нехватка данных, проблемы вызывает и нехватка обучающих данных для генерации синтетических данных. Сегодня очевидную ценность представляют пулы синтетических данных, комбинирующие в себе исходные данные множества компаний. Однако несмотря на появление первых API и торговых площадок, из-за юридических, корпоративных и технических преград такие проекты по-прежнему редки, особенно в Европе.

Внутренняя разработка

Существует два типа разработки средств создания синтетических данных. С одной стороны, поставщики ПО для защиты конфиденциальности, занимающиеся другими техниками защиты, теперь добавляют в свой инструментарий возможности создания синтетических данных, чтобы расширить список предложений технологий защиты конфиденциальности.

С другой стороны, крупные технологические компании стремятся разрабатывать собственные средства для создания синтетических данных. Обычно при разработке инструментов генерации структурированных синтетических данных они стремятся улучшить доступ к данным и их поток между отделами и партнёрами. В случае неструктурированных данных большинство сценариев связано с поддержкой разработки обучающих моделей ML.

Поставщики ПО для защиты конфиденциальности добавляют средства генерации синтетических данных:

Крупные компании уже заявили о том, что они используют или разрабатывают соответствующие технологии. По сравнению с прошлым годом, по этому пути пошло гораздо больше крупных игроков. Среди примечательных примеров разработки средств генерации неструктурированных данных мы нашли такие примеры:

Информации о внутренней разработке средств для генерации структурированных синтетических данных поступает меньше. Одной из причин этого может быть сложность и несовершенство технологий, что, как мы скажем ниже, компенсируется новыми партнёрскими соглашениями.

Все события в мире синтетических данных за 2022 год

В последние месяцы исследовательские отделы многих крупных технологических компаний активно нанимают инженеров синтетических данных и специалистов по защите конфиденциальности. В частности, это справедливо для Apple Synthetic Data Group, TikTok Privacy Innovation (PI) Lab и Mastercards.

Важные партнёрства и поглощения

Кроме того, за последние месяцы заключено множество партнёрских соглашений между поставщиками синтетических данных и крупными технологическими или специализированными компаниями. Когда компании не могут (или не хотят) разрабатывать сами, они покупают и заключают сделки. Рынок консолидируется. Вот несколько примеров сделок в специализированных отраслях:

Развитие экосистемы

Следует обратить внимание на следующие аспекты развития экосистемы. Технология привлекает всё больше внимания со стороны регулирующих органов, осознавших необходимость создания для неё юридической основы. Пока ни один из европейских органов не предоставил никаких рекомендаций по использованию этих технологий с целью защиты данных. Однако многие из них начали исследования, чтобы углубить понимание рынка и потребностей компаний. Британская ICO запустила обсуждение черновика руководства по анонимизации, псевдонимизации и PET.

Общественные организации тоже проявляют всё больший интерес, призывая создавать проекты и общественные обсуждения. Например, британский финансовый регулятор выпустил 30 марта запрос предложений по синтетическим данным. EBSP занимается мониторингом разработки этих технологий в рамках своей инициативы TechSonar initiative, в том числе отслеживая и синтетические данные. Управление денежного обращения Гонконга основала в ноябре 2021 года лабораторию RegTech для дальнейшего исследования, среди прочего, и разработки синтетических данных для борьбы с отмыванием денег.

Повсюду активно развивается анализ рынка. Самые известные группы, например, Gartner, Forester и CBinsights, объявляют о широком использовании синтетических данных в ближайшем будущем. Пророчества или реальность? Как бы то ни было, эти фирмы сильно влияют на мнение покупателей, а их мнение воздействует на развитие рынка синтетических данных.

Наконец, постепенно возникают тяготеющие к миру open source сообщества, в которых люди ищут поддержку в разработке своих инструментов. Например, в канале Slack Synthetic Data Vault уже насчитывается семьсот пользователей. Был создан Open SD для обмена образовательными инструментами аналитики и ресурсами, связанными с OpenSDPsynthR.

Однако сообщества по синтетическим данным возникают не только в мире open source: коммерческие поставщики тоже стремятся создать инерцию движения благодаря сообществам, которые будут поддерживать работу по повышению информированности о рынке.

С точки зрения инсайдера за последние несколько лет рынок начал трансформироваться. Мы наблюдаем появление стратегических трендов. Стартапы и продукты продолжают появляться, пока мейнстримные СМИ делятся прогнозами на синтетическое будущее, а крупные технологические компании посредством разработок и партнёрских соглашений посылают сигналы о совершенствовании технологий. Разумеется, существует ещё много разных аспектов: проблемы комплаенса синтетических данных, сценарии использования и применения клиентами, а также текущие технологические ограничения. Но это уже тема для отдельного поста.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

  • Как подготовиться к сбору данных, чтобы не провалиться в процессе?
  • Как работать с синтетическими данными в 2024 году?
  • В чем специфика работы с ML проектами? И как разметить 1500 пузырьков руды на одном фото и не сойти с ума?

Обо всем этом читайте в “Роман с данными”

Начать дискуссию