Все события в мире синтетических данных за 2022 год

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

28 поставщиков структурированных синтетических данных,
10 поставщиков синтетических тестовых данных,
6 опенсорсных поставщиков,
и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:

На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.

В мире структурированных данных появилось 17 новых имён, если считать вместе продукты для защиты приватности и тестовых синтетических данных. Их продают Aindo, Neutigers, Nuvanitic, Syntonym, Datacebo, Particle Health, Scale Synthetic, IvySys, Yet Analytics, DatProf, Esito, Accelario, Validata, Avo Automation, Broadcoam, Smart Data Foundry, Clearbox AI и Bulian AI.

Количество поставщиков синтетических тестовых данных растёт взрывными темпами. Однако компании используют термин «синтетические данные» достаточно произвольно. Некоторые поставщики создают симулированные данные на основе правил (фальшивые данные), а другие предлагают сгенерированные ИИ синтетические данные. Как бы то ни было, технология находится на подъёме, стимулируемая меньшим количеством ограничений для тех, кто разрабатывает фальшивые данные. Также компании используют готовые опенсорсные строительные блоки, упрощающие разработку новых функций. Благодаря этому мы наблюдаем сейчас, что поставщики ПО для DataOps, тестовых данных и автоматизации данных добавляют в свои решения функции генерации синтетических или фальшивых данных, делая акцент на конфиденциальности тестовых данных.

В списке поставщиков неструктурированных данных появились следующее пополнение: Infinity AI, vAIsual, Mirage Vision, Omniverse™ Replicator, Scale Synthetic, Datagrid, Kroop AI, Indika AI, CNAI, Deci, Alethea AI, Syntric AI и SBX Robotics.

В менее динамично развивающейся области синтетических текстовых данных появилась Bitext, а в области синтетического аудио возникла Deepsync.

Мы по-прежнему наблюдаем за активной разработкой решений для генерации неструктурированных синтетических данных. Ускорение развития в этой части рынка объясняется несколькими характеристиками:

зрелостью таких областей применения, как обучение компьютерному зрению,
доступностью вспомогательных технологий наподобие ПО для моделирования изображений и игровых движков,
всё более широким применением этих технологий в таких быстро растущих отраслях, как автомобилестроение, розничные продажи и видеоигры.

Наконец, расширилась сфера опенсорса. Недавно мы провели анализ экосистемы опенсорса, и оказалось, что список инструментов вырос до двадцати.

Рынок сдвигается в сторону самой интересной части развития. Ниже представлены шесть трендов, замеченных за последние несколько месяцев в мире синтетических данных:

Финансирование: в последние месяцы ключевым элементом развития компаний стали инвестиции. За последние 18 месяцев их насчитывается не менее $325 миллионов.
Специализация: после первых лет однородности рынка поставщики начинают дифференцировать свои решения по сценариям использования или отраслям.
Отход от отрасли чистых продуктов: мы наблюдаем появление сервисов и новых бизнес-моделей в сфере, которая ранее фокусировалась на продуктах.
Внутренняя разработка: синтетические данные перестали быть прерогативой поставщиков из этой сферы. В последние месяцы крупные компании заявили о начале разработки внутренних проектов синтетических данных.
Партнёрские соглашения: параллельно внутренней разработке средств генерации синтетических данных другие крупные компании пошли путём заключения партнёрских соглашений, заключая сделки с игроками этой сферы, крупными технологическими или специализированными компаниями.

За последние 18 месяцев сумма публично известных объёмов финансирования компаний, занимающихся синтетическими данными, достигла $328 миллионов. Это на $275 миллионов больше, чем в 2020. Компании, занимающиеся структурированными синтетическими данными:

В сентябре 2022 года Diveplane получила финансирование на сумму $25 миллионов путём выпуска ценных бумаг серии A
В июле 2022 года CNAI привлекла $4,1 миллиона
В марте 2022 года MDClone получила $63 миллиона путём выпуска ценных бумаг серии C
В январе 2022 года Mostly AI получила $25 путём выпуска ценных бумаг серии B
В январе 2022 года Syntegra получила $5,6 миллиона посевного финансирования
В декабре 2021 года Aindo получила €2,8 миллиона
В октябре 2021 года Gretel.ai получила $50 миллионов путём выпуска ценных бумаг серии B
В октябре 2021 года YData получила €2,33 миллиона
В октябре 2021 года Tonic получила $35 миллионов путём выпуска ценных бумаг серии B
В сентябре 2021 года Octopize получила €1,5 миллиона
В феврале 2021 года Datomize получила $6 миллионов посевного финансирования

Компании, занимающиеся неструктурированными синтетическими данными:

$17 миллионов путём выпуска ценных бумаг серии Aв апреле 2022 года получила Synthesis AI
$3,5 миллиона посевного финансированияв мае 2022 года получила Neurolabs
$50 миллионов путём выпуска ценных бумаг серии Bв марте 2022 года получила Datagen
$13 миллионов путём выпуска ценных бумаг серии Aв марте 2022 года получила Synthetaic
$21 миллион путём выпуска ценных бумаг серии Aв октябре 2021 года получила Deci
И $3,25 миллиона в июле 2021 года получила MindTech

Для поставщиков структурированных синтетических данных произошло два важных изменения: специализация по отраслям и расширение сценариев применения синтетических данных для тестирования. На нишах рынка начали специализироваться следующие компании:

FinCrime Dynamics представила инструмент Synthesizer®, предназначенный для финансовой отрасли и выявления мошенничества.
Nuvanitic выпустила Nuvanitic IntelliHealth TM — решение для фармацевтической отрасли, специализирующееся на синтетических данных клинических испытаний.
VAIsual объявила о выпуске решения для лицензирования интеллектуальной собственности в сфере B2B.
IvySys выпустила инструмент генерации синтетических данных для синтетических опасных транзакций.
Smart Data Foundry исследует синтетические финансовые датасеты для борьбы с мошенничеством и финансовых организаций Великобритании.

Кроме того, игроки, ранее занимавшиеся исключительно синтетическими данными, расширили свои сценарии использования генерацией тестовых данных. Это позволило устранить разрыв между упором на конфиденциальность и поставщиками, которые ранее занимались только синтетическими тестовыми данными. Например:

Mostly AI объявила о возможности поставок синтетических данных для тестирования
Syntho рекламирует свои сценарии использования тестовых данных
Synthesized сообщает о возможности тестирования на синтетических данных

Также увеличиваются масштабы этого сегмента рынка, на котором синтетические данные продаются в качестве альтернативы тестовым датасетам или реальным данным в тестовых средах; свидетельством тому являются частые упоминания синтетических данных в описаниях вакансий для инженеров QA.

В сфере неструктурированных данных фокус на областях применения тоже эволюционирует. Как сказал пользователь Reddit, он постепенно смещается от довольно популярного сектора рандомизации предметной области, поддерживающей создание множественных вариаций сценариев или изображений, к областям применения, создающих более реалистично выглядящие изображения, например, к синтетическим снимкам мозга.

Хотя большинство компаний разрабатывает программные решения с 2018-2019 годов, мы начинаем наблюдать появление на рынке сервисов и площадок, связанных с синтетическими данными. Сервисы API, площадок и синтетических данных с функцией самообслуживания должны идеально подходить под ситуативные потребности бизнесов и могут ускорить освоение технологий благодаря упрощению процессов тестирования.

Некоторые компании сделали ставку на упрощённый и быстрый доступ к синтетическим данным с целью ускорения их освоения. В результате появилась пара freemium-моделей и моделей с функцией самообслуживания:

Clearbox AI запустила сервис создания синтетических данных по запросу.
В июле Mostly AI запустила Saas-доступ по freemium-модели к своему ПО.

Любопытно, что когда дело касается структурированных синтетических данных с функцией самообслуживания, продукты, требующие передачи данных, сталкиваются с теми же ограничениями на обработку данных, которые в первую очередь и привлекали пользователей к синтетическим данным, позволяющим сохранить конфиденциальность. Чтобы использовать персональные данные для таких сервисов по запросу, у клиентов должно быть юридическое обоснование и получено согласие субъектов персональных данных. В ответ на эти затруднения начали развиваться комбинации повышающих конфиденциальность технологий (Privacy-Enhancing Technology, PET).

В апреле Cybernetica объявила, что работает над прототипом сервиса для синтеза данных в защищённых средах исполнения (trusted execution environment, TEE).

Хотя продажей датасетов в основном занимались поставщики неструктурированных данных, разработчики структурированных данных тоже начали участвовать в реализации синтетических данных. Например, GeoTwin предлагает синтетические популяционные датасеты. За последние месяцы также возникли API и торговые площадки синтетических данных, построенные на другой модели доступа, но со схожими целями:

В марте 2022 года Infinity AI объявила о выпуске Infinity API.В августе
2022 года Syntegra объявила о доступности своего API.
Particle Health представила Sandbox APIдля создания синтетических медицинских записей.
Alethea AI объявила о разработке децентрализованной сети синтетического контента для генерируемой ИИ медиа.

Аналогично тому, как для многих компаний сложностью становится нехватка данных, проблемы вызывает и нехватка обучающих данных для генерации синтетических данных. Сегодня очевидную ценность представляют пулы синтетических данных, комбинирующие в себе исходные данные множества компаний. Однако несмотря на появление первых API и торговых площадок, из-за юридических, корпоративных и технических преград такие проекты по-прежнему редки, особенно в Европе.

Существует два типа разработки средств создания синтетических данных. С одной стороны, поставщики ПО для защиты конфиденциальности, занимающиеся другими техниками защиты, теперь добавляют в свой инструментарий возможности создания синтетических данных, чтобы расширить список предложений технологий защиты конфиденциальности.

С другой стороны, крупные технологические компании стремятся разрабатывать собственные средства для создания синтетических данных. Обычно при разработке инструментов генерации структурированных синтетических данных они стремятся улучшить доступ к данным и их поток между отделами и партнёрами. В случае неструктурированных данных большинство сценариев связано с поддержкой разработки обучающих моделей ML.

Поставщики ПО для защиты конфиденциальности добавляют средства генерации синтетических данных:

Норвежский поставщик ПО Esito включил в свой продукт для защиты конфиденциальности g9 генерацию тестовых данных.
Поставщик тестовых данных и решений для защиты конфиденциальности DatProf добавил возможности генерации синтетических данных в свой продукт создания тестовых данных.

Крупные компании уже заявили о том, что они используют или разрабатывают соответствующие технологии. По сравнению с прошлым годом, по этому пути пошло гораздо больше крупных игроков. Среди примечательных примеров разработки средств генерации неструктурированных данных мы нашли такие примеры:

Snap Inc: компания-владелец Snapchat в сентябре 2022 года опубликовала в своём блоге статьюо том, как она работает с синтетическими данными для ускорения разработки своих моделей машинного обучения.
NVIDIA: эта технологическая компания в октябре 2021 года заявилао выпуске своего движка генерации синтетических данных для обучения глубоких нейронных сетей.
L3 Harris: производитель датчиков в апреле 2022 года объявил о своём новом продукте для генерации синтетических данных спутниковых снимков.
Siemens: в январе 2022 года эта технологическая компания представила SynthAI— онлайн-сервис синтетических данных, разработанный Siemens Digital Industries Software.
Toyota: автомобильный гигант изучает возможности применения синтетических данных в компьютерном зрении; в частности, в своём Toyota Research Institute.
Uber: в своих AI Labs компания разрабатывает собственные модели Generative Teaching Network.
Microsoft: эта технологическая компания тоже проводит исследования синтетических данных в таких проектах, как Face Synthetic или Global Synthetic Dataset— синтетическом датасете для выявления торговли людьми, разрабатываемом совместно с International Organization for Migration (IOM).
В июне 2022 года Amazon объявила, что генерация синтетических данных теперь доступна в её решении для разметки данных Amazon SageMaker.
Peloton использует синтетические данные для совершенствования своих систем компьютерного зрения.

Информации о внутренней разработке средств для генерации структурированных синтетических данных поступает меньше. Одной из причин этого может быть сложность и несовершенство технологий, что, как мы скажем ниже, компенсируется новыми партнёрскими соглашениями.

Scale AI: компания, занимающаяся разработкой ИИ, объявила о выпуске своего решения для генерации синтетических данных Scale Synthetic.
Microsoft: лаборатория AI Lab компании работает над средствами для генерации структурированных синтетических данных и разработала Synthetic Data Showcase — опенсорсный инструмент, созданный MSFTResearch.
Palantir: эта компания упомянула синтетические данные в документации к Foundry Software. Страница уже недоступна, но всё ещё видна в Google SERP.

В последние месяцы исследовательские отделы многих крупных технологических компаний активно нанимают инженеров синтетических данных и специалистов по защите конфиденциальности. В частности, это справедливо для Apple Synthetic Data Group, TikTok Privacy Innovation (PI) Lab и Mastercards.

Кроме того, за последние месяцы заключено множество партнёрских соглашений между поставщиками синтетических данных и крупными технологическими или специализированными компаниями. Когда компании не могут (или не хотят) разрабатывать сами, они покупают и заключают сделки. Рынок консолидируется. Вот несколько примеров сделок в специализированных отраслях:

В октябре 2021 года Replica analytics заключила партнёрство с открытой платформой медицинских исследований OSRC. В январе 2022 года она объявила о приобретении компании Aetion, занимающейся аналитикой в сфере здравоохранения.
В сентябре 2022 года поставщик синтетических данных здравоохранения Syntegra тоже заявил о сотрудничествес компанией InterGen Data, занимающейся технологиями здравоохранения.
В марте 2022 года Mindtech и технологическая компания Appen, занимающаяся сбором данных, объявили о партнёрском соглашении на сумму $3,7 миллиона.
Twitter объединил усилия с OpenMined с целью разработки синтетического датасета для своей аналитики данных, и опубликовал его в январе 2022 года.
В декабре 2021 года Meta* приобрела AI Reverie с целью поддержки разработки своей Metaverse.
В декабре 2021 года Gretel объединила усилия с компанией Illuma, занимающейся сферой здравоохранения, чтобы развивать разработку геномных синтетических данных, на которые существует высокий спрос.
В мае 2022 года Google Cloud и страховая компания Anthem заключили партнёрство с целью генерации синтетических мошеннических транзакций.
В ноябре 2021 года SAS Netherland и Syntho подписали партнёрское соглашение.
В сентябре 2022 года Synthesized заключила партнёрство с немецким банком Deutsche Bank.

Следует обратить внимание на следующие аспекты развития экосистемы. Технология привлекает всё больше внимания со стороны регулирующих органов, осознавших необходимость создания для неё юридической основы. Пока ни один из европейских органов не предоставил никаких рекомендаций по использованию этих технологий с целью защиты данных. Однако многие из них начали исследования, чтобы углубить понимание рынка и потребностей компаний. Британская ICO запустила обсуждение черновика руководства по анонимизации, псевдонимизации и PET.

Общественные организации тоже проявляют всё больший интерес, призывая создавать проекты и общественные обсуждения. Например, британский финансовый регулятор выпустил 30 марта запрос предложений по синтетическим данным. EBSP занимается мониторингом разработки этих технологий в рамках своей инициативы TechSonar initiative, в том числе отслеживая и синтетические данные. Управление денежного обращения Гонконга основала в ноябре 2021 года лабораторию RegTech для дальнейшего исследования, среди прочего, и разработки синтетических данных для борьбы с отмыванием денег.

Повсюду активно развивается анализ рынка. Самые известные группы, например, Gartner, Forester и CBinsights, объявляют о широком использовании синтетических данных в ближайшем будущем. Пророчества или реальность? Как бы то ни было, эти фирмы сильно влияют на мнение покупателей, а их мнение воздействует на развитие рынка синтетических данных.

Наконец, постепенно возникают тяготеющие к миру open source сообщества, в которых люди ищут поддержку в разработке своих инструментов. Например, в канале Slack Synthetic Data Vault уже насчитывается семьсот пользователей. Был создан Open SD для обмена образовательными инструментами аналитики и ресурсами, связанными с OpenSDPsynthR.

Однако сообщества по синтетическим данным возникают не только в мире open source: коммерческие поставщики тоже стремятся создать инерцию движения благодаря сообществам, которые будут поддерживать работу по повышению информированности о рынке.

В апреле 2022 года Synthesis AI запустила Open Synthetics— открытое сообщество для создания и использования синтетических данных в компьютерном зрении и машинном обучении.
YData создала Synthetic Data’s Community
GenRocket в июне объявила о запуске GenRocket Community — сообщества, нацеленного на генерацию тестовых данных.

С точки зрения инсайдера за последние несколько лет рынок начал трансформироваться. Мы наблюдаем появление стратегических трендов. Стартапы и продукты продолжают появляться, пока мейнстримные СМИ делятся прогнозами на синтетическое будущее, а крупные технологические компании посредством разработок и партнёрских соглашений посылают сигналы о совершенствовании технологий. Разумеется, существует ещё много разных аспектов: проблемы комплаенса синтетических данных, сценарии использования и применения клиентами, а также текущие технологические ограничения. Но это уже тема для отдельного поста.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И как разметить 1500 пузырьков руды на одном фото и не сойти с ума?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Elise Devaux

#машинноеобучение #Synthetic #syntheticdataset #SyntheticData #augmentation #generating #GAN #VAE #Omniverse #Unity #Blender

Все события в мире синтетических данных за 2022 год

Новые игроки и анализ рынка синтетических данных

Стратегические разработки

Финансирование

Специализация

Сервисы и новые бизнес-модели

Внутренняя разработка

Важные партнёрства и поглощения

Развитие экосистемы