Маркетинг
Alina Tolmacheva

Быстрые данные против больших: как скорость обработки информации меняет бизнес и общество

Основатель и технический директор ПО-разработчика GridGain Никита Иванов рассказал vc.ru о том, почему сегодня важна скорость в работе с информацией, и объяснил суть технологии in-memory computing, которая обеспечивает перевод обработки данных с диска в память компьютера. Иванов рассказал, как это решение помогает выстраивать новые бизнес-процессы в обществе и бизнесе.

Основатель и технический директор компании-разработчика ПО GridGain Никита Иванов

Данные сегодня настолько «большие», что важно уже не просто обеспечить их хранение, а научиться оперативно обрабатывать и использовать эти массивы. По оценке аналитиков из IDC, к 2019 году рынок данных вырастет на 50% до $187 млрд. Это говорит о растущих потребностях компаний в решениях, которые помогут извлечь пользу из накопленных данных.

Возникает вопрос — как сделать так, чтобы это происходило в режиме реального времени. Данную задачу ставят перед собой разработчики ПО на базе технологии in-memory computing — это перевод обработки данных с диска в память компьютера. Разберемся, в чем ее преимущества и ограничения.

Технология

Еще лет 20 назад понятие Big Data противопоставлялось так называемым Small Data или данным внутри одной организации. Но потом компании стали выходить за рамки собственных данных — Google, Facebook, Twitter, Amazon — собирают колоссальные объемы информации, идущие далеко за пределы CRM и ERP.

Первая проблема, с которой они столкнулись, — это хранение данных. Одними из первых ее начали решать в Yahoo — так появилась Hadoop, оупенсорс-технология, разработанная для обработки логов с веб-серверов компании. Позже доступ к ней получили и другие разработчики. Главное преимущество Hadoop в том, что она была бесплатной, тогда как все остальные системы хранения Big Data были очень дорогими. Однако обработка в Hadoop была и остается весьма медленной.

До 2011-2012 года рынок пытался научиться хранить данные. Сегодня эта проблема в целом уже решена. Мы находимся на этапе активного развития систем обработки данных.

Посмотрите на свой телефон. Сколько приложений в нем выдают результат завтра? Или даже через два часа? Таких сервисов больше не существует. Так и в современном бизнесе счет идет не на часы и даже не на минуты — большинство задач должно решаться в режиме реального времени. Так на смену Big Data приходит понятие Fast Data — «быстрых» данных, из которых можно извлечь инсайты за считанные секунды.

Остается понять, как реализовать это технологически. Большинство систем хранения Big Data построено на дисках (spinning disk или flash), а обработка ведется на нескольких компьютерах или серверах, собранных в кластер. Технология in-memory computing позволяет в рамках такого же кластера использовать память компьютеров. С точки зрения доступа и обработки память становится в тысячи, а то и в миллионы раз быстрее, чем на диске.

Сегодня этот инструмент — последний этап качественного изменения технологии хранения данных. Архитектура современных компьютеров не предусматривает других возможностей для этой цели. Решения на базе in-memory computing разрабатывают и крупные компании вроде Oracle, IBM и Microsoft, и стартапы, включая наш.

В качестве примера приведу результаты демо-версии продукта, который мы представляли «Сбербанку» в процессе работы. На кластере из 10 серверов с общей памятью в один терабайт мы показали миллиард бизнес-транзакций в секунду.

Если взять самый быстрый и дорогой кластер от Oracle, то в заданной ситуации, скорее всего, можно было бы добиться 30-40 миллионов транзакций в секунду. Кейс «Сбербанка» показателен с точки зрения преимуществ технологии для бизнеса. Давайте посмотрим почему.

Бизнес

«Сбербанк», как и многие другие банки, активно развивает свои мобильные приложения. Финансовые организации видят, что операционный объем данных и частота операций с мобильных стала намного выше, чем на десктопах.

Поменялась культура использования банковских сервисов — с мобильного пользователи проверяют счет, платят, переводят деньги с карты на карту по несколько раз на дню, так же, как проверяют ленту новостей в Facebook или Twitter. Количество клиентов остается тем же, но операций становится в сотни раз больше.

Чтобы справиться с быстрорастущим потоком обработки данных и обеспечить скорость и масштабируемость, «Сбербанк» обратил внимание на решение in-memory computing. Сейчас это в основном корпоративный продукт. Это связано в том числе с высокой стоимостью памяти, но кроме этого, большинство машин для личного использования справляются с задачами благодаря имеющемуся аппаратному обеспечению. При этом обработка данных с большинства пользовательских устройств и приложений идет на бэкенд.

Например, изначально на этом решении строился мессенджер WhatsApp. Другой пример — игры. Если игра становится вирусно популярной, то ей тоже необходимы надежные и быстрые технологии обработки платежей и пользовательских данных в реальном времени. Поэтому, хотя in-memory computing вряд ли появится на пользовательском телефоне в ближайшем будущем, многие приложения используют эту технологию на бэкенде.

Важно то, в чем оценивать важность технологии для бизнеса. Компании обращаются к in-memory computing не тогда, когда нужно поднять производительность или ускорить текущий процесс. Большинство клиентов говорят, что эта технология позволяет им делать то, что они до этого не могли делать в принципе. То есть она нужна тогда, когда нет возможности решить бизнес-функцию иначе, когда бизнес-процесс вообще невозможен без технологической базы, которая позволит выполнить его быстро и в нужном масштабе. Однако ее применение не ограничивается бизнесом.

Общество

В то время как для компаний in-memory computing означает принципиально новые бизнес-процессы, то в других сферах технология открывает новые перспективы для исследований и разработок. Например, любая биотех-компания сейчас — это прежде всего софтверный разработчик, потому она нуждается в технологическом решении для обработки данных.

У нас есть клиент из Канады — маленький стартап, который совершил революцию в обработке МРТ-изображений. Раньше снимки с томографа нужно было показывать конкретному доктору и ждать диагноза, надеясь на квалификацию конкретного врача. Их решение агрегирует снимки из нескольких клиник, разбивает их на маленькие подснимки и рассылает докторам по всему миру. Если у двух-трех специалистов один подснимок вызывает вопросы, они отмечают его для дальнейшего рассмотрения.

Тем самым стартап решил проблему качества и скорости — меньше чем за минуту он может обработать снимок каждого пациента. Гарантия точности обеспечивается статистикой, а скорость диагностики такова, что пациент может получить ответ, пока встает с кушетки.

Другой пример — британская компания e-Therapeutics, которая специализируется на исследованиях и разработке лекарственных средств для лечения биокомплексных болезней, таких как рак и нейродегенеративные заболевания. Исследования основаны на компьютерном анализе больных клеток. Единичный анализ такого типа относительно простой и не занимает много времени. Однако исследования e-Theurapeutics подразумевают сотни тысяч подобных анализов по множеству параметров и гипотез, что создает чрезвычайно интенсивную вычислительную нагрузку.

С этим решением в компании смогли всего за несколько часов или даже минут проводить анализы, на которые раньше уходило несколько недель. Они также получили возможность создавать намного более масштабные и сложные модели клеток, что открыло новые подходы к лечению заболеваний.

Наконец, специалисты смогли быстрее проверять гипотезы и работать над несколькими проектами одновременно. Потенциально такой скачок позволит ускорить поиск и разработку противораковых препаратов и методов терапии других биокомплексных заболеваний.

Ограничения

У технологии in-memory computing есть свои ограничения, которые пока сдерживают ее развитие. Прежде всего это цена — стоимость такого решения всегда дороже, чем обработка данных на диске. Кроме того, добиться петабайтного объема сложно и не всегда экономично. Поэтому технология используется в основном для операционных, а не исторических данных.

Кроме того, стабильность работы решения на in-memory computing во многом зависит от сетевого решения, на котором построен кластер. Также критически важным становится качество разработки.

Однако сейчас виден качественный скачок в производительности и масштабируемости бизнеса за счет in-memory computing. Конечно, со временем обработка данных на диске будет расти в скорости. К примеру, мы сейчас работаем с компанией Fujitsu, и у нее есть сервера объемом в 64 терабайта памяти. Чтобы понять масштаб этих данных — примерно пять лет назад общий объем операционных данных в Twitter или весь контент за неделю составлял около четырех терабайт. Но и память будет становиться быстрее и падать в цене, так что разница между ними будет оставаться достаточно постоянной.

{ "author_name": "Alina Tolmacheva", "author_type": "self", "tags": ["\u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f_in_memory_computing","\u0441\u0431\u043e\u0440_\u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438","\u0441\u0431\u043e\u0440_\u0434\u0430\u043d\u043d\u044b\u0445","\u043c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433","\u0431\u043e\u043b\u044c\u0448\u0438\u0435_\u0434\u0430\u043d\u043d\u044b\u0435","in_memory_computing"], "comments": 7, "likes": 12, "favorites": 1, "is_advertisement": false, "subsite_label": "marketing", "id": 18432, "is_wide": true, "is_ugc": true, "date": "Thu, 15 Sep 2016 12:42:56 +0300", "is_special": false }
0
7 комментариев
Популярные
По порядку
Написать комментарий...

Инсайт в данном случае это новая идея, озарение.
Раньше инсайты из больших данных было получить значительно сложнее, потому что сам анализ был либо невозможен, либо очень затруднен.

1

У меня сегодня был такой инсайт,господа.Придумал платформу,объединяющую женщин и мужчин легкого,и сверхлегкого поведения в поисках стабильных объемов работ.Только подумайте,какое кол-во времени и ресурсов тратят люди на создание адекватного канала коммуникации в данном случае.Получается,что если использовать решение in-memory computing,моя воображаемая платформа в течении 15-30 секунд будет соединять организмы тысяч людей по сотням параметров,таким как рост,вес,цвет глаз,размер того и этого,наличие возможности выезда,опыта,спектра услуг,верификацию данных для всех участников рынка,входящие и исходящие заявки.Даже название придумал-Фейхоа)))))))))

1

Объясните пожалуйста, что такое инсайт? Не первый раз вижу это слово, читал определение:
"В некоторых направлениях философии и психологии: непосредственное постижение, внезапное понимание чего-л., не выводимое из прошлого опыта"
Но оно вроде не подходит по смыслу тут

0

> «быстрых» данных, из которых можно извлечь инсайты за считанные секунды.

Суть данных, смысл.
https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%81%D0%B0%D0%B9%D1%82

1

Спасибо, вроде понял

0

Весьма любопытно о каких миллиардных "транзакциях" в секунду идет речь. Если о спекулятивных операциях на финансовых рынках, тогда яснопонятно, можете не продолжать.

0

Миллиарды транзакций, а не миллиардные транзакции.

0
Читать все 7 комментариев
Как имиджевый проект о безопасном вождении привлёк лиды и расширил маркетинговую воронку страховой компании

А игра с виртуальной фарфоровой статуэткой помогла 6,5 тысячам водителей не превышать скорость.

Здоровый сон взрослого человека — это засыпать за 15 минут и не вставать ночью попить и пописать

Послушала на днях 2х-часовое выступление «Здоровый сон» врача-невролога, сомнолога Елены Царевой. Самые важные поинты 1 минуту чтения:

Как программист-интроверт стал СЕО стартапа, сделал MVP за один месяц и заработал 12 млн за год – история Revvy

SaaS-сервис Revvy, который помогает бизнесу общаться с клиентами и умеет «перехватывать» негатив.

Пример позитивного отзыва и “перехвата” негатива
Что означает выражение «цена на нефть»

Что есть «мировые цены на нефть», о которых говорится в СМИ, где они формируются и почему нефтяные бенчмарки зачастую не являются в строгом смысле ценами на нефть.

Почему индексные фонды стали популярными. Рассказывает персональный брокер
Adobe представила веб-версии Photoshop и Illustrator с ограниченными возможностями для совместной работы Статьи редакции

Пользователи смогут вместе работать над проектом, не открывая и не скачивая десктопные приложения. Подписка Creative Cloud для просмотра не нужна.

На OZON.ru для оплаты предлагаются чужие банковские карты

Сегодня вечером я разместил заказ на OZON.ru, перешел к оплате и обнаружил сохраненную карту, чему я несколько удивился, т.к. обычно их нигде не сохраняю. Тем не менее, я ввёл CVV код и перешел к подтверждению платежа. Но push и смс от банка упорно не приходили. Я вернулся на шаг назад и понял, что OZON предлагает оплатить мой заказ неизвестной…

«2ГИС» представил обновлённый навигатор с мини-картой на экране, данными о камерах и парковках Статьи редакции

Его уже подключил «Ситимобил».

Обновлённый интерфейс навигатора  «2ГИС»
Онлайн-кинотеатр IVI объявил дату премьеры сериала «Везёт» с Евгением Цыгановым​
null