Большие данные не прощают ошибок


Большие данные не прощают ошибок

БИТ, Выпуск №03 (56)

Большие данные не прощают ошибок. Поэтому управление задачами в подобных проектах должно быть на высшем уровне. Готовы ли к этому игроки отечественного ИТ-рынка? На вопросы «БИТа» отвечают эксперты ведущих компаний

  1. Каковы сегодня тренды в Больших данных и перспективы их развития?
  2. Что необходимо для успеха проекта в области Больших данных?
  3. Применяете ли вы в своей компании технологии Big Data?
  4. Поделитесь примером эффективного использования Больших данных для бизнеса компании.
  5. Почему в России рынок технологий и услуг для Больших данных развивается медленнее, чем на глобальном рынке? Как можно изменить эту ситуацию?

«Надо с умом использовать новые технологии обработки данных, не рассматривая их как «волшебную пилюлю», - Константин Суслов, генеральный директор ГК ХОСТ

1. Big Data – модный, но непонятный широкой публике термин. С него только-только слетает налипшая рекламная шелуха, под которой появляется конкретная польза. Ее будущее зависит от ее применения в реальной жизни и адекватной оценки результатов внедрений. 

2. Для успеха нужны два компонента: инженеры-аналитики по этой технологии и менеджеры-профессионалы, которые знают, как и зачем будут использовать результаты. Пока все упирается в степень зрелости управления российских компаний – менеджеры не готовы использовать эту технологию. 

3. У нас проектный бизнес, он не накапливает достаточного объема данных для использования Big Data, в отличие от однотипных операций в ретейле, телекоме или банках. Однако мы следим за развитием технологии и периодически анализируем целесообразность ее включения в наш продуктовый портфель. Пока мы не видим на рынке достаточного спроса, чтобы инвестировать в развитие этого направления. 

4. Недавно вышел фильм «Игра на понижение», в котором описываются события ипотечного и финансового кризиса в США 2007-2008 годов. Финансисты, которые принимали решения на основании общей статистики о рынке, неуглубляясь в суть происходящих процессов, стали основными жертвами кризиса. 

Опасность Больших данных в том, что их завеса, снабженная неоспоримыми математическими выкладками, мешает увидеть зарождающихся «черных лебедей» и несет риски бизнесу. Надо с умом использовать новые технологии обработки данных, не рассматривая их как «волшебную пилюлю». 

5. Основная проблема – незрелость технологий управления бизнесом. Российские менеджеры зачастую не готовы использовать сложные инструменты и не понимают, как автоматизация бизнес-процессов и управление по целям поможет им повысить эффективность. 

Специализация нашей компании – информационные системы управления эффективностью бизнеса – быстро развивающаяся в мире технология управления. Но когда мы приходим к клиенту, то сначала вынуждены рассказывать методологию и только потом переходить к тому, нужны ли такие системы в их бизнесе. Исправит положение только популяризация и профессиональное обсуждение новых технологий работы с данными. 

«Очень скоро использование технологий Big Data станет вопросом выживания», - Владимир Громов, руководитель направления внедрения и развития аналитических систем «Ренессанс Кредит»

1. До недавнего времени подходы и технологии, объединенные разрекламированным понятием Big Data, воспринимались исключительно через призму знаменитых трех V: Volume (большой объем), Velocity (быстрое накопление), Variety (разнообразие). Основные перспективы Больших данных в широком бизнес-применении в нашей стране связаны с всеобщим осознанием, что на самом деле не хватает еще как минимум двух V: Value (ценность для бизнеса) и Veracity (достоверность данных). Иными словами, сейчас происходит смещение восприятия Big Data – от технологии, которая позволяет справляться с обработкой и хранением большого массива слабоструктурированных данных, к реальному бизнес-инструменту, приносящему прибыль.

2. Успех будет в том случае, если есть позитивный баланс между затратами на проект и бизнес-выгодами, которые получает компания от его реализации. Нужно очень четко представлять себе, за счет чего организация заработает деньги.К сожалению, в области Больших данных именно этот вопрос для многих компаний зачастую является камнем преткновения.

Вторым по порядку, но не по значимости, фактором являются люди. В организации должен появиться человек, который «заболеет» идеей внедрения подобного проекта и начнет фанатично продвигать его.

3. Да, применяем. Например, использование внешних данных в кросс-продажах является частью нашей продуктовой стратегии. Мы прекрасно понимаем, что пока еще время есть, но очень скоро использование технологий Big Data станет вопросом выживания. Поэтому сейчас находимся в стадии пилотирования, стараясь оценить финансовую сторону запуска полноценного проекта.

5. Эта проблема проявляется не только в данной области. В принципе весь российский ИТ-рынок сейчас развивается с оглядкой на лучшие зарубежные практики, поэтому определенное запаздывание вполне логично. Для того чтобы поверить во что-то и начать тратить на это время и средства, нам нужно увидеть чужой положительный опыт. Готового рецепта, как это поменять, нет. Очевидно, что если мы не хотим отставать, то должны научиться быстрее реагировать на новые технологические веяния, а еще лучше – вообще стать их источником.

«На рынке Больших данных наблюдается преобладание западных компаний в сегменте инфраструктурных решений, но среди поставщиков аналитических технологий есть и российские», - Ольга Горчинская, директор по исследовательским проектам и руководитель направления по Большим данным компании «ФОРС»

1. В качестве основных трендов развития технологий Больших данных можно указать следующие:
  • Широкое распространение технологии Hadoop, которая используется для решения различных задач хранения и обработки больших объемов неструктурированной информации. Hadoop играет ключевую роль в архитектурах хранилищ данных с использованием озер данных. После многочисленных экспериментов и пилотных Hadoop-проектов в банках, телекоме, ретейле и других индустриях компании переходят к промышленному внедрению. Hadoop становится стандартным элементом любой ИТ-инфраструктуры.
  • Повышение роли машинного обучения в аналитических приложениях и системах. Интерес к этому направлению растет очень высокими темпами, сфера применения методов и программных средств машинного обучения расширяется столь же быстро. По прогнозным оценкам, к 2020 году более половины всех BI-систем будут включать углубленную аналитику, основанную на машинном обучении и data mining.
  • Формирование типовых решений в области Больших данных. Уже появляются «стандартные» решения для различных индустрий – например, в области клиентской аналитики на основе анализа данных социальных сетей.
  • Слияние технологий Больших данных и бизнес-анализа. Новые технологии Больших данных существенно обогащают классические системы бизнес-анализа. Использование Hadoop повышает производительность имасштабируемость хранилищ данных, а внедрение в BI-систему средств углубленной аналитики, включая предиктивный анализ и статистические методы, существенно расширяет ее функциональность.
  • Среди других трендов – повышение роли облачных сервисов и услуг по Большим данным, формирование рынка покупки и продажи данных, расширение сферы практического применения методов и технологий анализа изображений и видео.
2. Во-первых, заинтересованность бизнеса – очень важно сохранять такую мотивацию в течение всего проекта. Во-вторых, четкое понимание целей, правильная постановка задачи, выбор методов и технологий уже на старте проекта. В-третьих, профессиональная и правильно подобранная команда, в которой обязательно должны быть специалисты по работе с данными, владеющие разнообразными методами их анализа.

3. Мы сами являемся разработчиками и поставщиками решений в области Больших данных для разных индустрий. С 2012 года это направление стало отдельным подразделением, где работают сертифицированные специалисты потехнологиям Hadoop, эксперты по машинному обучению, data mining, лингвистической обработке и статистическим исследованиям. Кроме проектов по разработке и внедрению систем на основе Больших данных, «ФОРС» предлагает готовое решение для получения новых знаний о клиентах на основе анализа данных социальных сетей – ForSMedia. Специалисты компании занимаются и образовательной деятельностью в области Больших данных – проводят семинары для заказчиков и партнеров, читают курсы в учебном центре «ФОРС», лекции в Высшей школе экономики и других учебных заведениях.

4. В одном из крупнейших банков были внедрены технологии Hadoop с целью обеспечить возможность использования больших объемов неструктурированной информации для решения различных задач по управлению рисками икредитному скорингу. В ходе этого проекта было создано централизованное хранилище данных с гибкой настройкой на изменение форматов исходной информации и поддержкой ad-hoq доступа ко всем историческим данным. Важная особенность проекта – использование программно-аппаратного комплекса Oracle Big Data Apppance.

Создание системы оценки стоимости объектов недвижимости для компании РОСЭКО по заказу Российского общества оценщиков. Система обеспечивает сбор данных об объектах из интернет-источников, обработку этой информациис использованием лингвистических технологий, обогащение данных с помощью геоаналитики и применение методов машинного обучения для оценки стоимости. В качестве основных технологий использовались Cloudera Hadoop Distribution, средства лингвистического анализа компании RCO, среда статистических исследований R и платформа исследования данных Oracle Endeca.

5. С точки зрения поставщиков услуг и продуктов на этом рынке наблюдается безусловное преобладание западных компаний в сегменте инфраструктурных решений, но среди поставщиков отдельных аналитических технологий есть ироссийские. К примеру, в последнем отчете Gartner из всех производителей средств data mining в мире было выбрано всего 16 компаний, и среди них есть российская – «Прогноз». А вот Oracle Data Mining в этом году не вошла в этот список.

Внедрение новых технологий в России происходит действительно медленнее, ощущается острая нехватка инвестиций. Это связано с особенностями российского бизнеса, недостаточной востребованностью аналитических решений вцелом, нереализованностью потенциала классического BI. Кроме того, не все готовы к повышенным рискам в проектах по внедрению Больших данных и к трудностям оценки экономической эффективности таких проектов.

Изменить ситуацию смогут перемены на бизнес-уровне – повышение грамотности руководителей в области аналитики, снижение уровня ручного управления, сближение аналитики с принятием управленческих решений и увеличение числа успешных проектов.

«Сейчас мы сконцентрированы на разработке аналитических решений, которые могут быть применены сразу в нескольких направлениях, с которыми мы работаем», - Алексей Смирнов, технический директор ИТ-компании «Нетрика»

1. В сфере Больших данных выделяется тренд «Интернет вещей» (Internet of Things, IoT) как более узкая область применения «Интернета всего». Большую популярность завоевали свободные инструменты работы с данными: такие решения, как Apache Hadoop и Apache Spark, стали практически стандартом даже в больших корпорациях. В хранении данных происходит не только переход в облачные системы хранения, но также и перевод инфраструктуры нанереляционные (NoSQL) базы данных, там, где этого требует бизнес. Если в предыдущие годы считалось, что «чем больше данных, тем лучше», и все пытались ответить на вопрос «Как же это все хранить?», то сейчас наблюдается тенденция к развитию интеграционной инфраструктуры разработанных ранее решений, а также делается акцент на разработке более быстродейственных алгоритмов обработки накопленных данных.

2. Прежде всего вы должны четко понимать, с какими данными вам предстоит работать, нужны ли они вам вообще, и если нужны, то что с ними делать и для каких целей использовать. В компании должны быть специалисты по анализу данных и специалисты по управлению большими объемами данных. Большие данные не прощают ошибок. Небольшое колебание вектора разработки нового программного решения может обернуться большими трудозатратами иплатой за чрезмерно разросшуюся инфраструктуру. Поэтому управление задачами в таких проектах должно быть на высшем уровне.

3. В своих проектах – разработке государственных информационных систем – мы регулярно сталкиваемся с обработкой больших объемов данных. При этом для нас важно не столько само количество данных, сколько качество поставляемых аналитических решений. Поэтому ключевая задача в проектах – это качественная алгоритмизация наших разработок. Сейчас мы сконцентрированы на разработке аналитических решений, которые могут быть применены сразу в нескольких направлениях, с которыми мы работаем, – например, в здравоохранении, образовании или госуправлении.

4. Среди проектов «Нетрики» с использованием аналитики Больших данных, которые уже показали свою эффективную работу, можно назвать федеральный сегмент информационной системы «Контингент», реализованный по заказу Минкомсвязи РФ. Это первый в России опыт сбора и всестороннего анализа данных об образовании российских детей по всем регионам страны. Проект несет важную социальную составляющую. С помощью создаваемой системы федеральные органы власти рассчитывают значительно повысить качество образования в РФ и решить такие проблемы, как, например, очереди в детские сады и школы.

Второй интересный проект – это система «N3.Индекс пациентов», решение по идентификации пациентов лечебных учреждений. Система анализирует поступающие из разных медицинских организаций данные пациентов и может свысокой степенью точности отнести те или иные записи к правильному пациенту, даже в случае ошибочной записи. В результате обеспечивается корректная идентификация пациента и формируется интегрированная электронная медицинская карта, в которой хранится информация обо всех обращениях пациента за медицинской помощью в разные учреждения города. Система адаптирована к процессам российского здравоохранения и способна заменить зарубежные аналоги. Использование сервиса не ограничено жестко отраслью здравоохранения, он может применяться везде, где нужно идентифицировать человека.

5. Не все сферы бизнеса в России отстают в своем технологическом развитии от мирового рынка. К примеру, банковские системы с точки зрения оснащенности передовыми технологиями сейчас мало в чем уступают, а зачастую даже превосходят западных игроков. Ретейл также старается активно внедрять эффективные решения, особенно на фоне кризиса. Спрос на экспертов по большим данным есть, однако в целом российский рынок еще недостаточно развит, нопотенциал его огромен, и в ближайшие годы темпы его развития будут в разы выше, чем на глобальном рынке.

«Собранные воедино Большие данные не стали панацеей при решении бизнес-проблем. Закономерно, что Gartner в августе 2015 года убрала Big Data из числа прорывных технологий», - Артем Засурский, генеральный директор ООО «Стрим»

1. Big Data сегодня переживает определенный кризис. Предложения вендоров и консультантов «Big Data решит проблемы вашего бизнеса», как показала практика, остаются красивыми слайдами в презентациях. Собранные воедино Большие данные не стали панацеей при решении бизнес-проблем. Закономерно, что Gartner, ведущая мировая компания в области исследований информационных технологий, в августе 2015 года убрала Big Data из числа прорывных технологий и удалила ее с графика Hype Cycle.

2. Для успеха проекта нужна четко поставленная задача – какие цели и каким образом будет преследовать применение Big Data. Надо отдавать отчет в том, что Big Data – это инструмент, и следует умело его использовать.

Необходимо освоить анализ Больших данных, чтобы научиться отделять массивы бесполезных данных от полезных. Нужно появление аналитиков, которые будут «читать» Big Data и ориентироваться в ней, руководствуясь математическими моделями. Время интуитивного подхода – в прошлом.

3. Big Data – большое подспорье в развитии мобильной рекламы, которой активно занимается наша компания. Big Data позволяет сделать рекламу глубоко таргетированной, специализированной именно для тех, кто может быть заинтересован именно в данном виде товара или услуги.

Таргетированность рекламы основывается именно на анализе массива Больших данных и переводит рекламу из разряда назойливой коммуникации в полезную информацию.

Мобильная реклама, которой мы в компании занимаемся, – очевидный пример эффективного использования Больших данных. Big Data помогает нам сделать все наши сервисы и услуги наиболее соответствующими моделям потребления пользователей.

5. Думается, что ситуация с Big Data примерно одинаковая сегодня повсюду. Основные силы, на мой взгляд, должны быть сосредоточены на разработке методов и принципов анализа Больших данных и соблюдении всех юридических аспектов их использования.

Мода на «дата ученых», которая появились недавно в индустрии, также быстро сходит на нет. Но сами «дата ученые», хочется верить, сумеют оправдать эти звания и предложат решение по чтению и использованию Big Data. Может быть, эти ученые пока еще учатся в вузе или даже школе.

«Эффективность деятельности предприятия определяется вполне измеримыми группами показателей, и проект по Big Data должен являться частью корпоративной стратегии», - Дмитрий Шепелявый, заместитель генерального директора SAP СНГ

1. Объем рынка технологий в сфере Больших данных ежегодно увеличивается как в России, так и в мире. Мы видим, что за последние два года интерес к системам в области Big Data значительно возрос. Подобные решения сегодня вбольшинстве своем востребованы в ретейле, телекоме, транспорте и финансовом секторе. В то же время увеличилось количество запросов и со стороны нефтегазовой, металлургической, химической и дискретной индустрий, а также стартапов.

Вместе с интересом возросли и требования. Клиентам уже недостаточно решений Big Data, которые способны лишь хранить и быстро обрабатывать данные объемом более 1 Pb. Поэтому современные инструменты работы с Большими данными также позволяют строить прогнозы и оснащены удобным интерфейсом. Появились запросы на интеграцию промышленных систем с открытой технологией Hadoop, стремительно набирающей популярность среди клиентов.

Для того чтобы удовлетворить большие требования на хранение и обработку информации клиентов, в прошлом году мы представили наше новое решение – SAP HANA Vora для анализа Больших данных, расширяющее возможности Apache Hadoop и увеличивающее скорость обработки от 10 до 100 раз за счет использования технологии Apache Spark.

2. Большие данные как любая инфраструктурная технология оказывают влияние на всю цепочку создания стоимости через новые и усовершенствованные бизнес-процессы, снижение издержек и повышение прибыльности, формирование конкурентных преимуществ и окупаемость инвестиций. Однако в конечном итоге эффективность деятельности предприятия определяется вполне измеримыми группами показателей, такими как ликвидность, оборачиваемость, рентабельность, финансовая устойчивость, т.е. проект по Big Data должен являться частью корпоративной стратегии компании.

Если новая или усовершенствованная производственная функция, реализованная с помощью Big Data, в конечном итоге позволила улучшить эти показатели, то можно сказать, что это и есть экономический эффект. К примеру, если технология помогает ускорить формирование отчета о материально-производственных запасах с 3 часов до 16 секунд, то это, в свою очередь, позволяет получить максимальную отдачу от оборотных средств, т.е. повысить рентабельность собственного капитала.

3. Активно применяем, практически на всех стадиях работы – от разработки решения до поддержки уже реализованных проектов.

4. Можно привести пример Wikimart, одного из лидеров российского рынка электронной коммерции. В продуктивную эксплуатацию был запущен комплекс решений на платформе SAP, для того чтобы перевести бизнес-процессы Wikimart на новый уровень автоматизации и помочь развитию торговой онлайн-площадки и выходу в сегмент офлайн-торговли. Перевод бизнес-процессов в единое информационное пространство на базе решений SAP позволит Wikimart предоставлять покупателям товары не только из собственного ассортимента, но и от партнеров: более 2 млн товаров будет доступно во всей сети, включающей 41 собственный и 1439 партнерских пунктов выдачи заказов. Ранее такая возможность была только для 100 тыс. товаров из собственного ассортимента Wikimart.

«Рынок Больших данных в России будет развиваться быстрее общемирового. По прогнозу EMC, доля российского сегмента вырастет с 1,8 до 2,2% от мирового объема данных к 2020 году», - Алексей Алексеев, руководитель отдела разработки интегрального профиля компании Digital Society Laboratory

1. Первый тренд – это развитие аналитики и машинного обучения. Сейчас технологии сбора и хранения Больших данных достигли зрелости, но извлечение ценности из данных по-прежнему остается сложной задачей.

Второй тренд – интернет вещей. Эксперты Cisco и Ericsson прогнозируют, что к 2020 году будет 50 млрд подключенных единиц, из которых устройства интернета вещей составят больше половины, что существенно повлияет на рынок Больших данных.

Поскольку объем генерируемых данных удваивается каждые два года, в перспективе спрос на Большие данные будет только расти.

2. Во-первых, бизнес должен уметь правильно ставить цели и просчитывать эффект от использования Больших данных. Во-вторых, желательно использовать облачные технологии. Они дают гибкость и уменьшают капитальные затраты. В-третьих, необходимо правильно подобрать инструменты обработки Больших данных среди огромного количества.

3. Наша компания специализируется на рекламе и исследовании социальных сетей, поэтому технологии обработки Больших данных – это одна из основных наших компетенцией. Социальный портрет целевой аудитории брендов, анализ конкурентной среды, динамика потребительских предпочтений и многие другие направления исследований Digital Society Laboratory (DSL) невозможно представить без технологий сбора и обработки Больших данных.

4. Поскольку наша компания изначально ориентирована на работу с Большими данными, приведу пример по работе с одним из наших клиентов – «Велес Девелопмент» и его проектами «Лес и Река» и «Марк Твен». Для них мы вели рекламную кампанию в соцсетях и превзошли результаты по контекстной рекламе в поисковых системах «Яндекс» и Google.

Мы выделили три сегмента и провели на них рекламную кампанию: владельцы бизнеса, предприниматели, руководители и топ-менеджеры, люди, интересующиеся покупкой загородной недвижимости, финансово обеспеченные люди.По итогам рекламной кампании стоимость целевого действия (звонки, заявки на просмотр, обращения в чат и т.п.) снизилась в два раза по сравнению с другими каналами из-за точного таргетирования и за счет большого количества данных о пользователях. Например, с 2900 руб. при размещении контекстной рекламы до 1360 руб., когда использовали профилированную рекламу.

5. Этому есть несколько причин:

  • новые технологии запаздывают на развивающихся рынках по сравнению с развитыми;
  • российские компании мало доверяют облачным технологиям, что удорожает проекты и уменьшает гибкость;
  • развитие рынка тормозят законы по сбору и обработке персональных данных.

В будущем рынок Больших данных в России будет развиваться быстрее общемирового. По прогнозу EMC, доля российского сегмента больших данных вырастет с 1,8 до 2,2% от мирового объема данных к 2020 году.

«Ретейл – это насыщенный игроками рынок, и любые трудновоспроизводимые конкурентами технологии, позволяющие повысить конверсию, а значит, и прибыль, будут востребованы», - Вячеслав Коган, директор по развитию бизнеса направлений E-Commerce, Loyalty & Mobipty ГК «КОРУС Консалтинг»

1. Классической характеристикой Больших данных являются три V: Volume (объем данных), Velocity (скорость их накопления), Variety (многообразие – данные могут быть структурированными и неструктурированными). Всем этим характеристикам отвечают несколько отраслей, среди которых – телеком, розничная торговля, финансовая (банковская) и страховая отрасли. Большое количество стартапов по части Больших данных, появляющихся для этих отраслей, тому подтверждение. Перспективы развития таких технологий очень велики: к примеру, ретейл – это очень насыщенный игроками рынок, и любые трудновоспроизводимые конкурентами технологии, позволяющие повысить конверсию, а значит, и прибыль, будут сильно востребованы.

Для телекома интересны решения в области fraud detection (выявления мошенничества), для розницы – next best offer (лучшее следующее предложение), для банков – опять же в области fraud detection и онлайн-расчета кредитного скоринга. Продолжающие набирать бизнес-популярность SMM с помощью технологий Больших данных можно будет использовать, например, по части выявления лидеров мнений. Все вышеперечисленные бизнес-процессы подразумевают обработку данных гигантских объемов, имеющих разный характер, неструктурируемых и накапливающихся с очень большой скоростью – это и есть основная задача, решаемая посредством технологий Big Data.

На данный момент особенно большое количество решений в этой области разрабатывается для сферы ретейла – например, инструменты сегментации и персонализации на основе совокупной базы данных клиентов и истории покупок, причем некоторые технологии позволяют обрабатывать данные даже на кассах. Примеры подобных специализированных решений – RichRelevance , Prudsys, G-Stat. Кроме того, существуют и российские аналогичные системы, например, Rees46, RetailRocket, Yandex Data Factory.

Полное мнение экспертов доступно на сайте БИТ