Система измерения в big data. Что такое Big Data: характеристики, классификация, примеры. Задачи, связанные с Big Data

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Удивительный рост Биг-Даты

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

  • Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
  • Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
  • Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

  • Все лгут. Поисковики, Big Data и Интернет знают о вас всё .
  • BIG DATA. Вся технология в одной книге .
  • Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги .
  • Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики .

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

  • Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
  • Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
  • Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ​​ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.



Как вам статья? Еще более годный контент на моем замечательном YouTube-канале

Только остороженее! На моем ютубе можно стать слишком умным... 👇

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.

Позавчера в новостной ленте 3 поста про Big Data. Вчера, коллега прислал заметку про тоже самое. Сегодня позвонили из "Билайна" и пригласили на бизнес-завтрак по Big Data. Не пошел! Я с готовностью и с открытым разумом "за" современные цифровые технологии. Я против профанации экспертности и несущих ее высокообразованных профанов.

Несколько слов адептам "больших данных", совершенно понятных маркетологам.

Что такое Big Data?

Пару слов тем, кто не совсем знаком с этим термином. Big data – это собственно большой проток плохо структурированных и не связанных друг с другом данных, полученных из несвязанных источников; их анализ и построение моделей прогнозирования события на их основе. Термин этот появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года.

Как бы сказать проще? Big Data – это такие данные:

  • которые невозможно обрабатывать в Excel
  • взаимосвязь между которыми не видит человек
  • к тем, что еще вчера не успели обработать,– это еще и постоянно поступающие новые данные за новый период.

Откуда эти данные?

Ежесекундно гигантские мегатонны контента генерируют события в мире, новостные порталы, бренды, их торговые и информационные посредники. В каждом магазине на входе стоит датчик, который фиксирует появление в торговом зале нового посетителя. Платежные онлайн-системы фиксируют транзакции, банки – движение наличных и безналичных денег, магазины считают чеки и анализируют их суммы. Поисковые системы фиксируют количество и частоту интернет-запросов. Социальные сети видят количество упоминаний тех или иных марок, по сопутствующему окружению, понимают характер и причину упоминания, настроение и отношение.

Ну что, маркетологи, у вас еще не загорелись глаза, руки от предвкушения "знать все" не дрожат? Спокойно! Это не для вас! Чтобы получить, собрать воедино, осмыслить все эти беспорядочные данные, нужно использовать ультрасовременную аналитику с привлечением искусственного интеллекта и чудовищные по объему хранилища этих данных. Если с хранилищами все решаемо, то вот искусственный интеллект нужно еще обучить. Впрочем, о сложности этой задачи ниже, а пока сохраним естественное для маркетолога желание "знать все" о потребителях и пойдем разбираться.

С Big Data есть вполне конкретный подвох.

Возьмите детский совочек, нагребите в него побольше песочка, простите, данных и попробуйте проанализировать то, что собрали

Мусор на входе – ошибки на выходе

Любой знакомый с информатикой, IT-технологиями и аналитикой понимает, что качество входящих данных и их достоверность – первейшая вещь. Очень просто черпать и накапливать данные, но вот как быть уверенным в том, что собрали вы то, там и о том?
  • Вы хотите получать данные из интернета? Замечательно. Любой бот способен генерировать трафика и данных на порядки больше, чем это наплодит ваша целевая аудитория! По оценке американской организации Association of National Advertisers, в 2015 году бренды потратили на закупку фальшивого, несуществующего трафика $7,2 млрд, а в прошлом году показатель вырос до $10 млрд.
  • Компания CNBC подсчитала, что в 2016-м до 20% выделяемых на интернет-рекламу бюджетов были потрачены на трафик, который генерировали боты (англ. non-human traffic).
  • Датчики на входе в магазин? Да весь персонал, периодически выходящий курить, нагенерирует посещения вашего магазина столько, что сделает эти данные бессмысленными. Праздно болтающиеся по торговому центру и периодически заходящие в ваш магазин "не покупатели" окончательно добьют идею "подсчитать магазинный трафик". Вы говорите, что эти цифры "праздных" можно спрогнозировать моделью и отсечь? Замечатльно, но как увидеть и отсечь рост "праздных", вызванный ATL-рекламной этого ТЦ или якорного арендатора? А если одновременно с этим идет и ваша массовая реклама?
  • Логичное машинное программирование никак не учтет тот факт, что "лайки" люди ставят не всегда выражая этим одобрение. Делают они это: из жалости, спонтанно, по привычке, из-за одобрения самого автора, а не его конкретного мнения, лайкают и боты и т.п.
Самая большая проблема в "больших данных" - это собственно, данные. Что касается людей, не стоит все ими сгенерированное слишком уж определенно брать на веру. Потребители путаются, сотрудники лгут, подрядчики, замотивированные на результат –– подтасовывают.

Неполнота данных

Давайте рассмотрим такую, в общем-то тривиальную для маркетинга задачу, как мониторинг (пока еще не прогнозирование) поведения целевой группы. И еще более конкретный предмет наблюдения, как социальное взаимодействие членов этой целевой группы. Зачем это нужно? Одной из целей взаимодействия является уменьшения неопределенностей – получение знаний и снятие сомнения при выборе, в отношении вашего предмета маркетинга. Такое уменьшение неопределенности является следствием совместного участия людей в межиндивидуальных или групповых видах деятельности, например, в ходе общения в соцсетях.

Беда же в том, что сколько бы мы не собирали "большие данные", но это общение не ограничивается только соцсетями. Люди общаются в офлайне: коллеги на работе, случайное общение членов ЦА на отдыхе, совместная выпивка в пабе, случайный разговор в общественном транспорте. Такое взаимодействие будет не подконтрольно наблюдателям за Big Data. По настоящему полнота данных может быть обеспечена только:

  • При тотальном контроле за всеми членами целевой группы. Ибо даже в туалете общественного кинотеатра может произойти такое взаимодействие, не учтенное для последующего анализа!
  • В замкнутой системе. Скажем, подсчитать число пользователей, пользующихся многоразовыми проездными билетами в метро и понять, какая же часть этого множества пользуется еще и наземным общественным транспортном. Но как подсчитать сколько же из не воспользовавшихся использовали такси?
Вторая проблема неполноты данных в том, что процесс такого взаимодействия имеет два аспекта: объективный и субъективный. Объективная сторона – это связи, не зависящие от отдельных личностей или групп, но объективно и содержательно способные быть учтенными в Big Data (например, купля/продажа, передача ии прием единицы информации). Это может быть учтено, подсчитано, обработано и на этом можно построить модель.

Субъективная сторона взаимодействия – это сознательное, нередко эмоционально окрашенное отношение индивидов друг к другу, возникающее в процессе взаимодействия: взаимные ожидания определенного поведения или реакции, личная расположенность к партнеру по взаимодействию, приятность внешнего вида и голоса партнера и тому подобное. Все это влияет, как на само взаимодействие, так и на результат такого взаимодействия. Эти же аспекты очень трудно проследить и проанализировать. Суррогатом, позволяющим хоть как-то проследить субъективный аспект взаимодействия являются лайки, смайлики в соцсетях. По их наличию можно попытаться определить степень вовлеченности, настроение и отношение. Но, черт возьми, как это сделать, если взаимодействующие их не используют? И уж конечно же эмоджи люди не используют на улицах, в магазинах, в транспорте – люди не живут в соцсетх и за их пределами общаются иначе!

Анализировать взаимодействия членов целевой группы только по факту взаимодействия (продажа) или только там, где вы хотите наблюдать такое взаимодействие (магазин), не учитывать субъективное качество взаимодействия – это обрекать себя не непонимания того, продолжится ли такое взаимодействие завтра, будут ли еще покупки в этом магазине – понравилось ли покупать, удовлетворены ли предметом маркетинга или нет.

Обезьяна, граната, а в гранате – Big Data

Зачастую, анализируя что-то маркетинговое с рынка, мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой: падение числа чеков с нашим товаром и рост цен на товары потребительской корзины. Если такие явления происходят параллельно и довольно длительное время, что в голове маркетингового специалиста может возникнуть мало чем обоснованное предположение о том, что это как-то взаимосвязано. Есть такое понятие "эпифеномен" - это ошибка причинно-следственных связей.

Н. Талеб в «Антихрупкости» говорит:

Если птицам читать лекции об теории полета, то они станут летать - вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью - «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот - сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Таргетированная реклама при помощи Big Data - это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались - когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам или когда вы уже товару купили, а еще месяц после вам показывают контекстно именно этот товар. Кто-то же в этот момент "палит" на вас деньги!?

Big Data в руках генераторов теорий - это идеальный инструмент для открытия и продвижения эпифеномена, а накопление данных и наблюдение за ними, в отсутствие четких моделей прогнозирования, построенных на анализе реалий, а не гипотез, может породить большое число таких ложных "открытий". Почему не основанные ни на чем гипотезы в науке – благо, а в маркетинге – смерть? Если кто-то из ученых напишет диссертацию и ошибется – не страшно, забыто. Но если эти теории проникнут в маркетинг - из прибыльного получится "monkey business".

Вначале научитесь предсказывать погоду на завтра

Научиться собирать данные и отсеивать "мусор" – это проблема, но она не столь значительная, по сравнению с проблемой отсутствие моделей поведения человека, алгоритмов прогнозирования. Есть такая расхожая шутка: "Пошла за розовой кофточкой, но никак не смогла отказать себе в этой лиловой сумочке" – это про и психологию покупательского поведения, которые попытаться спрогнозировать, так же "просто", как погоду на выходные. Способность предсказывать тренды на основе Big Data сильно преувеличена. Дело даже не в отсутствие способностей у маркетинговых аналитиков.

Ошибки прогнозов – это не математические ошибки, а фундаментальная проблема!

Все дело в пресловутом "человеческом факторе". Вероятность того, что замеченное сейчас изменение в поведении или оценках людей повториться в будущем не так уж и высока. Человек самообучаются быстрее, чем строится прогнозная модель. В любой момент во взглядах человека, в социуме, в рыночном сегменте, в ответной реакции брендов на деятельность конкурентов может появиться новый фактор влияния, который сломает все ваши гипотезы.

Несмотря на сотни компьютеров и целую армию метеорологов, никто не умеет предсказывать погоду на три дня вперед, так почему же вы ждете, что будущее вашего рынка можно предсказать на три года вперед?…
Джек Траут, Эл Райс "22 непреложных закона маркетинга"
ISBN: 5-17-024999-3, 978-5
И в этом своем мнении, мэтр совершенно .

Хотите примеры?

Конечно же любое мнение можно опровергнуть. Если не сейчас, то лет через триста, когда и опыт появится и технологии пойдут дальше. Но сегодня есть примеры, подтверждающие сомнения о возможности прогнозирования на Big Data. Примеры эти довольно убедительны.

Как прогнозировали грипп?

Самым любимым у многих адептов предсказаний на "биг дата" был Google Flu Trends - графики убедительно показывали, что можно предсказывать эпидемии гриппа в интернете, быстрее и надежнее, чем врачи. Достаточно проанализировать запросы пользователей о названии лекарств, их описаний и адресов аптек. Этот пример кочевал из презентации в презентации, из статьи в статью. В результате попал и в серьезные книжки. Раз сработало, а дальше? Все оказалось не точнее, чем у отечественного Гидрометцентра. Первый сигнал об ошибке был в 2009 году, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой - Google Flu Trends более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Прогноз победы

Во время выборов в Конгресс на праймерез в Виргини, по мнению аналитиков, на выборах должен был победить Э. Кантор из Республиканской партии. И действительно, он шел с отрывом в 34% от конкурентов. Однако, сокрушительно проиграл - минус 10% от победившего. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель. Но пример победы на выборах президента Трампа и однозначные прогнозы всех аналитиков не в его пользу – это куда более убедительный пример того, что прогнозы на Big Data – дело стрёмное!

Пишите длинные тексты

… учили еще несколько лет назад те, кто наблюдал за алгоритмом ранжирования поисковой системы Google. Две тысячи знаков, цифры и буллиты, ссылки на первоисточники – это то немногое, что сулило успех в ранжировании сайта. В ходе практической реализации этого совета, SEO-специалисты начали повально писать сложные и длинные тексты, даже на главную страницу сайта – если ты знаешь алгоритм, то всегда можешь повлиять на результаты. Если вы знаете алгоритм работы прогноза на основе Big Data вы легко можете обмануть систему.

Ворота МТС

Еще в 2015 году на Форуме "Future of Telecom" руководитель направления Big Data компании "МТС" Виталий Сагинов рассказывал о подходах компании в развитии направления по работе с "большими данными". В своем докладе он отмечал: "в ближайшее время доходы компании от продажи аналитики на данных будут сопоставимы с доходами от меседжинга и SMS". Замечательно, но в мае 2018 года все новостные ленты и ТВ облетела информация о том, что житель Москвы Алексей Надежин клиент этого сотового оператора связи обнаружил, что его ворота, установленные, на въезде в садоводческое товарищество "самостоятельно" подписались на платные SMS-сервисы отвечали на посылаемую им информацию.

В пресс-службе МТС тогда рассказали, что "специалисты провели необходимые работы, чтобы подобный случай не повторился". Означает ли это, что ворота сами что-то набирали в телефоне или подписки были оформлены без согласия абонента, в комментарии компании не уточняется. Вот только на симку, установленную в автоматике ворот приходило множество СМС с коротких номеров, а ворота, оказывается, "сами" им отвечали, отправляя СМС в ответ. Ну и где же результат многолетней работы с "большими данными" для недопущения подобного? Заявлять о умении собирать, анализировать и прогнозировать на Big Data – это еще не означает делать это с адекватным качеством!

А что Procter&Gamble?

На крупнейшей европейской выставки и конференции по вопросам цифрового маркетинга Dmexco’2017, прошедшей в Кельне, Procter&Gamble в своей презентации подробно остановился на том, что компания сильно сократила бюджеты, выделяемые на программатические закупки. Крупнейший транснациональный рекламодатель такого уровня впервые открыто, на публике спорил с тезисом рекламно-технологических компаний (англ. AdTech), до сих пор утверждавших, что охват пользователей гораздо важнее источника прямого рекламного трафика. В результате компания радикально сократила список интернет-площадок на которых готова размещать свою рекламу – нет адекватной прогнозной модели, незачем тратить деньги на формирование чего-либо в будущем.

Как Сбербанк от искусственного интеллекта пострадал

В феврале 2019 года во время своего выступления на «Уроке цифры» в частной школе в Москве глава Сбербанка Герман Греф, отвечая на вопрос о рисках внедрения технологий, сказал: «Искусственный интеллект, как правило, принимает решение в больших системах. Маленькая ошибка, закравшаяся в алгоритм, может приводить к очень большим последствиям». Отвечая на запрос РБК о сути потерь от внедрения искусственного интеллекта, в пресс-службе Сбербанка уточнили, что «речь идет не о прямых убытках, а скорее о недополученной прибыли». Тем не менее, глава банка высказался о потерях определенно, смысл его заявления в том, что Сбербанк в результате ошибок искусственного интеллекта уже потерял миллиарды рублей.

Big Data в маркетинге - пора расстаться с иллюзиями

Сколько бы поколений предсказателей не жило на Земле, сколько бы шаманов и жрецов не перепробовало все возможные инструменты предсказания, результат один, – деньги из кармана озабоченного будущем перекачивали в карман предсказателя. Сегодня вооружившись сверх мощными компьютерами, предсказатели пытаются делать тоже самое, что их достопочтенные основатели этой древнейшей профессии. Представление о человеке, как о предсказуемом и прогнозируемом автомате – ошибочно. Вот сегодня Big Data – очередной фетиш и очередной "хрустальный шар" в длинном многовековом перечне атрибутов предсказателей будущего. Все "убедительные примеры" способности к предсказанию на Big Data разваливаются или будут опровергнуты жестокой реальностью в ближайшие же годы.

Имеющие доступ к статистике: банки, телефонные компании, агрегаторы, вчера еще не знали зачем эти данные им самим нужны, а сегодня непременно хотят заработать на своих клиентах еще раз, перепродав им колонки цифр.

Уставшие от хайпа с Big Data

Разумеется, нельзя сказать, что Google Flu Trends совсем не работает, а предсказание на основе Big Data – мошенничество. Просто молоток можно использовать для создания прекрасного, но большинство его используют для починки убогого, а некоторые – и вовсе не во благо. Сейчас, похоже, что сильно увеличившееся давление предсказателей на Big Data, начало маркетологам мешать. Везде! Кроме как, в России – у нас все, даже самые прогрессивные и быстро набирающие обороты тенденции, наблюдаются с запаздыванием лет на пять.

Что до остального мира, то рекламодатели устали от многолетнего хайпа вокруг Big Data. Вообще же, первое, что тогда на Dmexco’2017 бросилось в глаза в первый же день выставки – из выступлений и презентаций практически стал исчезать термин Big Data. Это было заметно, так как последние четыре года этим словосочетанием пользовался каждый второй выступающий. И причина ослабевания "Big Data давления" на бизнес-сообщество и интернет-сообщество понятна:

Много трафика – много данных, много фальшивого трафика генерирует много фальшивых данных, на основе которых строятся недостоверные модели, на следование которым тратятся многомиллиардные бюджеты.

Что же дальше?

Если до сих пор все мысли IT-специалистов и аналитиков были заняты созданием баз данных, созданием принципов хранения, классификации информации, полученной из разных источников, то теперь, когда подобные хранилища созданы, для многих брендов стала очевидной бессмысленность анализа разных источников, накопления и складирования данных как таковых. Хранение и поверхностный анализ больших объемов информации стоит больших денег и не оправдывает себя, если нет моделей сопоставления данных, если бренд не в состоянии обработать и использовать статистику для повышения эффективности продаж – нет практической ценности.

Результатом переосмысления задачи "получить доступ к данным в маркетинге" стало появление нового термина, который отражает рост спроса на эффективное использование данных. В своих выступлениях на Dmexco’2017, в блогах и на конференциях, докладчики все чаще говорят о технологиях работы с большими данными как части (англ. predictive marketing).

Ну это про маркетинг! А что же с предсказанием на Big Data вообще? Однозначно это сработает в естественных науках, там, где есть накопленные данные за многолетний период, где за это же время откатана строгая математическая модель и понимание протекающих естественных процессов. Это реально сработает если анализировать макро-тенденции, происходящие в макромасштабе – тренды общества. Это реально сработатет, если анализировать замкнутые устойчивые системы микромасштаба (деревня, магазин на станции, на которую никогда не приходят поезда со случайными покупателями). Это применимо для оценки поведения в будущем конкретного человека. Но как только появляется взаимное влияние, вновь возникающие тенденции, "черные лебеди" (Насим Талеб) – исследуемая система предстает "черным ящиком".

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Важно . Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

  • интернет-документы;
  • блоги и социальные сети;
  • аудио/видео источники;
  • измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

  1. Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
  2. Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
  3. Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это – viability - жизнеспособность, в других же это – value - ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

НАС УЖЕ БОЛЕЕ 29 000 чел.
ВКЛЮЧАЙТЕСЬ

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

  1. Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.

    Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;

  2. Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
  3. Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

  • Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
  • Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
  • Узнать новую информацию о своих клиентах.

И именно потому что технология big data дает следующие результаты, все с ней и носятся.

Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

  1. Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
  2. Поиск популярных товаров и причин почему их покупают (и наоборот);
  3. Усовершенствование продукта или услуги;
  4. Улучшение уровня обслуживания;
  5. Повышение лояльности и клиентоориентированности;
  6. Предупреждение мошенничества (больше актуально для банковской сферы);
  7. Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках – это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Идём в будущее

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта – сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и… засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

  1. В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.

    Всю – это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;

  2. Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
  3. На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

Но… Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и… государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

  1. Сбербанк;
  2. Газпромбанк;
  3. ВТБ 24;
  4. Альфа Банк;
  5. Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых – более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

  1. Большой объем текстовой документации;
  2. Открытые источники (частные спутники, передающие данные об изменениях земли);
  3. Огромный объем неконтролируемой информации в Интернет;
  4. Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Ну и на закуску

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные – это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

  • Hadoop & MapReduce;
  • NoSQL базы данных;
  • Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний – обязательно.

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?