<br />
<b>Notice</b>:  Undefined variable: attachment_post_details in <b>/home/customer/www/dtconsult.org/public_html/wp-content/themes/icompany/single.php</b> on line <b>125</b><br />

Разобравшись с тем, для чего необходимо анализировать большие данные и какие специалисты могут этим заниматься, мы подошли к следующему важному вопросу: где и как их собирать? Несомненно, одна из самых сложных составляющих процесса анализа больших данных – это найти источники данных. Как правило, необходимо принимать во внимание несколько важных аспектов, которые их характеризуют.

Чтобы понять, насколько данные, получаемые из определенного источника, могут быть использованы для анализа, необходимо оценить их по следующим критериям:
1. Структура данных (структурированные, полуструктурированные, неструктурированные…)
2. Источник данных (личный, публичный, внутренний, внешний…)
3. Качество данных
4. Тип и место хранения данных
5. Отношения и взаимосвязь между данными
Эти и другие элементы могут существенно повлиять на то, будут ли конкретные данные полезны для анализа, и как такие данные необходимо подготовить к анализу.

Извлечение информации из массивов данных – это не только обработка данных с помощью алгоритмов. Это, в первую очередь, трансформация данных в формат, с которым можно работать дальше. Для этого нужна платформа. Поэтому после обнаружения заслуживающего доверия источника данных, данные переносятся в платформу для анализа – тут сложность процесса, конечно, зависит и от данных, и от используемой программы. Где-то будет достаточно просто скопировать, а где-то будет необходимо оцифровывать, индексировать, классифицировать и т.п. После этого можно заниматься разработкой образцов и скриптов для автоматизации сбора данных в будущем – это значительно облегчит процесс.

Еще один важный этап процесса анализа больших данных – собственно добыть эти данные. Говоря словами Фрэнка Олхорста, “найти данные для анализа – это отчасти наука, отчасти следовательская работа и отчасти предположения”. Наиболее логичными источниками данных служат логи вебсайтов, информация с сенсоров и электронные транзакции. Однако важными могут оказаться буквально любые данные, которые компания получает в ходе своей бизнес-деятельности. Рекомендуется найти как можно больше источников данных и перенести эти данные в платформу аналитики. Если с внутренними данными все достаточно просто, то поиск и получение внешних, неструктурированных данных, а также тех, которые с компанией напрямую не связаны, – это уже работа посложнее. На вопрос “где взять данные для анализа” ответить не так просто, ответ будет неоднозначным, и уж точно уникальным для каждой компании, и особенно сильно будет зависеть от того, для какой конкретной цели предполагается анализ. К примеру, для анализа трендов рынка будут важны одни данные, а для достижения высокой степени удовлетворенности клиентов – совершенно другие.

Далее, как и для любого успешного проекта, для анализа больших данных важно определить и поставить конкретные цели. С целью вроде “извлечь как можно больше пользы из всех данных, которые нам доступны”, к сожалению, далеко не уедешь. И дело тут не только в расплывчатости самой цели, но и в том, что с этой целью данных для анализа наберется столько, что анализировать – не переанализировать. Поэтому – ставить цели нужно. К примеру, повысить продажи. Из этой главной цели вытекают конкретные задачи – шаги, которые нужно сделать для того, чтобы цель была достигнута. А задачи определяют, какие именно данные понадобятся для проекта, где их взять и как анализировать.

Важно помнить о разнообразии источников данных и пытаться «примерить» каждый из них к поставленной цели. Например, с целью повышения продаж в розничной торговле начать можно с внутренних структурированных данных (зарегистрированные транзакции, информация о клиентах, цены, взаимодействие с поставщиками), потом перейти к внутренним неструктурированным (записи клиентской поддержки, отзывы и письма клиентов, обзоры, анкетирование) и, наконец, рассмотреть необходимость внешних данных (они могут “найтись” онлайн, быть куплены у компаний, профессионально занимающихся исследованием рынка, и т.п.).

Важно также помнить, что новые источники больших данных возникают и растут буквально каждый день. Некоторые из этих данных могут быть не сразу очевидны – как полезные для конкретной цели вашей компании. Поэтому имеет смысл постоянно держать руку на пульсе и отслеживать потенциальные источники дополнительных важных данных. Это могут быть дисконтные карты, используемые клиентами, социальные сети и так далее.

И, кстати говоря, многие данные могут быть получены совершенно бесплатно или за умеренную оплату онлайн. К примеру, достаточно простые в использовании онлайн платформы и инструменты – www.Extrativ.com, www.Mozenda.com, 80Legs, Google Refine (для сбора данных), www.mTurk.com, BigSheets, Grep (для анализа), www.OpenHeatMap.com, www.Gephi.org, Tableau Public (для визуализации).