Видео: Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains] 2024
Анализ журнала является распространенным вариантом для первого проекта Hadoop. В самом деле, самые ранние применения Hadoop были для крупномасштабного анализа журналов журналов clickstream , которые записывают данные о веб-страницах, которые посещают люди, и в каком порядке они посещают их.
Все журналы данных, генерируемые вашей ИТ-инфраструктурой, часто называются выхлопами данных . Журнал является побочным продуктом функционирующего сервера, подобно дыму, поступающему из выхлопной трубы рабочего двигателя. Выхлопы данных имеют коннотацию загрязнения или отходов, и многие предприятия, без сомнения, подходят к данным такого рода с учетом этой мысли.
Данные журнала часто быстро растут, и из-за больших объемов производства, может оказаться утомительным для анализа. И потенциальная ценность этих данных часто неясна. Таким образом, соблазн в ИТ-отделах заключается в том, чтобы хранить данные журнала как можно меньше времени. (В конце концов, для сохранения данных стоит денег, а если нет ощутимой стоимости бизнеса, зачем его хранить?)
Но Hadoop меняет математику: стоимость хранения данных сравнительно недорогая, а Hadoop был первоначально разработан специально для крупномасштабная пакетная обработка данных журнала.
Случай использования анализа данных журнала - это полезное место, чтобы начать ваше путешествие по Hadoop, потому что есть хорошие шансы на то, что данные, с которыми вы работаете, были удалены или «упали на пол». «Некоторые компании, которые последовательно регистрируют терабайт (ТБ) или больше активности веб-клиента в неделю, отбрасывают данные без анализа (что заставляет вас задаться вопросом, почему они потрудились его собирать).
Чтобы быстро начать работу, данные в этом прецеденте, вероятно, легко получить и, как правило, не охватывают те же проблемы, с которыми вы столкнетесь, если начнете путешествие по Hadoop с другими (управляемыми) данными.
Когда отраслевые аналитики обсуждают быстро растущие объемы данных, которые существуют (4,1 эксабайта с 2014 года - более 4 миллионов 1 ТБ жестких дисков), лог-данные составляют большую часть этого роста. И неудивительно: почти каждый аспект жизни теперь приводит к генерации данных. Смартфон может генерировать сотни записей журналов в день для активного пользователя, отслеживая не только передачу голоса, текста и данных, но также и данные геолокации.
В большинстве домохозяйств теперь есть умные счетчики, которые регистрируют свое использование электричества. Новые автомобили имеют тысячи датчиков, которые фиксируют аспекты их состояния и использования. Каждое движение кликов и мышей, которое вы делаете при просмотре в Интернете, вызывает создание каскада записей журнала.
Каждый раз, когда вы что-то покупаете - даже без использования кредитной карты или дебетовой карты - системы регистрируют активность в базах данных - и в журналах.Вы можете увидеть некоторые из наиболее распространенных источников данных журнала: ИТ-серверы, веб-клики, датчики и транзакционные системы.
Каждая отрасль (а также все описанные типы журналов) обладают огромным потенциалом для ценного анализа - особенно когда вы можете обнулить конкретный вид деятельности, а затем сопоставить полученные данные с другим набором данных, чтобы обеспечить контекст.
В качестве примера рассмотрим этот типичный веб-браузер и опыт покупки:
-
Вы просматриваете сайт, ища товары для покупки.
-
Вы щелкаете, чтобы прочитать описания продукта, который бросается в глаза.
-
В конце концов, вы добавляете товар в свою корзину покупок и приступаете к оформлению (действие по покупке).
Однако, увидев стоимость доставки, вы решили, что товар не стоит цены, и вы закрываете окно браузера. Каждый клик, который вы сделали, а затем прекратил делать, может потенциально предложить ценную информацию для компании, стоящей за этим сайтом электронной коммерции.
В этом примере предположим, что этот бизнес собирает данные по потоку (данные о каждом щелчке мыши и просмотре страницы, которые посетитель «затрагивает»), чтобы понять, как лучше обслуживать своих клиентов. Одной из распространенных проблем среди предприятий электронной коммерции является признание ключевых факторов заброшенных тележек для покупок. Когда вы выполняете более глубокий анализ данных кликов и изучаете поведение пользователей на сайте, шаблоны обязательно появятся.
Знает ли ваша компания ответ на кажущийся простой вопрос: «Являются ли определенные продукты брошенными больше, чем другие? «Или ответ на вопрос:« Сколько дохода можно вернуть, если вы уменьшите оставление корзины на 10 процентов? «Ниже приводится пример отчетов, которые вы можете показать своим бизнес-лидерам, чтобы искать их инвестиции в свою причину Hadoop.
Чтобы добраться до точки, где вы можете генерировать данные для построения отображаемых графиков, вы изолируете сеансы веб-просмотра отдельных пользователей (процесс, известный как сеанс) , идентифицируйте содержимое своих тележек для покупок, а затем установить состояние транзакции в конце сеанса - все, просмотрев данные об обратном потоке.
Ниже приведен пример того, как собирать сеансы веб-просмотра пользователей, группируя все клики и URL-адреса по IP-адресу.
В контексте Hadoop вы всегда работаете с ключами и значениями - каждая фаза MapReduce вводит и выводит данные в наборах ключей и значений. Ключ - это IP-адрес, а значение состоит из метки времени и URL-адреса. Во время фазы карты пользовательские сеансы собираются параллельно для всех блоков файлов набора данных кликов, которые хранятся в вашем кластере Hadoop.
Фаза карты возвращает эти элементы:
-
Последняя посещенная страница
-
Список элементов в корзине покупок
-
Состояние транзакции для каждого пользовательского сеанса (с индексом по ключу IP-адреса) < Редуктор подбирает эти записи и выполняет скопления, чтобы суммировать количество и стоимость заброшенных тележек в месяц и предоставлять итоговые данные наиболее распространенных конечных страниц, которые были просмотрены до окончания сеанса пользователя.