Дом Личные финансы Журнал Анализ данных с помощью Hadoop - манекены

Журнал Анализ данных с помощью Hadoop - манекены

Видео: Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains] 2024

Видео: Big Data. Знакомство с одной из самых сексапильных IT специальностей 21 века [GeekBrains] 2024
Anonim

Анализ журнала является распространенным вариантом для первого проекта Hadoop. В самом деле, самые ранние применения Hadoop были для крупномасштабного анализа журналов журналов clickstream , которые записывают данные о веб-страницах, которые посещают люди, и в каком порядке они посещают их.

Все журналы данных, генерируемые вашей ИТ-инфраструктурой, часто называются выхлопами данных . Журнал является побочным продуктом функционирующего сервера, подобно дыму, поступающему из выхлопной трубы рабочего двигателя. Выхлопы данных имеют коннотацию загрязнения или отходов, и многие предприятия, без сомнения, подходят к данным такого рода с учетом этой мысли.

Данные журнала часто быстро растут, и из-за больших объемов производства, может оказаться утомительным для анализа. И потенциальная ценность этих данных часто неясна. Таким образом, соблазн в ИТ-отделах заключается в том, чтобы хранить данные журнала как можно меньше времени. (В конце концов, для сохранения данных стоит денег, а если нет ощутимой стоимости бизнеса, зачем его хранить?)

Но Hadoop меняет математику: стоимость хранения данных сравнительно недорогая, а Hadoop был первоначально разработан специально для крупномасштабная пакетная обработка данных журнала.

Случай использования анализа данных журнала - это полезное место, чтобы начать ваше путешествие по Hadoop, потому что есть хорошие шансы на то, что данные, с которыми вы работаете, были удалены или «упали на пол». «Некоторые компании, которые последовательно регистрируют терабайт (ТБ) или больше активности веб-клиента в неделю, отбрасывают данные без анализа (что заставляет вас задаться вопросом, почему они потрудились его собирать).

Чтобы быстро начать работу, данные в этом прецеденте, вероятно, легко получить и, как правило, не охватывают те же проблемы, с которыми вы столкнетесь, если начнете путешествие по Hadoop с другими (управляемыми) данными.

Когда отраслевые аналитики обсуждают быстро растущие объемы данных, которые существуют (4,1 эксабайта с 2014 года - более 4 миллионов 1 ТБ жестких дисков), лог-данные составляют большую часть этого роста. И неудивительно: почти каждый аспект жизни теперь приводит к генерации данных. Смартфон может генерировать сотни записей журналов в день для активного пользователя, отслеживая не только передачу голоса, текста и данных, но также и данные геолокации.

В большинстве домохозяйств теперь есть умные счетчики, которые регистрируют свое использование электричества. Новые автомобили имеют тысячи датчиков, которые фиксируют аспекты их состояния и использования. Каждое движение кликов и мышей, которое вы делаете при просмотре в Интернете, вызывает создание каскада записей журнала.

Каждый раз, когда вы что-то покупаете - даже без использования кредитной карты или дебетовой карты - системы регистрируют активность в базах данных - и в журналах.Вы можете увидеть некоторые из наиболее распространенных источников данных журнала: ИТ-серверы, веб-клики, датчики и транзакционные системы.

Каждая отрасль (а также все описанные типы журналов) обладают огромным потенциалом для ценного анализа - особенно когда вы можете обнулить конкретный вид деятельности, а затем сопоставить полученные данные с другим набором данных, чтобы обеспечить контекст.

В качестве примера рассмотрим этот типичный веб-браузер и опыт покупки:

  1. Вы просматриваете сайт, ища товары для покупки.

  2. Вы щелкаете, чтобы прочитать описания продукта, который бросается в глаза.

  3. В конце концов, вы добавляете товар в свою корзину покупок и приступаете к оформлению (действие по покупке).

Однако, увидев стоимость доставки, вы решили, что товар не стоит цены, и вы закрываете окно браузера. Каждый клик, который вы сделали, а затем прекратил делать, может потенциально предложить ценную информацию для компании, стоящей за этим сайтом электронной коммерции.

В этом примере предположим, что этот бизнес собирает данные по потоку (данные о каждом щелчке мыши и просмотре страницы, которые посетитель «затрагивает»), чтобы понять, как лучше обслуживать своих клиентов. Одной из распространенных проблем среди предприятий электронной коммерции является признание ключевых факторов заброшенных тележек для покупок. Когда вы выполняете более глубокий анализ данных кликов и изучаете поведение пользователей на сайте, шаблоны обязательно появятся.

Знает ли ваша компания ответ на кажущийся простой вопрос: «Являются ли определенные продукты брошенными больше, чем другие? «Или ответ на вопрос:« Сколько дохода можно вернуть, если вы уменьшите оставление корзины на 10 процентов? «Ниже приводится пример отчетов, которые вы можете показать своим бизнес-лидерам, чтобы искать их инвестиции в свою причину Hadoop.

Чтобы добраться до точки, где вы можете генерировать данные для построения отображаемых графиков, вы изолируете сеансы веб-просмотра отдельных пользователей (процесс, известный как сеанс) , идентифицируйте содержимое своих тележек для покупок, а затем установить состояние транзакции в конце сеанса - все, просмотрев данные об обратном потоке.

Ниже приведен пример того, как собирать сеансы веб-просмотра пользователей, группируя все клики и URL-адреса по IP-адресу.

В контексте Hadoop вы всегда работаете с ключами и значениями - каждая фаза MapReduce вводит и выводит данные в наборах ключей и значений. Ключ - это IP-адрес, а значение состоит из метки времени и URL-адреса. Во время фазы карты пользовательские сеансы собираются параллельно для всех блоков файлов набора данных кликов, которые хранятся в вашем кластере Hadoop.

Фаза карты возвращает эти элементы:

  • Последняя посещенная страница

  • Список элементов в корзине покупок

  • Состояние транзакции для каждого пользовательского сеанса (с индексом по ключу IP-адреса) < Редуктор подбирает эти записи и выполняет скопления, чтобы суммировать количество и стоимость заброшенных тележек в месяц и предоставлять итоговые данные наиболее распространенных конечных страниц, которые были просмотрены до окончания сеанса пользователя.

Журнал Анализ данных с помощью Hadoop - манекены

Выбор редактора

Как разделить рабочий лист на Windows в Excel 2013 - манекены

Как разделить рабочий лист на Windows в Excel 2013 - манекены

, Хотя масштабирование на листе может помогите вам ориентироваться в Excel 2013, он не может разделить рабочий лист на два отдельных окна, чтобы вы могли сравнивать свои данные на экране. Чтобы управлять этим трюком, разделите область Рабочего листа на отдельные панели и затем прокрутите рабочий лист на каждой панели, чтобы ...

Как запустить Excel 2016 в Windows 10 - манекены

Как запустить Excel 2016 в Windows 10 - манекены

Excel 2016 работает только под Windows 7, 8, и, конечно же, новая операционная система Windows 10. Это означает, что если на вашем ПК установлены старые версии Windows Vista или XP, вы должны обновить их до того, как сможете успешно установить и запустить Excel 2016. Запуск Excel из меню «Пуск» Windows 10 Windows 10 ...

Как разделить окно рабочего листа Excel 2010 - манекены

Как разделить окно рабочего листа Excel 2010 - манекены

В Excel 2010 вы можете разделить окно рабочего листа в отдельные панели и прокручивать рабочий лист в каждой панели, чтобы вы могли легко сравнивать данные из двух отдельных мест листа. Вы можете удалить окна в окне рабочей книги, дважды щелкнув в любом месте разделительной панели, которая делит окно. Чтобы разделить ...

Выбор редактора

Как создать Pinterest Boards для вашего визуального контента для социального маркетинга - манекены

Как создать Pinterest Boards для вашего визуального контента для социального маркетинга - манекены

На Pinterest, пользователи создают доски, которые являются страницами, основанными на определенной теме. Эти платы, где пользователи будут видеть ваш визуальный социальный маркетинговый контент. На этих досках пользователи пишут контент (отображают изображения с веб-сайтов или загружают их). Плата обычно имеет несколько контактов. Затем содержимое прикрепляется к доске. Штырь ...

Как начать работу с брендом вашей компании на Pinterest - манекены

Как начать работу с брендом вашей компании на Pinterest - манекены

, Прежде чем приступить к использованию Pinterest как социальный маркетолог, вам нужно определить, где будет входить бренд вашей компании. Потратьте некоторое время, чтобы посмотреть, что делают несколько брендов на Pinterest. Whole Foods - отличный пример бизнеса, который эффективно использует Pinterest. Их доски рассказывают историю о том, кто они ...

Как изучить Pinterest для визуального контента для социального маркетинга - манекены

Как изучить Pinterest для визуального контента для социального маркетинга - манекены

, Чтобы начать работу с визуальным социальным маркетингом на Pinterest, ознакомьтесь с содержанием на Pinterest. Изучение контактов, досок и пользователей поможет вам найти контент и найти пользователей, которые разделяют ваши интересы. Вы можете искать контент Pinterest как источник вдохновения для создания контента для своего бизнеса. Pinners связывают содержимое, которое они находят наиболее ...

Выбор редактора

Как защитить механизм маршрутизации Junos - манекены

Как защитить механизм маршрутизации Junos - манекены

, Хотя все интерфейсы важны, интерфейс loopback (lo0) возможно, является самым важным, поскольку это ссылка на механизм маршрутизации, который запускает и контролирует все протоколы маршрутизации. В этой статье представлен скелет фильтра межсетевого экрана, который защищает механизм маршрутизации. Этот пример можно использовать в качестве чертежа для разработки ...

Как устанавливать, настраивать и прикреплять устройства к коммутатору серии Juniper EX

Как устанавливать, настраивать и прикреплять устройства к коммутатору серии Juniper EX

, Прежде чем вы сможете настроить коммутатор EX для VLAN и других функций, вам необходимо установить коммутатор, настроить его и подключить к нему другие устройства. Переключатели Juniper поставляются в отдельных контейнерах. Все переключатели EX, за исключением устройств EX 8200, входят в картонную коробку. Модели EX 8200 намного больше. Чтобы установить эти ...

Как обеспечить избыточность с помощью виртуального шасси Junos - манекены

Как обеспечить избыточность с помощью виртуального шасси Junos - манекены

, Потому что каждый член коммутатора в виртуальном шасси серии EX блок имеет свой собственный механизм маршрутизации (RE), блок виртуального шасси имеет присущую избыточность. Кроме того, вы можете настроить Graceful Routing Engine Switchover (GRES). Прежде чем объяснять разницу между этими двумя типами избыточности, вам нужно посмотреть, как работают REs коммутатора. В ...