Дом Личные финансы Журнал Данные с Flume в HDFS - манекены

Журнал Данные с Flume в HDFS - манекены

Видео: Телефон заблокирован Meizu M3 note 2025

Видео: Телефон заблокирован Meizu M3 note 2025
Anonim

Некоторые из данных, которые попадают в распределенную файловую систему Hadoop (HDFS), могут попасть туда через операции загрузки базы данных или другие типы пакетных процессов, но что если вы хотите захватить данные, поступающие в потоки данных с высокой пропускной способностью, такие как данные журнала приложений? Apache Flume - это текущий стандартный способ сделать это легко, эффективно и безопасно.

Apache Flume , еще один проект верхнего уровня от Apache Software Foundation, представляет собой распределенную систему для агрегирования и перемещения больших объемов потоковых данных из разных источников в централизованное хранилище данных.

Другими словами, Flume предназначен для непрерывного приема данных в HDFS. Данные могут быть любыми данными, но Flume особенно подходит для обработки данных журнала, таких как данные журнала с веб-серверов. Единицы данных, которые процессы Flume называются событиями ; примером события является запись журнала.

Чтобы понять, как Flume работает в кластере Hadoop, вам нужно знать, что Flume работает как один или несколько агентов, и что каждый агент имеет три подключаемых компонента: источники, каналы и приемники:

  • Источники извлекают данные и отправляют их на каналы.

  • Каналы сохраняют очереди данных и служат в качестве каналов между источниками и приемниками, что полезно, когда скорость входящего потока превышает исходящий поток.

  • Снимает данные процесса, которые были взяты из каналов и доставляются в пункт назначения, например HDFS.

Агент должен иметь хотя бы один из каждого компонента для запуска, и каждый агент содержится в его собственном экземпляре виртуальной машины Java (JVM).

Событие, которое записывается в канал источником, не удаляется с этого канала, пока приемник не удалит его посредством транзакции. Если происходит сбой сети, каналы сохраняют свои очереди в очереди, пока приемники не смогут записать их в кластер. Канал в памяти может быстро обрабатывать события, но он изменчив и не может быть восстановлен, тогда как канал на основе файлов обеспечивает постоянство и может быть восстановлен в случае сбоя.

У каждого агента может быть несколько источников, каналов и приемников, и хотя источник может писать по многим каналам, приемник может принимать данные только из одного канала.

Агент - это просто JVM, на котором запущен Flume, а приемники для каждого узла агента в кластере Hadoop отправляют данные в узлы-сборщики , которые агрегируют данные от многих агентов до записывая его в HDFS, где он может быть проанализирован другими инструментами Hadoop.

Агенты могут быть соединены вместе, так что приемник от одного агента отправляет данные в источник от другого агента.Avro, система удаленного вызова и сериализации Apache, является обычным способом отправки данных по сети с помощью Flume, поскольку она служит полезным инструментом для эффективной сериализации или преобразования данных в компактный двоичный формат.

В контексте Flume совместимость важна: для события Avro требуется, например, источник Avro, и раковина должна доставлять события, соответствующие назначению.

Что делает эту отличную цепочку источников, каналов и стоков, является конфигурация Flume agent, которая хранится в локальном текстовом файле, который структурирован как файл свойств Java. Вы можете настроить несколько агентов в одном файле. Посмотрите пример файла, который называется flume-agent. conf - он настроен на настройку агента с именем shaman:

# Определить компоненты шамана агента: шамана. source = netcat_s1 шаман. sinks = hdfs_w1 шаман. channels = in-mem_c1 # Настроить источник: шаман. источники. netcat_s1. type = netcat shaman. источники. netcat_s1. bind = localhost shaman. источники. netcat_s1. port = 44444 # Опишите раковину: шаман. раковины. hdfs_w1. type = hdfs shaman. раковины. hdfs_w1. HDFS. path = hdfs: // шаман. раковины. hdfs_w1. HDFS. writeFormat = текстовый шаман. раковины. hdfs_w1. HDFS. fileType = DataStream # Настроить канал, который буферизует события в памяти: шаман. каналы. в-mem_c1. type = память шамана. каналы. в-mem_c1. мощность = 20000 шаманов. каналы. в-mem_c1. transactionCapacity = 100 # Связывает источник и приемник к каналу: шаман. источники. netcat_s1. channel = in-mem_c1 шаман. раковины. hdfs_w1. channels = in-mem_c1

Файл конфигурации содержит свойства для каждого источника, канала и приемника в агенте и указывает, как они связаны. В этом примере у агента-шамана есть источник, который прослушивает данные (сообщения netcat) на порту 44444, канал, который буферизует данные о событиях в памяти, и приемник, который регистрирует данные событий на консоли.

Этот файл конфигурации мог использоваться для определения нескольких агентов; здесь вы настраиваете только один, чтобы все было просто.

Чтобы запустить агент, используйте сценарий оболочки, называемый flume-ng, который находится в каталоге bin дистрибутива Flume. В командной строке выполните команду agent, указав путь к файлу конфигурации и имени агента.

Следующая команда образца запускает агент Flume:

flume-ng agent -f / -n shaman

В журнале Flume agent должны быть записи, подтверждающие, что источник, канал и приемник успешно запущены.

Чтобы дополнительно проверить конфигурацию, вы можете telnet подключиться к порту 44444 с другого терминала и отправить Flume событие, введя произвольную текстовую строку. Если все пойдет хорошо, исходный терминал Flume выведет событие в сообщении журнала, которое вы сможете увидеть в журнале агента.

Журнал Данные с Flume в HDFS - манекены

Выбор редактора

Коэффициент задолженности в QuickBooks 2012 - манекены

Коэффициент задолженности в QuickBooks 2012 - манекены

Коэффициент задолженности - это один из коэффициентов кредитного плеча, который вы можете использовать в QuickBooks 2012. Коэффициент задолженности просто показывает долг фирмы как процент от ее структуры капитала. Термин «структура капитала» относится к совокупным обязательствам и сумме собственного капитала. Например, в случае показанного баланса капитал ...

, Работающее с несколькими местами инвентаризации в QuickBooks 2016 - манекены

, Работающее с несколькими местами инвентаризации в QuickBooks 2016 - манекены

С довольно элегантной простотой, QuickBooks обрабатывает ваш инвентарь и делает работу хорошо для многих предприятий. К сожалению, вы, вероятно, столкнетесь с настоящей головной болью при использовании наиболее распространенных версий QuickBooks для инвентаря. Что делать, если вы храните инвентарь в нескольких местах - например, на складе в Мичигане и в чикагском дистрибутиве ...

Легкая настройка счетов в QuickBooks 2012 - манекены

Легкая настройка счетов в QuickBooks 2012 - манекены

Диалоговое окно базовой настройки в QuickBooks 2012 предоставляет несколько простых -выполнить настройки настройки счета-фактуры. Когда вы делаете эти настройки, QuickBooks обновляет окно предварительного просмотра, показанное в правой половине диалогового окна «Основная настройка», чтобы вы могли видеть, как выглядят ваши изменения. Чтобы добавить логотип в свои счета, выберите ...

Выбор редактора

Использовать Cut, Copy и Paste в PowerPoint 2007 - манекены

Использовать Cut, Copy и Paste в PowerPoint 2007 - манекены

PowerPoint 2007 использует стандартный Cut , Копировать и Вставить. Эти команды работают с выбранным текстом или с выбранным объектом. Команды «Вырезать и копировать» добавляют материал в буфер обмена, а команда «Вставить» копирует материал из буфера обмена в презентацию. Кнопки ленты для работы с буфером обмена находятся в буфере обмена ...

Десять заповедей PowerPoint 2013 - манекены

Десять заповедей PowerPoint 2013 - манекены

, И так получилось, что эти десять заповедей PowerPoint 2013 были переданы из поколения в поколение. Повинуйтесь этим заповедям, и вам будет хорошо с вашим компьютером, и даже с вашим проектором. I. Ты часто накапливаешь свою работу Каждые две или три минуты, нажмите Ctrl + S. Требуется только ...

Использовать слайд-мастер для повторения изображений или текста в PowerPoint 2013 - манекены

Использовать слайд-мастер для повторения изображений или текста в PowerPoint 2013 - манекены

, Если вы хотите добавьте повторяющийся текст - или какую-нибудь умную иллюстрацию - на каждый слайд в презентации PowerPoint 2013 посмотрите на слайд-мастер для простых шагов к успеху. Просто следуйте этой процедуре: вызовите мастер слайдов (нажав кнопку «Слайд-мастер» в группе «Представления представления» на вкладке «Представления»), если это не так ...

Выбор редактора

Записи набора записей iPad и iPhone - макеты

Записи набора записей iPad и iPhone - макеты

На iPhone и даже больше на iPad, интерфейс сенсорного экрана упрощает навигацию по сети, чем использование пульта дистанционного управления телевизором, и гораздо более интерактивный. Это привело к значительному увеличению трафика мобильных данных. По словам производителя мобильных телефонов Ericsson, количество всемирного мобильного трафика данных ежемесячно ...

Что вы должны знать о геокодировании на iPad для разработки приложений для iOS - манекены

Что вы должны знать о геокодировании на iPad для разработки приложений для iOS - манекены

Преобразование адреса в набор координат карты в приложении iOS называется перекрестным геокодированием, тогда как преобразование из набора координат в адрес называется обратным геокодированием. Как прямое, так и обратное геокодирование поддерживаются в классе CLGeocoder от Apple, который входит в структуру ядра Apple CoreLocation. Класс CLGeocoder предоставляет службы ...

Зачем вам разрабатывать приложения iOS - манекены

Зачем вам разрабатывать приложения iOS - манекены

Зачем вам разрабатывать приложения для iOS? Потому что ты можешь. Потому что это весело. И потому, что настало время (сегодня!). Приложения iOS выходят из строя, а разработчики очень успешны. Разработка приложений для iOS может быть самым увлекательным в течение многих лет, с очень небольшими затратами времени и денег (по сравнению с разработкой ...