Дом Личные финансы Журнал Данные с Flume в HDFS - манекены

Журнал Данные с Flume в HDFS - манекены

Видео: Телефон заблокирован Meizu M3 note 2024

Видео: Телефон заблокирован Meizu M3 note 2024
Anonim

Некоторые из данных, которые попадают в распределенную файловую систему Hadoop (HDFS), могут попасть туда через операции загрузки базы данных или другие типы пакетных процессов, но что если вы хотите захватить данные, поступающие в потоки данных с высокой пропускной способностью, такие как данные журнала приложений? Apache Flume - это текущий стандартный способ сделать это легко, эффективно и безопасно.

Apache Flume , еще один проект верхнего уровня от Apache Software Foundation, представляет собой распределенную систему для агрегирования и перемещения больших объемов потоковых данных из разных источников в централизованное хранилище данных.

Другими словами, Flume предназначен для непрерывного приема данных в HDFS. Данные могут быть любыми данными, но Flume особенно подходит для обработки данных журнала, таких как данные журнала с веб-серверов. Единицы данных, которые процессы Flume называются событиями ; примером события является запись журнала.

Чтобы понять, как Flume работает в кластере Hadoop, вам нужно знать, что Flume работает как один или несколько агентов, и что каждый агент имеет три подключаемых компонента: источники, каналы и приемники:

  • Источники извлекают данные и отправляют их на каналы.

  • Каналы сохраняют очереди данных и служат в качестве каналов между источниками и приемниками, что полезно, когда скорость входящего потока превышает исходящий поток.

  • Снимает данные процесса, которые были взяты из каналов и доставляются в пункт назначения, например HDFS.

Агент должен иметь хотя бы один из каждого компонента для запуска, и каждый агент содержится в его собственном экземпляре виртуальной машины Java (JVM).

Событие, которое записывается в канал источником, не удаляется с этого канала, пока приемник не удалит его посредством транзакции. Если происходит сбой сети, каналы сохраняют свои очереди в очереди, пока приемники не смогут записать их в кластер. Канал в памяти может быстро обрабатывать события, но он изменчив и не может быть восстановлен, тогда как канал на основе файлов обеспечивает постоянство и может быть восстановлен в случае сбоя.

У каждого агента может быть несколько источников, каналов и приемников, и хотя источник может писать по многим каналам, приемник может принимать данные только из одного канала.

Агент - это просто JVM, на котором запущен Flume, а приемники для каждого узла агента в кластере Hadoop отправляют данные в узлы-сборщики , которые агрегируют данные от многих агентов до записывая его в HDFS, где он может быть проанализирован другими инструментами Hadoop.

Агенты могут быть соединены вместе, так что приемник от одного агента отправляет данные в источник от другого агента.Avro, система удаленного вызова и сериализации Apache, является обычным способом отправки данных по сети с помощью Flume, поскольку она служит полезным инструментом для эффективной сериализации или преобразования данных в компактный двоичный формат.

В контексте Flume совместимость важна: для события Avro требуется, например, источник Avro, и раковина должна доставлять события, соответствующие назначению.

Что делает эту отличную цепочку источников, каналов и стоков, является конфигурация Flume agent, которая хранится в локальном текстовом файле, который структурирован как файл свойств Java. Вы можете настроить несколько агентов в одном файле. Посмотрите пример файла, который называется flume-agent. conf - он настроен на настройку агента с именем shaman:

# Определить компоненты шамана агента: шамана. source = netcat_s1 шаман. sinks = hdfs_w1 шаман. channels = in-mem_c1 # Настроить источник: шаман. источники. netcat_s1. type = netcat shaman. источники. netcat_s1. bind = localhost shaman. источники. netcat_s1. port = 44444 # Опишите раковину: шаман. раковины. hdfs_w1. type = hdfs shaman. раковины. hdfs_w1. HDFS. path = hdfs: // шаман. раковины. hdfs_w1. HDFS. writeFormat = текстовый шаман. раковины. hdfs_w1. HDFS. fileType = DataStream # Настроить канал, который буферизует события в памяти: шаман. каналы. в-mem_c1. type = память шамана. каналы. в-mem_c1. мощность = 20000 шаманов. каналы. в-mem_c1. transactionCapacity = 100 # Связывает источник и приемник к каналу: шаман. источники. netcat_s1. channel = in-mem_c1 шаман. раковины. hdfs_w1. channels = in-mem_c1

Файл конфигурации содержит свойства для каждого источника, канала и приемника в агенте и указывает, как они связаны. В этом примере у агента-шамана есть источник, который прослушивает данные (сообщения netcat) на порту 44444, канал, который буферизует данные о событиях в памяти, и приемник, который регистрирует данные событий на консоли.

Этот файл конфигурации мог использоваться для определения нескольких агентов; здесь вы настраиваете только один, чтобы все было просто.

Чтобы запустить агент, используйте сценарий оболочки, называемый flume-ng, который находится в каталоге bin дистрибутива Flume. В командной строке выполните команду agent, указав путь к файлу конфигурации и имени агента.

Следующая команда образца запускает агент Flume:

flume-ng agent -f / -n shaman

В журнале Flume agent должны быть записи, подтверждающие, что источник, канал и приемник успешно запущены.

Чтобы дополнительно проверить конфигурацию, вы можете telnet подключиться к порту 44444 с другого терминала и отправить Flume событие, введя произвольную текстовую строку. Если все пойдет хорошо, исходный терминал Flume выведет событие в сообщении журнала, которое вы сможете увидеть в журнале агента.

Журнал Данные с Flume в HDFS - манекены

Выбор редактора

Как разделить рабочий лист на Windows в Excel 2013 - манекены

Как разделить рабочий лист на Windows в Excel 2013 - манекены

, Хотя масштабирование на листе может помогите вам ориентироваться в Excel 2013, он не может разделить рабочий лист на два отдельных окна, чтобы вы могли сравнивать свои данные на экране. Чтобы управлять этим трюком, разделите область Рабочего листа на отдельные панели и затем прокрутите рабочий лист на каждой панели, чтобы ...

Как запустить Excel 2016 в Windows 10 - манекены

Как запустить Excel 2016 в Windows 10 - манекены

Excel 2016 работает только под Windows 7, 8, и, конечно же, новая операционная система Windows 10. Это означает, что если на вашем ПК установлены старые версии Windows Vista или XP, вы должны обновить их до того, как сможете успешно установить и запустить Excel 2016. Запуск Excel из меню «Пуск» Windows 10 Windows 10 ...

Как разделить окно рабочего листа Excel 2010 - манекены

Как разделить окно рабочего листа Excel 2010 - манекены

В Excel 2010 вы можете разделить окно рабочего листа в отдельные панели и прокручивать рабочий лист в каждой панели, чтобы вы могли легко сравнивать данные из двух отдельных мест листа. Вы можете удалить окна в окне рабочей книги, дважды щелкнув в любом месте разделительной панели, которая делит окно. Чтобы разделить ...

Выбор редактора

Как создать Pinterest Boards для вашего визуального контента для социального маркетинга - манекены

Как создать Pinterest Boards для вашего визуального контента для социального маркетинга - манекены

На Pinterest, пользователи создают доски, которые являются страницами, основанными на определенной теме. Эти платы, где пользователи будут видеть ваш визуальный социальный маркетинговый контент. На этих досках пользователи пишут контент (отображают изображения с веб-сайтов или загружают их). Плата обычно имеет несколько контактов. Затем содержимое прикрепляется к доске. Штырь ...

Как начать работу с брендом вашей компании на Pinterest - манекены

Как начать работу с брендом вашей компании на Pinterest - манекены

, Прежде чем приступить к использованию Pinterest как социальный маркетолог, вам нужно определить, где будет входить бренд вашей компании. Потратьте некоторое время, чтобы посмотреть, что делают несколько брендов на Pinterest. Whole Foods - отличный пример бизнеса, который эффективно использует Pinterest. Их доски рассказывают историю о том, кто они ...

Как изучить Pinterest для визуального контента для социального маркетинга - манекены

Как изучить Pinterest для визуального контента для социального маркетинга - манекены

, Чтобы начать работу с визуальным социальным маркетингом на Pinterest, ознакомьтесь с содержанием на Pinterest. Изучение контактов, досок и пользователей поможет вам найти контент и найти пользователей, которые разделяют ваши интересы. Вы можете искать контент Pinterest как источник вдохновения для создания контента для своего бизнеса. Pinners связывают содержимое, которое они находят наиболее ...

Выбор редактора

Как защитить механизм маршрутизации Junos - манекены

Как защитить механизм маршрутизации Junos - манекены

, Хотя все интерфейсы важны, интерфейс loopback (lo0) возможно, является самым важным, поскольку это ссылка на механизм маршрутизации, который запускает и контролирует все протоколы маршрутизации. В этой статье представлен скелет фильтра межсетевого экрана, который защищает механизм маршрутизации. Этот пример можно использовать в качестве чертежа для разработки ...

Как устанавливать, настраивать и прикреплять устройства к коммутатору серии Juniper EX

Как устанавливать, настраивать и прикреплять устройства к коммутатору серии Juniper EX

, Прежде чем вы сможете настроить коммутатор EX для VLAN и других функций, вам необходимо установить коммутатор, настроить его и подключить к нему другие устройства. Переключатели Juniper поставляются в отдельных контейнерах. Все переключатели EX, за исключением устройств EX 8200, входят в картонную коробку. Модели EX 8200 намного больше. Чтобы установить эти ...

Как обеспечить избыточность с помощью виртуального шасси Junos - манекены

Как обеспечить избыточность с помощью виртуального шасси Junos - манекены

, Потому что каждый член коммутатора в виртуальном шасси серии EX блок имеет свой собственный механизм маршрутизации (RE), блок виртуального шасси имеет присущую избыточность. Кроме того, вы можете настроить Graceful Routing Engine Switchover (GRES). Прежде чем объяснять разницу между этими двумя типами избыточности, вам нужно посмотреть, как работают REs коммутатора. В ...