Видео: What is Hadoop SQL Comparison с русскими субтитрами 2024
Инструменты ETL объединяют три важные функции (извлечение, преобразование, загрузка), необходимые для получения данных из одной большой среды данных и поместить его в другую среду данных. Традиционно ETL использовался с пакетной обработкой в средах хранилища данных. Хранилища данных предоставляют бизнес-пользователям возможность консолидировать информацию для анализа и представления данных, относящихся к их бизнес-фокусу. Инструменты ETL используются для преобразования данных в формат, требуемый хранилищами данных.
Преобразование фактически выполняется в промежуточном местоположении до того, как данные будут загружены в хранилище данных. Многие поставщики программного обеспечения, включая IBM, Informatica, Pervasive, Talend и Pentaho, предоставляют программные инструменты ETL.
ETL предоставляет базовую инфраструктуру для интеграции, выполняя три важные функции:
-
Извлечение: Чтение данных из исходной базы данных.
-
Преобразование: Преобразование формата извлеченных данных, чтобы он соответствовал требованиям целевой базы данных. Трансформация осуществляется с использованием правил или слияния данных с другими данными.
-
Загрузка: Запись данных в целевую базу данных.
Тем не менее, ETL развивается, чтобы поддерживать интеграцию гораздо больше, чем традиционные хранилища данных. ETL может поддерживать интеграцию между транзакционными системами, операционными хранилищами данных, платформами BI, концентраторами MDM, облаками и платформами Hadoop. Поставщики программного обеспечения ETL расширяют свои решения для обеспечения большой добычи данных, трансформации и загрузки между Hadoop и традиционными платформами управления данными.
ETL и программные инструменты для других процессов интеграции данных, таких как очистка данных, профилирование и аудит всей работы с различными аспектами данных, чтобы гарантировать, что данные будут считаться заслуживающими доверия. Инструменты ETL интегрируются с инструментами качества данных, а многие из них включают инструменты для очистки данных, сопоставления данных и идентификации линий данных. С помощью ETL вы извлекаете только данные, необходимые для интеграции.
Инструменты ETL необходимы для загрузки и преобразования структурированных и неструктурированных данных в Hadoop. Расширенные инструменты ETL могут читать и записывать несколько файлов параллельно с Hadoop и упрощать процесс объединения данных в общий процесс преобразования. Некоторые решения включают библиотеки готовых ETL-преобразований для транзакций и данных взаимодействия, которые выполняются на Hadoop или традиционной сетевой инфраструктуре.
Преобразование данных - это процесс изменения формата данных, чтобы он мог использоваться различными приложениями.Это может означать изменение формата, в котором хранятся данные, в формат, необходимый приложению, которое будет использовать данные. Этот процесс также включает в себя сопоставление команд , так что приложениям сообщается, как получить данные, необходимые для их обработки.
Процесс преобразования данных значительно усложняется из-за ошеломляющего роста количества неструктурированных данных. Бизнес-приложение, такое как управление взаимоотношениями с клиентами, имеет конкретные требования по хранению данных. Данные, вероятно, будут структурированы в организованных строках и столбцах реляционной базы данных. Данные полуструктурированные или неструктурированные , если они не соответствуют жестким требованиям формата.
Информация, содержащаяся в сообщении электронной почты, считается, например, неструктурированной. Некоторые из наиболее важных данных компании - это неструктурированные и полуструктурированные формы, такие как документы, сообщения электронной почты, сложные форматы сообщений, взаимодействия с клиентами, транзакции и информация, поступающая из упакованных приложений, таких как ERP и CRM.
Инструменты преобразования данных не предназначены для работы с неструктурированными данными. В результате компании, которым необходимо внедрить неструктурированную информацию в процесс принятия решений по бизнес-процессам, столкнулись со значительным количеством ручного кодирования для обеспечения требуемой интеграции данных.
Учитывая рост и важность неструктурированных данных для принятия решений, решения ETL от крупных поставщиков начинают предлагать стандартизованные подходы к трансформации неструктурированных данных, чтобы их можно было более легко интегрировать с рабочими структурированными данными.