Альтернативные решения для больших данных - манекены

Просматривая Hadoop, вы можете увидеть альтернативные решения для больших данных на горизонт. Эти решения позволяют работать с большими данными в режиме реального времени или использовать альтернативные технологии баз данных для обработки и обработки. Здесь вы познакомитесь с платформами обработки в реальном времени, а затем с платформами массовой параллельной обработки (MPP) и, наконец, с базами данных NoSQL, которые позволяют работать с большими данными за пределами среды Hadoop.

Вам следует знать что-то, называемое ACID-совместимостью, сокращенное для A томатичность, C onsistency, I и D соответствие требованиям. Соответствие ACID является стандартом, гарантирующим точные и надежные транзакции базы данных.

В больших решениях данных большинство систем баз данных не соответствуют требованиям ACID, но это не обязательно представляет собой серьезную проблему. Это связано с тем, что большинство крупных систем данных используют системы поддержки принятия решений (DSS), которые обрабатывают данные процесса до того, как эти данные будут считаны. DSS - это информационные системы, которые используются для поддержки организационных решений. Non-transactional DSS не демонстрирует реальных требований соответствия ACID.

Рамки обработки в реальном времени

Иногда вам может потребоваться запрашивать большие потоки данных в режиме реального времени … и вы просто не можете делать подобные вещи с помощью Hadoop. В этих случаях вместо этого используйте инфраструктуру обработки в режиме реального времени. Платформа обработки в режиме реального времени - это, как следует из ее названия, - инфраструктура, способная обрабатывать данные в реальном времени (или в режиме реального времени) в виде потоков данных и втекать в систему. По сути, рамки обработки в реальном времени являются антитезой рамок пакетной обработки, которые вы видите в Hadoop.

Структуры обработки в реальном времени можно разделить на следующие две категории:

Рамки, которые уменьшают накладные расходы задач MapReduce, чтобы увеличить общую эффективность времени системы: Решения в эта категория включает Apache Storm и Apache Spark для обработки потоков в реальном времени.
Рамки, развертывающие инновационные методы запросов для облегчения запросов в реальном времени больших данных: Некоторые решения этой категории включают Google Dremel, Apache Drill, Shark для Apache Hive и Impala от Cloudera.

Рамки обработки в реальном времени весьма полезны во множестве отраслей - от анализа на фондовом и финансовом рынках до оптимизации электронной коммерции и от обнаружения мошенничества в режиме реального времени до оптимальной логистики заказа. Независимо от отрасли, в которой вы работаете, если на ваш бизнес влияют потоки данных в реальном времени, которые генерируются людьми, машинами или датчиками, тогда система обработки в реальном времени будет полезна для вас в оптимизации и генерации ценности для вашего организация.

Платформы с массовой параллельной обработкой (MPP)

Платформы массовой параллельной обработки (MPP) могут использоваться вместо MapReduce в качестве альтернативного подхода для распределенной обработки данных. Если ваша цель заключается в развертывании параллельной обработки на традиционном хранилище данных, то MPP может быть идеальным решением.

Чтобы понять, как MPP сравнивается со стандартной инфраструктурой параллельной обработки MapReduce, рассмотрите следующее. MPP выполняет параллельные вычислительные задачи на дорогостоящем специализированном оборудовании, тогда как MapReduce запускает их на дешевых товарных серверах. Следовательно, возможности обработки MPP ограничивают затраты. Это говорит о том, что MPP быстрее и проще в использовании, чем стандартные задания MapReduce. Это связано с тем, что MPP можно запросить с помощью языка структурированных запросов (SQL), но собственные задания MapReduce контролируются более сложным языком программирования Java.

Известные производители и продукты MPP включают платформу Teradata старой школы и более новые решения, такие как EMP ² Greenplum DCA, HP Vertica, Netezza от IBM и Exadata Oracle.

Знакомство с базами данных NoSQL

Традиционные системы управления реляционными базами данных (RDBMS) не оснащены для обработки больших требований к данным. Это связано с тем, что традиционные реляционные базы данных предназначены для обработки только реляционных наборов данных, которые построены из данных, которые хранятся в чистых строках и столбцах и, следовательно, могут быть запрошены через Structured Query Language (SQL).

Системы RDBM не способны обрабатывать неструктурированные и полуструктурированные данные. Более того, системы RDBM просто не имеют возможностей обработки и обработки, которые необходимы для удовлетворения больших объемов данных и требований к скорости.

Здесь находится NoSQL. Базы данных NoSQL, такие как MongoDB, являются нереляционными, распределенными системами баз данных, которые были разработаны для решения проблемы больших данных. Базы данных NoSQL выходят за рамки традиционной архитектуры реляционных баз данных и предлагают гораздо более масштабируемое и эффективное решение.

Системы NoSQL облегчают запрос данных, не относящихся к SQL, для нереляционных или без схем, полуструктурированных и неструктурированных данных. Таким образом, базы данных NoSQL могут обрабатывать структурированные, полуструктурированные и неструктурированные источники данных, которые являются общими для больших систем данных.

NoSQL предлагает четыре категории нереляционных баз данных - графические базы данных, базы данных документов, хранилища значений ключей и хранилища семейств столбцов. Поскольку NoSQL предлагает собственные функции для каждого из этих отдельных типов структур данных, он предлагает очень эффективные функции хранения и поиска для большинства типов нереляционных данных. Эта адаптивность и эффективность делают NoSQL все более популярным выбором для обработки больших данных и для преодоления проблем обработки, которые возникают вместе с ним.

Есть несколько дебатов о значении имени NoSQL. Некоторые утверждают, что NoSQL означает Not only SQL , в то время как другие утверждают, что аббревиатура представляет не-SQL-базы данных . Аргумент довольно сложный, и нет реального разреза и сухого ответа.Чтобы все было просто, просто подумайте о NoSQL как о классе нереляционных систем управления базами данных, которые не попадают в спектр систем RDBM, которые запрашиваются с использованием SQL.