Видео: 006. Предсказание «узких мест» при выполнении команд в кластерах MapReduce - Edward Bortnikov 2024
Часть больших данных для патчей «Шрифт»
Hadoop, фреймворк с открытым исходным кодом, использует HDFS (распределенную файловую систему Hadoop) и MapReduce для анализа больших данных о кластерах товаров аппаратное обеспечение, то есть в распределенной вычислительной среде.
Распределенная файловая система Hadoop (HDFS) была разработана, чтобы позволить компаниям более легко управлять огромными объемами данных простым и прагматичным способом. Hadoop позволяет разложить большие проблемы на более мелкие элементы, чтобы анализ можно было сделать быстро и экономически эффективно. HDFS - это универсальный, устойчивый кластерный подход к управлению файлами в большой среде данных.
HDFS не является конечным местом для файлов. Скорее это «услуга» данных, которая предлагает уникальный набор возможностей, необходимых, когда объемы данных и скорость высоки.
MapReduce - это программная среда, которая позволяет разработчикам писать программы, которые могут обрабатывать огромное количество неструктурированных данных параллельно распределенной группе процессоров. MapReduce был разработан Google как способ эффективного выполнения набора функций против большого количества данных в пакетном режиме.
Компонент «карта» распределяет проблему программирования или задачи в большом числе систем и обрабатывает размещение задач таким образом, чтобы балансировать нагрузку и управлять восстановлением после сбоев. После завершения распределенного вычисления другая функция, называемая «уменьшить», объединяет все элементы назад, чтобы обеспечить результат. Примером использования MapReduce будет определение того, сколько страниц книги написано на каждом из 50 разных языков.