Cloudera. Ключевой продукт — CDH (Cloudera Distribution including Apache Hadoop) — связка наиболее популярных инструментов из инфраструктуры Hadoop под управлением Cloudera Manager. Менеджер берёт на себя ответсвенность за развёртывание кластера, установку всех компонентов и их дальнейший мониторинг. Кроме CDH компания развивает и другие свои продукты, например, Impala (об этом ниже). Отличительной чертой Cloudera также является стремление первыми предоставлять на рынке новые фичи, пусть даже и в ущерб стабильности. Ну и да, создатель Hadoop — Doug Cutting — работает в Cloudera.
Hortonworks. Так же, как и Cloudera, они предоставляют единое решение в виде HDP (Hortonworks Data Platform). Их отличительной чертой является то, что вместо разработки собственных продуктов они больше вкладывают в развитие продуктов Apache. Например, вместо Cloudera Manager они используют Apache Ambari, вместо Impala — дальше развивают Apache Hive. Мой личный опыт с этим дистрибутивом сводится к паре тестов на виртуальной машине, но по ощущениями HDP выглядит стабильней, чем CDH.
MapR. В отличие от двух предыдущих компаний, основным источником доходов для которых, судя по всему, является консалтинг и партнёрские программы, MapR занимается непосредственно продажей своих наработок. Из плюсов: много оптимизаций, партнёрская программа с Amazon. Из минусов: бесплатная версия (M3) имеет урезанный функционал. Кроме того, MapR является основным идеологом и главным разработчиком Apache Drill.
Cloudera Hadoop включает следующие основные компоненты:
- Cloudera Hadoop (CDH) — собственно дистрибутив Hadoop;
- Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером Hadoop.
- Avro — система сериализации для выполненных межъязыковых вызовов RPC и долгосрочного хранения данных;
- Pig — язык управления потоком данных и исполнительная среда для анализа больших объемов данных;
- Hive — распределенное хранилище данных; оно управляет данными, хранимыми в HDFS, и предоставляет язык запросов на базе SQL для работы с этими данными;
- HBase — нереляционная распределенная база данных;
- ZooKeeper — распределенный координационный сервис; предоставляет примитивы для построения распределенных приложений;
- Sqoop — инструмент для пересылки данных между структурированными хранилищами и HDFS;
- Oozie — сервис для записи и планировки заданий Hadoop.
Дистрибутивы Hadoop
Сегодня Hadoop представляет собой сложную систему, состоящую из большого числа компонентов. Установить и настроить такую систему самостоятельно — весьма непростая задача. Поэтому многие компании сегодня предлагают готовые дистрибутивы Hadoop, включающие инструменты развертывания, администрирования и мониторинга.
Дистрибутивы Hadoop распространяются как под коммерческими (продукты таких компаний, как Intel, IBM, EMC, Oracle), так и под свободными (продукты компаний Cloudera, Hortonworks и MapR) лицензиями. О дистрибутиве Cloudera Hadoop мы расскажем более подробно.
Cloudera Hadoop
Cloudera Hadoop представляет собой полностью открытый дистрибутив, созданный при активном участии разработчиков Apache Hadoop Дуга Каттинга и Майка Кафареллы. Он распространяется как в бесплатном, так и в платном варианте, известном под названием Cloudera Enterprise.
На тот момент, когда мы заинтересовались проектом Hadoop, Cloudera предоставляла наиболее законченное и комплексное решение среди открытых дистрибутивов Hadoop. За все время работы не было ни одной значительной неполадки, и кластер благополучно пережил несколько мажорных обновлений, прошедших полностью автоматически. И вот спустя почти год экспериментов можем сказать, что довольны сделанным выбором.
Cloudera Hadoop включает следующие основные компоненты:
- Cloudera Hadoop (CDH) — собственно дистрибутив Hadoop;
- Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером Hadoop.
Компоненты Cloudera Hadoop распространяются в виде бинарных пакетов, называемых парселами. По сравнению со стандартными пакетами и пакетными менеджерами парселы имеют следующие преимущества:
- простота загрузки: каждый парсел представляет собой один файл, в котором объединены все нужные компоненты;
- внутренняя согласованность: все компоненты внутри парсела тщательно протестированы, отлажены и согласованы между собой, поэтому вероятность возникновения проблем с несовместимостью компонентов очень мала;
- разграничение распространения и активации: можно сначала установить парселы на все управляемые узлы, а затем активировать их одним действием; благодаря этому обновление системы осуществляется быстро и с минимальным простоем;
- обновления «на ходу»: при обновлении минорной версии все новые процессы (задачи) будут автоматически запускаться под этой версией, уже запущенные задачи продолжат исполняться в старом окружении до своего завершения. Однако обновление до более новой мажорной версии возможно только посредством полного перезапуска всех сервисов кластера, и соответственно всех текущих задач;
- простой откат изменений: при возникновении каких-либо проблем в работе с новой версией CDH ее можно легко откатить до предыдущей.
Инструмент для развертывания, мониторинга и управления кластером Apache Hadoop – Cloudera Manager. Этот инструмент автоматизирует процесс развертывания кластера Apache Hadoop, предоставляет возможности для мониторинга в режиме реального времени текущих активностей и состояния отдельных узлов, составляет heatmaps, может генерировать сообщения на определенные события, управляет доступом пользователей, хранит историческую информацию об использовании кластера, собирает логи с узлов и дает возможность их просматривать.
Все это позволило компании Cloudera выпустить на рынок пакет услуг под названием Cloudera Enterprise, состоящий из трех продуктов:
где
CDH – это дистрибутив Apache Hadoop (HDFS, MapReduce и MapReduce2, Hadoop Common), включающий ряд смежных программ и библиотек, таких как Apache Flume, Apache Hive, Hue, Apache Mahout, Apache Oozie, Apache Pig, Apache Sqoop, Apache Whirr и Apache Zookeeper.
Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером Apache Hadoop.
Cloudera Support – профессиональная поддержка, предоставляемая специалистами Cloudera по проблемам, относящимся к CDH и Cloudera Manager.
Взято тут
Немає коментарів:
Дописати коментар