вівторок, 5 травня 2015 р.

Oozie – диспетчер потоков работ для платформы Hadoop

Большие данные в необработанном виде редко соответствуют требованиям Hadoop-разработчика к данным, соблюдение которых необходимо для успешного выполнения задач обработки данных. Обычно перед выполнением любых реальных заданий по обработке данных необходимо применять различные ETL-операции (extract/transform/load - извлечение/преобразование/загрузка) и операции предварительной обработки. Oozie— это инфраструктура, которая помогает автоматизировать этот процесс. Она представляет эту работу в виде воспроизводимых единиц или потоков работ, которые впоследствии можно многократно использовать без написания какого-либо нового кода или новых процедур. В статье описывается применение Oozie при создании различных типов потоков работ.

More info is here

Немає коментарів:

Дописати коментар