- Во-первых, в угоду повышения отказоустойчивости, MapReduce предполагает хранение данных на жестких дисках – а это непременно означает снижение скорости обработки информации.
- Во-вторых, MapReduce относится к классу однопроходных моделей вычисления, что делает ее не слишком пригодной, например, для итерационных вычислений и интерактивного анализа данных.
Строго говоря, Apache Spark – это высокопроизводительное средство обработки данных, работающее в кластере Hadoop – и призванное заменить (или дополнить – зависит от точки зрения) технологию MapReduce, путем обобщения и модификации использованных для ее функционирования технологий. Ключевых момента здесь два:
- Повышение скорости обработки данных (до 100 раз по сравнению с MapReduce при условии работы в оперативной памяти и до 10 раз при условии взаимодействия системы с жестким диском) посредством уменьшения количества операций чтения и записи на жесткий диск – теперь существенная часть операций производится в реальном времени.
- Такая технология обработки информации стала возможной благодаря хранению информации о каждом операторе в оперативной памяти. Это дает и еще одно преимущество – все процессы, связанные с данными (в том числе, обработка потоков и пакетов информации и машинное обучение) происходят на одном и том же кластере данных, в одном и том же приложении.
Взято тут
Немає коментарів:
Дописати коментар