spark-apache

13 October 2016 |

Apache Spark es un framework open source de computación presentado comoun motor general y rápido para el procesamiento de datos en gran escala. Spark puede ser hasta diez veces más rápido que MapReduce cuando trabaja en discos duros. Spark también puede realizar procesamiento batch pero sin embargo, su performance se luce cuando se trata de cargas tipo streaming, consultas interactivas y lo que denominamos aprendizaje basado en máquinas. 

La gran consigna de Spark es la de su capacidad de procesamiento de datos en tiempo real, lo que compara con el desempeño de MapReduce basado en discos como motor de procesamiento batch (en lotes). Spark es compatible con Hadoop y sus módulos. De hecho, en la página del proyecto Hadoop, Spark figura como uno de los módulos. Pero también funciona como modo standalone por lo que lo incluimos también como solución libre para aquellos casos en los que sea necesario y crítico tener un acceso más veloz a los datos procesados. Spark no tiene su propio sistema de administración de archivos distribuidos, pero puede usar HDFS (Hadoop´s Distributed File System). Hadoop resulta útil para las empresas cuando los conjuntos de datos son tan grandes y tan complejos que las soluciones con las que ya cuentan no pueden procesar la información en forma efectiva y en lo que las necesidades del negocio definen como tiempos razonables.