Apache Hadoop

14 October 2015 |

Dentro de las soluciones de software libre y open source en los Sistemas de Información y dentro de las iniciativas de análisis y almacenamiento masivo de datos TDOC te ofrece una respueta tecnológica estratégica aplicable a muchos campos y sectores. Organizaciones de todos los tamaños están siguiendo los pasos de los gigantes corporativos que han utilizado Hadoop para su beneficio, entre ellos: Google, Yahoo, eBay, Twitter. 

Nuestra propuesta de implementar el ecosistema de Hadoop con el uso de sus herramientas y aplicaciones analíticas se convierte en un factor competitivo que no requiere mucho coste de implantación con un retorno de inversión claro para tu proyecto. Usamos Hadooop como repositorio centralizado de datos escalable con el fin de afrontar el costo de almacenamiento e incrementar la capacidad de procesamiento de grandes volúmenes de datos junto con las soluciones de infraestructra on cloud y arquitecturas de cloud storage ( cloud-computing) que te proponemos. Lo primero será definir y acotar tu proyecto y seleccionar del ecossitema Hadoop el que mejor se adecue tus objetivos. Hadoop es la plataforma perfecta, ya que el crecimiento es más sencillo y económico, además de facilitar la captura de datos procedentes de múltiples fuentes. Hadoop es la plataforma perfecta, ya que el crecimiento es más sencillo y económico, además de facilitar la captura de datos procedentes de múltiples fuentes.

01

APACHE AMBARI

Administración de clústeres de Apache Hadoop

Apache Ambari nos servirá para el aprovisionamiento, la administración y la supervisión de clústeres de Hadoop de Apache. Incluye una interfaz intuitiva de herramientas de operador y un conjunto sólido de API que ocultan la complejidad de Hadoop y simplifican la operación de clústeres. Con Apache Ambari vamos a poder hacer seguimiento del Cluster con un dashboard para la monitorización de la salud y el estado de los nodos. Tenemos Glanglia para recolectar métricas y nos ayuda en la instalación de Nagios, para alertarnos y enviarnos emails cuando sea necesario.

Leer más

02

APACHE CASSANDRA

Base de datos NoSQL distribuida de Apache Hadoop

La base de datos de Apache Cassandra es la elección correcta cuando se necesita escalabilidad y alta disponibilidad sin comprometer el rendimiento. Permite grandes volúmenes de datos en forma distribuida. Por ejemplo, lo usa Twitter para su plataforma. Su objetivo principal es la escalabilidad lineal, la disponibilidad y la probada tolerancia a errores en la infraestructura de hardware o nube lo que la convierten en la plataforma perfecta para datos de misión crítica. El soporte de CANDANDRA para replicar en múltiples centros de datos es el mejor de su clase, proporcionando menor latencia para sus usuarios y la tranquilidad de saber que usted puede sobrevivir a interrupciones regionales.

 

Leer más

03

APACHE AVRO

Sistema de serialización de datos

En los proyectos en Hadoop, suele haber grandes cuantidades de datos, la serialización se usa para procesarlos y almacenar estos datos, de forma que el rendimiento en tiempo sea efectivo. Esta serialización puede ser en texto en plano, JSON, en formato binario. Con Avro podemos almacenar y leer los datos fácilmente desde diferentes lenguajes de programación. Está optimizado para minimizar el espacio en disco necesario para nuestros datos. Avro se basa en esquemas. Cuando se leen los datos de Avro, el esquema utilizado al escribirlo siempre está presente. Esto permite que cada dato se escriba sin sobrecostos por valor, haciendo la serialización rápida y pequeña. Esto también facilita el uso con lenguajes de scripting dinámicos, ya que los datos, junto con su esquema, es totalmente auto-descriptivo.

Leer más

04

APACHE CHUKWA

Sistema de captura de datos

Chukwa es un sistema de captura de datos y framework de análisis que trabaja con Hadoop para procesar y analizar grandes volúmenes de logs. El procesamiento de logs fue uno de las motivaciones originales de MapReduce. Por otro lado Hadoop MapReduce está más enfocado a trabajar con un pequeño número de ficheros muy grandes frente a los logs, que son ficheros incrementales generados en muchas máquinas. Chukwa subsana esa deficiencia en el ecosistema Hadoop.También incluye un conjunto de herramientas flexible y potente para mostrar, monitorear y analizar los resultados para aprovechar al máximo los datos capturados.

Leer más

05

APACHE HIVE TM

Infraestructura de almacenamiento de datos

HIVE QL es el software de almacenamiento de datos basado en Hadoop que le permite consultar y administrar grandes conjuntos de datos en almacenamiento distribuido con un lenguaje de tipo SQL denominado HiveQL. Hive nos va a proporcionar agrupación, consulta, y análisis de datos y se encuentra conceptualmente más cerca de un sistema de administración de bases de datos relacionales y, por lo tanto, es más adecuado para su uso con datos más estructurados.

Leer más

06

APACHE MAHOUT

Librerias machine learning

Mahout es una biblioteca escalable de algoritmos de aprendizaje automático que se ejecuta en Hadoop. Mediante principios de estadísticas, las aplicaciones de aprendizaje automático enseñan a los sistemas a aprender de los datos y a usar los resultados obtenidos en el pasado para determinar el comportamiento en el futuro. Mahout incluye algoritmos de clasificación, sistemas de recomendación, clustering (agrupación de vectores en base a ciertos criterios).

Leer más

07

APACHE TINKERPOP

Plataforma para la creación de Sistemas Analíticos Gráficos

Apache Tinkerpop nos ofrece visualizar y representar de manera gráfica los datos. Relacionar un conjunto de objetos por sus propiedades mediante aristas y vértices nos facilitará establecer sus vínculos. Una vez modelado un dominio, ese modelo debe ser explotado para producir información nueva y diferenciadora. Con ello aportamos valor semántico a los lenguajes de consulta y recuperación de tus objetos digitales.

Leer más

08

APACHE PIG

Plataforma para la creación de algoritmos MapReduce

Apache Pig es un lenguaje de procedimientos de alto nivel para consultar grandes conjuntos de datos semiestructurados utilizando Hadoop. El lenguaje de esta plataforma es llamado Pig Latin, que nos facilita la creación de programas desde el lenguaje Java y nos permite describir el flujo de datos desde entrada sin formato, a través de una o varias transformaciones, para producir el resultado deseado.  Pig simplifica el uso de Hadoop al permitir consultas similares a SQL en un conjunto de datos distribuidos.

Leer más