Big Data es un concepto tecnológico que se relaciona con el manejo de grandes volúmenes de datos, estructurados y no estructurados, que actualmente manejan los grandes sectores empresariales, tecnológicos, científicos y hasta gubernamentales.
Aunque cuando se habla de Big Data, no es realmente la cantidad de datos lo que es importante, sino lo que hacen las organizaciones con los datos. Ya que Big Data, su tecnología asociada, puede analizar los mismos para obtener ideas que conduzcan a mejores tomas de decisiones, movimientos y estrategias. Y en este aspecto, el Software Libre (SL) y de Código Abierto (CA) ha aportado mucho a dicha tecnología, ya que muchas aplicaciones desarrolladas han sido implementadas en este formato de desarrollo.
Big Data y Software Libre
Para los duchos en la materia, ya es harto conocido que el Software Libre, su modelo de desarrollo, su filosofía, se basa en crear tecnologías, principalmente productos de software, que a su vez puedan ser usados, modificados y distribuidos libremente. Y que el Código Abierto (Open Source) es un elemento importante en el desarrollo del software libre, ya que el mismo se centra en las ventajas prácticas de esta dinámica de desarrollo más que en lo relativo a la ética de la libertad del producto y los ciudadanos.
Por ende, mientras el SL /CA contribuyen con los medios para llevar a cabo el Big Data, el Big Data complementa a estos indirectamente, no sólo por el beneficio de la expansión acelerada del desarrollo tecnológico, sino también por la libertad de acceso a la información que, el Big Data trae consigo.
¿Qué es el Big Data?
Concepto
Para uno de los grandes del Software y el desarrollo tecnológico, IBM, el Big Data es una:
“… tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi-estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis.
Objetivo
El Big Data, su tecnología, nació con el objetivo de cubrir todo el espectro posible del análisis de datos, es decir, cubrir tanto lo existente y resuelto con tecnologías actuales y diferentes, como lo no resuelto por las tecnologías existentes, como lo es el almacenamiento y la gestión de los grandes volúmenes de datos que poseen características muy concretas.
Datos
El Bid Data maneja volúmenes de datos que suelen ser definidos por las características siguientes:
- Volumen: Tamaño de los datos provenientes de múltiples fuentes.
- Velocidad: Rapidez con la que llegan y se gestionan los datos provenientes de múltiples fuentes.
- Variedad: Formato de los datos analizados provenientes de múltiples fuentes.
Es decir, volúmenes de datos que suelen estar compuestos por datos Estructurados, Semi-estructurados y No estructurados, y ser manejados en cantidades enormes que suelen descritas con prefijos de cantidades altas, tales como: Tera, Peta o Exa, entre otros.
Y provenientes de todo tipo de fuentes, tales como Internet (Redes sociales, Medios de Comunicación Digitales, Sitios web y Bases de Datos), Equipos (Móviles, Reproductores de multimedia, Sistemas de posicionamiento, Sensores digitales civiles e industriales, entre otros) y Organizaciones (Privadas y Públicas, Comerciales, Gubernamentales y Comunitarias).
Importancia
Lo que hace del Big Data una tecnología tan útil para las Organizaciones (Privadas y Públicas, Comerciales, Gubernamentales y Comunitarias), es el hecho de que proporciona información valiosa que muchas veces sirve como una respuesta precisa y confiable a preguntas que ni siquiera se habían formulado para determinadas situaciones o problemas. Es decir, su utilidad muchas veces se ve sobre aspectos que suelen surgir de la misma información recolectada y gestionada.
El procesamiento de grandes volúmenes de información, facilita que los datos procesados puedan ser moldeados o probados de la manera más apropiada o especifica, que se considere adecuada por parte de su administrador. Esto permite que las organizaciones que usan el Big Data sean capaces de identificar los problemas de una forma más comprensible.
La recopilación de grandes volúmenes de datos y su posterior análisis para la búsqueda de tendencias dentro de los mismos permiten que las Organizaciones sean más efectivas y eficaces, al moverse mucho más rápidamente, sin problemas y de manera oportuna sobre ellos. Además, les permite eliminar las áreas problemáticas antes de que los problemas los rebasen, haciendo que pierdan beneficios, reputación u apoyo.
Ventajas
El Big Data ayuda a las Organizaciones a gestionar mucho mejor sus datos, esto redunda en la identificación de nuevas oportunidades positivas o productivas en pro de sus miembros (clientes o ciudadanos). Y esto a sus vez, conduce a acciones más inteligentes y eficientes, ahorros de horas/labor y dinero, que suele traducirse en felicidad para todos los involucrados. Cuando el Big Data es usado se suele agregar valor a las actividades realizadas de las siguientes formas:
- Reducción de coste: En el almacenamiento y gestión de grandes volúmenes de datos.
- Reducción de tiempo: Más eficiencia y eficacia en la toma de decisiones.
- Nuevos productos y servicios: Con la capacidad de medir y prever las necesidades y problemas de los usuarios (clientes y/o ciudadanos) se aumenta la satisfacción de los mismos.
Beneficios
El Big Data bien empleado es capaz muchas veces hasta de determinar las causas de origen de fallos, problemas y defectos casi en tiempo real. Sin embargo, es de tomar en cuenta que la tecnología del Big Data no es una panacea por si sola. Por lo que citando a otro grande de la tecnología como es Oracle, se puede añadir que:
“Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen decisiones informadas y predigan comportamientos”.
Aplicaciones de SL/CA para Big Data
Entre las aplicaciones de Software Libre y Código Abierto que valen la pena mencionar para su investigación, prueba e implementación están:
Relacionadas
- Apache Hadoop: Plataforma de código abierto compuesta por Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.
- Avro: Proyecto de Apache que provee servicios de serialización.
- Cassandra: Base de datos no relacional distribuida y basada en un modelo de almacenamiento de <clave-valor>, desarrollada en Java.
- Chukwa: Software diseñado para la colección y análisis a gran escala de registros de eventos (logs).
- Flume: Software cuya tarea principal es dirigir los datos de una fuente hacia alguna otra localidad.
- HBase: Base de Datos columnar (column-oriented database) que se ejecuta en HDFS.
- Hive: Infraestructura de “Data Warehouse” que facilita la administración de grandes volúmenes de datos que se encuentran almacenados en un ambiente distribuido.
- Jaql: Lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado para procesar grandes volúmenes de información.
- Lucene: Software que provee de librerías para la indexación y búsqueda sobre texto.
- Oozie: Proyecto de código abierto que simplifica los flujos de trabajo y la coordinación entre cada uno de los procesos.
- Pig: Software que permitir a los usuarios de Hadoop enfocarse más en analizar todos los conjuntos de datos y dedicar menos tiempo en construir los programas MapReduce.
- ZooKeeper: Infraestructura centralizada y de servicios que puede ser utilizada por aplicaciones para asegurarse de que los procesos a través de un clúster sean serializados o sincronizados.
Independientes
Otros igual de conocidos, pero no relacionados con la plataforma de código abierto Hadoop son:
- Elasticsearch: Motor de búsqueda y análisis basado en texto completo.
- MongoDB: Base de datos NoSQL basada en el modelo de datos de documentos.
- Cassandra: Proyecto de código abierto de Apache diseñado para la administración de bases de datos NoSQL.
- CouchDB: Base de datos NoSQL de código abierto basada en estándares comunes para facilitar la accesibilidad y compatibilidad web con una diversidad.
- Solr: Motor de búsqueda de código abierto basado en la biblioteca Java del proyecto Lucene.
Otras herramientas RDBMS: MySQL Clúster y VoltDB.
Conclusión
Nuestra época presente (y próxima inmediata) se encuentra inmersa o ahogada en una elevada y creciente masa de datos, que tienen mucho que decir en su conjunto, que en lo individual. Por eso, el uso de la tecnología Big Data en el presente y el futuro inmediato, ayudará a la sociedad, a la humanidad entera, a descubrir infinidad de cosas (eventos o inventos), que podrían haber tomado muchos años en descubrirse por si mismos, sin el uso de está.
Ya que el Big Data y sus herramientas, proporcionan la velocidad de análisis suficiente analizar un resultado obtenido rápidamente y re-trabajarlo las veces que sea necesario, en un corto tiempo, para encontrar el verdadero o más cercano valor al que se está tratando de llegar. Si te ha parecido interesante el tema del Big Data puedes ampliar un poco más el tema leyendo este Informe de BBVA.
Fuente: desdelinux