Big Data: el cosmos de los datos

Contar con millones de datos no es sinónimo de un beneficio. Para ser explotados es necesario afinar metodologías y procesos para acceder y sacar provecho a la información.

Redacción

Todo menos politica

Por: Arturo Moncada
reporteros@revistavertigo.com

En el mundo se genera cada día un infinito número de datos de información que no puede ser procesada de manera inmediata y se calcula que más de mil millones de internautas alimentan diariamente la red con millones y millones de bytes sobre toda clase de actividades: toda esta información, que no puede ser encausada o analizada con herramientas tradicionales, recibe el nombre de Big Data.

Es decir, Big Data es el método y análisis de enormes repositorios de datos, tan fabulosamente grandes, que es imposible presentarlos con los instrumentos de bases de datos y analíticas convencionales.

Cifras
Día con día creamos datos que vienen de una diversidad de fuentes. Estas pueden incluir registros del servidor web y datos de seguimiento de clics en internet; informes de actividades sociales; medios de comunicación; teléfonos móviles; registros detallados de llamadas; escrituras en blogs; registros de correo electrónico; enlaces a artículos de periódicos digitales; compra de libros para eBook en tiendas virtuales; trámites por internet; transacciones bancarias on line; activación del GPS; proliferación de páginas web; aplicaciones de imagen y video; redes sociales; Apps; sensores… Juntos, estos datos suman más de 2.5 trillones de bytes y 90% de ellos se han creado apenas en los últimos dos años.

Sin embargo, para llegar a esto ha sido necesario que, previamente, el ser humano se dotara de máquinas progresivamente más potentes, desde teléfonos inteligentes, pasando por tabletas y ordenadores portátiles, hasta televisores de alta definición y grabadoras de vídeo digital. Sólo en un disco duro de amplia capacidad podemos almacenar la música producida en un año en todo el mundo.

Casi seis mil millones de personas disponen actualmente de teléfono móvil y dos de cada diez habitantes del planeta cuentan con su propio smartphone. Durante 2013, este grupo crecerá al menos 20% y para 2014 se espera que la potencia de cálculo de dichos dispositivos supere de forma combinada la de todas las supercomputadoras existentes.

Las cifras han proyectado el de las redes sociales y la web 2.0. Su uso no hace sino extenderse y se ha desplazado desde el ámbito de los consumidores hasta el día a día interno de las empresas, de forma que nos encontramos ante uno de los hitos que más directamente pueden incidir, o inciden ya, sobre el Big Data.

Proceso de datos
Los mil millones de usuarios activos de Facebook invierten más de nueve mil 500 millones de horas en el sitio, tiempo durante el cual lanzan una media mensual de 30 mil millones de contenidos al ciberespacio. Por su parte, YouTube contabiliza cada minuto una publicación a sus archivos del equivalente a 24 horas de video, a una media de 7.5 minutos diarios de información por usuario con 800 millones de visitantes al mes.

En este mismo instante, por ejemplo, hay casi 30 millones de sensores en todo el planeta dispuestos para captar datos y distribuirlos mediante tecnología RFID, (Identificación por Radiofrecuencia), a través de terminales móviles, maquinaria industrial, contadores de energía, vehículos, e incluso sencillos artículos de consumo, como prendas de vestir o entradas para un espectáculo.

Esta cifra, que se calcula aumente a un ritmo anual de 30%, es en especial importante en ámbitos como transporte, automoción, industria, administración pública y venta al por menor. Hay empresas que utilizan ya datos obtenidos mediante sensores, para ofrecer servicios posventa más innovadores, como revisiones y tareas de mantenimiento de determinados aparatos antes o justo en el momento de aparecer incidencias en su funcionamiento.

El análisis de los grandes datos puede descubrir patrones escondidos que antes era muy complicado procesar. La calidad de los datos es esencial. Todas las empresas tienen registros con clientes duplicados o vacíos, por ejemplo.

Las tecnologías relacionadas con el análisis de datos incluyen bases de datos grandes NoSQL, Hadoop y MapReduce. Estas tecnologías forman el núcleo de un marco de software de código abierto que soporta el procesamiento de grandes volúmenes de datos a través de sistemas en clúster.

Valor del dato
El mayor objetivo del análisis de grandes volúmenes de datos es ayudar a las empresas a tomar mejores decisiones de negocios, permitir a científicos y otros usuarios descubrir patrones ocultos, correlaciones desconocidas y otra información útil que pueda proporcionar ventajas competitivas a un negocio o una investigación científica.

En el mundo de la medicina, por ejemplo, un médico puede cruzar datos de historias clínicas de pacientes con diabetes que no han presentado en seis años complicaciones gracias a la combinación de un tipo de fármacos, ejercicio y dieta; valorar la información; y presentar resultados de su investigación para ayudar a otros pacientes a mantenerse estables. Con los datos se pueden tomar decisiones para aprovechar mejor el consumo eléctrico, seguir el movimiento de vehículos en las carreteras, estudiar cómo influyen las declaraciones de gobiernos y personajes en las bolsas de valores, analizar fenómenos naturales como el clima o mejorar la seguridad en una comunidad.

Pero en el ámbito donde más se utilizan los datos es en el sector empresarial y comercial, donde el Big Data ayuda a entender mejor las interacciones del consumidor con la compañía, permitiendo un mejor entendimiento de lo que le gustaría conseguir al cliente. El análisis de los grandes datos se encuentra ya entre nosotros: todos participamos en la generación de información y se debe aprovechar a favor del desarrollo del ser humano, en todos los sectores