Tag Archive: Tecnologia


Big Data

THE BLACKLIST -- Season:Pilot -- Pictured: James Spader as

THE BLACKLIST — Season:Pilot — Pictured: James Spader as “Red” Raymond Reddington — (Photo by: Patrick Ecclesine/NBC)

A la gente le encanta condenar al gran hermano a la NSA y que el gobierno escuche a escondidas su vida privada, sin embargo todos ellos se conectan voluntariamente
a internet y entregan los detalles mas íntimos de sus vidas a Big Data.

A la mayoria no le importa que google conozca su historial de búsqueda.

Pero saben más que eso, conocen tus habitos, los bancos que usas,las pastillas que tomas los hombres o las mujeres con quien te acuestas
cada información vale algo para alguien…..

Raymond Reddington
Black List

El Big Data o Datos Masivos se refiere a sistemas informáticos basados en la acumulación a gran escala de datos y de los procedimientos usados para identificar patrones recurrentes dentro de esos datos. En la literatura científica en español con frecuencia se usa directamente el término en inglés Big Data (de big [amount of] data), tal como aparece en el ensayo seminal de Viktor Schönberger Big data: La revolución de los datos masivos.

La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento,2 búsqueda, compartición, análisis,3 y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos, como los análisis de negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha contra el crimen organizado.4

El límite superior de procesamiento se ha ido desplazando a lo largo de los años. De esta forma, los límites fijados en 2008 rondaban el orden de petabytes a zettabytes de datos.5 Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,6 la conectómica, las complejas simulaciones de procesos físicos7 y las investigaciones relacionadas con los procesos biológicos y ambientales,8 Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos, lectores de radio-frequency identification.9 10 La capacidad tecnológica per-cápita a nivel
mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años ochenta.11 Se estima que en 2012 cada día fueron creados cerca de 2,5 trillones de bytes de datos (del inglés quintillion, 2.5×1018).

Datos masivos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes de datos en un único conjunto de datos. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

En 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,13 el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando datos masivos como referencia.14 Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas de cómo procesar tal cantidad de datos, como MapR, Cyttek Group y Cloudera.

Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos. Ellos tratan con algunos de los tres tipos de Big Data:

  • Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.
  • Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.
  • Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados16 que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es el HTML, el XML o el JSON.

¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de computación que la NASA cuando el hombre llegó a la luna17 por lo que la cantidad de datos generados por persona y unidad de tiempo es inmensa. Catalogamos la procedencia de los datos según las siguientes categorías:18

Generados por las personas: Enviar correos electrónicos por e-mail o mensajes por WhatsApp, postear en Facebook, tuitear contenidos o responder a una encuesta por la calle son algunas acciones cuotidianas que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de e-mails, se comparten más de 700.000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube.19 Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
Transacciones de datos: La facturación, las llamadas o las transacción entre cuentas generan información que tratada pueden ser datos relevantes. Un ejemplo más claro lo encontraremos en las transacciones bancarias: lo que el usuario conoce como un ingreso de X euros, la computación lo interpretará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y más metadatos.
E-marketing y web: Generamos una gran cantidad de datos cuando navegamos por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de tracking utilizadas en su mayoría con fines de marketing y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
Machine to Machine (M2M): Son las tecnologías que comparten datos con dispositivos: medidores, sensores de temperatura, de luz, de altura, de presión, de sonido… que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (Wi-Fi, Bluetooth, RFID…) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción o los sensores de signos vitales en la medicina.
Biométrica: Son el conjunto de datos que provienen de la seguridad, defensa y servicios de inteligencia.20 Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

Fuente: Wikipedia

Analfabetismo científico

El 85 al 90 por ciento de la humanidad vive en paí­ses sin ciencia (apenas si tienen un poco de investigación), a quienes ya casi no les queda nada que puedan producir para pagar lo que necesitan en equipos, transportes, comunicación, medicinas, y que produce el Primer Mundo. Eso hunde al Tercero en la desocupación y la miseria. Pero la falta de ciencia tiene un drama aparejado, el analfabetismo cientí­fico, pues cuando a un pueblo le faltan alimentos, energí­a, medicinas, sus habitantes son los primeros en detectar la falta; en cambio, cuando carece de ciencia no sólo es incapaz de advertirlo, sino que tampoco logra imaginar qué harí­a con ella.

Por eso el analfabetismo cientí­fico genera un tercer drama: los investigadores se quejan de que los gobiernos no destinan suficientes fondos a la ciencia, la rodean de una burocracia sofocante y acaso delictuosa (llega a malgastar opacamente fondos en proyectos sin originalidad alguna). También culpan a los empresarios, porque aunque se colapsen ante la competencia tecnológica, rara vez recurren a la comunidad cientí­fica-universitaria. Algo así­ como si muriéramos sin sospechar que eso que se llama ¡medicina! y esos lugares en cuyo frente se lee ¡Hospital! son, justamente, para aliviarnos y acaso curarnos. Creo que se trata de acusaciones injustas, ofensivas y contraproducentes.

Tomados en conjunto, nuestros funcionarios y lí­deres no son perversos, sino analfabetas cientí­ficos a quienes se debe tratar con el mismo respeto que merece un campesino que no ha tenido la suerte de acceder a la escolaridad. Es como preguntar en una remota comunidad indí­gena ¡¿Quién necesita ácido pantoténico?…¿y carotenoides y riboflavinas?! y murmurar ¡Caramba, me habí­an dicho que sufrí­an vitaminosis pero veo que no es así­ ¿Qué sabe el analfabeta cientí­fico sobre qué es y para qué servirí­a la ciencia, ni por qué el carecer de ella nos hunde en desocupación, miseria y dependencia?

Para constatar que su analfabetismo es de buena fe, basta oí­rlos argumentar sobre básica/aplicada, duras/blandas, tironear de presupuestos para las universidades, y comprobar que ni siquiera ayudan a generar el conocimiento del que dependen sus empresas y dependencias del Estado. Pero insistimos: el analfabetismo cientí­fico no surge de ninguna perversidad, sino de una educación arcaica, que no ha logrado conferirles una visión del mundo que sea compatible con la ciencia.

México ha dado pasos importantí­simos, que un menosprecio generalizado corre el riesgo de ocultarnos. En primer lugar ha forjado una comunidad de investigadores que publican en las mejores revistas del mundo, forman parte de los cuerpos cientí­fico/docentes de las mejores universidades de Europa y Estados Unidos. En segundo, ha desarrollado una divulgación cientí­fica excelente, eficaz, atractiva, estimulante. Ahora debe encarar una acción para desarraigar el analfabetismo cientí­fico, sobre todo el más nocivo, el de Estado y de nuestros lí­deres. Pero debe hacerlo recordando que la idea es educar, no denostar. Reconozco que no es fácil montar una campaña nacional para erradicar el analfabetismo cientí­fico. Así­ y todo, el primer paso deberí­a ser un diagnóstico que no vilipendie a quien se propone alfabetizar. Sé muy bien que, para el analfabeta cientí­fico todo se plantea y se juega con un enfoque polí­tico-economicista-humillador. Pero eso es parte del problema a resolver.

Marcelino Cereijido

Julio 2005

*El autor es miembro de la Academia Mexicana de Ciencias adscrito al Centro de Investigación y de Estudios Avanzados.

%d bloggers like this: