Consejos de Tecnología

Los Datos Anonimizados No Son Anonimos

Todos hemos aceptado más o menos que vivimos en una especie de novela de George Orwell de poca monta donde cada uno de nuestros movimientos es rastreado y registrado de alguna manera.

Todo lo que hacemos hoy en día, especialmente si hay algún tipo de aparato o electrónica involucrada, genera datos que son de interés para alguien. Esos datos son constantemente recogidos y almacenados, usados por alguien para construir una imagen del mundo que nos rodea.

La persona promedio hoy en día es mucho más consciente de la importancia de su propia seguridad de datos. Todos entendemos que los datos erróneos en las manos equivocadas pueden ser usados para causar estragos tanto en los individuos como en la sociedad en su conjunto.

Ahora que hay una mayor conciencia general de la importancia de la privacidad de los datos, es mucho más difícil para los actores maliciosos recopilar sin escrúpulos datos sensibles de nosotros, ya que la mayoría de las personas saben que no deben entregarlos.

 

 

Leyes de Proteccion de datos

En la mayoría de las jurisdicciones existen leyes y reglamentos que rigen la forma en que se pueden reunir, almacenar, compartir y acceder a los datos personales.

Si bien esas leyes presentan graves deficiencias en varias esferas, la tendencia de los últimos años ha sido proteger cada vez más a las personas de la negligencia y los excesos de las empresas, lo que ha sido acogido con satisfacción por la mayoría de los consumidores.

Probablemente la ley de protección de datos más conocida es la famosa GDPR o Reglamento General de Protección de Datos, que entró en vigor en 2018. Aunque en teoría sólo tiene poder dentro de la UE, en la práctica la ley se aplica a todas las empresas que tratan con ciudadanos de la UE.

Sus estrictos requisitos de privacidad han hecho que muchas empresas reconsideren la forma en que manejan los datos, amenazando a los malhechores con multas que pueden ascender a miles de millones de euros (hasta el 4% de la facturación anual de la empresa).

A diferencia de la UE, los Estados Unidos no tienen una reglamentación única a nivel federal para proteger los datos de sus ciudadanos. Reconociendo esto, algunos estados han publicado sus propias leyes de privacidad.

Probablemente la más extensa de ellas hasta la fecha es la CCPA o la Ley de Privacidad del Consumidor de California.

La ley entrará en vigor a partir de 2020 y otorgará a los ciudadanos de California muchos de los mismos derechos de los que han llegado a disfrutar los ciudadanos de la UE.

Permitirá a los californianos saber qué datos se recogen sobre ellos, dónde se utilizan, decir no a la venta de sus datos, y pedir que se eliminen.

Datos Anonimizados

Un tema común que ha surgido en las reglamentaciones de diferentes jurisdicciones es la noción de datos anonimizados. Como su nombre indica, se trata de datos que no pueden ser vinculados a un individuo específico.

Un conjunto de datos anonimizados puede presentarse como perteneciente a un individuo concreto, pero la identidad del sujeto no se revela en los datos.

Anonimizacion de Datos  presenta un atractivo punto en común entre los derechos de los consumidores y los que quieren hacer uso de sus datos personales.

Después de todo, la información sobre quiénes somos y qué hacemos ha sido durante mucho tiempo la fuerza motriz de muchas de las mayores empresas de hoy en día, como Google, Facebook y Amazon.

Pero las empresas privadas no son las únicas beneficiarias de nuestros datos. Eliminando cualquier información personal identificable de un conjunto de datos y anonimizándola, los investigadores pueden trabajar con conjuntos de datos grandes y detallados que contienen una gran cantidad de información sin tener que comprometer la privacidad de ningún individuo.

Anonimizando los datos, también podemos animar a la gente a compartir datos que de otra manera se mantendrían. Las empresas y los gobiernos pueden acceder y comerciar con grandes cantidades de datos sin infringir la privacidad de nadie, gracias a la anonimización.

Mientras tanto, los usuarios no tienen que preocuparse de que los datos que generan sean registrados y revelen información sobre ellos personalmente.

Tecnicas de Anonimizacion de Datos

Hay muchas formas de anonimizar los datos, que varían en costo y dificultad.

Tal vez la técnica más fácil es simplemente eliminar algunos de los identificadores directos del usuario. Esta es básicamente su principal información personal. Por ejemplo, una compañía de seguros podría borrar el nombre de un cliente, su fecha de nacimiento, y llamar a los datos tan buenos como anonimizados.

Otro método es generalizar los datos de múltiples usuarios para reducir su precisión. Por ejemplo, podría eliminar los últimos dígitos de un código postal o presentar la edad de una persona en un rango en lugar del número exacto.

Es uno de los métodos que Google utiliza para lograr el anonimato k – este elaborado término significa simplemente que un cierto número de personas (definido por la letra k) debe compartir la misma propiedad, como el código postal.

Otra forma es incluir el ruido en el conjunto de datos. Por ruido me refiero a intercambiar información sobre ciertas propiedades entre individuos o grupos.

Por ejemplo, este método podría cambiar los detalles de la propiedad de su coche con otra persona. Tu perfil cambiaría, pero todo el conjunto de datos permanecería intacto para el análisis estadístico.

Finalmente, puedes proteger aún más los datos anónimos que necesitas compartir mediante un muestreo, es decir, liberando el conjunto de datos en pequeños lotes. En teoría, el muestreo ayuda a reducir el riesgo de reidentificación.

Incluso si los datos son suficientes para identificarte como individuo, estadísticamente debería haber al menos otras personas con las mismas características que tú. Sin tener todo el conjunto de datos, no hay forma de decir qué persona es realmente.

Existen Otras tecnicas de Anonimizacion de datos, pero estas son las principales.

Desanonimizacion

Así que, el anonimato hace que todo el mundo gane, ¿verdad? Bueno, no del todo.

Cualquiera que haya trabajado extensamente con datos puede testificar cuán poca información se necesita para identificar a un individuo específico de una base de datos de muchos miles.

Una de las consecuencias de los enormes volúmenes de datos que ahora existen sobre todos nosotros es que las diferentes fuentes de datos pueden ser cruzadas para identificar elementos comunes.

En algunos casos, estas referencias cruzadas pueden desanonimizar instantáneamente conjuntos de datos completos, dependiendo de cómo se hayan anonimizado exactamente.

Los investigadores pudieron recuperar los apellidos de los varones estadounidenses de una base de datos de información genética simplemente haciendo uso de los recursos de Internet disponibles al público.

Un conjunto de datos de acceso público del servicio de intercambio de bicicletas de Londres podría utilizarse no sólo para rastrear los viajes, sino también quién los hizo realmente.

Las clasificaciones anónimas de películas de Netflix se asignaron a individuos mediante referencias cruzadas con datos de la IMDB, revelando así algunos datos muy privados sobre los usuarios. Estos son sólo algunos de los muchos ejemplos similares.

Desde la introducción de la GDPR, varias empresas han buscado la manera de seguir manejando grandes volúmenes de datos sobre los clientes sin entrar en conflicto con las nuevas reglamentaciones.

Muchas organizaciones han llegado a considerar que los conjuntos de datos anonimizados son un medio de eludir potencialmente las reglamentaciones. Después de todo, si los datos no están vinculados a individuos específicos, no pueden infringir su privacidad.

No Existe tal cosa como el anonimato

Según las nuevas investigaciones realizadas por los investigadores del Imperial College London, junto con sus homólogos de la Universidad Católica de Lovaina de Bélgica, es increíblemente difícil desanonimizar los datos adecuadamente.

Para que los datos sean completamente anónimos, deben ser presentados de forma aislada. Puedes usar una VPN o cambiar tu dirección IP (más información sobre los servidores proxy puedes encontrarla en Proxyway), etc.

Si se proporcionan suficientes datos anónimos sobre una persona, basta con una simple referencia cruzada con otras bases de datos para determinar a quién conciernen los datos.

Usando su propio modelo de predicción, los investigadores hicieron un descubrimiento sorprendente: sólo se necesitarían 15 piezas de información demográfica para re-identificar al 99.98% de los americanos.

Además, sólo se necesitarían cuatro atributos básicos (código postal, fecha de nacimiento, sexo y número de hijos) para identificar con seguridad al 79,4% de todo el estado de Massachusetts. De acuerdo con el estudio, la liberación de datos en pequeñas muestras no es suficiente para proteger a un individuo de la detección.

Teniendo en cuenta que los investigadores pueden desanonimizar los registros de todo un estado, los agentes de datos como Experian están vendiendo conjuntos de datos anonimizados que contienen cientos de puntos de datos para cada individuo.

De acuerdo con el trabajo de los investigadores, estos datos son anonimizados sólo de nombre, y cualquiera con la capacidad de manejar grandes conjuntos de datos también tiene los recursos para desanonimizarlos fácilmente.

No importa qué métodos se utilicen para anonimizar los datos. Incluso las técnicas más avanzadas como el k-anonimato pueden no ser suficientes, sin mencionar que son caras.

En la mayoría de los casos, lo único que ocurre es que sólo se eliminan los datos inmediatamente identificables como nombres y direcciones. Esto está lejos de ser suficiente.

Los hallazgos de los investigadores nos instan a no caer en una falsa sensación de seguridad. También cuestionan los métodos que las empresas utilizan para anonimizar los datos a la luz de los estrictos requisitos normativos establecidos por la GDPR y la próxima CCPA.

Resumen

La larga batalla para conseguir que el usuario medio de internet se preocupe por sus datos y su privacidad ha sido agotadora. Cualquiera que haya trabajado en ciberseguridad en las últimas dos décadas puede testificar cuánto han mejorado las cosas, pero todavía hay un largo camino por recorrer.

La noción de que los datos de las personas pueden ser anonimizados y convertidos en inofensivos es incorrecta y peligrosa. Es importante que la gente entienda adecuadamente las implicaciones de entregar sus datos. No entregue sus datos bajo la falsa impresión de que no pueden ser atados a ti.

Mokhtar Ebrahim
Fundadora de LikeGeeks. Estoy trabajando como administrador de sistemas Linux desde 2010. Soy responsable de mantener, proteger y solucionar problemas de servidores Linux para múltiples clientes de todo el mundo. Me encanta escribir guiones de shell y Python para automatizar mi trabajo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *