ncs-david-ruiz

David Ruiz Guindo

Arquitecto de soluciones@druizgui

Como responsables del acceso y tratamiento de la información es nuestro deber proteger los datos lo mejor posible y ponernos en la piel de los delincuentes para pensar si los datos personales de nuestros sistemas están debidamente protegidos. Esto no es solo responsabilidad del delegado de protección de datos. Aquí, el área de seguridad de una empresa, es crucial y debe velar por la protección de los accesos y el aumento de la seguridad.

También hay que tener clara la estrategia a seguir hasta la anonimización. Es conveniente seguir los siguientes pasos:

2. CLASIFICAR
3. MÉTODOS
2. Clasificar

Una vez hemos localizado los campos con información personal es conveniente clasificarla por tipo. Como mínimo deben existir tres tipos de información: Información personal, información sensible y otra información.

Se pueden usar tantos tipos como el negocio requiera, pudiendo aplicar luego diferentes políticas de protección en función de la clasificación realizada. También es conveniente agrupar la información en categorías. Al menos deberían existir dos: RGPD y No RGPD. Pero sería conveniente crear más categorías para clasificar los diferentes tipos de información. Un ejemplo sería:

- Datos personales

- Datos bancarios

- Salud y datos médicos

- Datos Biométricos

- Seguridad

2. Métodos

Una vez conozcamos todos los datos hay que pensar cómo reemplazarlos, separarlos o borrarlos para eliminar la información personal. Este paso define cómo vamos a anonimizar. Existen varios mecanismos de anonimización que mencionaré después. Podemos aplicar métodos que permitan al proceso de anonimización saber cómo actuar a la hora de anonimizar cada campo. Por resolver esto existen varios métodos de anonimización. Algunos de ellos son:

Quizá, la tarea más importante aquí, sea analizar el impacto que la sustitución de estos campos pueda ocasionar. Un reemplazo incorrecto puede ocasionar que la explotación de datos en la base de datos anonimizada no sea la esperada, bien porque se produzcan errores o bien porque el resultado se haya alterado. Por ejemplo, si sacamos una estadística de compras por municipios donde se usa el código postal, el resultado de la base de datos no anonimizada y la anonimizada pueden verse alterados. Es necesario estudiar los mecanismos que en nuestro negocio alteren lo menos posible estos datos respetando la privacidad de los usuarios.

Eliminación: borrar los registros completos o el dato a anonimizar. Esta técnica es útil, por ejemplo, a la hora de reemplazar campos de texto libre observaciones, donde los datos no se usan en la lógica o estadísticas.

Reemplazo: Los datos originales son reemplazados por otros diferentes. Útil para cualquier dato personal. Para los reemplazos, librerías como Bogus o Faker pueden ayudarnos en esta tarea, aunque la mayor parte de datos se generan para Estados Unidos. Además, tendremos que implementar nuestros propios mecanismos de reemplazo. Una buena práctica al respecto es que nuestro proceso de anonimización permita inyectar componentes, sobre todo si queremos anonimizar fuentes de datos de diferentes países e idiomas.

Reducción: Consiste en reemplazar aquellos datos que tienen pocas apariciones por valores de otros datos que tienen más apariciones. Si tenemos la siguiente tabla:

ncs-blog-estrategias-3-reduccion1

En este caso los registros de Albacete y Cuenca solo aparecen una vez, por lo que sería fácil volver a identificar los datos con alguna información. En este caso se pueden reemplazar por Madrid o Barcelona por lo que quedaría:

ncs-blog-estrategias-3-reduccion2

Ofuscación: Consiste en reemplazar con caracteres sobrescribiendo todo o parte del valor real. Por ejemplo:

ncs-blog-estrategias-3-reduccion3

Intercambio: Es una técnica de perturbación, donde no se reemplazan valores ni se reducen. Se intercambian los valores de unos registros con otros para evitar introducir cambios en los estudios estadísticos realizados sobre este dato. Esta técnica no interfiere en la totalidad del dato ya que usa los mismos valores que en la realidad, pero cambiándolos de sitio.

Por ejemplo, si tenemos un estudio médico que indica si el paciente tiene Cáncer o no. donde registramos El DNI de la persona, su provincia, código postal y el tipo de cáncer, podríamos aplicar los siguientes métodos:

Para el DNI usaremos una función de reemplazo basada en un generador aleatorio de DNI. Igualmente, para la provincia. Para el código postal sustituiremos los últimos 3 dígitos por 002, aplicando reducción. Es importante revisar los datos del código postal, verificando que el valor de k en la k-anonimidad es suficientemente alto. Si no, será necesario aplicar eliminación o intercambio. Por último, sabemos que los datos de cáncer se usan para elaborar una estadística precisa por lo que mantendremos los datos existentes, pero alteraremos el orden por provincia, cambiando el valor de cáncer entre pacientes.

3. Anonimizar

En último lugar es necesario reemplazar los campos en las diferentes fuentes de datos. El punto clave en este paso es el rendimiento, ya que puede ser bastante grande la cantidad de datos a eliminar o reemplazar hasta conseguir anonimizar el conjunto de datos completo.

Es importante plantear estrategias de divide y vence o anonimización incremental para tener la anonimización realizada en el tiempo deseado. También es necesario revisar que ningún dato personal se nos ha escapado en el proceso y verificar que la integridad de los datos es correcta a la hora de usar las fuentes anonimizadas.

4. Conclusiones

Todos estos pasos deben formar parte de un ciclo continuo de revisión y anonimización, ya que las fuentes de datos añaden nuevos campos de datos personales y es necesario documentar e integrar estos campos en el proceso de anonimización.

estrategia-proteccion-datos-conclusiones

Cumplir con el RGPD no es solo obligatorio. Además de evitar las muy considerables multas hay que pensar que anonimizar los datos nos abre la posibilidad de compartir con terceros nuestras bases de datos, permitiendo hacer estudios que nos aporten algún beneficio y nos ayuden a establecer estrategias de mercado.

Muchas empresas ofrecen servicios analíticos para mejorar y optimizar los recursos de una empresa con lo que la anonimización puede abrir posibilidades de externalización de servicios. Además, pensar en la separación de datos personales permite dedicar recursos de seguridad específicos a los almacenes de datos sensibles y liberar los datos menos sensibles, reduciendo costes y riesgos.

Y no hay que olvidar que este proceso nos obliga a documentar mejor nuestras fuentes de datos, algo que podemos utilizar para conocer y mejorar nuestro negocio estudiando el conjunto de datos completo e implementando mejoras.