PostgreSQL : la privacidad de datos y anonimización del SQL

Detalles: Escrito por: : La Redacción; Categoría: Software; Publicado: 20 Marzo 2022; Visitas: 900

PostgreSQL

Las organizaciones públicas, privadas y gubernamentales están ahora, más que nunca, preocupadas por cómo implementar la privacidad de los datos, dado que muchos países han comenzado a regular mediante la creación de normas y leyes nacionales para proteger la información confidencial de la divulgación.

Sin embargo, lo que podría no ser muy apreciado es que las empresas pueden cumplir fácilmente con las leyes de privacidad mediante el uso de datos que son verdaderamente anónimos. Una vez que las personas ya no son identificables, los datos ya no entran en el ámbito de aplicación del Reglamento general de protección de datos (GDPR).

Específicamente, la anonimización de datos es el proceso de proteger información privada o confidencial mediante el borrado, el cifrado o el enmascaramiento de identificadores que conectan a un individuo con los datos almacenados. Los ejemplos de datos de identificación personal incluyen nombres, números de seguro social y números de teléfono móvil.

Siempre que los conjuntos de datos anonimizados no se relacionen con una persona física identificada o identificable, pueden publicarse o compartirse con cualquier parte sin obligaciones legales y sin necesidad del consentimiento del usuario.

Técnicas para anonimizar datos

Afortunadamente, los proveedores de bases de datos también están comenzando a apreciar la importancia de anonimizar los datos y están brindando herramientas para hacerlo. Por ejemplo, la base de datos de código abierto PostgreSQL ahora tiene una extensión disponible para implementar la anonimización, mientras que EDB, uno de los mayores contribuyentes al proyecto de código abierto de Postgres, ha ofrecido que Postgres Advanced Server 11 presenta capacidades de redacción de datos nativos desde 2018.Sin embargo, la anonimización no es algo que deba tomarse a la ligera. Se debe tener cuidado en cómo se hace, y dependerá de cómo planee utilizar los datos.

Por ejemplo, debe decidir si la anonimización será estática o dinámica. Estático significa que los datos se modifican permanentemente en la base de datos (o, más generalmente, en una copia). Dinámico significa que el cambio se aplica a los resultados de la consulta, y no a todo el conjunto de datos.

La mayoría de las industrias utilizan la anonimización estática porque es una técnica de 'una vez y listo', con el beneficio adicional de que una vez anonimizados, no importa lo que suceda con los datos, incluso si son robados. Sin embargo, la anonimización dinámica es una tecnología menos madura por el momento, y hay muy pocas historias de clientes que puedan atestiguar su éxito.

Otra consideración es cómo anonimizar los datos. Hay varias técnicas diferentes disponibles, cada una con sus propios beneficios:

Separación de atributos o registros significa eliminar el atributo o registro directamente del conjunto de datos. No hay riesgo de reidentificación, pero hay pérdida permanente de datos.
La seudonimización es el uso de identificadores falsos o pseudo. Los pseudoidentificadores se crean con un mapeo uno a uno de los identificadores originales, lo que significa que los pseudodatos se pueden "traducir" al original.
La generalización consiste en hacer que los datos sean más genéricos agrupándolos en áreas amplias. Por ejemplo, aunque Bob tiene 28 años, se registra que la edad de Bob está entre 20 y 30 años. Sin embargo, una mayor generalización afecta la utilidad de los datos.
Los datos sintéticos utilizan datos completamente artificiales para reemplazar el original. Es adecuado para fines de prueba y no hay riesgo de reidentificación. Sin embargo, los grandes conjuntos de datos pueden requerir altos recursos informáticos, por lo que el costo puede convertirse en un factor.
La perturbación de datos es cuando los datos se modifican agregando ruido aleatorio. Principalmente adecuado para valores numéricos.
El intercambio de datos es cuando los conjuntos de datos se reorganizan, esencialmente una reorganización de los datos. Sin embargo, puede crear condiciones inusuales (p. ej., si el género masculino y femenino de los pacientes se intercambian en una base de datos médica).
Beneficios de seguridad y reputación versus impacto en la personalización
La anonimización es una herramienta clave para tratar de proteger la privacidad de los datos. Sin embargo, tenga en cuenta que la anonimización también puede crear problemas en el futuro, especialmente si tiene la intención de utilizar los datos para brindar una experiencia personalizada a sus visitantes. Desafortunadamente, el uso de datos anónimos puede obstaculizar la efectividad de sus esfuerzos de marketing.

Sin embargo, a estas alturas deberíamos apreciar el riesgo de que los datos personales sean objeto de robo. Si las organizaciones no se esfuerzan por mejorar la privacidad de los datos, las identidades digitales de las personas inevitablemente se verán comprometidas.

Cuando esto sucede, las consecuencias tendrían serias implicaciones para las personas cuyas identidades son robadas y para las organizaciones que sufren la violación, incluida la falta de confianza del cliente, la exposición negativa de la marca y posibles litigios debido al incumplimiento de la regulación de privacidad de datos.Shilpa Oswal trabaja para una organización de I+D del Ministerio de Electrónica y Tecnología de la Información del Gobierno de la India y tiene experiencia en la implementación de procedimientos de anonimización para sistemas de gobierno electrónico en el país.

Partes de este editorial han sido adaptadas de una charla dada en un evento organizado por EDB (anteriormente EnterprisedB), una organización que proporciona software y servicios basados en la base de datos de código abierto PostgreSQL.

Fuente: datacenterdynamics | somoslibres