Cynthia Dwork: privacidad, descentralización e inmaleabilidad

8/3/2023
AUTOR
Colegio de matemáticas Bourbaki

En esta edición de nuestro BOURBAKISME continuamos con la serie La Ciencia de Datos en sus personajes, lo haremos hablando sobre el trabajo de Cynthia Dwork quien actualmente es Profesora en la Universidad de Harvard y científica distinguida en Microsoft.

Cynthia Dwork ha resuelto complicados problemas concretos relacionados con la descentralización, la seguridad y la privacidad mediante su profundo conocimiento sobre las Ciencias de la Computación. Sus soluciones técnicas son el reflejo de una enorme imaginación y sus explicaciones tanto a sus colegas como al gran público son nítidas.

Nuestra serie de presentaciones está enfocada en reseñar el trabajo de los Científicos de Datos que han aportado a esta hermosa y al mismo tiempo poderosa herramienta. Las ediciones pasadas fueron dedicadas a Donoho, Pearl e Isabelle Guyon.

Descentralización y consensos

Uno de los problemas más complicados en computación es el consenso en un sistema no-distribuido. Algunos ejemplos notables de sistemas no-distribuidos son por supuesto la red de Bitcoin, Google File System y de manera mucho más general el cómputo en la Nube.

No alt text provided for this image
Nakamoto propuso un protocolo de consenso para Bitcoin

Si estos sistemas están sincronizados, es decir existen tiempos de espera fijos para enviar mensajes y además una hora centralizada entonces es bastante sencillo resolver casi cualquier decisión de manera colectiva sin el problema de ataques que comprometan la validez del sistema. Imaginemos a dos personas editando simultáneamente un Google Docs.

En la práctica es imposible imaginar las condiciones ideales y por lo tanto es necesario un protocolo que persiga el consenso entre los miembros de una red. Quizás el primer algoritmo que lo logró avances en el consenso fue el algoritmo PAXOS de Leslie Lamport en 1978 quien construyó un orden total utilizando órdenes parciales.

Utilizando algunas de estas ideas Dwork junto a Nancy Lynch y Larry Stockmeyer publicaron el célebre artículo Consensus in the Presence of Partial Synchrony el cual inclusive fue galardonado con el prestigioso Premio Edsger W. Dijkstra 2007.

En este artículo propusieron por primera vez una familia de protocolos de consenso que son matemáticamente tolerantes al fracaso para el caso parcialmente asíncrono.

Spam & Proof of Work

Otro de los trabajos más sobresalientes de Cynthia Dwork está relacionado directamente con el actual protocolo de consenso de la red de Bitcoin, en particular con el proceso de minado para autentificar las transacciones.

No alt text provided for this image

En el artículo Pricing via Processing or Combatting Junk Mail se introdujo por primera vez el concepto de Pricing Function el cual es el análogo de los acertijos computacionales que realizan los mineros en Bitcoin. La idea general es prevenir el Spam al requerir que los usuarios utilicen poder computacional antes de validar un envío. El mismo Bill Gates durante sus años como director en Microsoft sostuvo lo importante que era para su compañía reducir la cantidad de spam y mejorar la experiencia de los usuarios.

Seguridad e inmaleabilidad

La criptografía de clave pública se caracteriza por utilizar dos claves para el mismo usuario, por un lado la pública que pueden ver todos los usuarios y por el otro lado la privada que solo el usuario tendrá acceso. Pensemos por ejemplo en nuestro número de cuenta CLABE y el acceso a nuestra banca electrónica BANK.

No alt text provided for this image

Una propiedad deseable y además ampliamente cumplida por los protocolos criptográficos es la llamada seguridad semántica en la que es imposible inferir una relación entre dos claves privada conociendo únicamente la información pública. La banca electrónica es claramente segura semánticamente pues los números de cuenta no nos dicen nada sobre los detalles de las cuentas.

En algunas circunstancias esto no es suficiente pues para atacar el sistema solo necesitamos un método para construir una clave pública maliciosa que se relacione con la clave privada. Por ejemplo si pudiéramos asignarnos un número de cuenta en el banco CLAVE que permita que nuestra cuenta privada BANC se parezca a la de CLABE.

El concepto anterior fue descubierto y estudiado por Danny Dolev, Cynthia Dwork y Moni Naor en su artículo Non-Malleable Cryptography.

Privacidad diferencial

Con el amplio uso de algoritmos en cualquier industria, la privacidad de los miembros particulares de una población cuyos datos entrenaron a un modelo matemático es una preocupación muy relevante.

Uno de los trabajos más relevantes de Cythia Dwork fue publicado en 2006 junto a Frank McSherry, Kobbi Nissim y Adam D. Smith bajo el título de Calibrating Noise to Sensitivity in Private Data Analysis Journal of Privacy and Confidentiality. La importancia de este artículo es tan grande que en 2017 recibieron el Premio Gödel.

No alt text provided for this image

En este trabajo sentaron las bases de un análisis matemático formal que permita garantizar con algún grado épsilon de certeza la privacidad de los miembros cuyos datos se utilizaron en el entrenamiento de un modelo de machine learning. La privacidad diferencial es uno de los conceptos más relevantes en la actualidad dentro de Machine Learning y muchas grandes empresas como LinkedIn la utilizan para mejorar la calidad de su plataforma.

Equidad algorítmica

Relacionado con la idea de privacidad diferencial está el concepto de equidad algorítmica en clasificación la cuál también ha sido una de las grandes áreas de investigación de Cynthia Dwork en los próximos años. En nuestro boletín BOURBAKISME ya hablamos sobre el tema anteriormente.

Oferta académica