You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/es/1-Introduction/02-ethics/README.md

30 KiB

Introducción a la Ética de los Datos

 Sketchnote por (@sketchthedocs)
Ética en Ciencia de Datos - Sketchnote por @nitya

Todos somos ciudadanos de datos viviendo en un mundo dataficado.

Las tendencias del mercado indican que para 2022, 1 de cada 3 grandes organizaciones comprará y venderá sus datos a través de mercados y plataformas de intercambio en línea. Como desarrolladores de aplicaciones, nos resultará más fácil y económico integrar conocimientos basados en datos y automatización impulsada por algoritmos en las experiencias diarias de los usuarios. Pero a medida que la IA se vuelve omnipresente, también necesitaremos comprender los posibles daños causados por la utilización indebida de estos algoritmos a gran escala.

Las tendencias también indican que crearemos y consumiremos más de 180 zettabytes de datos para 2025. Como científicos de datos, esto nos da niveles de acceso sin precedentes a datos personales. Esto significa que podemos construir perfiles de comportamiento de los usuarios e influir en la toma de decisiones de maneras que crean una ilusión de libre elección, mientras potencialmente dirigimos a los usuarios hacia resultados que preferimos. También plantea preguntas más amplias sobre la privacidad de los datos y la protección de los usuarios.

La ética de los datos es ahora un guardarraíl necesario para la ciencia y la ingeniería de datos, ayudándonos a minimizar posibles daños y consecuencias no deseadas de nuestras acciones impulsadas por datos. El Ciclo de Hype de Gartner para la IA identifica tendencias relevantes en ética digital, IA responsable y gobernanza de IA como impulsores clave de megatendencias más amplias en torno a la democratización y industrialización de la IA.

Ciclo de Hype de Gartner para la IA - 2020

En esta lección, exploraremos el fascinante ámbito de la ética de los datos: desde conceptos y desafíos fundamentales, hasta estudios de caso y conceptos aplicados de IA como la gobernanza, que ayudan a establecer una cultura ética en equipos y organizaciones que trabajan con datos e IA.

Cuestionario previo a la lección 🎯

Definiciones Básicas

Comencemos entendiendo la terminología básica.

La palabra "ética" proviene de la palabra griega "ethikos" (y su raíz "ethos") que significa carácter o naturaleza moral.

Ética se refiere a los valores compartidos y principios morales que gobiernan nuestro comportamiento en la sociedad. La ética no se basa en leyes, sino en normas ampliamente aceptadas de lo que es "correcto vs. incorrecto". Sin embargo, las consideraciones éticas pueden influir en iniciativas de gobernanza corporativa y regulaciones gubernamentales que crean más incentivos para el cumplimiento.

Ética de los Datos es una nueva rama de la ética que "estudia y evalúa problemas morales relacionados con datos, algoritmos y prácticas correspondientes". Aquí, "datos" se enfoca en acciones relacionadas con la generación, registro, curación, procesamiento, difusión, intercambio y uso; "algoritmos" se enfoca en IA, agentes, aprendizaje automático y robots; y "prácticas" se enfoca en temas como innovación responsable, programación, hacking y códigos de ética.

Ética Aplicada es la aplicación práctica de consideraciones morales. Es el proceso de investigar activamente cuestiones éticas en el contexto de acciones, productos y procesos del mundo real, y tomar medidas correctivas para garantizar que permanezcan alineados con nuestros valores éticos definidos.

Cultura Ética se refiere a operacionalizar la ética aplicada para garantizar que nuestros principios y prácticas éticas sean adoptados de manera consistente y escalable en toda la organización. Las culturas éticas exitosas definen principios éticos a nivel organizacional, proporcionan incentivos significativos para el cumplimiento y refuerzan las normas éticas alentando y amplificando los comportamientos deseados en todos los niveles de la organización.

Conceptos de Ética

En esta sección, discutiremos conceptos como valores compartidos (principios) y desafíos éticos (problemas) para la ética de los datos, y exploraremos estudios de caso que te ayudarán a comprender estos conceptos en contextos del mundo real.

1. Principios Éticos

Toda estrategia de ética de los datos comienza definiendo principios éticos: los "valores compartidos" que describen comportamientos aceptables y guían acciones conformes en nuestros proyectos de datos e IA. Puedes definirlos a nivel individual o de equipo. Sin embargo, la mayoría de las grandes organizaciones los describen en una declaración de misión o marco de trabajo de IA ética definido a nivel corporativo y aplicado de manera consistente en todos los equipos.

Ejemplo: La declaración de misión de IA Responsable de Microsoft dice: "Estamos comprometidos con el avance de la IA impulsada por principios éticos que ponen a las personas primero", identificando 6 principios éticos en el marco a continuación:

IA Responsable en Microsoft

Exploremos brevemente estos principios. Transparencia y responsabilidad son valores fundamentales sobre los que se construyen otros principios, así que comencemos por ahí:

  • Responsabilidad hace que los practicantes sean responsables de sus operaciones de datos e IA, y del cumplimiento de estos principios éticos.
  • Transparencia asegura que las acciones de datos e IA sean comprensibles (interpretables) para los usuarios, explicando el qué y el porqué detrás de las decisiones.
  • Equidad se enfoca en garantizar que la IA trate a todas las personas de manera justa, abordando cualquier sesgo socio-técnico sistémico o implícito en los datos y sistemas.
  • Confiabilidad y Seguridad asegura que la IA se comporte de manera consistente con los valores definidos, minimizando posibles daños o consecuencias no deseadas.
  • Privacidad y Seguridad se trata de comprender el linaje de los datos y proporcionar privacidad de datos y protecciones relacionadas a los usuarios.
  • Inclusión se trata de diseñar soluciones de IA con intención, adaptándolas para satisfacer una amplia gama de necesidades y capacidades humanas.

🚨 Piensa en cuál podría ser tu declaración de misión de ética de los datos. Explora marcos de IA ética de otras organizaciones: aquí tienes ejemplos de IBM, Google y Facebook. ¿Qué valores compartidos tienen en común? ¿Cómo se relacionan estos principios con el producto o la industria de IA en la que operan?

2. Desafíos Éticos

Una vez que hemos definido los principios éticos, el siguiente paso es evaluar nuestras acciones de datos e IA para ver si se alinean con esos valores compartidos. Piensa en tus acciones en dos categorías: recolección de datos y diseño de algoritmos.

En la recolección de datos, las acciones probablemente involucrarán datos personales o información personal identificable (PII) de individuos identificables. Esto incluye diversos elementos de datos no personales que colectivamente identifican a un individuo. Los desafíos éticos pueden relacionarse con privacidad de datos, propiedad de datos y temas relacionados como consentimiento informado y derechos de propiedad intelectual de los usuarios.

En el diseño de algoritmos, las acciones involucrarán la recolección y curación de conjuntos de datos, y luego usarlos para entrenar y desplegar modelos de datos que predicen resultados o automatizan decisiones en contextos del mundo real. Los desafíos éticos pueden surgir de sesgos en los conjuntos de datos, problemas de calidad de datos, injusticias y falsas representaciones en los algoritmos, incluyendo algunos problemas que son sistémicos por naturaleza.

En ambos casos, los desafíos éticos destacan áreas donde nuestras acciones pueden entrar en conflicto con nuestros valores compartidos. Para detectar, mitigar, minimizar o eliminar estas preocupaciones, necesitamos hacer preguntas morales de "sí/no" relacionadas con nuestras acciones y luego tomar medidas correctivas según sea necesario. Veamos algunos desafíos éticos y las preguntas morales que plantean:

2.1 Propiedad de los Datos

La recolección de datos a menudo involucra datos personales que pueden identificar a los sujetos de los datos. La propiedad de los datos se refiere al control y derechos de los usuarios relacionados con la creación, procesamiento y difusión de datos.

Las preguntas morales que debemos hacernos son:

  • ¿Quién es el propietario de los datos? (usuario u organización)
  • ¿Qué derechos tienen los sujetos de los datos? (ej.: acceso, eliminación, portabilidad)
  • ¿Qué derechos tienen las organizaciones? (ej.: rectificar reseñas maliciosas de usuarios)

2.2 Consentimiento Informado

El consentimiento informado define el acto de que los usuarios acepten una acción (como la recolección de datos) con un entendimiento completo de los hechos relevantes, incluyendo el propósito, los posibles riesgos y las alternativas.

Preguntas a explorar aquí son:

  • ¿El usuario (sujeto de los datos) dio permiso para la captura y uso de datos?
  • ¿El usuario entendió el propósito para el cual se capturaron esos datos?
  • ¿El usuario entendió los posibles riesgos de su participación?

2.3 Propiedad Intelectual

La propiedad intelectual se refiere a creaciones intangibles resultantes de la iniciativa humana, que pueden tener valor económico para individuos o empresas.

Preguntas a explorar aquí son:

  • ¿Los datos recolectados tienen valor económico para un usuario o empresa?
  • ¿El usuario tiene propiedad intelectual aquí?
  • ¿La organización tiene propiedad intelectual aquí?
  • Si existen estos derechos, ¿cómo los estamos protegiendo?

2.4 Privacidad de los Datos

La privacidad de los datos o privacidad de la información se refiere a la preservación de la privacidad del usuario y la protección de su identidad con respecto a la información personal identificable.

Preguntas a explorar aquí son:

  • ¿Los datos (personales) de los usuarios están protegidos contra hackeos y filtraciones?
  • ¿Los datos de los usuarios son accesibles solo para usuarios y contextos autorizados?
  • ¿Se preserva el anonimato de los usuarios cuando los datos se comparten o difunden?
  • ¿Se puede desidentificar a un usuario de conjuntos de datos anonimizados?

2.5 Derecho al Olvido

El Derecho al Olvido o Derecho de Supresión proporciona protección adicional de datos personales a los usuarios. Específicamente, otorga a los usuarios el derecho a solicitar la eliminación o supresión de datos personales de búsquedas en Internet y otros lugares, bajo circunstancias específicas, permitiéndoles un nuevo comienzo en línea sin que se les juzgue por acciones pasadas.

Preguntas a explorar aquí son:

  • ¿El sistema permite a los sujetos de los datos solicitar la supresión?
  • ¿Debería el retiro del consentimiento del usuario activar la supresión automática?
  • ¿Se recolectaron datos sin consentimiento o por medios ilegales?
  • ¿Cumplimos con las regulaciones gubernamentales sobre privacidad de datos?

2.6 Sesgo en los Conjuntos de Datos

El sesgo en los conjuntos de datos o sesgo de recolección se refiere a la selección de un subconjunto no representativo de datos para el desarrollo de algoritmos, creando potenciales injusticias en los resultados para diversos grupos. Los tipos de sesgo incluyen sesgo de selección o muestreo, sesgo de voluntarios y sesgo de instrumentos.

Preguntas a explorar aquí son:

  • ¿Reclutamos un conjunto representativo de sujetos de datos?
  • ¿Probamos nuestro conjunto de datos recolectado o curado para diversos sesgos?
  • ¿Podemos mitigar o eliminar los sesgos descubiertos?

2.7 Calidad de los Datos

La calidad de los datos evalúa la validez del conjunto de datos curado utilizado para desarrollar nuestros algoritmos, verificando si las características y registros cumplen con los requisitos de precisión y consistencia necesarios para nuestro propósito de IA.

Preguntas a explorar aquí son:

  • ¿Capturamos características válidas para nuestro caso de uso?
  • ¿Se capturaron los datos de manera consistente en diversas fuentes?
  • ¿El conjunto de datos es completo para diversas condiciones o escenarios?
  • ¿La información capturada refleja con precisión la realidad? Equidad Algorítmica verifica si el diseño del algoritmo discrimina sistemáticamente contra subgrupos específicos de sujetos de datos, lo que puede llevar a daños potenciales en la asignación (donde se niegan o retienen recursos a ese grupo) y en la calidad del servicio (donde la IA no es tan precisa para algunos subgrupos como lo es para otros).

Preguntas para explorar aquí son:

  • ¿Evaluamos la precisión del modelo para diversos subgrupos y condiciones?
  • ¿Examinamos el sistema en busca de posibles daños (por ejemplo, estereotipos)?
  • ¿Podemos revisar los datos o reentrenar los modelos para mitigar los daños identificados?

Explora recursos como listas de verificación de equidad en IA para aprender más.

2.9 Representación Errónea

Representación Errónea de Datos se refiere a preguntarnos si estamos comunicando conocimientos de datos reportados de manera honesta, pero de forma engañosa, para respaldar una narrativa deseada.

Preguntas para explorar aquí son:

  • ¿Estamos reportando datos incompletos o inexactos?
  • ¿Estamos visualizando datos de una manera que lleva a conclusiones engañosas?
  • ¿Estamos utilizando técnicas estadísticas selectivas para manipular resultados?
  • ¿Existen explicaciones alternativas que puedan ofrecer una conclusión diferente?

2.10 Libre Elección

La Ilusión de Libre Elección ocurre cuando las "arquitecturas de elección" del sistema utilizan algoritmos de toma de decisiones para influir a las personas hacia un resultado preferido, mientras aparentan darles opciones y control. Estos patrones oscuros pueden causar daños sociales y económicos a los usuarios. Dado que las decisiones de los usuarios impactan los perfiles de comportamiento, estas acciones pueden potencialmente impulsar elecciones futuras que amplifiquen o extiendan el impacto de estos daños.

Preguntas para explorar aquí son:

  • ¿El usuario entendió las implicaciones de tomar esa decisión?
  • ¿El usuario estaba al tanto de las opciones (alternativas) y los pros y contras de cada una?
  • ¿Puede el usuario revertir una decisión automatizada o influenciada más tarde?

3. Estudios de Caso

Para contextualizar estos desafíos éticos en el mundo real, es útil observar estudios de caso que destacan los posibles daños y consecuencias para individuos y la sociedad cuando se pasan por alto estas violaciones éticas.

Aquí hay algunos ejemplos:

Desafío Ético Estudio de Caso
Consentimiento Informado 1972 - Estudio de Sífilis de Tuskegee - A los hombres afroamericanos que participaron en el estudio se les prometió atención médica gratuita, pero fueron engañados por los investigadores, quienes no informaron a los sujetos sobre su diagnóstico ni sobre la disponibilidad de tratamiento. Muchos murieron y sus parejas o hijos se vieron afectados; el estudio duró 40 años.
Privacidad de Datos 2007 - El premio de datos de Netflix proporcionó a los investigadores 10 millones de clasificaciones de películas anonimizadas de 50,000 clientes para mejorar los algoritmos de recomendación. Sin embargo, los investigadores pudieron correlacionar datos anonimizados con datos personales identificables en conjuntos de datos externos (por ejemplo, comentarios en IMDb), "desanonimizando" efectivamente a algunos suscriptores de Netflix.
Sesgo en la Recolección de Datos 2013 - La ciudad de Boston desarrolló Street Bump, una aplicación que permitía a los ciudadanos reportar baches, proporcionando mejores datos sobre carreteras para encontrar y solucionar problemas. Sin embargo, las personas de grupos de ingresos más bajos tenían menos acceso a automóviles y teléfonos, haciendo que sus problemas de carreteras fueran invisibles en esta aplicación. Los desarrolladores trabajaron con académicos para abordar problemas de acceso equitativo y brechas digitales por equidad.
Equidad Algorítmica 2018 - El MIT Estudio Gender Shades evaluó la precisión de productos de IA para clasificación de género, exponiendo brechas en la precisión para mujeres y personas de color. Una tarjeta de crédito de Apple en 2019 parecía ofrecer menos crédito a mujeres que a hombres. Ambos casos ilustraron problemas de sesgo algorítmico que llevaron a daños socioeconómicos.
Representación Errónea de Datos 2020 - El Departamento de Salud Pública de Georgia publicó gráficos de COVID-19 que parecían engañar a los ciudadanos sobre las tendencias de casos confirmados con un eje x no cronológico. Esto ilustra la representación errónea a través de trucos de visualización.
Ilusión de Libre Elección 2020 - La aplicación educativa ABCmouse pagó $10 millones para resolver una queja de la FTC donde los padres quedaron atrapados pagando suscripciones que no podían cancelar. Esto ilustra patrones oscuros en arquitecturas de elección, donde los usuarios fueron influenciados hacia decisiones potencialmente dañinas.
Privacidad de Datos y Derechos de los Usuarios 2021 - La violación de datos de Facebook expuso datos de 530 millones de usuarios, resultando en un acuerdo de $5 mil millones con la FTC. Sin embargo, se negó a notificar a los usuarios sobre la violación, violando los derechos de los usuarios en torno a la transparencia y el acceso a los datos.

¿Quieres explorar más estudios de caso? Consulta estos recursos:

🚨 Piensa en los estudios de caso que has visto: ¿has experimentado o te has visto afectado por un desafío ético similar en tu vida? ¿Puedes pensar en al menos un estudio de caso adicional que ilustre uno de los desafíos éticos discutidos en esta sección?

Ética Aplicada

Hemos hablado sobre conceptos éticos, desafíos y estudios de caso en contextos del mundo real. Pero, ¿cómo comenzamos a aplicar principios y prácticas éticas en nuestros proyectos? ¿Y cómo operacionalizamos estas prácticas para una mejor gobernanza? Exploremos algunas soluciones del mundo real:

1. Códigos Profesionales

Los Códigos Profesionales ofrecen una opción para que las organizaciones "incentiven" a sus miembros a apoyar sus principios éticos y declaración de misión. Los códigos son directrices morales para el comportamiento profesional, ayudando a los empleados o miembros a tomar decisiones que se alineen con los principios de su organización. Solo son efectivos si los miembros cumplen voluntariamente; sin embargo, muchas organizaciones ofrecen recompensas y sanciones adicionales para motivar el cumplimiento.

Ejemplos incluyen:

🚨 ¿Perteneces a una organización profesional de ingeniería o ciencia de datos? Explora su sitio para ver si definen un código profesional de ética. ¿Qué dice esto sobre sus principios éticos? ¿Cómo están "incentivando" a los miembros a seguir el código?

2. Listas de Verificación Éticas

Mientras que los códigos profesionales definen el comportamiento ético requerido de los practicantes, tienen limitaciones conocidas en su aplicación, particularmente en proyectos a gran escala. En cambio, muchos expertos en ciencia de datos abogan por listas de verificación, que pueden conectar principios con prácticas de manera más determinista y accionable.

Las listas de verificación convierten preguntas en tareas de "sí/no" que pueden ser operacionalizadas, permitiendo que se rastreen como parte de los flujos de trabajo estándar de lanzamiento de productos.

Ejemplos incluyen:

3. Regulaciones Éticas

La ética trata de definir valores compartidos y hacer lo correcto voluntariamente. Cumplimiento trata de seguir la ley si y donde esté definida. Gobernanza abarca todas las formas en que las organizaciones operan para hacer cumplir principios éticos y cumplir con las leyes establecidas.

Hoy en día, la gobernanza toma dos formas dentro de las organizaciones. Primero, se trata de definir principios de IA ética y establecer prácticas para operacionalizar la adopción en todos los proyectos relacionados con IA en la organización. Segundo, se trata de cumplir con todas las regulaciones de protección de datos impuestas por el gobierno en las regiones donde opera.

Ejemplos de regulaciones de protección de datos y privacidad:

🚨 El Reglamento General de Protección de Datos (GDPR) definido por la Unión Europea sigue siendo una de las regulaciones de privacidad de datos más influyentes hoy en día. ¿Sabías que también define 8 derechos de usuario para proteger la privacidad digital y los datos personales de los ciudadanos? Aprende cuáles son y por qué son importantes.

4. Cultura Ética

Nota que existe una brecha intangible entre el cumplimiento (hacer lo suficiente para cumplir "la letra de la ley") y abordar problemas sistémicos (como la osificación, la asimetría de información y la inequidad distributiva) que pueden acelerar la instrumentalización de la IA.

Esto último requiere enfoques colaborativos para definir culturas éticas que construyan conexiones emocionales y valores compartidos consistentes a través de las organizaciones en la industria. Esto exige más culturas éticas formalizadas en datos en las organizaciones, permitiendo que cualquiera tire del cordón Andon (para plantear preocupaciones éticas temprano en el proceso) y haciendo que las evaluaciones éticas (por ejemplo, en contrataciones) sean un criterio central en la formación de equipos para proyectos de IA.


Cuestionario posterior a la clase 🎯

Revisión y Autoestudio

Los cursos y libros ayudan a comprender los conceptos éticos fundamentales y los desafíos, mientras que los estudios de caso y herramientas ayudan con las prácticas éticas aplicadas en contextos del mundo real. Aquí hay algunos recursos para comenzar:

Tarea

Escribe un Estudio de Caso sobre Ética de Datos

Descargo de responsabilidad:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Si bien nos esforzamos por lograr precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.