History

leestott a12f5d4c2d 🌐 Update translations via Co-op Translator		5 months ago
..
README.md	🌐 Update translations via Co-op Translator	5 months ago
assignment.md	🌐 Update translations via Co-op Translator	6 months ago

README.md

Introduction à l'éthique des données


Éthique des données - Sketchnote par @nitya

Nous sommes tous des citoyens des données vivant dans un monde axé sur les données.

Les tendances du marché indiquent qu'en 2022, une grande organisation sur trois achètera et vendra ses données via des places de marché et des échanges en ligne. En tant que développeurs d'applications, il sera plus facile et moins coûteux d'intégrer des analyses basées sur les données et des automatisations pilotées par des algorithmes dans les expériences quotidiennes des utilisateurs. Mais à mesure que l'IA devient omniprésente, il sera également nécessaire de comprendre les dommages potentiels causés par la militarisation de ces algorithmes à grande échelle.

Les tendances suggèrent qu'en 2025, nous produirons et consommerons plus de 180 zettaoctets de données. Pour les scientifiques des données, cette explosion d'informations offre un accès sans précédent à des données personnelles et comportementales. Cela permet de construire des profils détaillés des utilisateurs et d'influencer subtilement leurs décisions—souvent d'une manière qui crée une illusion de libre choix. Bien que cela puisse être utilisé pour orienter les utilisateurs vers des résultats préférés, cela soulève également des questions cruciales sur la confidentialité des données, l'autonomie et les limites éthiques de l'influence algorithmique.

L'éthique des données est désormais un garde-fou nécessaire pour la science et l'ingénierie des données, nous aidant à minimiser les dommages potentiels et les conséquences involontaires de nos actions basées sur les données. Le cycle de vie des tendances de Gartner pour l'IA identifie des tendances pertinentes en matière d'éthique numérique, d'IA responsable et de gouvernance de l'IA comme des moteurs clés des mégatendances plus larges autour de la démocratisation et de l'industrialisation de l'IA.

Dans cette leçon, nous explorerons le domaine fascinant de l'éthique des données - des concepts de base et des défis, aux études de cas et aux concepts appliqués de l'IA comme la gouvernance - qui aident à établir une culture éthique dans les équipes et les organisations travaillant avec les données et l'IA.

Quiz avant la leçon 🎯

Définitions de base

Commençons par comprendre la terminologie de base.

Le mot "éthique" vient du mot grec "ethikos" (et de sa racine "ethos") signifiant caractère ou nature morale.

L'éthique concerne les valeurs partagées et les principes moraux qui régissent notre comportement en société. L'éthique ne repose pas sur des lois mais sur des normes largement acceptées de ce qui est "bien ou mal". Cependant, les considérations éthiques peuvent influencer les initiatives de gouvernance d'entreprise et les réglementations gouvernementales qui créent davantage d'incitations à la conformité.

L'éthique des données est une nouvelle branche de l'éthique qui "étudie et évalue les problèmes moraux liés aux données, algorithmes et pratiques correspondantes". Ici, "données" se concentre sur les actions liées à la génération, l'enregistrement, la conservation, le traitement, la diffusion, le partage et l'utilisation, "algorithmes" se concentre sur l'IA, les agents, l'apprentissage automatique et les robots, et "pratiques" se concentre sur des sujets comme l'innovation responsable, la programmation, le piratage et les codes éthiques.

L'éthique appliquée est l'application pratique des considérations morales. C'est le processus d'examen actif des questions éthiques dans le contexte des actions, produits et processus réels, et de prise de mesures correctives pour s'assurer qu'ils restent alignés avec nos valeurs éthiques définies.

La culture éthique consiste à opérationnaliser l'éthique appliquée pour garantir que nos principes et pratiques éthiques soient adoptés de manière cohérente et évolutive dans toute l'organisation. Les cultures éthiques réussies définissent des principes éthiques à l'échelle de l'organisation, offrent des incitations significatives à la conformité et renforcent les normes éthiques en encourageant et en amplifiant les comportements souhaités à tous les niveaux de l'organisation.

Concepts d'éthique

Dans cette section, nous discuterons de concepts tels que les valeurs partagées (principes) et les défis éthiques (problèmes) pour l'éthique des données - et explorerons des études de cas qui vous aideront à comprendre ces concepts dans des contextes réels.

1. Principes éthiques

Toute stratégie d'éthique des données commence par la définition des principes éthiques - les "valeurs partagées" qui décrivent les comportements acceptables et guident les actions conformes dans nos projets de données et d'IA. Vous pouvez les définir au niveau individuel ou de l'équipe. Cependant, la plupart des grandes organisations les décrivent dans une déclaration de mission ou un cadre d'IA éthique défini au niveau de l'entreprise et appliqué de manière cohérente dans toutes les équipes.

Exemple : La déclaration de mission de Microsoft sur l'IA responsable indique : "Nous nous engageons à faire progresser l'IA guidée par des principes éthiques qui placent les personnes au premier plan" - en identifiant 6 principes éthiques dans le cadre ci-dessous :

Explorons brièvement ces principes. La transparence et la responsabilité sont des valeurs fondamentales sur lesquelles les autres principes se construisent - commençons donc par là :

Responsabilité rend les praticiens responsables de leurs opérations de données et d'IA, et de leur conformité à ces principes éthiques.
Transparence garantit que les actions liées aux données et à l'IA sont compréhensibles (interprétables) pour les utilisateurs, en expliquant le quoi et le pourquoi derrière les décisions.
Équité - se concentre sur le fait de garantir que l'IA traite toutes les personnes de manière équitable, en abordant les biais socio-techniques systémiques ou implicites dans les données et les systèmes.
Fiabilité et sécurité - garantit que l'IA se comporte de manière cohérente avec les valeurs définies, minimisant les dommages potentiels ou les conséquences involontaires.
Confidentialité et sécurité - concerne la compréhension de la provenance des données et la fourniture de protections liées à la confidentialité des données aux utilisateurs.
Inclusivité - consiste à concevoir des solutions d'IA avec intention, en les adaptant pour répondre à un large éventail de besoins et de capacités humains.

🚨 Réfléchissez à ce que pourrait être votre déclaration de mission sur l'éthique des données. Explorez les cadres d'IA éthique d'autres organisations - voici des exemples de IBM, Google, et Facebook. Quelles valeurs partagées ont-ils en commun ? Comment ces principes se rapportent-ils au produit ou à l'industrie de l'IA dans laquelle ils opèrent ?

2. Défis éthiques

Une fois que nous avons défini des principes éthiques, l'étape suivante consiste à évaluer nos actions liées aux données et à l'IA pour voir si elles s'alignent sur ces valeurs partagées. Pensez à vos actions dans deux catégories : collecte de données et conception d'algorithmes.

Avec la collecte de données, les actions impliqueront probablement des données personnelles ou des informations personnellement identifiables (PII) pour des individus identifiables. Cela inclut divers éléments de données non personnelles qui identifient collectivement un individu. Les défis éthiques peuvent concerner la confidentialité des données, la propriété des données, et des sujets connexes comme le consentement éclairé et les droits de propriété intellectuelle des utilisateurs.

Avec la conception d'algorithmes, les actions impliqueront la collecte et la conservation de jeux de données, puis leur utilisation pour entraîner et déployer des modèles de données qui prédisent des résultats ou automatisent des décisions dans des contextes réels. Les défis éthiques peuvent découler de biais dans les jeux de données, de problèmes de qualité des données, d'injustice et de représentation erronée dans les algorithmes - y compris certains problèmes qui sont systémiques par nature.

Dans les deux cas, les défis éthiques mettent en évidence les domaines où nos actions peuvent entrer en conflit avec nos valeurs partagées. Pour détecter, atténuer, minimiser ou éliminer ces préoccupations, nous devons poser des questions morales "oui/non" liées à nos actions, puis prendre des mesures correctives si nécessaire. Examinons quelques défis éthiques et les questions morales qu'ils soulèvent :

2.1 Propriété des données

La collecte de données implique souvent des données personnelles qui peuvent identifier les sujets des données. La propriété des données concerne le contrôle et les droits des utilisateurs liés à la création, au traitement et à la diffusion des données.

Les questions morales à poser sont :

Qui possède les données ? (utilisateur ou organisation)
Quels droits les sujets des données ont-ils ? (ex : accès, effacement, portabilité)
Quels droits les organisations ont-elles ? (ex : rectifier des avis malveillants d'utilisateurs)

2.2 Consentement éclairé

Le consentement éclairé définit l'acte par lequel les utilisateurs acceptent une action (comme la collecte de données) avec une compréhension complète des faits pertinents, y compris le but, les risques potentiels et les alternatives.

Questions à explorer ici :

L'utilisateur (sujet des données) a-t-il donné son autorisation pour la capture et l'utilisation des données ?
L'utilisateur a-t-il compris le but pour lequel ces données ont été capturées ?
L'utilisateur a-t-il compris les risques potentiels liés à sa participation ?

2.3 Propriété intellectuelle

La propriété intellectuelle fait référence aux créations immatérielles résultant de l'initiative humaine, qui peuvent avoir une valeur économique pour les individus ou les entreprises.

Questions à explorer ici :

Les données collectées avaient-elles une valeur économique pour un utilisateur ou une entreprise ?
L'utilisateur a-t-il des droits de propriété intellectuelle ici ?
L'organisation a-t-elle des droits de propriété intellectuelle ici ?
Si ces droits existent, comment les protégeons-nous ?

2.4 Confidentialité des données

La confidentialité des données ou confidentialité des informations fait référence à la préservation de la vie privée des utilisateurs et à la protection de leur identité en ce qui concerne les informations personnellement identifiables.

Questions à explorer ici :

Les données (personnelles) des utilisateurs sont-elles sécurisées contre les piratages et les fuites ?
Les données des utilisateurs sont-elles accessibles uniquement aux utilisateurs et contextes autorisés ?
L'anonymat des utilisateurs est-il préservé lorsque les données sont partagées ou diffusées ?
Un utilisateur peut-il être désidentifié à partir de jeux de données anonymisés ?

2.5 Droit à l'oubli

Le droit à l'oubli ou droit à l'effacement offre une protection supplémentaire des données personnelles aux utilisateurs. En particulier, il donne aux utilisateurs le droit de demander la suppression ou le retrait de données personnelles des recherches sur Internet et d'autres emplacements, dans des circonstances spécifiques - leur permettant de repartir à zéro en ligne sans que leurs actions passées soient retenues contre eux.

Questions à explorer ici :

Le système permet-il aux sujets des données de demander l'effacement ?
Le retrait du consentement de l'utilisateur devrait-il déclencher un effacement automatisé ?
Les données ont-elles été collectées sans consentement ou par des moyens illégaux ?
Sommes-nous conformes aux réglementations gouvernementales en matière de confidentialité des données ?

2.6 Biais dans les jeux de données

Le biais dans les jeux de données ou biais de collecte concerne la sélection d'un sous-ensemble non représentatif de données pour le développement d'algorithmes, créant une potentielle injustice dans les résultats pour divers groupes. Les types de biais incluent le biais de sélection ou d'échantillonnage, le biais de volontariat et le biais d'instrument.

Questions à explorer ici :

Avons-nous recruté un ensemble représentatif de sujets des données ?
Avons-nous testé notre jeu de données collecté ou conservé pour divers biais ?
Pouvons-nous atténuer ou supprimer les biais découverts ?

2.7 Qualité des données

La qualité des données examine la validité du jeu de données conservé utilisé pour développer nos algorithmes, vérifiant si les caractéristiques et les enregistrements répondent aux exigences en matière de précision et de cohérence nécessaires à notre objectif d'IA.

Questions à explorer ici :

Avons-nous capturé des caractéristiques valides pour notre cas d'utilisation ?
Les données ont-elles été capturées de manière cohérente à partir de diverses sources de données ?
Le jeu de données est-il complet pour diverses conditions ou scénarios ?
Les informations sont-elles capturées avec précision pour refléter la réalité ?

2.8 Équité des algorithmes

L'équité des algorithmes examine si la conception de l'algorithme discrimine systématiquement certains sous-groupes de sujets de données, entraînant des préjudices potentiels dans l'allocation (où des ressources sont refusées ou retenues pour ce groupe) et la qualité du service (où l'IA est moins précise pour certains sous-groupes que pour d'autres).

Questions à explorer ici :

Avons-nous évalué la précision du modèle pour des sous-groupes et des conditions diversifiés ?
Avons-nous examiné le système pour identifier des préjudices potentiels (par exemple, des stéréotypes) ?
Pouvons-nous réviser les données ou réentraîner les modèles pour atténuer les préjudices identifiés ?

Explorez des ressources comme les checklists sur l'équité de l'IA pour en savoir plus.

2.9 Fausse représentation

La fausse représentation des données consiste à se demander si nous communiquons des informations issues de données honnêtement rapportées de manière trompeuse pour soutenir un récit souhaité.

Questions à explorer ici :

Rapportons-nous des données incomplètes ou inexactes ?
Visualisons-nous les données d'une manière qui induit des conclusions trompeuses ?
Utilisons-nous des techniques statistiques sélectives pour manipuler les résultats ?
Existe-t-il des explications alternatives qui pourraient offrir une conclusion différente ?

2.10 Libre choix

L'illusion du libre choix se produit lorsque les "architectures de choix" des systèmes utilisent des algorithmes de prise de décision pour inciter les gens à adopter un résultat préféré tout en leur donnant l'impression d'avoir des options et du contrôle. Ces modèles trompeurs peuvent causer des préjudices sociaux et économiques aux utilisateurs. Étant donné que les décisions des utilisateurs influencent les profils de comportement, ces actions peuvent potentiellement amplifier ou prolonger l'impact de ces préjudices.

Questions à explorer ici :

L'utilisateur a-t-il compris les implications de son choix ?
L'utilisateur était-il conscient des choix (alternatifs) et des avantages et inconvénients de chacun ?
L'utilisateur peut-il revenir sur un choix automatisé ou influencé par la suite ?

3. Études de cas

Pour mettre ces défis éthiques dans des contextes réels, il est utile d'examiner des études de cas qui mettent en lumière les préjudices et conséquences potentiels pour les individus et la société lorsque ces violations éthiques sont ignorées.

Voici quelques exemples :

Défi éthique	Étude de cas
Consentement éclairé	1972 - Étude sur la syphilis de Tuskegee - Les hommes afro-américains qui ont participé à l'étude ont été promis des soins médicaux gratuits mais trompés par les chercheurs qui n'ont pas informé les sujets de leur diagnostic ou de la disponibilité d'un traitement. De nombreux sujets sont morts et leurs partenaires ou enfants ont été affectés ; l'étude a duré 40 ans.
Confidentialité des données	2007 - Le concours de données Netflix a fourni aux chercheurs 10 millions de classements de films anonymisés de 50 000 clients pour améliorer les algorithmes de recommandation. Cependant, les chercheurs ont pu corréler les données anonymisées avec des données identifiables dans des ensembles de données externes (par exemple, des commentaires IMDb), "désanonymisant" ainsi certains abonnés Netflix.
Biais de collecte	2013 - La ville de Boston a développé Street Bump, une application permettant aux citoyens de signaler les nids-de-poule, offrant à la ville de meilleures données sur les routes pour identifier et résoudre les problèmes. Cependant, les personnes des groupes à faible revenu avaient moins accès aux voitures et aux téléphones, rendant leurs problèmes routiers invisibles dans cette application. Les développeurs ont travaillé avec des universitaires pour résoudre les problèmes d'accès équitable et de fracture numérique pour plus d'équité.
Équité algorithmique	2018 - L'étude MIT Gender Shades a évalué la précision des produits d'IA de classification de genre, exposant des lacunes dans la précision pour les femmes et les personnes de couleur. Une carte Apple de 2019 semblait offrir moins de crédit aux femmes qu'aux hommes. Les deux cas ont illustré des problèmes de biais algorithmique entraînant des préjudices socio-économiques.
Fausse représentation des données	2020 - Le Département de la santé publique de Géorgie a publié des graphiques COVID-19 qui semblaient induire les citoyens en erreur sur les tendances des cas confirmés avec un ordre non chronologique sur l'axe des x. Cela illustre la fausse représentation par des astuces de visualisation.
Illusion du libre choix	2020 - L'application d'apprentissage ABCmouse a payé 10 millions de dollars pour régler une plainte de la FTC où les parents étaient piégés dans des abonnements qu'ils ne pouvaient pas annuler. Cela illustre des modèles trompeurs dans les architectures de choix, où les utilisateurs étaient incités à faire des choix potentiellement nuisibles.
Confidentialité des données et droits des utilisateurs	2021 - La violation de données Facebook a exposé les données de 530 millions d'utilisateurs, entraînant un règlement de 5 milliards de dollars avec la FTC. Cependant, Facebook a refusé de notifier les utilisateurs de la violation, violant les droits des utilisateurs en matière de transparence et d'accès aux données.

Vous voulez explorer davantage d'études de cas ? Consultez ces ressources :

Ethics Unwrapped - dilemmes éthiques dans divers secteurs.
Cours sur l'éthique en science des données - études de cas emblématiques explorées.
Où les choses ont mal tourné - checklist Deon avec des exemples.

🚨 Pensez aux études de cas que vous avez vues - avez-vous vécu ou été affecté par un défi éthique similaire dans votre vie ? Pouvez-vous penser à au moins une autre étude de cas qui illustre l'un des défis éthiques discutés dans cette section ?

Éthique appliquée

Nous avons parlé des concepts éthiques, des défis et des études de cas dans des contextes réels. Mais comment commencer à appliquer des principes et pratiques éthiques dans nos projets ? Et comment opérationnaliser ces pratiques pour une meilleure gouvernance ? Explorons quelques solutions concrètes :

1. Codes professionnels

Les codes professionnels offrent une option pour que les organisations "incitent" leurs membres à soutenir leurs principes éthiques et leur mission. Les codes sont des lignes directrices morales pour le comportement professionnel, aidant les employés ou membres à prendre des décisions alignées sur les principes de leur organisation. Ils ne sont efficaces que si les membres les respectent volontairement ; cependant, de nombreuses organisations offrent des récompenses et des sanctions supplémentaires pour motiver la conformité.

Exemples :

Oxford Munich Code d'éthique
Data Science Association Code de conduite (créé en 2013)
ACM Code of Ethics and Professional Conduct (depuis 1993)

🚨 Faites-vous partie d'une organisation professionnelle d'ingénierie ou de science des données ? Explorez leur site pour voir s'ils définissent un code d'éthique professionnel. Que dit-il sur leurs principes éthiques ? Comment incitent-ils leurs membres à suivre le code ?

2. Checklists éthiques

Alors que les codes professionnels définissent le comportement éthique requis des praticiens, ils ont des limites connues en matière d'application, en particulier dans les projets à grande échelle. À la place, de nombreux experts en science des données préconisent des checklists, qui peuvent connecter les principes aux pratiques de manière plus déterministe et actionnable.

Les checklists transforment les questions en tâches "oui/non" qui peuvent être opérationnalisées, permettant de les suivre dans le cadre des workflows standard de lancement de produit.

Exemples :

Deon - une checklist éthique générale pour les données créée à partir de recommandations de l'industrie avec un outil en ligne de commande pour une intégration facile.
Checklist d'audit de confidentialité - fournit des conseils généraux sur les pratiques de gestion de l'information du point de vue juridique et social.
Checklist sur l'équité de l'IA - créée par des praticiens de l'IA pour soutenir l'adoption et l'intégration des vérifications d'équité dans les cycles de développement de l'IA.
22 questions pour l'éthique dans les données et l'IA - cadre plus ouvert, structuré pour une exploration initiale des problèmes éthiques dans la conception, la mise en œuvre et les contextes organisationnels.

3. Réglementations éthiques

L'éthique consiste à définir des valeurs partagées et à faire ce qui est juste volontairement. La conformité consiste à respecter la loi là où elle est définie. La gouvernance couvre de manière générale toutes les façons dont les organisations fonctionnent pour appliquer des principes éthiques et se conformer aux lois établies.

Aujourd'hui, la gouvernance prend deux formes au sein des organisations. Premièrement, il s'agit de définir des principes d'IA éthique et d'établir des pratiques pour opérationnaliser leur adoption dans tous les projets liés à l'IA de l'organisation. Deuxièmement, il s'agit de se conformer à toutes les réglementations sur la protection des données imposées par le gouvernement dans les régions où elle opère.

Exemples de réglementations sur la protection des données et la confidentialité :

1974, US Privacy Act - régule la collecte, l'utilisation et la divulgation des informations personnelles par le gouvernement fédéral.
1996, US Health Insurance Portability & Accountability Act (HIPAA) - protège les données personnelles de santé.
1998, US Children's Online Privacy Protection Act (COPPA) - protège la confidentialité des données des enfants de moins de 13 ans.
2018, Règlement général sur la protection des données (RGPD) - fournit des droits aux utilisateurs, protège les données et la confidentialité.
2018, California Consumer Privacy Act (CCPA) donne aux consommateurs plus de droits sur leurs données personnelles.
2021, La Chine a adopté la Loi sur la protection des informations personnelles, créant l'une des réglementations les plus strictes au monde en matière de confidentialité des données en ligne.

🚨 L'Union européenne a défini le RGPD (Règlement général sur la protection des données), qui reste l'une des réglementations les plus influentes en matière de confidentialité des données aujourd'hui. Saviez-vous qu'il définit également 8 droits des utilisateurs pour protéger la confidentialité numérique et les données personnelles des citoyens ? Découvrez quels sont ces droits et pourquoi ils sont importants.

4. Culture éthique

Notez qu'il existe un écart intangible entre la conformité (faire juste assez pour respecter "la lettre de la loi") et le traitement des problèmes systémiques (comme l'ossification, l'asymétrie de l'information et l'injustice dans la distribution) qui peuvent accélérer la militarisation de l'IA.

Ce dernier nécessite des approches collaboratives pour définir des cultures éthiques qui construisent des connexions émotionnelles et des valeurs partagées cohérentes entre les organisations de l'industrie. Cela appelle à des cultures éthiques formalisées dans les organisations - permettant à n'importe qui de tirer le cordon Andon (pour soulever des préoccupations éthiques tôt dans le processus) et faisant des évaluations éthiques (par exemple, lors du recrutement) un critère central pour la formation des équipes dans les projets d'IA.

Quiz post-conférence 🎯

Révision et auto-apprentissage

Les cours et les livres aident à comprendre les concepts et défis éthiques fondamentaux, tandis que les études de cas et les outils aident à appliquer les pratiques éthiques dans des contextes réels. Voici quelques ressources pour commencer.

Apprentissage automatique pour les débutants - leçon sur l'équité, de Microsoft.
Principes de l'IA responsable - parcours d'apprentissage gratuit sur Microsoft Learn.
Éthique et science des données - EBook O'Reilly (M. Loukides, H. Mason et al.)
Éthique de la science des données - cours en ligne de l'Université du Michigan.
Ethics Unwrapped - études de cas de l'Université du Texas.

Devoir

Écrire une étude de cas sur l'éthique des données

Avertissement :
Ce document a été traduit à l'aide du service de traduction automatique Co-op Translator. Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatiques peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de recourir à une traduction humaine professionnelle. Nous ne sommes pas responsables des malentendus ou des interprétations erronées résultant de l'utilisation de cette traduction.