|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Introducere în Etica Datelor
![]() |
---|
Etica în Știința Datelor - Sketchnote de @nitya |
Suntem cu toții cetățeni ai datelor, trăind într-o lume dominată de acestea.
Tendințele pieței ne arată că, până în 2022, 1 din 3 organizații mari va cumpăra și vinde date prin intermediul Piețelor și Schimburilor online. Ca Dezvoltatori de Aplicații, vom găsi mai ușor și mai ieftin să integrăm perspective bazate pe date și automatizări bazate pe algoritmi în experiențele zilnice ale utilizatorilor. Dar, pe măsură ce AI devine omniprezent, va trebui să înțelegem și potențialele daune cauzate de utilizarea abuzivă a acestor algoritmi la scară largă.
Tendințele indică, de asemenea, că vom crea și consuma peste 180 de zettabytes de date până în 2025. Ca Oameni de Știință ai Datelor, acest lucru ne oferă un acces fără precedent la date personale. Aceasta înseamnă că putem construi profiluri comportamentale ale utilizatorilor și influența luarea deciziilor într-un mod care creează o iluzie a alegerii libere, în timp ce, posibil, îi ghidăm pe utilizatori către rezultate pe care le preferăm. De asemenea, ridică întrebări mai ample despre confidențialitatea datelor și protecția utilizatorilor.
Etica datelor reprezintă acum ghiduri necesare pentru știința și ingineria datelor, ajutându-ne să minimizăm potențialele daune și consecințele neintenționate ale acțiunilor noastre bazate pe date. Ciclul de Hype Gartner pentru AI identifică tendințe relevante în etica digitală, AI responsabil și guvernanța AI ca factori cheie pentru megatendințele mai mari legate de democratizarea și industrializarea AI.
În această lecție, vom explora domeniul fascinant al eticii datelor - de la concepte și provocări de bază, la studii de caz și concepte aplicate de AI, cum ar fi guvernanța - care ajută la stabilirea unei culturi etice în echipele și organizațiile care lucrează cu date și AI.
Chestionar înainte de lecție 🎯
Definiții de Bază
Să începem prin a înțelege terminologia de bază.
Cuvântul "etică" provine din cuvântul grecesc "ethikos" (și rădăcina sa "ethos"), care înseamnă caracter sau natură morală.
Etica se referă la valorile comune și principiile morale care ne guvernează comportamentul în societate. Etica nu se bazează pe legi, ci pe norme larg acceptate despre ceea ce este "corect vs. greșit". Totuși, considerațiile etice pot influența inițiativele de guvernanță corporativă și reglementările guvernamentale care creează mai multe stimulente pentru conformitate.
Etica Datelor este o ramură nouă a eticii care "studiază și evaluează problemele morale legate de date, algoritmi și practicile corespunzătoare". Aici, "datele" se concentrează pe acțiuni legate de generare, înregistrare, curare, procesare, diseminare, partajare și utilizare, "algoritmii" se concentrează pe AI, agenți, învățare automată și roboți, iar "practicile" se concentrează pe subiecte precum inovația responsabilă, programarea, hacking-ul și codurile de etică.
Etica Aplicată este aplicarea practică a considerațiilor morale. Este procesul de investigare activă a problemelor etice în contextul acțiunilor, produselor și proceselor din lumea reală și de luare a măsurilor corective pentru a ne asigura că acestea rămân aliniate cu valorile noastre etice definite.
Cultura Eticii se referă la operaționalizarea eticii aplicate pentru a ne asigura că principiile și practicile noastre etice sunt adoptate într-un mod consecvent și scalabil în întreaga organizație. Culturile etice de succes definesc principii etice la nivel organizațional, oferă stimulente semnificative pentru conformitate și întăresc normele etice prin încurajarea și amplificarea comportamentelor dorite la fiecare nivel al organizației.
Concepte de Etică
În această secțiune, vom discuta concepte precum valori comune (principii) și provocări etice (probleme) pentru etica datelor - și vom explora studii de caz care te ajută să înțelegi aceste concepte în contexte din lumea reală.
1. Principiile Eticii
Fiecare strategie de etică a datelor începe prin definirea principiilor etice - "valorile comune" care descriu comportamentele acceptabile și ghidează acțiunile conforme în proiectele noastre de date și AI. Acestea pot fi definite la nivel individual sau de echipă. Totuși, majoritatea organizațiilor mari le conturează într-o declarație de misiune sau un cadru de AI etic definit la nivel corporativ și aplicat consecvent în toate echipele.
Exemplu: Declarația de misiune AI Responsabil a Microsoft spune: "Suntem dedicați avansării AI ghidată de principii etice care pun oamenii pe primul loc" - identificând 6 principii etice în cadrul de mai jos:
Să explorăm pe scurt aceste principii. Transparența și responsabilitatea sunt valori fundamentale pe care se construiesc celelalte principii - așa că să începem cu acestea:
- Responsabilitate face practicienii responsabili pentru operațiunile lor de date și AI și pentru conformitatea cu aceste principii etice.
- Transparență asigură că acțiunile bazate pe date și AI sunt ușor de înțeles (interpretabile) pentru utilizatori, explicând ce și de ce în spatele deciziilor.
- Corectitudine - se concentrează pe asigurarea faptului că AI tratează toți oamenii în mod echitabil, abordând orice prejudecăți sistemice sau implicite în date și sisteme.
- Fiabilitate și Siguranță - asigură că AI se comportă conform valorilor definite, minimizând potențialele daune sau consecințe neintenționate.
- Confidențialitate și Securitate - se referă la înțelegerea provenienței datelor și la oferirea de protecții legate de confidențialitatea datelor utilizatorilor.
- Incluziune - se referă la proiectarea soluțiilor AI cu intenție, adaptându-le pentru a răspunde unei gama largă de nevoi și capacități umane.
🚨 Gândește-te la ce ar putea fi declarația ta de misiune pentru etica datelor. Explorează cadrele de AI etic ale altor organizații - iată exemple de la IBM, Google și Facebook. Ce valori comune au în comun? Cum se raportează aceste principii la produsul AI sau industria în care operează?
2. Provocări Etice
Odată ce avem definite principiile etice, următorul pas este să evaluăm acțiunile noastre legate de date și AI pentru a vedea dacă acestea se aliniază cu valorile comune. Gândește-te la acțiunile tale în două categorii: colectarea datelor și proiectarea algoritmilor.
În cazul colectării datelor, acțiunile vor implica probabil date personale sau informații de identificare personală (PII) pentru indivizi identificabili. Acestea includ diverse elemente de date non-personale care, împreună, identifică un individ. Provocările etice pot fi legate de confidențialitatea datelor, proprietatea datelor și subiecte conexe precum consimțământul informat și drepturile de proprietate intelectuală ale utilizatorilor.
În cazul proiectării algoritmilor, acțiunile vor implica colectarea și curarea seturilor de date, apoi utilizarea acestora pentru a antrena și implementa modele de date care prezic rezultate sau automatizează decizii în contexte din lumea reală. Provocările etice pot apărea din prejudecăți în seturile de date, probleme de calitate a datelor, inechitate și reprezentare greșită în algoritmi - inclusiv unele probleme care sunt sistemice.
În ambele cazuri, provocările etice evidențiază zonele în care acțiunile noastre pot intra în conflict cu valorile comune. Pentru a detecta, atenua, minimiza sau elimina aceste preocupări, trebuie să punem întrebări morale de tip "da/nu" legate de acțiunile noastre, apoi să luăm măsuri corective, după caz. Să analizăm câteva provocări etice și întrebările morale pe care le ridică:
2.1 Proprietatea Datelor
Colectarea datelor implică adesea date personale care pot identifica subiecții datelor. Proprietatea datelor se referă la controlul și drepturile utilizatorilor legate de crearea, procesarea și diseminarea datelor.
Întrebările morale pe care trebuie să le punem sunt:
- Cine deține datele? (utilizatorul sau organizația)
- Ce drepturi au subiecții datelor? (ex: acces, ștergere, portabilitate)
- Ce drepturi au organizațiile? (ex: rectificarea recenziilor utilizatorilor malițioase)
2.2 Consimțământul Informat
Consimțământul informat definește actul prin care utilizatorii sunt de acord cu o acțiune (cum ar fi colectarea datelor) cu o înțelegere completă a faptelor relevante, inclusiv scopul, riscurile potențiale și alternativele.
Întrebările de explorat aici sunt:
- A oferit utilizatorul (subiectul datelor) permisiunea pentru captarea și utilizarea datelor?
- A înțeles utilizatorul scopul pentru care au fost capturate datele?
- A înțeles utilizatorul riscurile potențiale ale participării lor?
2.3 Proprietatea Intelectuală
Proprietatea intelectuală se referă la creații intangibile rezultate din inițiativa umană, care pot avea valoare economică pentru indivizi sau afaceri.
Întrebările de explorat aici sunt:
- Datele colectate aveau valoare economică pentru un utilizator sau o afacere?
- Are utilizatorul drepturi de proprietate intelectuală aici?
- Are organizația drepturi de proprietate intelectuală aici?
- Dacă aceste drepturi există, cum le protejăm?
2.4 Confidențialitatea Datelor
Confidențialitatea datelor sau confidențialitatea informațiilor se referă la păstrarea confidențialității utilizatorilor și protecția identității acestora în ceea ce privește informațiile de identificare personală.
Întrebările de explorat aici sunt:
- Sunt datele (personale) ale utilizatorilor securizate împotriva atacurilor și scurgerilor?
- Sunt datele utilizatorilor accesibile doar utilizatorilor și contextelor autorizate?
- Este păstrată anonimitatea utilizatorilor atunci când datele sunt partajate sau diseminate?
- Poate un utilizator fi de-identificat din seturi de date anonimizate?
2.5 Dreptul de a Fi Uitati
Dreptul de a Fi Uitati sau Dreptul la Ștergere oferă protecție suplimentară datelor personale ale utilizatorilor. În mod specific, oferă utilizatorilor dreptul de a solicita ștergerea sau eliminarea datelor personale din căutările pe Internet și alte locații, în anumite circumstanțe - permițându-le un nou început online fără ca acțiunile trecute să fie folosite împotriva lor.
Întrebările de explorat aici sunt:
- Permite sistemul subiecților datelor să solicite ștergerea?
- Ar trebui retragerea consimțământului utilizatorului să declanșeze ștergerea automată?
- Au fost datele colectate fără consimțământ sau prin mijloace ilegale?
- Suntem conformi cu reglementările guvernamentale privind confidențialitatea datelor?
2.6 Prejudecăți în Seturile de Date
Prejudecățile în seturile de date sau Prejudecățile de Colectare se referă la selectarea unui subset nereprezentativ de date pentru dezvoltarea algoritmilor, creând potențial inechități în rezultatele pentru grupuri diverse. Tipurile de prejudecăți includ prejudecăți de selecție sau eșantionare, prejudecăți ale voluntarilor și prejudecăți ale instrumentelor.
Întrebările de explorat aici sunt:
- Am recrutat un set reprezentativ de subiecți ai datelor?
- Am testat setul nostru de date colectat sau curat pentru diverse prejudecăți?
- Putem atenua sau elimina prejudecățile descoperite?
2.7 Calitatea Datelor
Calitatea Datelor analizează validitatea setului de date curat utilizat pentru dezvoltarea algoritmilor noștri, verificând dacă caracteristicile și înregistrările îndeplinesc cerințele pentru nivelul de acuratețe și consistență necesar scopului nostru AI.
Întrebările de explorat aici sunt:
- Am capturat caracteristici valide pentru cazul nostru de utilizare?
- Au fost datele capturate în mod consistent din surse de date diverse?
- Este setul de date complet pentru condiții sau scenarii diverse?
- Este informația capturată exactă în reflectarea realității?
2.8 Corectitudinea Algorit
Algorithm Fairness verifică dacă designul algoritmului discriminează sistematic împotriva unor subgrupuri specifice de subiecți de date, conducând la posibile prejudicii în alocare (unde resursele sunt refuzate sau reținute de la acel grup) și calitatea serviciului (unde AI nu este la fel de precis pentru unele subgrupuri ca pentru altele).
Întrebări de explorat aici sunt:
- Am evaluat acuratețea modelului pentru subgrupuri și condiții diverse?
- Am analizat sistemul pentru posibile prejudicii (de exemplu, stereotipuri)?
- Putem revizui datele sau reantrena modelele pentru a atenua prejudiciile identificate?
Explorați resurse precum listele de verificare pentru echitatea AI pentru a afla mai multe.
2.9 Denaturarea datelor
Denaturarea datelor se referă la întrebarea dacă comunicăm informații din date raportate onest într-un mod înșelător pentru a susține o narațiune dorită.
Întrebări de explorat aici sunt:
- Raportăm date incomplete sau inexacte?
- Vizualizăm datele într-un mod care conduce la concluzii înșelătoare?
- Folosim tehnici statistice selective pentru a manipula rezultatele?
- Există explicații alternative care ar putea oferi o concluzie diferită?
2.10 Alegerea liberă
Iluzia alegerii libere apare atunci când „arhitecturile de alegere” ale sistemului folosesc algoritmi de luare a deciziilor pentru a influența oamenii să ia un rezultat preferat, în timp ce par să le ofere opțiuni și control. Aceste modele întunecate pot provoca prejudicii sociale și economice utilizatorilor. Deoarece deciziile utilizatorilor influențează profilurile comportamentale, aceste acțiuni potențial conduc la alegeri viitoare care amplifică sau extind impactul acestor prejudicii.
Întrebări de explorat aici sunt:
- A înțeles utilizatorul implicațiile luării acelei decizii?
- Era utilizatorul conștient de (alte) opțiuni și de avantajele și dezavantajele fiecăreia?
- Poate utilizatorul să revoce o alegere automată sau influențată ulterior?
3. Studii de caz
Pentru a pune aceste provocări etice în contexte din lumea reală, este util să analizăm studii de caz care evidențiază posibilele prejudicii și consecințe asupra indivizilor și societății atunci când astfel de încălcări etice sunt trecute cu vederea.
Iată câteva exemple:
Provocare etică | Studiu de caz |
---|---|
Consimțământ informat | 1972 - Studiul Tuskegee despre sifilis - Bărbați afro-americani care au participat la studiu au fost promiși îngrijire medicală gratuită, dar au fost înșelați de cercetători care nu i-au informat despre diagnostic sau despre disponibilitatea tratamentului. Mulți subiecți au murit, iar partenerii sau copiii lor au fost afectați; studiul a durat 40 de ani. |
Confidențialitatea datelor | 2007 - Premiul pentru date Netflix a oferit cercetătorilor 10 milioane de evaluări anonimizate de filme de la 50.000 de clienți pentru a îmbunătăți algoritmii de recomandare. Totuși, cercetătorii au reușit să coreleze datele anonimizate cu date identificabile personal din seturi de date externe (de exemplu, comentarii IMDb) - „de-anonimizând” efectiv unii abonați Netflix. |
Părtinire în colectarea datelor | 2013 - Orașul Boston a dezvoltat Street Bump, o aplicație care permitea cetățenilor să raporteze gropi, oferind orașului date mai bune despre drumuri pentru a identifica și repara problemele. Totuși, persoanele din grupuri cu venituri mai mici aveau mai puțin acces la mașini și telefoane, făcând problemele lor de infrastructură invizibile în această aplicație. Dezvoltatorii au colaborat cu academicieni pentru a aborda problemele de acces echitabil și diviziuni digitale pentru echitate. |
Echitatea algoritmică | 2018 - Studiul MIT Gender Shades a evaluat acuratețea produselor AI de clasificare a genului, expunând lacunele în acuratețe pentru femei și persoane de culoare. Un card Apple din 2019 părea să ofere mai puțin credit femeilor decât bărbaților. Ambele au ilustrat probleme de părtinire algoritmică care duc la prejudicii socio-economice. |
Denaturarea datelor | 2020 - Departamentul de Sănătate Publică din Georgia a publicat grafice COVID-19 care păreau să inducă în eroare cetățenii despre tendințele cazurilor confirmate prin ordonarea necronologică pe axa x. Acest lucru ilustrează denaturarea prin trucuri de vizualizare. |
Iluzia alegerii libere | 2020 - Aplicația educațională ABCmouse a plătit 10 milioane de dolari pentru a soluționa o plângere FTC în care părinții au fost prinși în abonamente pe care nu le puteau anula. Acest lucru ilustrează modelele întunecate în arhitecturile de alegere, unde utilizatorii au fost influențați spre alegeri potențial dăunătoare. |
Confidențialitatea datelor și drepturile utilizatorilor | 2021 - Scurgerea de date Facebook a expus datele a 530 de milioane de utilizatori, rezultând într-o amendă de 5 miliarde de dolari către FTC. Totuși, compania a refuzat să notifice utilizatorii despre breșă, încălcând drepturile utilizatorilor privind transparența și accesul la date. |
Doriți să explorați mai multe studii de caz? Consultați aceste resurse:
- Ethics Unwrapped - dileme etice din diverse industrii.
- Cursul de etică în știința datelor - studii de caz emblematice explorate.
- Unde lucrurile au mers prost - lista de verificare Deon cu exemple.
🚨 Gândiți-vă la studiile de caz pe care le-ați văzut - ați experimentat sau ați fost afectați de o provocare etică similară în viața dumneavoastră? Puteți să vă gândiți la cel puțin un alt studiu de caz care ilustrează una dintre provocările etice discutate în această secțiune?
Etică aplicată
Am discutat despre concepte etice, provocări și studii de caz în contexte din lumea reală. Dar cum începem să aplicăm principiile și practicile etice în proiectele noastre? Și cum operaționalizăm aceste practici pentru o mai bună guvernanță? Să explorăm câteva soluții din lumea reală:
1. Coduri profesionale
Codurile profesionale oferă o opțiune pentru organizații de a „stimula” membrii să susțină principiile etice și declarația de misiune. Codurile sunt ghiduri morale pentru comportamentul profesional, ajutând angajații sau membrii să ia decizii care se aliniază cu principiile organizației lor. Ele sunt eficiente doar în măsura în care membrii le respectă voluntar; totuși, multe organizații oferă recompense și penalități suplimentare pentru a motiva conformarea.
Exemple includ:
- Codul de etică Oxford Munich
- Codul de conduită al Asociației de Știința Datelor (creat în 2013)
- Codul de etică și conduită profesională ACM (din 1993)
🚨 Faceți parte dintr-o organizație profesională de inginerie sau știința datelor? Explorați site-ul lor pentru a vedea dacă definesc un cod profesional de etică. Ce spune acesta despre principiile lor etice? Cum „stimulează” membrii să respecte codul?
2. Liste de verificare etică
În timp ce codurile profesionale definesc comportamentul etic necesar practicienilor, ele au limitări cunoscute în aplicare, în special în proiectele de mare amploare. În schimb, mulți experți în știința datelor pledează pentru liste de verificare, care pot conecta principiile la practici într-un mod mai determinist și acționabil.
Listele de verificare transformă întrebările în sarcini „da/nu” care pot fi operaționalizate, permițându-le să fie urmărite ca parte a fluxurilor de lucru standard pentru lansarea produselor.
Exemple includ:
- Deon - o listă de verificare generală pentru etica datelor creată din recomandări din industrie cu un instrument de linie de comandă pentru integrare ușoară.
- Lista de verificare pentru auditul confidențialității - oferă îndrumări generale pentru practicile de manipulare a informațiilor din perspective legale și sociale.
- Lista de verificare pentru echitatea AI - creată de practicieni AI pentru a sprijini adoptarea și integrarea verificărilor de echitate în ciclurile de dezvoltare AI.
- 22 de întrebări pentru etica în date și AI - un cadru mai deschis, structurat pentru explorarea inițială a problemelor etice în design, implementare și contexte organizaționale.
3. Reglementări etice
Etica se referă la definirea valorilor comune și la a face ceea ce este corect voluntar. Conformitatea se referă la respectarea legii acolo unde este definită. Guvernanța acoperă în general toate modurile în care organizațiile operează pentru a aplica principiile etice și pentru a respecta legile stabilite.
Astăzi, guvernanța ia două forme în cadrul organizațiilor. În primul rând, este vorba despre definirea principiilor AI etice și stabilirea practicilor pentru a operaționaliza adoptarea lor în toate proiectele AI ale organizației. În al doilea rând, este vorba despre respectarea tuturor reglementărilor guvernamentale privind protecția datelor pentru regiunile în care operează.
Exemple de reglementări privind protecția și confidențialitatea datelor:
1974
, Legea privind confidențialitatea din SUA - reglementează colectarea, utilizarea și divulgarea informațiilor personale de către guvernul federal.1996
, Legea privind portabilitatea și responsabilitatea asigurărilor de sănătate din SUA (HIPAA) - protejează datele personale de sănătate.1998
, Legea privind protecția confidențialității online a copiilor din SUA (COPPA) - protejează confidențialitatea datelor copiilor sub 13 ani.2018
, Regulamentul general privind protecția datelor (GDPR) - oferă drepturi utilizatorilor, protecția datelor și confidențialitate.2018
, Legea privind confidențialitatea consumatorilor din California (CCPA) oferă consumatorilor mai multe drepturi asupra datelor lor (personale).2021
, Legea privind protecția informațiilor personale din China tocmai a fost adoptată, creând una dintre cele mai puternice reglementări privind confidențialitatea datelor online la nivel mondial.
🚨 Uniunea Europeană a definit GDPR (Regulamentul general privind protecția datelor), care rămâne una dintre cele mai influente reglementări privind confidențialitatea datelor astăzi. Știați că definește și 8 drepturi ale utilizatorilor pentru a proteja confidențialitatea digitală și datele personale ale cetățenilor? Aflați care sunt acestea și de ce contează.
4. Cultura eticii
Rețineți că există un decalaj intangibil între conformitate (a face suficient pentru a respecta „litera legii”) și abordarea problemelor sistemice (cum ar fi osificarea, asimetria informațională și inechitatea distribuțională) care pot accelera utilizarea abuzivă a AI.
Acestea din urmă necesită abordări colaborative pentru definirea culturilor etice care construiesc conexiuni emoționale și valori comune consistente în cadrul organizațiilor din industrie. Acest lucru solicită mai multe culturi etice formalizate ale datelor în organizații - permițând oricui să tragă cablul Andon (pentru a ridica preocupări etice devreme în proces) și făcând evaluările etice (de exemplu, în angajare) un criteriu de bază pentru formarea echipelor în proiectele AI.
Chestionar post-lectură 🎯
Recapitulare și studiu individual
Cursurile și cărțile ajută la înțelegerea conceptelor și provocărilor etice de bază, în timp ce studiile de caz și instrumentele ajută la practicile de etică aplicată în contexte din lumea reală. Iată câteva resurse pentru a începe.
- Machine Learning For Beginners - lecție despre echitate, de la Microsoft.
- Principiile Inteligenței Artificiale Responsabile - parcurs de învățare gratuit de la Microsoft Learn.
- Etică și Știința Datelor - EBook O'Reilly (M. Loukides, H. Mason și alții)
- Etica în Știința Datelor - curs online de la Universitatea din Michigan.
- Ethics Unwrapped - studii de caz de la Universitatea din Texas.
Temă
Scrie un Studiu de Caz despre Etica Datelor
Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.