|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Introdução à Ética de Dados
![]() |
---|
Ética em Ciência de Dados - Sketchnote por @nitya |
Somos todos cidadãos de dados vivendo num mundo dataficado.
As tendências de mercado indicam que, até 2022, 1 em cada 3 grandes organizações comprará e venderá os seus dados através de Mercados e Bolsas online. Como Desenvolvedores de Aplicações, será mais fácil e barato integrar insights baseados em dados e automação orientada por algoritmos nas experiências diárias dos utilizadores. Mas, à medida que a IA se torna mais presente, também será necessário compreender os potenciais danos causados pela armação desses algoritmos em larga escala.
As tendências também indicam que criaremos e consumiremos mais de 180 zettabytes de dados até 2025. Como Cientistas de Dados, isso nos dá níveis sem precedentes de acesso a dados pessoais. Isso significa que podemos construir perfis comportamentais de utilizadores e influenciar a tomada de decisões de formas que criam uma ilusão de escolha livre, enquanto potencialmente direcionamos os utilizadores para resultados que preferimos. Isso também levanta questões mais amplas sobre privacidade de dados e proteção dos utilizadores.
A ética de dados é agora uma barreira necessária para a ciência e engenharia de dados, ajudando-nos a minimizar potenciais danos e consequências não intencionais das nossas ações orientadas por dados. O Ciclo de Hype da Gartner para IA identifica tendências relevantes em ética digital, IA responsável e governança de IA como motores-chave para megatendências maiores em torno da democratização e industrialização da IA.
Nesta lição, exploraremos a área fascinante da ética de dados - desde conceitos e desafios fundamentais até estudos de caso e conceitos aplicados de IA, como governança - que ajudam a estabelecer uma cultura ética em equipas e organizações que trabalham com dados e IA.
Questionário pré-aula 🎯
Definições Básicas
Vamos começar por entender a terminologia básica.
A palavra "ética" vem da palavra grega "ethikos" (e sua raiz "ethos"), que significa caráter ou natureza moral.
Ética trata dos valores compartilhados e princípios morais que governam o nosso comportamento na sociedade. A ética não se baseia em leis, mas em normas amplamente aceitas sobre o que é "certo versus errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade.
Ética de Dados é um novo ramo da ética que "estuda e avalia problemas morais relacionados a dados, algoritmos e práticas correspondentes". Aqui, "dados" foca em ações relacionadas à geração, gravação, curadoria, processamento, disseminação, partilha e uso; "algoritmos" foca em IA, agentes, aprendizagem automática e robôs; e "práticas" foca em tópicos como inovação responsável, programação, hacking e códigos de ética.
Ética Aplicada é a aplicação prática de considerações morais. É o processo de investigar ativamente questões éticas no contexto de ações, produtos e processos do mundo real, e tomar medidas corretivas para garantir que permaneçam alinhados com os nossos valores éticos definidos.
Cultura Ética trata de operacionalizar a ética aplicada para garantir que os nossos princípios e práticas éticas sejam adotados de forma consistente e escalável em toda a organização. Culturas éticas bem-sucedidas definem princípios éticos em toda a organização, fornecem incentivos significativos para conformidade e reforçam normas éticas ao encorajar e amplificar comportamentos desejados em todos os níveis da organização.
Conceitos de Ética
Nesta secção, discutiremos conceitos como valores compartilhados (princípios) e desafios éticos (problemas) para ética de dados - e exploraremos estudos de caso que ajudam a entender esses conceitos em contextos do mundo real.
1. Princípios Éticos
Toda estratégia de ética de dados começa por definir princípios éticos - os "valores compartilhados" que descrevem comportamentos aceitáveis e orientam ações conformes nos nossos projetos de dados e IA. Pode-se defini-los a nível individual ou de equipa. No entanto, a maioria das grandes organizações delineia isso numa declaração de missão ou estrutura de IA ética definida a nível corporativo e aplicada consistentemente em todas as equipas.
Exemplo: A declaração de missão de IA Responsável da Microsoft diz: "Estamos comprometidos com o avanço da IA orientada por princípios éticos que colocam as pessoas em primeiro lugar" - identificando 6 princípios éticos na estrutura abaixo:
Vamos explorar brevemente esses princípios. Transparência e responsabilidade são valores fundamentais sobre os quais outros princípios são construídos - então vamos começar por aí:
- Responsabilidade torna os profissionais responsáveis pelas suas operações de dados e IA, e pela conformidade com esses princípios éticos.
- Transparência garante que as ações de dados e IA sejam compreensíveis (interpretáveis) para os utilizadores, explicando o quê e o porquê por trás das decisões.
- Justiça - foca em garantir que a IA trate todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos sistémicos ou implícitos nos dados e sistemas.
- Fiabilidade e Segurança - garante que a IA se comporte de forma consistente com os valores definidos, minimizando potenciais danos ou consequências não intencionais.
- Privacidade e Segurança - trata de entender a origem dos dados e fornecer privacidade de dados e proteções relacionadas aos utilizadores.
- Inclusão - trata de projetar soluções de IA com intenção, adaptando-as para atender a uma ampla gama de necessidades e capacidades humanas.
🚨 Pense no que poderia ser a sua declaração de missão de ética de dados. Explore estruturas de IA ética de outras organizações - aqui estão exemplos da IBM, Google e Facebook. Quais valores compartilhados têm em comum? Como esses princípios se relacionam com o produto ou indústria de IA em que operam?
2. Desafios Éticos
Depois de definir os princípios éticos, o próximo passo é avaliar as nossas ações de dados e IA para ver se estão alinhadas com esses valores compartilhados. Pense nas suas ações em duas categorias: coleta de dados e design de algoritmos.
Na coleta de dados, as ações provavelmente envolverão dados pessoais ou informações pessoalmente identificáveis (PII) de indivíduos identificáveis. Isso inclui diversos itens de dados não pessoais que, coletivamente, identificam um indivíduo. Os desafios éticos podem estar relacionados à privacidade de dados, propriedade de dados e tópicos relacionados, como consentimento informado e direitos de propriedade intelectual dos utilizadores.
No design de algoritmos, as ações envolverão a coleta e curadoria de conjuntos de dados, e o uso deles para treinar e implementar modelos de dados que preveem resultados ou automatizam decisões em contextos do mundo real. Os desafios éticos podem surgir de viés nos conjuntos de dados, problemas de qualidade dos dados, injustiça e má representação nos algoritmos - incluindo alguns problemas que são sistémicos por natureza.
Em ambos os casos, os desafios éticos destacam áreas onde as nossas ações podem entrar em conflito com os nossos valores compartilhados. Para detetar, mitigar, minimizar ou eliminar essas preocupações, precisamos fazer perguntas morais "sim/não" relacionadas às nossas ações e tomar medidas corretivas conforme necessário. Vamos dar uma olhada em alguns desafios éticos e nas perguntas morais que eles levantam:
2.1 Propriedade de Dados
A coleta de dados muitas vezes envolve dados pessoais que podem identificar os sujeitos dos dados. Propriedade de dados trata do controlo e direitos dos utilizadores relacionados à criação, processamento e disseminação de dados.
As perguntas morais que precisamos fazer são:
- Quem é o proprietário dos dados? (utilizador ou organização)
- Quais direitos têm os sujeitos dos dados? (ex: acesso, eliminação, portabilidade)
- Quais direitos têm as organizações? (ex: retificar avaliações maliciosas de utilizadores)
2.2 Consentimento Informado
Consentimento informado define o ato de os utilizadores concordarem com uma ação (como coleta de dados) com um entendimento completo dos factos relevantes, incluindo o propósito, os riscos potenciais e as alternativas.
Perguntas a explorar aqui são:
- O utilizador (sujeito dos dados) deu permissão para a captura e uso dos dados?
- O utilizador compreendeu o propósito para o qual os dados foram capturados?
- O utilizador compreendeu os riscos potenciais da sua participação?
2.3 Propriedade Intelectual
Propriedade intelectual refere-se a criações intangíveis resultantes da iniciativa humana, que podem ter valor económico para indivíduos ou empresas.
Perguntas a explorar aqui são:
- Os dados coletados têm valor económico para um utilizador ou empresa?
- O utilizador tem propriedade intelectual aqui?
- A organização tem propriedade intelectual aqui?
- Se esses direitos existirem, como estamos a protegê-los?
2.4 Privacidade de Dados
Privacidade de dados ou privacidade da informação refere-se à preservação da privacidade do utilizador e proteção da identidade do utilizador em relação a informações pessoalmente identificáveis.
Perguntas a explorar aqui são:
- Os dados (pessoais) dos utilizadores estão protegidos contra ataques e vazamentos?
- Os dados dos utilizadores estão acessíveis apenas a utilizadores e contextos autorizados?
- A anonimidade dos utilizadores é preservada quando os dados são partilhados ou disseminados?
- Um utilizador pode ser desidentificado de conjuntos de dados anonimizados?
2.5 Direito ao Esquecimento
O Direito ao Esquecimento ou Direito à Eliminação fornece proteção adicional de dados pessoais aos utilizadores. Especificamente, dá aos utilizadores o direito de solicitar a eliminação ou remoção de dados pessoais de pesquisas na Internet e outros locais, sob circunstâncias específicas - permitindo-lhes um novo começo online sem que ações passadas sejam usadas contra eles.
Perguntas a explorar aqui são:
- O sistema permite que os sujeitos dos dados solicitem a eliminação?
- A retirada do consentimento do utilizador deve acionar a eliminação automática?
- Os dados foram coletados sem consentimento ou por meios ilegais?
- Estamos em conformidade com as regulamentações governamentais de privacidade de dados?
2.6 Viés nos Conjuntos de Dados
Viés nos conjuntos de dados ou Viés de Coleta trata da seleção de um subconjunto não representativo de dados para o desenvolvimento de algoritmos, criando potencial injustiça nos resultados para diversos grupos. Tipos de viés incluem viés de seleção ou amostragem, viés de voluntariado e viés de instrumento.
Perguntas a explorar aqui são:
- Recrutámos um conjunto representativo de sujeitos dos dados?
- Testámos o nosso conjunto de dados coletado ou curado para vários tipos de viés?
- Podemos mitigar ou remover quaisquer vieses descobertos?
2.7 Qualidade dos Dados
Qualidade dos Dados analisa a validade do conjunto de dados curado usado para desenvolver os nossos algoritmos, verificando se as características e os registos atendem aos requisitos para o nível de precisão e consistência necessário para o nosso propósito de IA.
Perguntas a explorar aqui são:
- Capturámos características válidas para o nosso caso de uso?
- Os dados foram capturados de forma consistente em diversas fontes de dados?
- O conjunto de dados está completo para diversas condições ou cenários?
- As informações capturadas refletem a realidade com precisão? Justiça Algorítmica verifica se o design do algoritmo discrimina sistematicamente subgrupos específicos de sujeitos de dados, levando a potenciais danos em alocação (quando recursos são negados ou retidos desse grupo) e qualidade do serviço (quando a IA não é tão precisa para alguns subgrupos quanto para outros).
Questões a explorar aqui são:
- Avaliámos a precisão do modelo para subgrupos e condições diversas?
- Examinámos o sistema para identificar potenciais danos (por exemplo, estereótipos)?
- Podemos rever os dados ou re-treinar os modelos para mitigar os danos identificados?
Explore recursos como checklists de Justiça em IA para saber mais.
2.9 Distorção de Dados
Distorção de Dados refere-se a questionar se estamos a comunicar insights de dados relatados de forma honesta, mas de maneira enganosa, para apoiar uma narrativa desejada.
Questões a explorar aqui são:
- Estamos a relatar dados incompletos ou imprecisos?
- Estamos a visualizar dados de forma a induzir conclusões enganosas?
- Estamos a usar técnicas estatísticas seletivas para manipular resultados?
- Existem explicações alternativas que possam oferecer uma conclusão diferente?
2.10 Livre Arbítrio
A Ilusão do Livre Arbítrio ocorre quando "arquiteturas de escolha" do sistema usam algoritmos de decisão para influenciar as pessoas a tomarem um resultado preferido, enquanto aparentam dar-lhes opções e controlo. Estes padrões obscuros podem causar danos sociais e económicos aos utilizadores. Como as decisões dos utilizadores impactam os perfis de comportamento, essas ações podem potencialmente impulsionar escolhas futuras que ampliam ou prolongam o impacto desses danos.
Questões a explorar aqui são:
- O utilizador compreendeu as implicações de fazer essa escolha?
- O utilizador estava ciente das (alternativas) escolhas e dos prós e contras de cada uma?
- O utilizador pode reverter uma escolha automatizada ou influenciada mais tarde?
3. Estudos de Caso
Para colocar esses desafios éticos em contextos do mundo real, é útil analisar estudos de caso que destacam os potenciais danos e consequências para indivíduos e para a sociedade, quando essas violações éticas são ignoradas.
Aqui estão alguns exemplos:
Desafio Ético | Estudo de Caso |
---|---|
Consentimento Informado | 1972 - Estudo de Sífilis de Tuskegee - Homens afro-americanos que participaram no estudo foram prometidos cuidados médicos gratuitos, mas foram enganados por investigadores que não informaram os sujeitos sobre o diagnóstico ou a disponibilidade de tratamento. Muitos morreram e parceiros ou filhos foram afetados; o estudo durou 40 anos. |
Privacidade de Dados | 2007 - O prémio de dados da Netflix forneceu a investigadores 10 milhões de classificações de filmes anonimizadas de 50 mil clientes para ajudar a melhorar algoritmos de recomendação. No entanto, os investigadores conseguiram correlacionar dados anonimizados com dados pessoalmente identificáveis em conjuntos de dados externos (por exemplo, comentários no IMDb), efetivamente "desanonimizando" alguns assinantes da Netflix. |
Viés na Coleta de Dados | 2013 - A cidade de Boston desenvolveu o Street Bump, uma aplicação que permitia aos cidadãos reportar buracos na estrada, fornecendo à cidade melhores dados para identificar e corrigir problemas. No entanto, pessoas de grupos de baixa renda tinham menos acesso a carros e telemóveis, tornando os seus problemas de estrada invisíveis nesta aplicação. Os desenvolvedores trabalharam com académicos para abordar questões de acesso equitativo e divisões digitais para garantir justiça. |
Justiça Algorítmica | 2018 - O Estudo Gender Shades do MIT avaliou a precisão de produtos de IA para classificação de género, expondo lacunas na precisão para mulheres e pessoas de cor. Um cartão de crédito da Apple de 2019 parecia oferecer menos crédito a mulheres do que a homens. Ambos ilustraram problemas de viés algorítmico que levaram a danos socioeconómicos. |
Distorção de Dados | 2020 - O Departamento de Saúde Pública da Geórgia divulgou gráficos de COVID-19 que pareciam enganar os cidadãos sobre as tendências de casos confirmados com ordenação não cronológica no eixo x. Isto ilustra distorção através de truques de visualização. |
Ilusão de Livre Arbítrio | 2020 - A aplicação de aprendizagem ABCmouse pagou $10M para resolver uma queixa da FTC onde os pais foram presos em subscrições que não conseguiam cancelar. Isto ilustra padrões obscuros em arquiteturas de escolha, onde os utilizadores foram influenciados a tomar decisões potencialmente prejudiciais. |
Privacidade de Dados & Direitos dos Utilizadores | 2021 - A violação de dados do Facebook expôs dados de 530 milhões de utilizadores, resultando num acordo de $5B com a FTC. No entanto, a empresa recusou-se a notificar os utilizadores da violação, violando os direitos dos utilizadores em relação à transparência e acesso aos dados. |
Quer explorar mais estudos de caso? Confira estes recursos:
- Ethics Unwrapped - dilemas éticos em diversas indústrias.
- Curso de Ética em Ciência de Dados - estudos de caso emblemáticos explorados.
- Onde as coisas deram errado - checklist de ética Deon com exemplos.
🚨 Pense nos estudos de caso que viu - já experienciou ou foi afetado por um desafio ético semelhante na sua vida? Consegue pensar em pelo menos um outro estudo de caso que ilustre um dos desafios éticos discutidos nesta secção?
Ética Aplicada
Falámos sobre conceitos éticos, desafios e estudos de caso em contextos do mundo real. Mas como começar a aplicar princípios e práticas éticas nos nossos projetos? E como operacionalizar essas práticas para uma melhor governança? Vamos explorar algumas soluções práticas:
1. Códigos Profissionais
Códigos Profissionais oferecem uma opção para as organizações "incentivarem" os membros a apoiar os seus princípios éticos e declarações de missão. Os códigos são diretrizes morais para o comportamento profissional, ajudando os funcionários ou membros a tomarem decisões alinhadas com os princípios da organização. Eles só são eficazes com a adesão voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade.
Exemplos incluem:
- Código de Ética Oxford Munich
- Código de Conduta da Data Science Association (criado em 2013)
- Código de Ética e Conduta Profissional da ACM (desde 1993)
🚨 Pertence a alguma organização profissional de engenharia ou ciência de dados? Explore o site para ver se definem um código de ética profissional. O que isso diz sobre os seus princípios éticos? Como estão a "incentivar" os membros a seguir o código?
2. Checklists de Ética
Enquanto os códigos profissionais definem o comportamento ético exigido dos profissionais, eles têm limitações conhecidas na aplicação, particularmente em projetos de grande escala. Em vez disso, muitos especialistas em ciência de dados defendem checklists, que podem conectar princípios a práticas de forma mais determinística e acionável.
Os checklists convertem questões em tarefas de "sim/não" que podem ser operacionalizadas, permitindo que sejam rastreadas como parte dos fluxos de trabalho padrão de lançamento de produtos.
Exemplos incluem:
- Deon - um checklist de ética em dados de uso geral criado a partir de recomendações da indústria com uma ferramenta de linha de comando para fácil integração.
- Checklist de Auditoria de Privacidade - fornece orientações gerais para práticas de manuseio de informações sob perspetivas legais e sociais.
- Checklist de Justiça em IA - criado por profissionais de IA para apoiar a adoção e integração de verificações de justiça nos ciclos de desenvolvimento de IA.
- 22 questões para ética em dados e IA - uma estrutura mais aberta, estruturada para exploração inicial de questões éticas no design, implementação e contextos organizacionais.
3. Regulamentações de Ética
A ética trata de definir valores compartilhados e fazer o que é certo voluntariamente. Conformidade trata de seguir a lei onde e quando definida. Governança abrange amplamente todas as formas como as organizações operam para aplicar princípios éticos e cumprir as leis estabelecidas.
Hoje, a governança assume duas formas dentro das organizações. Primeiro, trata-se de definir princípios de IA ética e estabelecer práticas para operacionalizar a adoção em todos os projetos relacionados à IA na organização. Segundo, trata-se de cumprir todas as regulamentações governamentais de proteção de dados para as regiões onde opera.
Exemplos de regulamentações de proteção e privacidade de dados:
1974
, Lei de Privacidade dos EUA - regula a coleta, uso e divulgação de informações pessoais pelo governo federal.1996
, Lei de Portabilidade e Responsabilidade de Seguro de Saúde dos EUA (HIPAA) - protege dados de saúde pessoais.1998
, Lei de Proteção à Privacidade Online das Crianças dos EUA (COPPA) - protege a privacidade de dados de crianças menores de 13 anos.2018
, Regulamento Geral de Proteção de Dados (GDPR) - fornece direitos aos utilizadores, proteção de dados e privacidade.2018
, Lei de Privacidade do Consumidor da Califórnia (CCPA) - dá aos consumidores mais direitos sobre os seus dados pessoais.2021
, Lei de Proteção de Informações Pessoais da China - uma das regulamentações de privacidade de dados online mais rigorosas do mundo.
🚨 O Regulamento Geral de Proteção de Dados (GDPR) definido pela União Europeia continua a ser uma das regulamentações de privacidade de dados mais influentes atualmente. Sabia que também define 8 direitos dos utilizadores para proteger a privacidade digital e os dados pessoais dos cidadãos? Descubra quais são esses direitos e por que são importantes.
4. Cultura de Ética
Note que ainda existe uma lacuna intangível entre conformidade (fazer o suficiente para cumprir "a letra da lei") e abordar questões sistémicas (como ossificação, assimetria de informação e injustiça distributiva) que podem acelerar a instrumentalização da IA.
O último requer abordagens colaborativas para definir culturas de ética que construam conexões emocionais e valores compartilhados consistentes entre organizações na indústria. Isso exige mais culturas de ética de dados formalizadas nas organizações - permitindo que qualquer pessoa puxe o cordão Andon (para levantar preocupações éticas cedo no processo) e tornando avaliações éticas (por exemplo, em contratações) um critério central na formação de equipas em projetos de IA.
Questionário pós-aula 🎯
Revisão & Autoestudo
Cursos e livros ajudam a compreender conceitos e desafios éticos fundamentais, enquanto estudos de caso e ferramentas ajudam a aplicar práticas éticas em contextos do mundo real. Aqui estão alguns recursos para começar:
- Machine Learning For Beginners - lição sobre Justiça, da Microsoft.
- Princípios de IA Responsável - percurso de aprendizagem gratuito da Microsoft Learn.
- Ética e Ciência de Dados - EBook da O'Reilly (M. Loukides, H. Mason et. al)
- Ética na Ciência de Dados - curso online da Universidade de Michigan.
- Ética Desvendada - estudos de caso da Universidade do Texas.
Tarefa
Escreva Um Estudo de Caso Sobre Ética de Dados
Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.