|
|
4 months ago | |
|---|---|---|
| .. | ||
| README.md | 4 months ago | |
| assignment.md | 5 months ago | |
README.md
Introdução à Ética de Dados
![]() |
|---|
| Ética em Ciência de Dados - Sketchnote por @nitya |
Somos todos cidadãos de dados vivendo em um mundo dataficado.
Tendências de mercado indicam que, até 2022, 1 em cada 3 grandes organizações comprará e venderá seus dados por meio de Mercados e Exchanges online. Como Desenvolvedores de Aplicativos, será mais fácil e barato integrar insights baseados em dados e automação orientada por algoritmos nas experiências diárias dos usuários. Mas, à medida que a IA se torna onipresente, também precisaremos entender os possíveis danos causados pela armação desses algoritmos em larga escala.
As tendências sugerem que, até 2025, geraremos e consumiremos mais de 180 zettabytes de dados. Para Cientistas de Dados, essa explosão de informações oferece acesso sem precedentes a dados pessoais e comportamentais. Com isso, vem o poder de construir perfis detalhados de usuários e influenciar decisões de forma sutil—frequentemente de maneiras que promovem uma ilusão de escolha livre. Embora isso possa ser usado para direcionar os usuários a resultados preferidos, também levanta questões críticas sobre privacidade de dados, autonomia e os limites éticos da influência algorítmica.
A ética de dados agora é um guia necessário para ciência e engenharia de dados, ajudando-nos a minimizar danos potenciais e consequências não intencionais de nossas ações orientadas por dados. O Ciclo de Hype da Gartner para IA identifica tendências relevantes em ética digital, IA responsável e governança de IA como impulsionadores-chave de megatendências maiores em torno da democratização e industrialização da IA.
Nesta lição, exploraremos a área fascinante da ética de dados - desde conceitos e desafios fundamentais até estudos de caso e conceitos aplicados de IA, como governança - que ajudam a estabelecer uma cultura ética em equipes e organizações que trabalham com dados e IA.
Quiz pré-aula 🎯
Definições Básicas
Vamos começar entendendo a terminologia básica.
A palavra "ética" vem da palavra grega "ethikos" (e sua raiz "ethos"), que significa caráter ou natureza moral.
Ética trata dos valores compartilhados e princípios morais que governam nosso comportamento na sociedade. A ética não se baseia em leis, mas em normas amplamente aceitas sobre o que é "certo versus errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade.
Ética de Dados é um novo ramo da ética que "estuda e avalia problemas morais relacionados a dados, algoritmos e práticas correspondentes". Aqui, "dados" se concentra em ações relacionadas à geração, registro, curadoria, processamento, disseminação, compartilhamento e uso; "algoritmos" se concentra em IA, agentes, aprendizado de máquina e robôs; e "práticas" se concentra em tópicos como inovação responsável, programação, hacking e códigos de ética.
Ética Aplicada é a aplicação prática de considerações morais. É o processo de investigar ativamente questões éticas no contexto de ações, produtos e processos do mundo real e tomar medidas corretivas para garantir que permaneçam alinhados com nossos valores éticos definidos.
Cultura Ética trata de operacionalizar a ética aplicada para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas bem-sucedidas definem princípios éticos em toda a organização, fornecem incentivos significativos para conformidade e reforçam normas éticas incentivando e amplificando comportamentos desejados em todos os níveis da organização.
Conceitos de Ética
Nesta seção, discutiremos conceitos como valores compartilhados (princípios) e desafios éticos (problemas) para ética de dados - e exploraremos estudos de caso que ajudam você a entender esses conceitos em contextos do mundo real.
1. Princípios Éticos
Toda estratégia de ética de dados começa definindo princípios éticos - os "valores compartilhados" que descrevem comportamentos aceitáveis e orientam ações em conformidade em nossos projetos de dados e IA. Você pode defini-los em nível individual ou de equipe. No entanto, a maioria das grandes organizações os descreve em uma declaração de missão ou estrutura de IA ética definida em níveis corporativos e aplicada de forma consistente em todas as equipes.
Exemplo: A declaração de missão de IA Responsável da Microsoft diz: "Estamos comprometidos com o avanço da IA orientada por princípios éticos que colocam as pessoas em primeiro lugar" - identificando 6 princípios éticos na estrutura abaixo:
Vamos explorar brevemente esses princípios. Transparência e responsabilidade são valores fundamentais sobre os quais outros princípios são construídos - então vamos começar por aí:
- Responsabilidade torna os profissionais responsáveis por suas operações de dados e IA e pela conformidade com esses princípios éticos.
- Transparência garante que as ações de dados e IA sejam compreensíveis (interpretáveis) para os usuários, explicando o que e o porquê por trás das decisões.
- Justiça - foca em garantir que a IA trate todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos sistêmicos ou implícitos nos dados e sistemas.
- Confiabilidade e Segurança - garante que a IA se comporte de forma consistente com os valores definidos, minimizando danos potenciais ou consequências não intencionais.
- Privacidade e Segurança - trata de entender a linhagem dos dados e fornecer privacidade de dados e proteções relacionadas aos usuários.
- Inclusão - trata de projetar soluções de IA com intenção, adaptando-as para atender a uma ampla gama de necessidades e capacidades humanas.
🚨 Pense em qual poderia ser sua declaração de missão de ética de dados. Explore estruturas de IA ética de outras organizações - aqui estão exemplos da IBM, Google e Facebook. Quais valores compartilhados eles têm em comum? Como esses princípios se relacionam com o produto ou setor de IA em que operam?
2. Desafios Éticos
Depois de definir os princípios éticos, o próximo passo é avaliar nossas ações de dados e IA para ver se estão alinhadas com esses valores compartilhados. Pense em suas ações em duas categorias: coleta de dados e design de algoritmos.
Na coleta de dados, as ações provavelmente envolverão dados pessoais ou informações pessoalmente identificáveis (PII) de indivíduos identificáveis. Isso inclui diversos itens de dados não pessoais que, coletivamente, identificam um indivíduo. Os desafios éticos podem estar relacionados à privacidade de dados, propriedade de dados e tópicos relacionados, como consentimento informado e direitos de propriedade intelectual dos usuários.
No design de algoritmos, as ações envolverão a coleta e curadoria de conjuntos de dados, e o uso deles para treinar e implantar modelos de dados que preveem resultados ou automatizam decisões em contextos do mundo real. Os desafios éticos podem surgir de viés de conjunto de dados, problemas de qualidade de dados, injustiça e má representação em algoritmos - incluindo alguns problemas que são sistêmicos por natureza.
Em ambos os casos, os desafios éticos destacam áreas onde nossas ações podem entrar em conflito com nossos valores compartilhados. Para detectar, mitigar, minimizar ou eliminar essas preocupações, precisamos fazer perguntas morais de "sim/não" relacionadas às nossas ações e tomar medidas corretivas conforme necessário. Vamos dar uma olhada em alguns desafios éticos e nas questões morais que eles levantam:
2.1 Propriedade de Dados
A coleta de dados frequentemente envolve dados pessoais que podem identificar os sujeitos dos dados. Propriedade de dados trata do controle e direitos dos usuários relacionados à criação, processamento e disseminação de dados.
As questões morais que precisamos fazer são:
- Quem possui os dados? (usuário ou organização)
- Quais direitos os sujeitos dos dados têm? (ex: acesso, exclusão, portabilidade)
- Quais direitos as organizações têm? (ex: retificar avaliações maliciosas de usuários)
2.2 Consentimento Informado
Consentimento informado define o ato de os usuários concordarem com uma ação (como coleta de dados) com um entendimento completo dos fatos relevantes, incluindo o propósito, os riscos potenciais e as alternativas.
Questões a explorar aqui são:
- O usuário (sujeito dos dados) deu permissão para captura e uso de dados?
- O usuário entendeu o propósito para o qual os dados foram capturados?
- O usuário compreendeu os riscos potenciais de sua participação?
2.3 Propriedade Intelectual
Propriedade intelectual refere-se a criações intangíveis resultantes da iniciativa humana, que podem ter valor econômico para indivíduos ou empresas.
Questões a explorar aqui são:
- Os dados coletados têm valor econômico para um usuário ou empresa?
- O usuário possui propriedade intelectual aqui?
- A organização possui propriedade intelectual aqui?
- Se esses direitos existirem, como estamos protegendo-os?
2.4 Privacidade de Dados
Privacidade de dados ou privacidade da informação refere-se à preservação da privacidade do usuário e à proteção da identidade do usuário em relação a informações pessoalmente identificáveis.
Questões a explorar aqui são:
- Os dados (pessoais) dos usuários estão protegidos contra invasões e vazamentos?
- Os dados dos usuários são acessíveis apenas a usuários e contextos autorizados?
- A anonimidade dos usuários é preservada quando os dados são compartilhados ou disseminados?
- Um usuário pode ser desidentificado de conjuntos de dados anonimizados?
2.5 Direito ao Esquecimento
O Direito ao Esquecimento ou Direito à Exclusão oferece proteção adicional de dados pessoais aos usuários. Especificamente, dá aos usuários o direito de solicitar a exclusão ou remoção de dados pessoais de buscas na Internet e outros locais, sob circunstâncias específicas - permitindo-lhes um novo começo online sem que ações passadas sejam usadas contra eles.
Questões a explorar aqui são:
- O sistema permite que os sujeitos dos dados solicitem exclusão?
- A retirada do consentimento do usuário deve acionar exclusão automática?
- Os dados foram coletados sem consentimento ou por meios ilegais?
- Estamos em conformidade com regulamentações governamentais de privacidade de dados?
2.6 Viés de Conjunto de Dados
Viés de conjunto de dados ou Viés de Coleta trata da seleção de um subconjunto não representativo de dados para desenvolvimento de algoritmos, criando potencial injustiça nos resultados para grupos diversos. Tipos de viés incluem viés de seleção ou amostragem, viés de voluntariado e viés de instrumento.
Questões a explorar aqui são:
- Recrutamos um conjunto representativo de sujeitos dos dados?
- Testamos nosso conjunto de dados coletado ou curado para diversos vieses?
- Podemos mitigar ou remover quaisquer vieses descobertos?
2.7 Qualidade de Dados
Qualidade de Dados analisa a validade do conjunto de dados curado usado para desenvolver nossos algoritmos, verificando se os recursos e registros atendem aos requisitos para o nível de precisão e consistência necessário para nosso propósito de IA.
Questões a explorar aqui são:
- Capturamos recursos válidos para nosso caso de uso?
- Os dados foram capturados de forma consistente em diversas fontes de dados?
- O conjunto de dados está completo para condições ou cenários diversos?
- As informações foram capturadas com precisão ao refletir a realidade?
2.8 Justiça Algorítmica
A Justiça Algorítmica verifica se o design do algoritmo discrimina sistematicamente subgrupos específicos de sujeitos de dados, levando a potenciais danos na alocação (onde recursos são negados ou retidos para esse grupo) e na qualidade do serviço (onde a IA não é tão precisa para alguns subgrupos quanto é para outros).
Perguntas para explorar aqui incluem:
- Avaliamos a precisão do modelo para diversos subgrupos e condições?
- Examinamos o sistema em busca de potenciais danos (por exemplo, estereotipagem)?
- Podemos revisar os dados ou re-treinar os modelos para mitigar os danos identificados?
Explore recursos como checklists de Justiça em IA para aprender mais.
2.9 Representação Errada
A Representação Errada de Dados trata de perguntar se estamos comunicando insights de dados relatados honestamente de maneira enganosa para apoiar uma narrativa desejada.
Perguntas para explorar aqui incluem:
- Estamos relatando dados incompletos ou imprecisos?
- Estamos visualizando dados de maneira que induza conclusões enganosas?
- Estamos usando técnicas estatísticas seletivas para manipular resultados?
- Existem explicações alternativas que podem oferecer uma conclusão diferente?
2.10 Livre Arbítrio
A Ilusão de Livre Arbítrio ocorre quando "arquiteturas de escolha" do sistema usam algoritmos de tomada de decisão para influenciar as pessoas a tomarem um resultado preferido, enquanto parecem dar opções e controle. Esses padrões obscuros podem causar danos sociais e econômicos aos usuários. Como as decisões dos usuários impactam perfis de comportamento, essas ações podem potencialmente impulsionar escolhas futuras que amplificam ou estendem o impacto desses danos.
Perguntas para explorar aqui incluem:
- O usuário entendeu as implicações de fazer essa escolha?
- O usuário estava ciente das (alternativas) escolhas e dos prós e contras de cada uma?
- O usuário pode reverter uma escolha automatizada ou influenciada posteriormente?
3. Estudos de Caso
Para colocar esses desafios éticos em contextos do mundo real, é útil olhar para estudos de caso que destacam os potenciais danos e consequências para indivíduos e a sociedade, quando essas violações éticas são ignoradas.
Aqui estão alguns exemplos:
| Desafio Ético | Estudo de Caso |
|---|---|
| Consentimento Informado | 1972 - Estudo de Sífilis de Tuskegee - Homens afro-americanos que participaram do estudo foram prometidos cuidados médicos gratuitos, mas foram enganados por pesquisadores que não informaram os sujeitos sobre seu diagnóstico ou sobre a disponibilidade de tratamento. Muitos sujeitos morreram e parceiros ou filhos foram afetados; o estudo durou 40 anos. |
| Privacidade de Dados | 2007 - O prêmio de dados da Netflix forneceu aos pesquisadores 10 milhões de classificações de filmes anonimizadas de 50 mil clientes para ajudar a melhorar algoritmos de recomendação. No entanto, os pesquisadores conseguiram correlacionar dados anonimizados com dados pessoalmente identificáveis em conjuntos de dados externos (por exemplo, comentários no IMDb) - efetivamente "desanonimizando" alguns assinantes da Netflix. |
| Viés na Coleta | 2013 - A cidade de Boston desenvolveu o Street Bump, um aplicativo que permitia aos cidadãos reportar buracos, dando à cidade melhores dados sobre as vias para encontrar e corrigir problemas. No entanto, pessoas em grupos de baixa renda tinham menos acesso a carros e telefones, tornando seus problemas nas vias invisíveis neste aplicativo. Os desenvolvedores trabalharam com acadêmicos para abordar questões de acesso equitativo e divisões digitais para garantir justiça. |
| Justiça Algorítmica | 2018 - O MIT Gender Shades Study avaliou a precisão de produtos de IA de classificação de gênero, expondo lacunas na precisão para mulheres e pessoas de cor. Um Apple Card de 2019 parecia oferecer menos crédito para mulheres do que para homens. Ambos ilustraram problemas de viés algorítmico levando a danos socioeconômicos. |
| Representação Errada de Dados | 2020 - O Departamento de Saúde Pública da Geórgia divulgou gráficos de COVID-19 que pareciam enganar os cidadãos sobre tendências em casos confirmados com ordenação não cronológica no eixo x. Isso ilustra a representação errada por meio de truques de visualização. |
| Ilusão de Livre Arbítrio | 2020 - O aplicativo de aprendizado ABCmouse pagou $10 milhões para resolver uma reclamação da FTC onde os pais foram presos em assinaturas que não podiam cancelar. Isso ilustra padrões obscuros em arquiteturas de escolha, onde os usuários foram influenciados a fazer escolhas potencialmente prejudiciais. |
| Privacidade de Dados e Direitos dos Usuários | 2021 - O Vazamento de Dados do Facebook expôs dados de 530 milhões de usuários, resultando em um acordo de $5 bilhões com a FTC. No entanto, a empresa se recusou a notificar os usuários sobre o vazamento, violando os direitos dos usuários em relação à transparência e acesso aos dados. |
Quer explorar mais estudos de caso? Confira esses recursos:
- Ethics Unwrapped - dilemas éticos em diversas indústrias.
- Curso de Ética em Ciência de Dados - estudos de caso marcantes explorados.
- Onde as coisas deram errado - checklist de Deon com exemplos.
🚨 Pense nos estudos de caso que você viu - você já experimentou ou foi afetado por um desafio ético semelhante em sua vida? Consegue pensar em pelo menos um outro estudo de caso que ilustre um dos desafios éticos discutidos nesta seção?
Ética Aplicada
Falamos sobre conceitos éticos, desafios e estudos de caso em contextos do mundo real. Mas como começar a aplicar princípios e práticas éticas em nossos projetos? E como operacionalizar essas práticas para uma melhor governança? Vamos explorar algumas soluções do mundo real:
1. Códigos Profissionais
Códigos Profissionais oferecem uma opção para organizações "incentivarem" os membros a apoiar seus princípios éticos e declaração de missão. Os códigos são diretrizes morais para o comportamento profissional, ajudando funcionários ou membros a tomar decisões que estejam alinhadas com os princípios da organização. Eles são tão bons quanto a conformidade voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade dos membros.
Exemplos incluem:
- Oxford Munich Código de Ética
- Data Science Association Código de Conduta (criado em 2013)
- ACM Código de Ética e Conduta Profissional (desde 1993)
🚨 Você pertence a uma organização profissional de engenharia ou ciência de dados? Explore o site deles para ver se definem um código de ética profissional. O que isso diz sobre seus princípios éticos? Como estão "incentivando" os membros a seguir o código?
2. Checklists de Ética
Enquanto os códigos profissionais definem o comportamento ético exigido dos profissionais, eles têm limitações conhecidas na aplicação, particularmente em projetos de grande escala. Em vez disso, muitos especialistas em ciência de dados defendem checklists, que podem conectar princípios a práticas de maneiras mais determinísticas e acionáveis.
Os checklists convertem perguntas em tarefas de "sim/não" que podem ser operacionalizadas, permitindo que sejam rastreadas como parte dos fluxos de trabalho padrão de lançamento de produtos.
Exemplos incluem:
- Deon - um checklist de ética em dados de propósito geral criado a partir de recomendações da indústria com uma ferramenta de linha de comando para fácil integração.
- Checklist de Auditoria de Privacidade - fornece orientações gerais para práticas de manuseio de informações sob perspectivas legais e sociais.
- Checklist de Justiça em IA - criado por profissionais de IA para apoiar a adoção e integração de verificações de justiça nos ciclos de desenvolvimento de IA.
- 22 perguntas para ética em dados e IA - estrutura mais aberta, projetada para exploração inicial de questões éticas em design, implementação e contextos organizacionais.
3. Regulamentações Éticas
Ética trata de definir valores compartilhados e fazer a coisa certa voluntariamente. Conformidade trata de seguir a lei onde definida. Governança abrange amplamente todas as formas pelas quais as organizações operam para aplicar princípios éticos e cumprir leis estabelecidas.
Hoje, a governança assume duas formas dentro das organizações. Primeiro, trata-se de definir princípios de IA ética e estabelecer práticas para operacionalizar a adoção em todos os projetos relacionados à IA na organização. Segundo, trata-se de cumprir todas as regulamentações de proteção de dados exigidas pelo governo nas regiões em que opera.
Exemplos de regulamentações de proteção e privacidade de dados:
1974, Lei de Privacidade dos EUA - regula a coleta, uso e divulgação de informações pessoais pelo governo federal.1996, Lei de Portabilidade e Responsabilidade de Seguro de Saúde dos EUA (HIPAA) - protege dados de saúde pessoais.1998, Lei de Proteção à Privacidade Online das Crianças dos EUA (COPPA) - protege a privacidade de dados de crianças menores de 13 anos.2018, Regulamento Geral de Proteção de Dados (GDPR) - fornece direitos aos usuários, proteção de dados e privacidade.2018, Lei de Privacidade do Consumidor da Califórnia (CCPA) dá aos consumidores mais direitos sobre seus dados pessoais.2021, Lei de Proteção de Informações Pessoais da China acabou de ser aprovada, criando uma das regulamentações de privacidade de dados online mais fortes do mundo.
🚨 A União Europeia definiu o GDPR (Regulamento Geral de Proteção de Dados), que continua sendo uma das regulamentações de privacidade de dados mais influentes hoje. Você sabia que ele também define 8 direitos dos usuários para proteger a privacidade digital e os dados pessoais dos cidadãos? Aprenda quais são esses direitos e por que eles são importantes.
4. Cultura Ética
Note que ainda existe uma lacuna intangível entre conformidade (fazer o suficiente para atender "à letra da lei") e abordar questões sistêmicas (como ossificação, assimetria de informações e injustiça distributiva) que podem acelerar a armação da IA.
O último requer abordagens colaborativas para definir culturas éticas que construam conexões emocionais e valores compartilhados consistentes entre organizações na indústria. Isso exige mais culturas éticas formalizadas de dados nas organizações - permitindo que qualquer pessoa puxe o cordão Andon (para levantar preocupações éticas cedo no processo) e tornando avaliações éticas (por exemplo, na contratação) um critério central na formação de equipes em projetos de IA.
Quiz pós-aula 🎯
Revisão e Autoestudo
Cursos e livros ajudam a entender conceitos éticos fundamentais e desafios, enquanto estudos de caso e ferramentas ajudam com práticas éticas aplicadas em contextos do mundo real. Aqui estão alguns recursos para começar.
- Machine Learning Para Iniciantes - lição sobre Justiça, da Microsoft.
- Princípios de IA Responsável - trilha de aprendizado gratuita do Microsoft Learn.
- Ética e Ciência de Dados - EBook da O'Reilly (M. Loukides, H. Mason et. al).
- Ética na Ciência de Dados - curso online da Universidade de Michigan.
- Ethics Unwrapped - estudos de caso da Universidade do Texas.
Tarefa
Escreva Um Estudo de Caso Sobre Ética em Dados
Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automatizadas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte autoritativa. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.

