29 KiB

Raw Blame History

Introdução a Ética de Dados


Ética em Ciência de Dados - Sketchnote por @nitya

Nós somos todos cidadãos dos dados vivendo em um mundo de dados.

Tendências do mercado nos mostram que até 2022, 1 em 3 grandes organizações irá comprar e vender seus dados através de Marketplaces e Exchanges online. Como Desenvolvedores de Aplicativos, nós vamos achar mais fácil e mais barato integrar insights baseados em dados e automações baseadas em algoritmos nas experiências diárias dos usuário. Mas conforme IA se torna mais difundida, nós também vamos precisar entender os danos potenciais causado pelo uso desses algoritmos como uma arma.

Tendências também indicam que nós vamos criar e consumir mais de 180 zettabytes de dados em 2025. Como Cientistas de Dados, isso nos dará níveis de acesso sem precedentes à dados pessoais. Isso significa que poderemos construir perfis comportamentais dos usuário e influenciar tomadas de decisão de uma forma que crie a ilusão da livre escolha enquanto potencialmente direcionando os usuários na direção do resultado que nós preferimos. Isso também levanta questões mais amplas sobre privacidade dos dados e proteção dos usuários.

Ética dos dados é agora uma proteção necessário para ciẽncia de dados e engenharia, nos ajudando a minimizar potenciais danos e consequências não intencionas das nossas ações realizadas com base em dados. O Gartner Hype Cycle for AI identifica tendências relevantes ná ética digital, IAs responsáveis, e governanças de IA como principais impulsionadores para grandes mega tendências sobre democratização e industrialização da IA.

Nessa aula, nós vamos explorar a área fascinante de ética dos dados - desde conceitos essenciais e desafios, para estudos de caso e conceitos de IA aplicados como governança - isso ajuda a estabelecer a cultura da ética nos times e organizações que trabalham com dados e IA.

Quiz pré aula 🎯

Definição Básica

Vamos começar entendendo o básico da terminologia.

A palavra "ética" vem da palavra Grega "ethikos" (e sua raíz "ethos") que significa caráter ou natureza moral.

Ética é sobre os valores e princípios morais compartilhados que governam o nosso comportamento em sociedade. Ética é baseada não nas leis mas nas normas amplamente aceitas sobre o que é "certo vs. errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade (compliance).

Ética de Dados é uma nova ramificação da ética que "estuda e avalia problemas morais relacionados a dados, algoritmos e práticas correspondentes". Aqui, "dados" focam nas ações relacionadas a geração, gravação, curadoria, disseminação de processamento, compartilhamento, e uso, "algoritmos" focam em IA, agentes, aprendizado de máquina, e robôs, e "práticas" focam em tópicos como inovação responsável, programação, hacking e códigos de ética.

Ética Aplicada é a aplicação prática de considerações morais. É o processo de investigar ativamente problemáticas éticas no contexto de ações do mundo real, produtos e processos, e tomar medidas corretivas para fazer com que esses permanecam alianhados com o nossos valores éticos definidos.

Cultura Ética é sobre operacionalizar a ética aplicada para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas de sucesso definem princípios éticos em toda a organização, fornecem incentivos significativos para consistência, e reinforça as normas éticas encorajando e amplificando comportmentos desejados em todos os níveis da organização.

Conceitos Éticos

Nessa seção, nós vamos discutir conceitos como valores compartilhados (princípios) e desafios éticos (problemas) para a ética de dados - e explorar estudos de caso que ajudam você a entender esses conceitos em contextos do mundo real.

1. Princípios Éticos

Toda estratégia de ética de dados começa definindo pricípios éticos - os "valores compartilhados" que descrevem comportamentos aceitáveis, e guia ações complacentes, nos nossos dados e nos projetos de IA. Você pode definir eles individualmente ou com um time. No entando, a maioria das grandes organizações descreve eles em uma declaração de missão ou de estrutura de IA ética que é definida em níveis corporativos e aplicadas consistentemente em todos os times.

Exemplo: a declaração de missão da IA responsável da Microsoft afirma: "Estamos comprometidos com o avanço da AI impulsionados por princípios éticos que colocam as pessoas em primeiro lugar." - identificando 6 princípios éticos na estrutura abaixo:

Vamos explorar brevemente esses princípios. Transparência e responsabilidade são valores fundamentais nos quais outros princípios construíram sobre - então vamos começar aí:

Responsabilidade torna os profissionais responsáveis pelos seus dados e operações da IA, e conformidade (compliance) com esses princípios éticos.
Transparência garante que os dados e as ações da IA são compreesíveis (interpretáveis) para os usuários, explicando o que e o porquê por trás de cada decisão.
Justiça - foca em garantir que a IA trate todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos implícitos ou sistêmicos nos dados e sistemas.
Confiabilidade e Segurança - garante que a IA comporte de maneira consistente com os valores definidos, minimizando potenciais danos ou consequências não pretendidas.
Segurança e Privacidade - é sobre compreender as linhagem dos dados, e fornecer privacidade de dados e proteções relacionadas aos usuários.
Inclusão - é sobre projetar soluções de IA com intenção, adaptando elas para atender uma vasta game de necessidades humanas & capacidades.

🚨 Pense sobre qual poderia ser a frase de missão da sua ética de dados. Explore estruturas éticas de IA de outras organizações - aqui estão alguns exemplos da IBM, Google, e Facebook. Quais valores compartilhados vocês tem em comum? Como esses princípios se relacionam ao produto de IA ou à indústria na qual eles operam?

2. Desafios de Ética

Uma vez que nossos princípios éticos estão definidos, o próximo passo é avaliar nossos dados e ações da IA para ver se eles estão alinhados com aqueles valores compartilhados. Pense sobre suas ações em duas categorias: coleção de dados e design de algoritmo.

Com coleções dados, ações irão, provavelmente, envolver dados pessoais ou informação pessoalmente identificável (do Inglês, personally identifiable information, ou PII) para indivíduos vivos identificáveis. Isso inclui itens diversos de dados não pessoais que coletivamente identificam um indivíduo. Desafios éticos podem estar relacionados à privacidade dos dados, qualidade dos dados, e tópicos relacionados como consentimento informado e direitos de propriedades intelectuais para os usuários.

Com o design de algoritmo, as ações envolverão coleta e curadoria dos datasets, e então o uso deles para treinar e implantar modelos de dados que predizem resultados ou automatizam decisões em contextos do mundo real. Desafios éticos podem surgir de vieses do dataset (biases), problemas com a qualidade de dados, injustiça, e má representação nos algoritmos - incluindo alguns problemas que são sistêmicos na natureza.

Em ambos os casos, desafios de ética destacam áreas onde nossas ações podem conflitar com nossos valores compartilhados. Para detectar, mitigar, minimizar, ou eliminar, essas preocupações - nós precisamos perguntar questões morais de "sim ou não" relacionadas as nossas ações, e então tomar uma ação corretiva conforme necessário. Vamos olhar alguns desafios éticos e as questões morais que eles levantam:

2.1 Propriedade de Dados

A coleta de dados geralmente envolve dados pessoais que podem identificar os titulares dos dados. Propriedade de dados é sobre o controle e direitos dos usuários relacionados à criação, processamento, e disseminação dos dados.

As questões morais que precisamos nos perguntar são:

Quem detêm/possui os dados? (usuário ou organização)
Quais direitos os titulares dos dados tem? (ex: acesso, apagar, portabilidade)
Quais direitos as organizações tem? (ex: retificar reviews maliciosas de usuários)

2.2 Consentimento Informado

Consentimento Informado define o ato dos usuários aceitar uma ação (como a coleta de dados) com um compreendimento total de fatos relevantes incluindo propósito, potenciais riscos, e alternativas.