Merge pull request #191 from izzy-el/translation-pt-br
Translated the Introduction files and the Base README to PT-BRpull/204/head
commit
ea736153fc
@ -0,0 +1,165 @@
|
||||
# Definindo Ciências de Dados
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
|
||||
|:---:|
|
||||
|Definindo Ciências de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
---
|
||||
|
||||
[![Definindo Ciências de Dados](../images/video-def-ds.png)](https://youtu.be/pqqsm5reGvs)
|
||||
|
||||
## [Quiz pré-aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0)
|
||||
|
||||
## O que são Dados?
|
||||
Na nossa vida cotidiana, nós estamos constantemente cercados por dados. O texto que você está lendo agora é um dado, a lista de telefones dos seus amigos no seu celular é um dado, assim como o horário atual mostrado no seu relógio. Como seres humanos, nós operamos naturalmente com dados. contando o dinheiro que temos ou escrevendo cartas para os nossos amigos.
|
||||
|
||||
No entanto, os dados se tornaram muito mais críticos com a criação de computadores. O papel principal dos computadores é realizar computações, mas eles precisam de dados para operar sobre. Portanto, nós precisamos entender como os computadores armazenam e processam dados.
|
||||
|
||||
Com o surgimento da Internet, o papel dos computadores como dispositivos de manipulação de dados aumentou. Se você parar para pensar, agora nós usamos computadores cada vez mais para processamento de dados e comunicação, ao invés de cálculos reais. Quando escrevemos um e-mail para um amigo ou procuramos por alguma informação na Internet - nós estamos essencialmente criando, armazenando, transmitindo, e manipulando dados.
|
||||
> Você consegue se lembrar da última vez que usou computadores para de fato computar algo?
|
||||
|
||||
## O que é Ciência de Dados?
|
||||
|
||||
Na [Wikipedia (PT-BR)](https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados), **Ciência de Dados** é definida como *uma área interdisciplinar voltada para o estudo e a análise de dados econômicos, financeiros e sociais, estruturados e não-estruturados, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão*.
|
||||
|
||||
Essa definição destaca os seguintes aspectos importantes da ciência de dados:
|
||||
|
||||
* O principal objetivo da ciência de dados é **extrair conhecimento** dos dados, em outras palavras - **entender** os dados, encontrar alguma relação escondida e construir um **modelo**.
|
||||
* Ciência de dados utiliza **métodos científicos**, como probabilidade e estatística. Na verdade, quando o termo *ciência de dados* foi introduzido pela primeira vez, algumas pessoas argumentaram que ciência de dados é apenas um nome chique para estatística. Hoje em dia ficou mais evidente que esse campo é muito mais amplo.
|
||||
* Conhecimento adquirido deve ser aplicado para produzir algum **insight para possível tomada de decisão**.
|
||||
* Nós devemos ser capazes de operar tanto nos dados **estruturados** quanto nos **não estruturados**. Nós voltaremos a discutir diferentes tipos de dados mais para a frente no curso.
|
||||
* **Domínio de aplicação** é um conceito importante, e cientistas de dados frequentemente precisam de pelo menos algum grau de perícia no domínio do problema.
|
||||
|
||||
> Outro importante aspecto da Ciência de Dados é que ela estuda como os dados podem ser coletados, armazenados e operados por meio de computadores. Enquanto estatística nos fornece fundações matemáticas, ciência de dados aplica conceitos matemáticos para de fato desenhar percepções a partir dos dados.
|
||||
|
||||
Uma das formas (atribuída a [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) para olhar para ciência de dados é considerar que ela é um paradigma separado da ciência:
|
||||
* **Empírico**, onde nos baseamos majoritariamente nas observações e resultados dos experimentos
|
||||
* **Teórico**, onde novos conceitos surgem a partir de conhecimentos cientificos já existentes
|
||||
* **Computacional**, onde nós descobrimos novos princípios baseado em algum experimento computacional
|
||||
* **Orientado por Dados**, baseado na descoberta de relações e padrões nos dados
|
||||
|
||||
## Outros Campos Relacionados
|
||||
|
||||
Já que dados são um conceito difundido, a ciência de dados em si também é um campo amplo, abrangendo muitas outras disciplinas relacionadas.
|
||||
|
||||
<dl>
|
||||
<dt>Banco de Dados</dt>
|
||||
<dd>
|
||||
A coisa mais óbvia a considerar é **como armazenar** os dados, ex. como estruturá-los de uma forma que permite um processamento rápido. Existem diferentes tipos de banco de dados que armazenam dados estruturados e não estruturados, que <a href="../../2-Working-With-Data/README.md">nós vamos considerar nesse curso</a>.
|
||||
</dd>
|
||||
<dt>Big Data</dt>
|
||||
<dd>
|
||||
Frequentemente precisamos armazenar e processar quantidades muito grandes de dados com estruturas relativamente simples. Existem algumas abordagens e ferramentas especiais para armazenar esses dados de uma forma distribuída em um cluster de computer, e processá-los de forma eficiente.
|
||||
</dd>
|
||||
<dt>Aprendizado de Máquina</dt>
|
||||
<dd>
|
||||
Uma das maneiras de entender dados é **construir um modelo** que será capaz de predizer o resultado esperado. Ser capaz de aprender esses modelos a partir de dados é a área estudada em **aprendizado de máquina**. Você talvez queira olhar o nosso Currículo de <a href="https://aka.ms/ml-beginners">Aprendizado de Máquina para Iniciantes</a> para ir mais a fundo nessa área.
|
||||
</dd>
|
||||
<dt>Inteligência Artificial</dt>
|
||||
<dd>
|
||||
Como aprendizado de máquina, inteligência artificial também se baseia em dados, e envolve construir modelos de alta complexidade que irão exibir um comportamento similar ao dos seres humanos. Além disso, métodos de IA frequentemente nos permite transformar dados não estruturados (ex. linguagem natural) em dados estruturados extraindo algumas percepções.
|
||||
</dd>
|
||||
<dt>Visualização</dt>
|
||||
<dd>
|
||||
Vastas quantidades de dados são incompreensíveis para o ser humano, mas uma vez que criamos visualizações úteis - nós podemos começar a dar muito mais sentido aos dados, e desenhar algumas conclusões. Portanto, é importante conhecer várias formas de visualizar informação - algo que vamos cobrir na <a href="../../3-Data-Visualization/README.md">Seção 3</a> do nosso curso. Áreas relacionadas também incluem **Infográficos**, e **Interação Humano-Computador** no geral.
|
||||
</dd>
|
||||
</dl>
|
||||
|
||||
## Tipos de Dados
|
||||
|
||||
Como nós já mencionamos - dados estão em todos os lugares, nós só precisamos coletá-los da maneira certa! É útil distinguir entre dados **estruturados** e **não estruturados**. Os primeiros são tipicamente representados em alguma forma bem estruturado, frequentemente como uma ou várias tabelas, enquanto o segundo é apenas uma coleção de arquivos. Algumas vezes nós também podemos falar de dados **semi estruturados**, que possuem alguma estrutura que pode variar muito.
|
||||
|
||||
| Estruturado | Semi-estruturado | Não estruturado |
|
||||
|----------- |-----------------|--------------|
|
||||
| Lista de pessoas com seus números de telefones | Páginas da Wikipédia com links | Texto da Encyclopædia Britannica |
|
||||
| Temperatura de todos os quartos de um prédio a cada minuto nos últimos 20 anos | Coleções de artigos cientificos em formato JSON com autores, datas de publicação, e abstract | Compartilhamento de arquivos com documentos corporativos |
|
||||
| Dados para idades e gêneros de todas as pessoas entrando em um prédio | Páginas da Internet | Feed de vídeo bruto da câmera de vigilância |
|
||||
|
||||
## Onde conseguir Dados
|
||||
|
||||
Existem muitas fontes possíveis de dados, e será impossível listar todas elas. No entanto, vamos mencionar alguns dos lugares típicos onde você pode obter dados:
|
||||
|
||||
* **Estruturado**
|
||||
- **Internet das Coisas**, incluindo dados de diferentes sensores, como sensores de temperatura ou de pressão, fornece muitos dados úteis. Por exemplo, se um escritório de um prédio é equipado com sensores IoT, nós podemos automaticamente controlar o aquecimento e a iluminação com o objetivo de minimizar custos.
|
||||
- **Pesquisas** que podemos fazer para os usuários depois de uma compra, ou visitar um web site.
|
||||
- **Análise de comportamento** pode, por exemplo, nos ajudar a entender o quão longe um usuário vai dentro de um site, e qual tipicamente é a razão para deixar um site.
|
||||
* **Não estruturado**
|
||||
- **Textos** podem ser uma fonte rica de insights, começando da **pontuação geral de sentimento** (sentiment score), até a extração de palavras chaves e até algum significado semântico.
|
||||
- **Imagens** ou **Vídeo**. Um vídeo de uma câmera de vigilância pode ser usado para estimar o tráfico na rua, e informar as pessoas sobre possíveis engarrafamentos.
|
||||
- **Logs** de servidores web pode ser usado para entender quais páginas do nosso site são mais visitadas, e por quanto tempo.
|
||||
* Semi-estruturado
|
||||
- Grafos das **Redes Sociais** podem ser uma boa fonte de dados sobre a personalidade do usuário e a eficácia potencial em espalhar informações.
|
||||
- Quando nós temos um monte de fotos de uma festa, nós podemos tentar extrair dados sobre **Dinâmicas de Grupo** construindo um grafo de pessoas tirando fotos umas das outras.
|
||||
|
||||
Conhecendo as diferentes fontes possíveis de dados, você pode tentar pensar sobre diferentes cenários onde técnicas de ciência de dados podem ser aplicadas para conhecer a situação melhor, e melhorar o processo de negócio.
|
||||
|
||||
## O que você pode fazer com Dados
|
||||
|
||||
Em Ciência de Dados, nós focamos em seguir os passos da jornada dos dados:
|
||||
|
||||
<dl>
|
||||
<dt>1) Aquisição de Dados</dt>
|
||||
<dd>
|
||||
Primeiro passo é coletar os dados. Enquanto em muitos casos isso pode ser um processo direto, como dados vindo para um banco de dados a partir de uma aplicação web, algumas vezes nós precisamos usar técnicas especiais. Por exemplo, dados de sensores de IoT podem ser muito pesados, e é uma boa prática usar buffering endpoints como Hub de IoT para coletar todos os dados antes de processá-los.
|
||||
</dd>
|
||||
<dt>2) Armazenamento de Dados</dt>
|
||||
<dd>
|
||||
Armazenar os dados pode ser desafiador, especialmente se estamos falando de big data. Enquanto decide como armazenar os dados, faz sentido antecipar a forma como você gostaria de consultá-los mais tarde. Existem diversas formas de como os dados podem ser armazenados:
|
||||
<ul>
|
||||
<li> Bancos de dados relacionais armazenam uma coleção de tabelas, e utilizam uma linguagem especial chamada SQL para consultá-los. Tipicamente, tabelas seriam conectadas umas às outras usando algum schema. Em vários casas nós precisamos converter os dados da forma original para ajustar al schema.</li>
|
||||
<li>Bancos de dados <a href="https://en.wikipedia.org/wiki/NoSQL">NoSQL</a>, como <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=acad-31812-dmitryso">CosmosDB</a>, não impõe schema nos dados, e permite o armazenamento de dados mais complexos, como por exemplo, documentos hierárquicos JSON ou grafos. No entanto, bancos de dados NoSQL não possuem a capacidade rica de consulta do SQL, e não podem impor integridade referencial entre os dados.</li>
|
||||
<li>Armazenamento em <a href="https://en.wikipedia.org/wiki/Data_lake">Data Lake</a> é usado para grandes coleções de dados na forma bruta. Data lakes são frequentemente usados para big data, onde todos não podem se encaixar em uma máquina, e precisam ser armazenados e processados por um cluster. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> é o formato de dado que é frequentemente usado em conjunção com big data.</li>
|
||||
</ul>
|
||||
</dd>
|
||||
<dt>3) Processamento de Dados</dt>
|
||||
<dd>
|
||||
Esse é a parte mais emocionante da jornada dos dados, que envolve processar os dados de sua forma original para a forma que pode ser usada para visualização/treinamento do modelo. Quando lidando com dados não estruturados como textos ou imagens, nós podemos precisar de algumas técnicas de IA para extrair **features** dos dados, convertendo-os então para a forma estruturada.
|
||||
</dd>
|
||||
<dt>4) Visualização / Percepções Humanas</dt>
|
||||
<dd>
|
||||
Frequentemente para entender os dados precisamos visualizar eles. Tendo várias técnicas de visualização diferentes na nossa caixa de ferramentas, nós podemos encontrar a visualização certa para termos um insight. Frequentemente, cientistas de dados precisam "brincar com dos dados", visualizando-os várias vezes e procurando alguma relação. Também, nós podemos usar algumas técnicas de estatísticas para testar alguma hipótese ou provar uma correlação entre pedaços diferentes de dados.
|
||||
</dd>
|
||||
<dt>5) Treinando modelos preditivos</dt>
|
||||
<dd>
|
||||
Já que o maior objetivo da ciência de dados é ser capaz de tomar decisões baseadas em dados, nós podemos querer usar técnicas de <a href="http://github.com/microsoft/ml-for-beginners">Aprendizando de Máquina</a> para construir modelos preditivos que serão capazes de resolver nosso problema.
|
||||
</dd>
|
||||
</dl>
|
||||
|
||||
Claro, dependendo dos dados em si alguns passos podem ser ignorados (ex., quando já temos os dados em nosso banco de dados, ou quando não precisamos treinar o modelo), ou repetidos várias vezes (como processamento de dados).
|
||||
|
||||
## Digitalização e Transformação Digital
|
||||
|
||||
Na última década, muitos negócios começaram a entender a importância dos dados para fazer uma decisão de negócio. Para aplicar os princípios da ciência de dados para gerenciar um negócio é necessário coletar alguns dados, ex. transformar de alguma forma processos de negócio em formato digital. Isso é conhecido como **digitalização**, seguido pelo uso técnicas de ciência de dados para guiar as decisões frequentemente leva a um aumento significante da produtividade (ou mesmo pivô de negócios), chamado de **transformação digital**.
|
||||
|
||||
Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como esse), que é feito online pelos estudantes, e que queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso?
|
||||
|
||||
Nós podemos começar pensando "o que pode ser digitalizado?". A maneira mais simples seria medir o tempo que cada estudante leva para completar cada módulo, e o conhecimento obtido (ex. dando questões de múltipla escolha no final de cada módulo). Tendo a média que todos os estudantes levam para completar, nós podemos descobrir quais módulos causam mais problemas para os estudantes, e trabalhar para simplificá-los.
|
||||
|
||||
> Você pode argumentar que essa abordagem não é ideal, pois os módulos podem ter tamanhos diferentes. Provavelmente seria mais justo dividir o tempo pelo tamanho do módulo (em número de caracteres), e comparar esses valores.
|
||||
|
||||
Quando começamos a analisar os resultados das questões de múltipla escolha, nós podemos tentar descobrir conceitos específicos que os estudantes não entendem muito bem, e melhorar o conteúdo. Para fazer isso nós precisamos fazer questões de uma forma que cada questão mapeia para um certo conteúdo ou conhecimento.
|
||||
|
||||
Se nós quiséssemos complicar ainda mais, nós podemos "plotar" o tempo levado para cada módulo em relação à categoria de idade de cada estudante. Nós podemos descobrir que alguma categoria de idade leva um tempo inapropriadamente longo para completar o módulo, ou os estudantes que abandonam em um certo ponto. Isso pode nos ajudar a fornecer recomendações de idade para o módulo, e minimizar a insatisfação das pessoas para expectativas erradas.
|
||||
|
||||
## 🚀 Desafio
|
||||
|
||||
Nesse desafio, nós vamos tentar encontrar conceitos relevantes para a área de Ciência de Dados olhando textos. Nós vamos pegar um artigo da Wikipedia sobre Ciência de Dados, baixar e processar o texto, e então construir uma nuvem de palavras como essa:
|
||||
|
||||
![Nuvem de Palavras para Ciência de Dados](../images/ds_wordcloud.png)
|
||||
|
||||
Visite [`notebook.ipynb`](../notebook.ipynb) para ler o código. Você também pode rodar esse código, e ver como ele performa toda a transformação de dados em tempo real.
|
||||
|
||||
> Se você não sabe como rodar códigos no Jupyter Notebook, dê uma olhada [nesse artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
|
||||
|
||||
|
||||
|
||||
## [Quiz pós-aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1)
|
||||
|
||||
## Tarefas
|
||||
|
||||
* **Tarefa 1**: Modifique o código acima para descobrir conceitos relacionados para as áreas de **Big Data** e **Aprendizado de Máquina**
|
||||
* **Tarefa 2**: [Pense Sobre Cenários de Ciência de Dados](assignment.pt-br.md)
|
||||
|
||||
## Créditos
|
||||
|
||||
Essa aula foi autorado com ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
|
@ -0,0 +1,31 @@
|
||||
# Tarefa: Cenários de Ciência de Dados
|
||||
|
||||
Nessa primeira tarefa, nós pedimos que você pense sobre algum processo ou problema da vida real em diferentes domínios de problemas, e como você pode melhorar isso usando o processo de Ciência de Dados: Pense sobre:
|
||||
|
||||
1. Quais dados você pode coletar?
|
||||
1. Como você coletaria os dados?
|
||||
1. Como você armazenaria os dados? O quão grande os dados provavelmente são?
|
||||
1. Quais insights você pode ter a partir desses dados? Quais decisões nós podemos fazer baseando-se nos dados?
|
||||
|
||||
Tente pensar sobre 3 diferentes problemas/processos e descreva cada um dos pontos acimas para cada domínio de problemas.
|
||||
|
||||
Aqui estão alguns dos domínio de problemas e problemas que podem te ajudar a começar a pensar:
|
||||
|
||||
1. Como você usa dados para melhorar o processo de educação para crianças nas escolas?
|
||||
1. Como você usa dados para controlar vacinação em uma pandemia?
|
||||
1. Como você usa dados para garantir que você está sendo produtivo no trabalho?
|
||||
## Instruções
|
||||
|
||||
Preencha a seguinte tabela (substitua os domínios de problemas sugeridos pelos os seus próprios se necessário):
|
||||
|
||||
| Domínio de Problema | Problema | Quais dados a serem coletados | Como armazenar os dados | Quais insights/decisões nós podemos fazer |
|
||||
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
|
||||
| Educação | | | | |
|
||||
| Vacinação | | | | |
|
||||
| Produtividade | | | | |
|
||||
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
Um foi capaz de identificar fontes de dados razoáveis, formas de armazenar dados e possíveis insights/decisões para todos os domínios de problema | Alguns dos aspectos da solução não estão detalhados, armazenamento de dados não é discutido, pelo menos 2 domínios de problemas são descritos | Apenas parte da solução de dados são descritas, apenas um domínio de problema é considerado.
|
@ -0,0 +1,262 @@
|
||||
# Introdução a Ética de Dados
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
|
||||
|:---:|
|
||||
| Ética em Ciência de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
---
|
||||
|
||||
Nós somos todos cidadãos dos dados vivendo em um mundo de dados.
|
||||
|
||||
Tendências do mercado nos mostram que até 2022, 1 em 3 grandes organizações irá comprar e vender seus dados através de [Marketplaces e Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) online. Como **Desenvolvedores de Aplicativos**, nós vamos achar mais fácil e mais barato integrar insights baseados em dados e automações baseadas em algoritmos nas experiências diárias dos usuário. Mas conforme IA se torna mais difundida, nós também vamos precisar entender os danos potenciais causado pelo uso desses algoritmos [como uma arma](https://www.youtube.com/watch?v=TQHs8SA1qpk).
|
||||
|
||||
Tendências também indicam que nós vamos criar e consumir mais de [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) de dados em 2025. Como **Cientistas de Dados**, isso nos dará níveis de acesso sem precedentes à dados pessoais. Isso significa que poderemos construir perfis comportamentais dos usuário e influenciar tomadas de decisão de uma forma que crie a [ilusão da livre escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) enquanto potencialmente direcionando os usuários na direção do resultado que nós preferimos. Isso também levanta questões mais amplas sobre privacidade dos dados e proteção dos usuários.
|
||||
|
||||
Ética dos dados é agora uma _proteção necessário_ para ciẽncia de dados e engenharia, nos ajudando a minimizar potenciais danos e consequências não intencionas das nossas ações realizadas com base em dados. O [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifica tendências relevantes ná ética digital, IAs responsáveis, e governanças de IA como principais impulsionadores para grandes mega tendências sobre _democratização_ e _industrialização_ da IA.
|
||||
|
||||
![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
|
||||
|
||||
Nessa aula, nós vamos explorar a área fascinante de ética dos dados - desde conceitos essenciais e desafios, para estudos de caso e conceitos de IA aplicados como governança - isso ajuda a estabelecer a cultura da ética nos times e organizações que trabalham com dados e IA.
|
||||
|
||||
|
||||
|
||||
|
||||
## [Quiz pré aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/2) 🎯
|
||||
|
||||
## Definição Básica
|
||||
|
||||
Vamos começar entendendo o básico da terminologia.
|
||||
|
||||
A palavra "ética" vem da [palavra Grega "ethikos"](https://en.wikipedia.org/wiki/Ethics) (e sua raíz "ethos") que significa _caráter ou natureza moral_.
|
||||
|
||||
**Ética** é sobre os valores e princípios morais compartilhados que governam o nosso comportamento em sociedade. Ética é baseada não nas leis mas nas normas amplamente aceitas sobre o que é "certo vs. errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade (compliance).
|
||||
|
||||
**Ética de Dados** é uma [nova ramificação da ética](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) que "estuda e avalia problemas morais relacionados a _dados, algoritmos e práticas correspondentes_". Aqui, **"dados"** focam nas ações relacionadas a geração, gravação, curadoria, disseminação de processamento, compartilhamento, e uso, **"algoritmos"** focam em IA, agentes, aprendizado de máquina, e robôs, e **"práticas"** focam em tópicos como inovação responsável, programação, hacking e códigos de ética.
|
||||
|
||||
**Ética Aplicada** é a [aplicação prática de considerações morais](https://en.wikipedia.org/wiki/Applied_ethics). É o processo de investigar ativamente problemáticas éticas no contexto de _ações do mundo real, produtos e processos_, e tomar medidas corretivas para fazer com que esses permanecam alianhados com o nossos valores éticos definidos.
|
||||
|
||||
**Cultura Ética** é sobre [operacionalizar a ética aplicada](https://hbr.org/2019/05/how-to-design-an-ethical-organization) para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas de sucesso definem princípios éticos em toda a organização, fornecem incentivos significativos para consistência, e reinforça as normas éticas encorajando e amplificando comportmentos desejados em todos os níveis da organização.
|
||||
|
||||
|
||||
## Conceitos Éticos
|
||||
|
||||
Nessa seção, nós vamos discutir conceitos como **valores compartilhados** (princípios) e **desafios éticos** (problemas) para a ética de dados - e explorar **estudos de caso** que ajudam você a entender esses conceitos em contextos do mundo real.
|
||||
|
||||
### 1. Princípios Éticos
|
||||
|
||||
Toda estratégia de ética de dados começa definindo _pricípios éticos_ - os "valores compartilhados" que descrevem comportamentos aceitáveis, e guia ações complacentes, nos nossos dados e nos projetos de IA. Você pode definir eles individualmente ou com um time. No entando, a maioria das grandes organizações descreve eles em uma declaração de missão ou de estrutura de _IA ética_ que é definida em níveis corporativos e aplicadas consistentemente em todos os times.
|
||||
|
||||
**Exemplo:** a declaração de missão da [IA responsável](https://www.microsoft.com/pt-br/ai/responsible-ai?activetab=pivot1:primaryr6) da Microsoft afirma: _"Estamos comprometidos com o avanço da AI impulsionados por princípios éticos que colocam as pessoas em primeiro lugar."_ - identificando 6 princípios éticos na estrutura abaixo:
|
||||
|
||||
![IA Responśavel na Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
|
||||
|
||||
Vamos explorar brevemente esses princípios. _Transparência_ e _responsabilidade_ são valores fundamentais nos quais outros princípios construíram sobre - então vamos começar aí:
|
||||
|
||||
* [**Responsabilidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) torna os profissionais _responsáveis_ pelos seus dados e operações da IA, e conformidade (compliance) com esses princípios éticos.
|
||||
* [**Transparência**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) garante que os dados e as ações da IA são _compreesíveis_ (interpretáveis) para os usuários, explicando o que e o porquê por trás de cada decisão.
|
||||
* [**Justiça**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - foca em garantir que a IA _trate_ todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos implícitos ou sistêmicos nos dados e sistemas.
|
||||
* [**Confiabilidade e Segurança**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - garante que a IA comporte de maneira _consistente_ com os valores definidos, minimizando potenciais danos ou consequências não pretendidas.
|
||||
* [**Segurança e Privacidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre compreender as linhagem dos dados, e fornecer _privacidade de dados e proteções relacionadas_ aos usuários.
|
||||
* [**Inclusão**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre projetar soluções de IA com intenção, adaptando elas para atender uma _vasta game de necessidades humanas_ & capacidades.
|
||||
|
||||
> 🚨 Pense sobre qual poderia ser a frase de missão da sua ética de dados. Explore estruturas éticas de IA de outras organizações - aqui estão alguns exemplos da [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), e [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Quais valores compartilhados vocês tem em comum? Como esses princípios se relacionam ao produto de IA ou à indústria na qual eles operam?
|
||||
|
||||
### 2. Desafios de Ética
|
||||
|
||||
Uma vez que nossos princípios éticos estão definidos, o próximo passo é avaliar nossos dados e ações da IA para ver se eles estão alinhados com aqueles valores compartilhados. Pense sobre suas ações em duas categorias: _coleção de dados_ e _design de algoritmo_.
|
||||
|
||||
Com coleções dados, ações irão, provavelmente, envolver **dados pessoais** ou informação pessoalmente identificável (do Inglês, personally identifiable information, ou PII) para indivíduos vivos identificáveis. Isso inclui [itens diversos de dados não pessoais](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) que _coletivamente_ identificam um indivíduo. Desafios éticos podem estar relacionados à _privacidade dos dados_, _qualidade dos dados_, e tópicos relacionados como _consentimento informado_ e _direitos de propriedades intelectuais_ para os usuários.
|
||||
|
||||
Com o design de algoritmo, as ações envolverão coleta e curadoria dos **datasets**, e então o uso deles para treinar e implantar **modelos de dados** que predizem resultados ou automatizam decisões em contextos do mundo real. Desafios éticos podem surgir de _vieses do dataset_ (biases), problemas com a _qualidade de dados_, _injustiça_, e _má representação_ nos algoritmos - incluindo alguns problemas que são sistêmicos na natureza.
|
||||
|
||||
Em ambos os casos, desafios de ética destacam áreas onde nossas ações podem conflitar com nossos valores compartilhados. Para detectar, mitigar, minimizar, ou eliminar, essas preocupações - nós precisamos perguntar questões morais de "sim ou não" relacionadas as nossas ações, e então tomar uma ação corretiva conforme necessário. Vamos olhar alguns desafios éticos e as questões morais que eles levantam:
|
||||
|
||||
|
||||
#### 2.1 Propriedade de Dados
|
||||
|
||||
A coleta de dados geralmente envolve dados pessoais que podem identificar os titulares dos dados. [Propriedade de dados](https://permission.io/blog/data-ownership) é sobre o _controle_ e [_direitos dos usuários_](https://permission.io/blog/data-ownership) relacionados à criação, processamento, e disseminação dos dados.
|
||||
|
||||
As questões morais que precisamos nos perguntar são:
|
||||
* Quem detêm/possui os dados? (usuário ou organização)
|
||||
* Quais direitos os titulares dos dados tem? (ex: acesso, apagar, portabilidade)
|
||||
* Quais direitos as organizações tem? (ex: retificar reviews maliciosas de usuários)
|
||||
|
||||
#### 2.2 Consentimento Informado
|
||||
|
||||
[Consentimento Informado](https://legaldictionary.net/informed-consent/) define o ato dos usuários aceitar uma ação (como a coleta de dados) com um _compreendimento total_ de fatos relevantes incluindo propósito, potenciais riscos, e alternativas.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* O usuário (titular dos dados) deu permissão para a captação e uso dos dados?
|
||||
* O usuário entendeu o propósito para o qual aqueles dados foram coletados?
|
||||
* O usuário entendeu os potenciais riscos de sua participação?
|
||||
|
||||
#### 2.3 Propriedade Intelectual
|
||||
|
||||
[Propriedade intelectual](https://en.wikipedia.org/wiki/Intellectual_property) se refere a criações intangíveis que foram resultados das iniciativas humanas, que podem _ter valor econômico_ para indivíduos ou negócios.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Os dados coletados tem valor econômicos para um usuário ou negócio?
|
||||
* O **usuário** tem propriedade intelectual aqui?
|
||||
* As **organizações** tem propriedade intelectual aqui?
|
||||
* Se esses direitos existem, como estamos protejendo eles?
|
||||
|
||||
#### 2.4 Privacidade de Dados
|
||||
|
||||
[Privacidade de dados](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) ou privacidade da informação se refere a preservação da privacidade do usuário e proteção da identidade do usuário com relação as informações de indentificação pessoal.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Os dados (pessoais) dos usuários estão protegidos contra hacks e vazamentos?
|
||||
* Os dados do usuário são acessíveis somente a usuários e contextos autorizados?
|
||||
* A anonimidade do usuário são preservados quando os dados são compartilhados ou disseminados?
|
||||
* Um usuário podem ser desindentificado de datasets anônimos?
|
||||
|
||||
|
||||
#### 2.5 Direito a Ser Esquecido
|
||||
|
||||
o [Direito a Ser Esquecido](https://en.wikipedia.org/wiki/Right_to_be_forgotten) ou [Direito de Apagar](https://www.gdpreu.org/right-to-be-forgotten/) fornecem proteções de dados adicionais para os usuários. Especificamente, dá aos usuários o direito de pedir deleção ou remoção dos dados pessoais das buscas da Internet e outros locais, _sobre circunstâncias específicas_ - permitindo a eles um novo começo online sem que as ações passadas sejam colocadas contra eles.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* O sistema permite que os titulares dos dados peçam o apagamento dos mesmos?
|
||||
* A retirada do consentimento do usuário deve acionar um apagamento automático?
|
||||
* Dados foram colocados sem o consentimento ou por meios ilegais?
|
||||
* Estamos de acordo com regulações governamentais para a privacidade de dados?
|
||||
|
||||
|
||||
#### 2.6 Viéses dos Datasets
|
||||
|
||||
[Viéses da Coleção ou do Dataset](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) é sobre selecionar um subset de dados _não representativos_ para o desenvolvimento de um algoritmo, criando potenciais injustiças nos resultados para grupos diversos. Os tipos de viéses incluem seleção ou viés da amostra, viés voluntário, e viés do instrumento.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Recrutamos um conjunto representativo de titulares de dados?
|
||||
* Nós testamos nossos datasets colecionados ou com curadoria para diversos viéses?
|
||||
* Nós podemos mitigar ou remover quaisquer viéses descobertos?
|
||||
|
||||
#### 2.7 Qualidade de Dados
|
||||
|
||||
[Qualidade de Dados](https://lakefs.io/data-quality-testing/) procura pela validade do dataset com curadoria usado para desenvolver nossos algoritmos, checando para ver se recursos e registros atendem os requisitos para o nível de acurácia e consistência necessários para o propósito da nossa IA.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Nós coletamos _features_ válidos para nosso caso de uso?
|
||||
* Os dados foram coletados _consistentemente_ em diversas fontes de dados?
|
||||
* O dataset é _completo_ para diversas condições e cenários?
|
||||
* As informações capturadas refletem _com precisão_ a realidade?
|
||||
|
||||
#### 2.8 Justiça do Algoritmo
|
||||
|
||||
[Justiça do Algoritmo](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) checa para ver se o design do algoritmo discrimina sistematicamente subgrupos específicos dos titulares dos dados levando a [potenciais danos](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) em _alocação_ (onde recursos são negados ou detidos daquele grupo) e _qualidade de serviço_ (onde IA não é tão acurada para alguns subgrupos quanto é para outros).
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Nós avaliamos a acurácia do modelo para diversos subgrupos e condições?
|
||||
* Nós examinamos o sistema em busca de danos potenciais (ex. estereótipos)?
|
||||
* Nós podemos revisar os dados ou retreinar os modelos para mitigar danos identificados?
|
||||
|
||||
Explore recursos como [Checklist de Justiça de IA](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) para saber mais.
|
||||
|
||||
#### 2.9 Má Representação
|
||||
|
||||
[Má Representação dos Dados](https://www.sciencedirect.com/topics/computer-science/misrepresentation) é sobre perguntar se nós estamos comunicando insights de dados honestamente relatados de uma maneira enganosa para suportar uma narrativa desejada.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* Estamos relatando dados completos ou inacurados?
|
||||
* Estamos visualizando dados de uma maneira que conduz a uma conclusão errada?
|
||||
* Estamos usando técnicas estatísticas seletivas para manipular os resultados?
|
||||
* Existem explicações alternativas que podem oferecer uma conclusão diferente?
|
||||
|
||||
#### 2.10 Livre Escolha
|
||||
A [Ilusão da Livre Escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) ocorre quando as "arquiteturas de escolha" do sistema utiliza algoritmos de tomada de decisão para incentivar as pessoas a obterem um resultado preferido enquanto parece lhe dar opções e controle. Esses [dark patterns](https://www.darkpatterns.org/) podem causar danos sociais e econômicos aos usuários. Já que as decisões do usuário impactam perfis de comportamento, essas ações potencialmente conduzem as escolhas futuras que podem aplificar ou extender o impacto desses danos.
|
||||
|
||||
Questões a se explorar aqui são:
|
||||
* O usuário entende as implicações de fazer aquela escolha?
|
||||
* O usuário estava ciente das escolhas (alternativas) e dos prós e contras de cada uma?
|
||||
* O usuário pode reverter um escolha automatizada ou influenciada depois?
|
||||
|
||||
### 3. Estudo de Casos
|
||||
|
||||
Para colocar esses desafios éticos em contextos do mundo real, ajuda olhar para estudo de casos que destacam potenciais danos e consequências para indivíduos e sociedade, quando essas violações éticas são negligenciadas.
|
||||
|
||||
Aqui estão alguns exemplos:
|
||||
|
||||
| Desafios de Éticas | Estudo de Caso |
|
||||
|--- |--- |
|
||||
| **Consentimento Informado** | 1972 - [Tuskegee Syphillis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Homens afro-americanos que participaram no estudo foram prometidos cuidados médicos livres de custo _mas foram enganados_ pelos pesquisadores que não informaram os participantes de seus diagnósticos ou sobre a avaliabilidade de tratamentos. Muitos participantes morreram e parceiros e ciranças foram afetados; oe studo durou por 40 anos. |
|
||||
| **Privacidade de Dados** | 2007 - O [Netflix data prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) forneceu a pesquisadores _10M de avaliações anônimas de filmes de 50K clientes_ para ajudar a melhorar os algoritmos de recomendação. No entanto, os pesquisadores conseguiram correlacionar os dados anônimos com dados de identificação pessoal em _datasets externos_ (ex. comentários no IMDb) - "desanonimizando" efetivamente alguns assinates da Netflix.|
|
||||
| **Viéses dos Datasets** | 2013 - A Cidade de Boston [desenvolveu Street Bump](https://www.boston.gov/transportation/street-bump), um aplicativo que deixa os usuários relatarem burcos nas ruas, dando à cidade melhores dados rodoviários para encontrar e consertar problemas. No entanto, [pessoas que faziam parte de grupos de baixa renda tinham menos acesso a carros e celulares](https://hbr.org/2013/04/the-hidden-biases-in-big-data), fazendo com que os seus problema rodoviários fossem invisíveis nesse aplicativo. Desenvolvedores trabalharm com acadêmicos para questões de _acesso equitativo e divisões digitais_ para justiça. |
|
||||
| **Justiça do Algoritmo** | 2018 - [O Gender Shades Study do MIT](http://gendershades.org/overview.html) avaliou a acurácia de produtos de IA de classificação de gêneros, expondo lacunas na acurácia para mulheres e pessoas não brancas. Um [Apple Card de 2019](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) parece oferecer menos créditos para mulheres do que oferece para homens. Ambos ilustraram questões de viés algorítmico levando a danos socioeconômicos.|
|
||||
| **Má Representação de Dados** | 2020 - O [Departamento de Sáude Pública da Georgia (Georgia Department of Public Health) liberou gráficos da COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) que aparentam a levar os cidadãos a conclusões errôneas sobre as tendências em casos confirmados em uma ordem não cronológica no eixo x. Isso ilustra a má representação atráves de truques de visualização. |
|
||||
| **Ilusão da Livre Escolha** | 2020 - Aplicativo de aprendizado [ABCmouse pagou $10M para resolver uma reclamação do FTC](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) onde os pais foram enganados a pagar assinaturas que eles não podiam cancelar. Isso ilustra "dark patterns" em arquiteturas de escolha, onde usuários foram direcionados a escolhas potencialmente prejudiciais. |
|
||||
| **Privacidade de Dados & Direitos do Usuário** | 2021 - [Violação de Dados do facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) expôs dados de mais de 530M de usuários, resultando em um acordo de $5B com o FTC (Federal Trade Commission). No entanto, o Facebook se recusou a notificar os usuários sobre a violação dos dados violando os direitos dos usuários de transparência e acesso de dados. |
|
||||
|
||||
Gostaria de explorar mais estudos de caso? Confira:
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - dilemas éticos em indústrias diversas.
|
||||
* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - estudos de caso marcantes explorados.
|
||||
* [Where things have gone wrong](https://deon.drivendata.org/examples/) - checklists da deon com exemplos
|
||||
|
||||
> 🚨 Pense sobre estudos de caso que você ja viu - você ja experienciou, ou foi afetado por, um desafio ético similar em sua vida? Voce consegue pensar em pelo menos um estudo de caso que ilustre um ou mais desafios éticos que discutimos nessa seção?
|
||||
|
||||
## Ética aplicada
|
||||
|
||||
Nós falamos sobre conceitos de éticas, desafios, e casos de estudo em contextos do mundo real. Mas como nós começamos a _aplicar_ esses princípios éticos em nossos projetos? E como nós _operacionalizamos_ essas práticas para melhor governância? Vamos explorar algumas soluções do mundo real:
|
||||
|
||||
### 1. Códigos Profissionais
|
||||
|
||||
Códigos Profisionais oferecem uma opção para organizações para "incentivar" membros a apoiar os princípios éticos e frase de missão. Códigos são _diretrizes morais_ para comportamento profissional, ajudando funcionários ou membros a tomar decisões que alinhem com os princípios da sua organização. Eles são tão bons quanto a conformidade voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade dos membros.
|
||||
|
||||
Exemplos incluem:
|
||||
|
||||
* [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) Código de Ética
|
||||
* [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Código de Conduta (criado em 2013)
|
||||
* [ACM Code of Ethics and Professional Conduct](https://www.acm.org/code-of-ethics) (desde 1993)
|
||||
|
||||
> 🚨 Você faz parte de uma organização profissional de engenharia ou de ciências de dados? Explore o site deles para ver se eles definem um código de ética profissional. O que diz sobre os princípios éticos deles? Como eles estão "incentivando" os membros a seguir o código?
|
||||
|
||||
### 2. Checklists de Éticas
|
||||
|
||||
Enquanto códigos profissionais definem _comportamentos ético_ requiridos de seus praticantes, eles [tem limitações conhecidas](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) na execução, particularmente em projetos de larga escala. Ao invés disso, muitos experts em Ciência de Dados [defendem as checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), que podem **conectar princípios a práticas** de maneiras para determinísticas e acionáveis.
|
||||
|
||||
Checklists convertem as questões em tarefas de "sim/não" que podem ser operacionalizadas, permitindo eles serem rastreados como parte dos fluxos de trabalho de liberação de produtos padrão.
|
||||
|
||||
Exemplos incluem:
|
||||
* [Deon](https://deon.drivendata.org/) - uma checklist de propósito gerak criado a partir de [recomendações da insústria](https://deon.drivendata.org/#checklist-citations) com uma ferramenta de linha de comando para fácil integração.
|
||||
* [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - fornece orientação geral para práticas de manipulação de informação a partir de perspectivas de exposição legal e social.
|
||||
* [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - criado por praticantes de IA para apoiar a adoção e integração de verificações de justiça dentro dos ciclos de desenvolvimento de IA.
|
||||
* [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - estrutura mais aberto-fechado, estrturado para exploração inicial de problemas éticos em contextos de design, implementação, e organizacional.
|
||||
|
||||
### 3. Regulações Éticas
|
||||
|
||||
Ética é sobre definir valores compartilhados e fazer a coisa certa _voluntariamente_. **Compliance (Conformidade)** é sobre _seguir a lei_ se e onde definida. **Governância** abrange amplamente todos as formas de como as organizações operam para garantir princípios éticos e cumprir as leis estabelecidas.
|
||||
|
||||
Hoje, governância assume duas formas dentro das organizações. Primeira, é sobre definir princípios de **IA ética** e estabelecer práticas para operacionalizar a adoção em todos os projetos de IA na organização. Segundo, trata-se de cumprir com todos os **regulamentos de proteção de dados** para as regiões em que operam.
|
||||
|
||||
Exemplos de proteção de dados e regulamentos de privacidade:
|
||||
|
||||
* `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regula a coleta, o uso, e divulgação de informações pessoais por parte do _governo federal_.
|
||||
* `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - protege dados de sáude pessoais.
|
||||
* `1998`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - protege a privacidade de dados de crianças menores de 13 anos de idade.
|
||||
* `2018`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - fornece direitos aos usuário, proteção de dados, e privacidade.
|
||||
* `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) dá aos consumidores mais _direitos_ sobre seus dados (pessoais).
|
||||
* `2021`, [A Lei de Proteção de Informação Pessoal](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) da China acabou de ser passado, criando uma das regulações de privacidade de dados online mais forte do mundo.
|
||||
|
||||
> 🚨 A GDPR (General Data Protection Regulation) da União Europia continua sendo umas das regulações de privacidade de dados mais influentes hoje em dia. Você sabia que a mesma também define [8 direitos dos usuário](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) para proteger a privacidade dos cidadãos e dados pessoais? Saiba mais sobre o que são e porque eles importam.
|
||||
|
||||
|
||||
### 4. Cultura Ética
|
||||
|
||||
Note que existe uma lacuna intangível entre _compliance_ (fazer o suficiente para cumprir a "a carta da lei") e abordar [problemas sistêmicos](https://www.coursera.org/learn/data-science-ethics/home/week/4) (como ossificação, assimetria informacional, e injustiça distribucional) que podem acelerar o uso da IA como uma arma.
|
||||
|
||||
Este último requere [abordagens colaborativas para definir culturas éticas](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) que constrói conexões emocionais e valores compartilhados consistentes _em todas as organizações_ na indústria. Isso requere mais [culturas de ética de dados formalizadas](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) nas organizações - permitindo _qualquer um_ a [puxar o cordão Andom](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (para aumentar as preocupações éticas mais cedo no processo) e fazendo _avaliações éticas_ (ex. na contratação) um critério fundamental na formação de times em projetos de IA.
|
||||
|
||||
---
|
||||
## [Quiz pós aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/3) 🎯
|
||||
## Revisão e Autoestudo
|
||||
|
||||
Cursos e livros ajudam a entender os conceitos essencias da ética, enquanto estudos de caso e ferramentas ajudam com práticas da ética aplicado em contextos do mundo real. Aqui estão alguns recursos para começar.
|
||||
|
||||
* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - aula sobre Justiça, da Microsoft.
|
||||
* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - programa de aprendizado gratuito da Microsoft Learn.
|
||||
* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
|
||||
* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - curso online da Universidade de Michigan.
|
||||
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - estudos de caso da Universidade do Texas.
|
||||
|
||||
# Tarefa
|
||||
|
||||
[Escreva um Caso de Uso de Ética de Dados](assignment.pt-br.md)
|
@ -0,0 +1,21 @@
|
||||
## Escreva um Caso de Estudo de Ética de Dados
|
||||
|
||||
## Instruções
|
||||
|
||||
Você aprendeu sobre vários [Desafios da Ética de Dados](README.pt-br.md#2-desafios-de-ética) e viu alguns exemplos de [Estudo de Casos](README.pt-br.md#3-estudo-de-casos) refletindo desafios da ética de dados em contextos do mundo real.
|
||||
|
||||
Nessa tarefa você irá escrever o seu próprio estudo de caso refletindo um desafio da ética de dados de seu própria experiência, ou de um contexto relevante do mundo real que você está familiarizado. Apenas siga esses passos:
|
||||
|
||||
1. `Escolha um Desafio da Ética de Dados`. Olhe [os exemplos da aula](README.pt-br.md#2-desafios-de-ética) ou explore exemplos onlines como [as Checklists da Deon](https://deon.drivendata.org/examples/) para se inspirar.
|
||||
|
||||
2. `Descreva um Exemplo do Mundo Real`. Pense sobre a situação que você ouviu sobre (manchetes, pesquisas etc.) ou experienciou (comunidade local), onde esse desafio em específico aconteceu. Pense sobre as questões de ética de dados relacionadas ao desafio - e discuta os danos potenciais ou consequências não-ntencionais que são levantados por causa desse problema. Pontos bônus: pense sobre potenciais soluções ou precessos que podem ser aplicados aqui para ajuda a eliminar ou mitigar o impacto adverso desse desafio.
|
||||
|
||||
3. `Forneça um Lista de Recursos Relacionados`. Compartilhe um ou mais recursos (links para artigos, posts ou imagens de blogs pessoais, artigos de pesquisa online etc.) para provar que isso acotnece no mundo real. Pontos bônus: compartilhe recursos que também mostrar potenciais danos e consequências de incidentes, ou destacam medidas positivas tomadas para prevenir sua recorrência.
|
||||
|
||||
|
||||
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
Um ou mais desafios de ética de dados são identificados. <br/> <br/> O estudo de caso descreve claramente um incidente do mundo real refletindo aquele desafio, e destaca consequências não desejáveis ou danos que causou. <br/><br/> Existe pelo menos um recurso linkado para provar que isso aconteceu. |Um desafio da ética de dados é identificado. <br/><br/> Pelo menos um dano ou consequência relevante é discutido brevemete. <br/><br/> No entanto a discussão é limitada ou falta provas de uma ocorrência no mundo real. | Um desafio de dados é identificado. <br/><br/> No entanto a descrição ou recursos não refletem adequadamente o desafio ou provam que aconteceu no mundo real. |
|
@ -0,0 +1,67 @@
|
||||
# Definindo Dados
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
|
||||
|:---:|
|
||||
|Definindo Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Dados são fatos, informações, observações e medidas que são usadas para fazer descobertas e apoiar decisões informadas. Um ponto de dado é uma unidade única dentro de um dataset, que é uma coleção de pontos de dados. Datasets podem vir em diferentes formatos e estruturas, e normalmente será baseado em sua fonte, ou de onde os dados vieram. Por exemplo, os ganhos mensais de uma empresa podem estar em uma planilha mas a frequência cardíaca (por hora) de um smartwatch pode estar em formato [JSON](https://stackoverflow.com/a/383699). É comum para cientistas de dados terem que trabalhar com diferentes tipos de dados em um dataset.
|
||||
|
||||
Essa aula irá focar em identificar e classificar dados baseados em sua características e fontes.
|
||||
|
||||
## [Quiz Pré Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
|
||||
## Como Dados são Descritos
|
||||
**Dados Brutos (Raw data)** são dados que vieram em seu estado inicial de sua fonte e não foram analisados ou organizados. Para entender o que está acontecendo com um conjunto de dados, é necessário organizar os dados em um formato que possa ser entendido pelos humanos e também pela tecnologia que pode ser usada para analisar os mesmos. A estrutura do dataset descreve como estão organizados e pode ser classificada em estruturada, não estruturada e semi estruturada. Esses tipos de estruturas irão variar, dependendo da fonte mas irão ultimamente se encaixar nessas categorias.
|
||||
|
||||
### Dados Qualitativos
|
||||
Dados qualitativos, também conhecidos como dados categóricos são dados que não podem ser medidos objetivamente como observações de dados quantitativos. São geralmente vários formatos de dados subjetivos que coletam a qualidade de algo, como um produto ou processo. Algumas vezes, dados qualitativos são numéricos e tipicamente não seriam usados matematicamente, como números de telefones e marcas de tempo. Alguns exemplos de dados qualitativos são: comentários de vídeos, a marca e modelo de um carro e a cor favorita do seu melhor amigo. Dados qualitativos podem ser usados para entender quais produtos os consumidores mais gostam ou identificar palavras-chaves populares em cúrriculos para aplicação em uma vaga de trabalho.
|
||||
|
||||
### Dados Estruturados
|
||||
Dados estruturados são dados que estão organizados em linhas e colunas, onde cada linha tem a mesma quantidade de colunas. Colunas representam um valor de um tipo particular e são identificadas com um nome descrevendo o que aquele valor representa, enquanto cada linha contém o valor. Colunas geralmente vão possuir um conjunto específico de regras e restrições nesses valores, para garantir que os valores representam precisamente a coluna. Por exemplo, imagine uma planilha de clientes onde cada linha deve ter um número de telefone e o mesmo nunca pode conter caractéres alfabéticos. Podem existir regras aplicadas na coluna do número de telefone para garantir que nunca esteja vazio e contenha apenas números.
|
||||
|
||||
Um benefício de dados estruturados é que podem ser organizados de uma forma que pode ser relacionada a um outro dado estruturado. No entanto, devido ao fato dos dados serem feitos para serem organizados de uma forma específica, fazer mudanças na estrutura em geral pode requerer muito esforço. Por exemplo, adicionar uma coluna de email na planilha de clientes que não pode ser vazia, significa que você terá que decidir como você irá adicionar os valores nas linhas já existentes no dataset.
|
||||
|
||||
Exemplos de dados estruturados: planilhas/spreadsheets, bancos de dados relacionais, números de telefone, extratos bancários
|
||||
|
||||
### Dados Não Estruturados
|
||||
Dados não estruturados tipicamente não podem ser categorizado em linhas e colunas e não possuem um formato ou um conjunto de regras a ser seguido. Devido ao fato de dados não estruturados possuirem menos restrições na sua estrutura é mais fácil adicionar novas informações quando comparados com um dataset estruturado. Se um sensor que coleta dados de pressão bariométrica a cada 2 minutos recebeu uma atualização que agora permite que o mesmo meça e grave a temperatura, não é preciso alterar os dados já existentes se eles são não estruturados. No entanto, isso pode fazer com que a análise ou investigação desses dados leve mais tempo. Por exemplo, um cientista que quer descobrir a temperatura média do mês passado a partir dos dados do sensor, mas descobre que o sensor gravou um "e" em alguns dados gravados indicando que estava quebrado ao invés de um número típico, o que significa que os dados estão incompletos.
|
||||
|
||||
Exemplos de dados não estruturados: arquivos de texto, mensagens de texto, arquivo de vídeo
|
||||
|
||||
### Dados Semi Estruturados
|
||||
Dados semi estruturados possui recursos que o fazem ser uma combinação de dados estruturados e não estruturados. Tipicamente não está em conformidade com linhas e colunas mas estão organizados de uma forma que são considerados estruturados e podem seguir um formato fizo ou um conjunto de regras. A estrutura pode variar entre as fontes, desde uma hierarquia bem definida até algo mais flexível que permite uma fácil integração de novas informação. Metadados são indicadores que ajudam a decidir como os dados são organizados e armazenados e terão vários nomes, baseado no tipo de dado. Alguns nomes comuns para metadados são tags, elementos, entidades e atributos. Por exemplo, uma mensaem de email típica terá um assunto, corpo e um conjunto de recipientes e podem ser organizados por quem ou quando foi mandado.
|
||||
|
||||
Exemplos de dados não estruturados: HTML, arquivos CSV, JavaScript Object Notation (JSON)
|
||||
|
||||
## Fontes de Dados
|
||||
|
||||
Uma fonte de dados é o local inicial onde os dados foram gerados, ou onde "vivem" e irá variar com base em como e quando foram coletados. Dados gerados por seus usuários são conhecidos como dados primários enquanto dados secundários vem de uma fonte que coletou os dados para uso geral. Por exemplo, um grupo de cientistas fazendo observações em uma floresta tropical seriam considerados dados primários e se eles decidirem compartilhar com outros cientistas seriam considerados dados secundários para aqueles que usarem.
|
||||
|
||||
Banco de dados são fontes comuns e dependem de um sistema de gerenciamente de banco de dados para hospedar e manter os dados onde usuários usam comandos chamados de "queries" para explorar os dados. Arquivos como fonte de dados podem ser aúdio, imagens, e arquivos de vídeo assim como planilhas como o Excel. Fontes da internet são lugares comuns para hospedar dados, onde banco de dados e arquivos podem ser encontrados. Application programming interfaces, ou APIs, permitem programadores a criarem formas de compartilhar dados com usuários externos através da interet, enquanto processos de "web scraping" extrai dados de uma página da web. As [tarefas em Trabalhando com Dados](../../../2-Working-With-Data) focam em como usar várias fontes de dados.
|
||||
|
||||
## Conclusão
|
||||
|
||||
Nessa aula nós aprendemos:
|
||||
|
||||
- O que são dados
|
||||
- Como dados são descritos
|
||||
- Como dados são classificados e categorizados
|
||||
- Onde os dados podem ser encontrados
|
||||
|
||||
## 🚀 Desafio
|
||||
|
||||
O Kaggle é uma excelente fonte para datasets abertos. Use a [ferramenta de busca de dataset](https://www.kaggle.com/datasets) para encontrar alguns datasets interessantes e classificar de três a cinco datasets com esses critérios:
|
||||
|
||||
- Os dados são quantitativos ou qualitativos?
|
||||
- Os dados são estruturados, não estruturados, ou semi estruturados?
|
||||
|
||||
## [Quiz Pós Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/5)
|
||||
|
||||
|
||||
|
||||
## Revisão e Auto Estudo
|
||||
|
||||
- Essa unidade do Microsoft Lean, entitulada [Classifique seus Dados (Classify your Data)](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) tem uma análise detalhada de dados estruturados, semi estruturados, e não estruturados.
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Classificando Datasets](assignment.pt-br.md)
|
@ -0,0 +1,65 @@
|
||||
# Classificando Datasets
|
||||
|
||||
## Instruções
|
||||
|
||||
Siga as instruções nessa tarefa para identificar e classificar os dados como um de cada dos seguintes tipos de dados:
|
||||
|
||||
**Tipos de Estrutura**: Estruturado, Semi Estruturado, ou Não-Estruturado
|
||||
|
||||
**Tipos de Valor**: Qualitativo ou Quantitativo
|
||||
|
||||
**Tipos de Fonte**: Primária ou Secundária
|
||||
|
||||
1. Uma empresa voi adquirida e agora tem uma empresa-mãe. Os cientistas de dados receberam uma planilha com números de telefones dos clientes da empresa-mãe.
|
||||
|
||||
Tipo de Estrutura:
|
||||
|
||||
Tipo de Valor:
|
||||
|
||||
Tipo de Fonte:
|
||||
|
||||
---
|
||||
|
||||
2. Um smart watch vem coletando dados da frequência cardíaca de seu usuário, e os dados brutos estão em formato JSON.
|
||||
|
||||
Tipo de Estrutura:
|
||||
|
||||
Tipo de Valor:
|
||||
|
||||
Tipo de Fonte:
|
||||
|
||||
---
|
||||
|
||||
Uma pesquisa sobre o moral do funcionário no local de trabalho armazenada em um arquivo CSV.
|
||||
|
||||
Tipo de Estrutura:
|
||||
|
||||
Tipo de Valor:
|
||||
|
||||
Tipo de Fonte:
|
||||
|
||||
---
|
||||
|
||||
4. Astrofísicos estão acessando um banco de dados de galáxias que foram coletados por uma sonda espacial. Os dados contém os números de planetas dentro de cada galáxia.
|
||||
|
||||
Tipo de Estrutura:
|
||||
|
||||
Tipo de Valor:
|
||||
|
||||
Tipo de Fonte:
|
||||
|
||||
---
|
||||
|
||||
5. Um aplicativo de finanças pessoas usa APIs para conectar com as contas financeiras dos usuários para calcular seu net worth. Eles podem ver todas as suas transações em um formato de linhas e colunas e são similares com uma planilha.
|
||||
|
||||
Tipo de Estrutura:
|
||||
|
||||
Tipo de Valor:
|
||||
|
||||
Tipo de Fonte:
|
||||
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
Identificou corretamente todas as estruturas, valores, e fontes |Identificou corretamente 3 todas as estruturas, valores e fontes|Correctly Identificou 2 ou menos todas as estruturas, valores, e fontes|
|
@ -0,0 +1,261 @@
|
||||
# Uma Breve Introdução a Estatística e Probabilidade
|
||||
|
||||
|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/04-Statistics-Probability.png)|
|
||||
|:---:|
|
||||
| Estatística e Probabilidade - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
Teoria da Probabilidade e Estatística são duas áreas altamente relacionadas da Matemática que são altamente relevante para a Ciência de Dados. É possível operar com dados sem um conhecimento aprofundado de matemática, mas ainda é bom saber pelo menos alguns conceitos. Aqui nós vamos apresentar uma breve introdução que ajudará você a começar.
|
||||
|
||||
[![Vídeo de Introdução](../images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
|
||||
|
||||
|
||||
## [Quiz Pré Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/6)
|
||||
|
||||
## Probabilidade e Variáveis Aleatórias
|
||||
|
||||
**Probabilidade** é um número entre 0 e 1 que expressa o quão provável um **evento** é. É definida como um número de resultados positivos (que levam ao evento), divido pelo número possível de resultados, dado que todos os resultados são igualmente prováveis. Por exemplo, quando jogamos um dado, a probabilidade de termos um número par é 3/6 = 0.5.
|
||||
|
||||
Quando falamos de eventos, usamos **variáveis aleatórias**. Por exemplo, a variável aleatória que representa o número obtido quando jogamos um dado assumiria valores entre 1 e 6. O conjunto de números entre 1 a 6 é chamado de **espaço amostral**. Podemos falar sobre a probabilidade de uma variável aleatória ser um certo valor, como por exemplo P(X=3)=1/6.
|
||||
|
||||
A variável aleatória nos exemplos anteriores são chamadas de **discretas**, pois possui um espaço amostral contável, ex. existem valores separados que podem ser numerados. Existem casos onde o espaço amostral é uma gama de valores reais, ou todo o conjunto de números reais. Essas variáveis são chamadas de **contínuas**. Um bom exemplo é a hora em que o ônibus chega.
|
||||
|
||||
## Distribuição de Probabilidade
|
||||
|
||||
No caso de variáveis discretas, é fácil descrever a probabilidade de cada um por uma função P(X). Para cada valor *s* do espaço amostrals *S* vai dar um número entre 0 e 1, de modo que todos os valores P(X=s) para todos os eventos seria 1.
|
||||
|
||||
A distribuição discreta mais conhecida é a **distribuição uniforme**, no qual existe um espaço amostral de N elementos, com probabilidade de 1/N para todos eles.
|
||||
|
||||
É mais difícil descrever a distribuição de probabilidade para uma variável contínua, com valores sorteados dentro de um intervalo [a, b], ou todo o conjunto dos números reais ℝ. Considere o caso da chegado do horário de ônibus. Na verdade, para cada horário de chegada exato $t$, a probabilidade do ônibus chegar exatamente naquele horário é 0!
|
||||
|
||||
> Agora você sabe que eventos com probabilidade 0 acontecem, e muito frequentemente! Pelo menos toda vez que o ônibus chegar!
|
||||
|
||||
Nós só podemos falar da probabilidade de uma variável cair em um determinado intervalo de valores, ex. P(t<sub>1</sub>≤X<t<sub>2</sub>). Nesse caso, a distribuição de probabilidade é descrita por uma **função densidade de probabilidade** p(x), sendo que
|
||||
|
||||
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](..//images/probability-density.png)
|
||||
|
||||
Um análogo contínuo de distribuição uniforme é chamado de **uniforme contínuo**, o qual é definido em um intervalo finito. Uma probabilidade de que o valor X caia em um intervalo de tamanho l é proporcional a l, e vai até 1.
|
||||
|
||||
Outra distribuição importante é a **distribuição normal**, a qual vamos falar sobre em mais detalhes abaixo.
|
||||
|
||||
## Média, Variância e Desvio Padrão
|
||||
|
||||
Vamos supor que sorteamos um sequência de n amostras da variável aleatória X: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. Nós podemos definir o valor da **média** (ou **média aritmética**) da sequência da forma tradicional como (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n. Conforme aumentamos o tamanho da amostra (ex. obter o limite com n→∞), nós vamos obter a média (também chamada de **expectância ou esperança**) da distribuição. Nós vamos denotá-la por **E**(x).
|
||||
|
||||
> Pode ser demonstrado que para qualquer distribuição discreta com valores {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} e probabilidades correspondentes p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, a expectativa seria igual a E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
|
||||
|
||||
Para demonstrar o quanto os valores estão espalhados, nós podemos computar a variância σsup>2</sup> = ∑(x<sub>i</sub> - μ)<sup>2</sup>/n, onde μ é a média da sequência. O valor de σ é chamado de **desvio padrão**, e σ<sup>2</sup> é chamado de **variância**.
|
||||
|
||||
## Moda, Média e Quartis
|
||||
|
||||
Algumas vezes, a média não representa adequadamente o valor "típico" para dados. Por exemplo, quando existem poucos valores extremos que estão completamente fora da faixa, eles podem afetar a média. Outra boa indicação é a **mediana**, um valor sendo que metade dos pontos de dados estão abaixo dele, e a outra metade - acima.
|
||||
|
||||
Para nos ajudar a entender a distribuição dos dados, é útil falar de **quartis**:
|
||||
|
||||
* O primeiro quartil, ou Q1, é um valor sendo que 25% dos dados estarão abaixo dele
|
||||
* O terceiro quartil,ou Q3, é um valor sendo que 75% dos dados estarão abaixo dele
|
||||
|
||||
Graficamente nós podemos representar a relação entre mediana e quartis em um diagrama chamado de **box plot**:
|
||||
|
||||
<img src="../images/boxplot_explanation.png" width="50%"/>
|
||||
|
||||
Nós também podemos computar o **intervalo interquartil** IQR=Q3-Q1, e os tão chamados **outliers** - valores que se localizam fora dos limites [Q1-1.5*IQR,Q3+1.5*IQR].
|
||||
|
||||
Para distribuições finitas que contenham um pequeno número de valores positivos, um bom valor "típico" é aquele que aparece mais frequentemente, que é chamado de **moda**. Geralmente é aplicado para dados categóricos, como cores. Considere uma situação onde nós temos dois grupos de pessoas - alguns preferem fortemente vermelho, enquanto outros preferem azul. Se atribuirmos números a cores, o valor médio para uma cor favorita estaria em algum lugar entre o espectro laranja-verde, o que não indica, de fato, a preferência de nenhum grupo. No entanto, a moda seria ou uma das cores, ou ambas as cores, se os números de pessoas que votaram para elas fossem iguais (nesse caso nós chamamos a amostra de **multimodal**).
|
||||
## Dados do Mundo Real
|
||||
|
||||
Quando analisamos dados da vida real, eles normalmente não são variáveis aleatórias como tal, no sentido de que não realizamos experimentos com resultado desconhecido. Por exemplo, considere um time de jogadores de baseball, e os seus dados corporais, como altura, peso e idade. Esses númerps não são exatamente aleatórios, mas nós podemos aplicar os mesmos conceitos matemáticos. Por exemplo, a sequência da altura das pessoas pode ser considerada uma sequência de valores sortidos de alguma variável aleatória. Abaixo está a sequência de pesos de jogadores reais da [Major League Baseball](http://mlb.mlb.com/index.jsp), retirados [desse dataset](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (para a sua conveniência, apenas os primeiros 20 valores são mostrados):
|
||||
|
||||
```
|
||||
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
|
||||
```
|
||||
|
||||
> **Nota**: Para ver o exemplo de trabalhar com esse dataset, olhe o [notebook](../notebook.ipynb). Existe também um número de desafios nessa aula, e você pode completá-los adicionando alguns códigos nesse notebook. Se você não tem certeza de como operar os dados, não se preocupe - nós vamos voltar a trabalhar com dados usando Python em um outro momento. Se você não sabe como rodar código no Jupyter Notebook, dê uma olhada [neste artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
|
||||
|
||||
Aqui está o box plot mostrando a média, mediana e quartis para os nossos dados:
|
||||
|
||||
![Box Plot dos Pesos](../images/weight-boxplot.png)
|
||||
|
||||
Já que os nossos dados possuem informação de **posições** diferentes dos jogadores, nós podemos fazer o box plot baseado nas posições - permitirá a gente ter uma ideia de como os valores dos parâmetros mudam conforme diferentes posições. Agora vamos considerar a altura:
|
||||
|
||||
![Box plot por posição](../images/boxplot_byrole.png)
|
||||
|
||||
Esse diagrama sugere que, em média, a altura do jogador na primeira base é maior do que a altura dos jogadores na segunda base. Mais tarde nessa aula nós vamos aprender como podemos testar essa hipótese mais formalmente, e como demonstrar que o nosso dado é estatisticamente significante para mostrar isso.
|
||||
|
||||
> Quando trabalhando com dados do mundo real, nós assumimos que todos os pontos de dados são amostras sortidas de alguma distribuição de probabilidade. Essa suposição permite que a gente aplica técnicas de aprendizado de máquina e contrua modelos preditivos que funcionam.
|
||||
|
||||
Para ver qual a distribuição dos nossos dados é, nós podemos "plotar" um gráfico chamado de **histograma**. O eixo x seria um número de diferentes intervalos de valores para peso (chamados de **grupos** (bins)), e o eixo vertical mostrari o número de vezes que a amostra da nossa variável aleatória estava dentro do intervalo dado.
|
||||
|
||||
![Histogram de dados do mundo real](../images/weight-histogram.png)
|
||||
|
||||
A partir desse histograma você pode ver que todos os valores estão centrados ao redor de uma certa média de peso, e quanto mais longe nós formos - menos pesos desse valor são encotnrados. Ex. é muito improvável que o peso de um jogador de baseball seja muito diferente da média de pesos. Variância dos pesos mostram até que pontos os pesos tendem a diferir da média.
|
||||
|
||||
> Se nós pegarmos os pesos de outras pessoas, não da liga de baseball, a distribuição provavelmente será diferente. No entante, a forma da distribuição será a mesma, mas a média e a variância iria mudar. Então, se treinarmos o modelo nos jogadores de baseball, provavelmente teremos resultados errados quando aplicado em estudantes de uma universidade, pois a distribuição subjacente é diferente.
|
||||
## Distribuição Normal
|
||||
|
||||
A distribuição de pesos que vimos acima é bem típica, e muitas medidas do mundo real seguem o mesmo tipo de distribuição, mas com médias e variâncias diferentes. Essa distribuição é chamada de **distribuição normal**, e possui um papel importante na estatística.
|
||||
|
||||
Usar distribuição normal é uma forma correta de gerar pesos aleatórios para potenciais jogadores de baseball. Uma vez que sabemos a média de pesso `mean` e desvio padrão `std`, nós podemos gerar 1000 amostras de peso da seguinte forma:
|
||||
```python
|
||||
samples = np.random.normal(mean,std,1000)
|
||||
```
|
||||
|
||||
Se "plotarmos" o histograma das amostras geradas nós vamos ver a figura bem similar com a mostrada acima. Se aumentarmos o número de amostrar e o número de grupos (bins), nós podemos gerar a figura de uma distribuição normal que é mais perto do ideal:
|
||||
|
||||
![Distribuição Normal com mean=0 (média) e std.dev=1 (desvio padrão)](../images/normal-histogram.png)
|
||||
|
||||
*Distribuição Normal com mean=0 e std.dev=1*
|
||||
|
||||
## Intervalos de Confiânça
|
||||
|
||||
Quando falamos sobre os pesos de jogadores de baseball, nós assumimos que existem certas **variáveis aleatórias W** que correspondem a distribuição de probabilidade ideal dos pesos de todos os jogadores de baseball (chamados de **população (population)**). Nossa sequência de pesos correspondem a um subset de todos os jogadores que chamamos de **amostra**. Uma questão interessante é, nós podemos saber os parâmetros da distribuição W, ex. média e variância de uma população?
|
||||
|
||||
A resposta mais fácil seria calcular média e variância da nossa amostra. No entante, pode acontecer que nossa amostra aleatória não representa precisamente a população completa. Portanto faz sentido falar sobre **intervalos de confiança**.
|
||||
|
||||
> **Intervalo de confiança** é a estimação da média verdadeira de uma população dada a nossa amostra, que é precisa é uma certa probabilidade (ou **nível de confiança**).
|
||||
|
||||
Suponha que temos uma amostra X<sub>1</sub>, ..., X<sub>n</sub> da nossa distribuição. Cada vez que sorteamos uma amostra da nossa distribuição, nós acabaríamos com diferentes valores de média μ. Portanto μ pode ser considerado uma variável aleatória. Um **intervalo de confiança** com confiança p é um par de valores (L<sub>p</sub>,R<sub>p</sub>), de forma que **P**(L<sub>p</sub>≤μ≤R<sub>p</sub>) = p, ex. a probabilidade da média medida estar dentro do intervalo igual a p.
|
||||
|
||||
Vai além da nossa pequena introdução discutir detalhadamente como esses intervalos de confiança são calculados. Mais detalhes podem ser encontrados [na Wikipedia](https://en.wikipedia.org/wiki/Confidence_interval). Resumidamente, nós definimos a distribuição da média da amostra computada em relação a média verdadeira da população, que é chamada de **distribuiçao student (student distribution)**.
|
||||
|
||||
> **Fato interessante**: distribuição Student é nomeada em homenagem ao matemático William Sealy Gosset, que publicou seu artigo com o pseudônimo "Student". Ele trabalhou na cervejaria Guinness, e, de acordo com uma das versões, seu empregador não queria que o público geral soubesse que eles estavam usando testes estatísticos para determinar a qualidade de materiais brutos.
|
||||
|
||||
Se nós quiséssemos estimar a média μ da nossa população com confiança p, nós precisamos pegar *percentil número (1-p)/2 ((1-p)/2-th percentile)* de uma distribuição Student A, que pode ser coletada de tabelas, ou computadores usando alguma função imbutida de uma software de estatística (ex. Python, R, etc.). Então o intervalo μ seria dados por X±A*D/√n, onde X é a média obtida da amostra, D é o desvio padrão.
|
||||
|
||||
> **Nota**: Nós também omitimos a discussão de um conceito importante de [degrees of freedom (graus de liberdade)](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), que é importante em relação a distribuição Student. Você pode dar uma olhada em livros mais completos sobre estatísticas para entender esse conceito mais profundadamente.
|
||||
|
||||
Um exemplo para calcular o intervalo de confiança para pesos e alturas é dado no [notebook](../notebook.ipynb).
|
||||
|
||||
| p | Weight mean |
|
||||
|-----|-----------|
|
||||
| 0.85 | 201.73±0.94 |
|
||||
| 0.90 | 201.73±1.08 |
|
||||
| 0.95 | 201.73±1.28 |
|
||||
|
||||
Perceba que quanto maior é a probabilidade da confiança, mais amplo é o intervalo de confiança.
|
||||
|
||||
## Testando Hipóteses
|
||||
No nosso dataset de jogadores de baseball, existem diferentes posições, as quais podem ser sumarizadas abaixo (olhe o [notebook](../notebook.ipynb) para ver como essa tabela pode ser calculada):
|
||||
|
||||
| Role | Height | Weight | Count |
|
||||
|------|--------|--------|-------|
|
||||
| Catcher | 72.723684 | 204.328947 | 76 |
|
||||
| Designated_Hitter | 74.222222 | 220.888889 | 18 |
|
||||
| First_Baseman | 74.000000 | 213.109091 | 55 |
|
||||
| Outfielder | 73.010309 | 199.113402 | 194 |
|
||||
| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
|
||||
| Second_Baseman | 71.362069 | 184.344828 | 58 |
|
||||
| Shortstop | 71.903846 | 182.923077 | 52 |
|
||||
| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
|
||||
| Third_Baseman | 73.044444 | 200.955556 | 45 |
|
||||
|
||||
Nós podemos ver que a média das alturas dos jogadores na primeira base é maior que a dos jogadores na segunda base. Portanto, nós podemos ser tentados a concluir que **jogadores da primeira base é maior que os da segunda base**.
|
||||
|
||||
> Essa afirmação é chamada de **uma hipótese**, pois nós não sabemos se é verdade ou não.
|
||||
|
||||
No entanto, nem sempre é óbvio fazer essa conclusão. A partir da discussão acima nós sabemos que cada média tem um intervalo de confiança associado, e portante esse diferença pode ser apenas um erro estatístico. Nós precisamos de formas mais formais de testar nossa hipótes.
|
||||
|
||||
Vamos computar o intervalo de confiança separadamente para as alturas dos jogadores na primeira base e dos jogadores da segunda base:
|
||||
|
||||
| Confidence | First Basemen | Second Basemen |
|
||||
|------------|---------------|----------------|
|
||||
| 0.85 | 73.62..74.38 | 71.04..71.69 |
|
||||
| 0.90 | 73.56..74.44 | 70.99..71.73 |
|
||||
| 0.95 | 73.47..74.53 | 70.92..71.81 |
|
||||
|
||||
Nós podemos ver que sobre nenhuma confiança os intervalos se sobrepõem. Isso prova a nossa hipótese de que os jogador na primeira base são mais altos que os jogadores da segunda base.
|
||||
|
||||
Mais formalmente, o problema que estamos resolvendo é ver se **duas distribuições de probabilidades são as mesmas**, ou se pelo menos possuem os mesmos parâmetros. Dependendo da distribuição, nós precisamos usar diferentes testes para isso. Se nós soubermos que a nossa distribuição é normal, nós podemos aplicar **[Teste t de Student (Student t-test)](https://en.wikipedia.org/wiki/Student%27s_t-test)**.
|
||||
|
||||
No teste t de Student, nós computamos o **valor t**, que indica a diferença entre a média, levando em conta a variância. É demonstrado que o valor t segue a **distribuição student**, o que nos permite ter o valor limite para um determinado nível de confiança **p** (isso pode ser computado, ou procurado nas tabelas numéricas). Nós então comparamos o valor t para esse limite para aprovar ou rejeitar a hipótese
|
||||
|
||||
Em Python, nós podemos usar o pacote **SciPy**, o qual inclui a função `ttest_ind` (e mais funções estatísticas!). Ela computa o valor t para a gente, e também faz a pesquisa inversa do valor de confiança p, para que podemos apenas olhar para a confiança para chegarmos a uma conclusão.
|
||||
|
||||
Por exemplo, nossa comparação entre alturas dos jogadores da primeira base e da segunda base nos dá o seguinte resultado:
|
||||
```python
|
||||
from scipy.stats import ttest_ind
|
||||
|
||||
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
|
||||
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
|
||||
```
|
||||
```
|
||||
T-value = 7.65
|
||||
P-value: 9.137321189738925e-12
|
||||
```
|
||||
No nosso caso, o valor p é bem baixo, o que significa que existem fortes evidências que confirmam que os jogadores da primeira base são maiores.
|
||||
|
||||
Existe também outros tipos diferentes de hipótes que podemos querer testar, por exemplo:
|
||||
* Provar que uma dada amostra segue alguma distribuição. No nosso caso nós assumimos que alturas são normalmente distribuídas, mas isso precisa de verificação estatística formal.
|
||||
* Provar que uma valor média de uma amostra corresponde a algum valor predefinido
|
||||
* Comparar as médias de um número de amostras (ex. qual é a diferença em níveis de felicidade entre diferentes faixas etárias)
|
||||
|
||||
## Lei dos Números Grandes e Teorema do Limite Central
|
||||
|
||||
Uma das razões pelo qual a distribuição normal é tão importante é a tão chamada **teorema do limite central**. Vamos supor que temos uma grande amostra de N valores independentes X<sub>1</sub>, ..., X<sub>N</sub>, amostrado de qualquer distribuição com média μ e variância σ<sup>2</sup>. Então, para N suficientemente grande (em outras palavras, quando N→∞), a média Σ<sub>i</sub>X<sub>i</sub> seria normalmente distribuída, com média μ e variância σ<sup>2</sup>/N.
|
||||
|
||||
> Outra forma de interpretar o teorema do limite central é dizer que independentemente da distribuição, quando você computa a média da soma de quaisquer valores de variável aleatória você acabará com uma distribuição normal.
|
||||
|
||||
A partir do teorema do limite central também segue que, quando when N→∞, a probabilidade da média da amostra ser igual a μ se torna 1. Isso é conhecido como a **lei dos números grandes**.
|
||||
|
||||
## Covariância e Correlação
|
||||
|
||||
Uma das coisas que Ciência dos Dados faz é encontrar relações entre dados. Nós dizemos que duas sequências **correlacionam** quando elas exibem um comportamento similar ao mesmo tempo, ex. eles sobem/caem simultâneamente, ou uma sequência sobe enquanto a outra desce e vice-versa. Em outras palavras, aparenta ter algum tipo de relaçõa entre as duas sequências.
|
||||
|
||||
> Correlação não necessariamente indica uma relação causal entre duas sequências; algumas vezes ambas as variáveis podem depender de alguma causa externa, or pode ser puramente uma coincidência que duas sequências se relacionem. No entanto, uma forte correlaçõe matemática é um bom indício
|
||||
|
||||
Matematicamente, o conceito principal que mostra uma relações entre duas variávies aleatórias é **covariância**, que é computada da seguinte forma: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Nós computamos o desvio de ambas as variáveis em relação a média, e então o produto desses desvios. Se ambas as variáveis desviam juntas, o produto seria sempre um valor positivo, que resulta em uma covariância positiva. Se ambas as variáveis desviam de forma não sincronizadas (ex. uma está abaixo da média enquanto outra está acima), nós sempre vamos ter números negativos, que resulta em uma covariância negativa. Se os desvios não são dependentes, eles sempre vão resultar em quase zero.
|
||||
|
||||
O valor absoluto da covariância não nos informa o quão grande a correlação é, pois depende da magnitude dos valores reais. Para normalizar isso, nós podemos dividir a covariância pelo desvio padrão de ambas as variáveis, para conseguirmos a **correlação**. O bom é que a correlação sempre vai estar na faixa de [-1, 1], onde 1 indica uma forte correlaçao positiva entre os valores, -1 - forte correlação negativa, e 0 - nenhuma correlação (variáveis são independentes).
|
||||
|
||||
**Exemplo**: Nós podemos computar a correlação entre pesos e alturas de jogadores de baseball do dataset mencionado acima:
|
||||
```python
|
||||
print(np.corrcoef(weights,heights))
|
||||
```
|
||||
Como resultado, temos uma **matriz de correlação** como essa:
|
||||
```
|
||||
array([[1. , 0.52959196],
|
||||
[0.52959196, 1. ]])
|
||||
```
|
||||
|
||||
> Matriz de correlação C pode ser computada para qualquer número de sequências de input S<sub>1</sub>, ..., S<sub>n</sub>. O valor de C <sub>ij</sub> é a correlação entre S<sub>i</sub> e S<sub>j</sub>, e elementos diagonais são sempre 1 (o que também é uma auto-correlação de S<sub>i</sub>).
|
||||
|
||||
No nosso caso, o valor 0.53 indica que existe alguma correlação entre peso e altura de uma pessoa. Nós podemos fazer um gráfico de pontos de um valor contra o outro para ver a relação visualmente:
|
||||
|
||||
![Relação entre peso e altura](../images/weight-height-relationship.png)
|
||||
|
||||
> Mais exemplos de correlação e covariância podem ser encontrados no [notebook](../notebook.ipynb).
|
||||
|
||||
## Conclusão
|
||||
|
||||
Nessa seção nós aprendemos:
|
||||
* propriedades estatísticas básicas dos dados, como média, variância, moda e quartis
|
||||
* diferentes distribuições para variáveis aleatórias, incluindo distribuição normal
|
||||
* como encontrar a correlação entre propriedades diferentes
|
||||
* como usar aparelhos de som de matemática e estatística para provar algumas hipóteses,
|
||||
* como computar intervalos de confiância para variáveis aleatórias dado uma amostra de dados
|
||||
|
||||
Enquanto essa definitivamente não é uma lista exaustiva de tópicos que existem dentro de probabilidade e estatística, deve ser o suficiente para você começar bem esse curso.
|
||||
|
||||
## 🚀 Desafio
|
||||
|
||||
Use o código de exemplo no notebook para testar outras hipóteses que:
|
||||
1. Jogadores na primeira base e mais velhos que jogadores na segunda base
|
||||
2. Jogadores na primeira base e mais altos que jogadores na terceira base
|
||||
3. Interbases (Shortstops) são maiores que jogadores na segunda base
|
||||
|
||||
## [Quis Pós Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/7)
|
||||
|
||||
## Revisão e Autoestudo
|
||||
|
||||
Probabilidade e estatística é um tópico muito amplo que merece um curso próprio. Se você está interessado em aprofundar a teoria, talvez você queira continuar lendo alguns dos seguintes livros:
|
||||
|
||||
1. [Carlos Fernanderz-Granda](https://cims.nyu.edu/~cfgranda/) da Universidade de Nova Iorque (New York University) tem boas notas de aula [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (disponíveis online)
|
||||
1. [Peter and Andrew Bruce. Estatística prática para Cientistas de Dados (Practical Statistics for Data Scientists).](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[sample code in R](https://github.com/andrewgbruce/statistics-for-data-scientists)].
|
||||
1. [James D. Miller. Estatística para Ciência de Dados (Statistics for Data Science)](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[sample code in R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
|
||||
|
||||
## Tarefa
|
||||
|
||||
[Small Diabetes Study (Pequeno Estudo de Diabetes)](assignment.pt-br.md)
|
||||
|
||||
## Créditos
|
||||
|
||||
Essa aula foi autorada com ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
|
@ -0,0 +1,25 @@
|
||||
# Pequeno Estudo de Diabetes
|
||||
|
||||
Nessa tarefa, nós vamos trabalhar com um pequeno dataset de diabetes em pacientes retirados [daqui](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html).
|
||||
|
||||
| | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y |
|
||||
|---|-----|-----|-----|----|----|----|----|----|----|----|----|
|
||||
| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
|
||||
| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
|
||||
| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
|
||||
| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
|
||||
|
||||
## Instruções
|
||||
|
||||
* Abre o [notebook da tarefa](assignment.ipynb) em um ambiente jupyter notebook
|
||||
* Complete todas as tarefas listadas no notebook, nomeadamente:
|
||||
[ ] Compute os valores de média e variância para todos os valores
|
||||
[ ] "Plote" boxplots para BMI, BP e Y dependendo do gênero
|
||||
[ ] Qual a distribuição das variáveis Age, Sex, BMI e Y?
|
||||
[ ] Teste a correlação entre diferentes variáveis e progressão da doença (Y)
|
||||
[ ] Teste a hipótese que o grau de progressão da diabetes é diferente entre homens e mulheres
|
||||
## Rubrica
|
||||
|
||||
Exemplar | Adequado | Precisa melhorar
|
||||
--- | --- | -- |
|
||||
Todas as tarefas estão completados, graficamente ilustradas e explicadas | A maior para das tarefas estão completadas, explicações ou conclusões a partir de gráficos e/ou valores obtidos estão faltando | Apenas as tarefas básicas como computar a média/variância e "plots" básicos estão completados, nenhuma conclusão é feita a partir dos dados dados.
|
@ -0,0 +1,17 @@
|
||||
# Introdução a Ciência de Dados
|
||||
|
||||
![dados em ação](../images/data.jpg)
|
||||
> Foto por <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> em <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
|
||||
|
||||
Nessas aulas, você irá descobrir como Ciência de Dados é definida e aprender sobre considerações éticas que devem ser consideradas por um cientista de dado. Você também irá aprender como dados são definidos e um pouco sobre estatística e probabilidade, os principais domínios acadêmicos da Ciência de Dados.
|
||||
|
||||
### Tópicos
|
||||
|
||||
1. [Definindo Ciência de Dados](01-defining-data-science/README.md)
|
||||
2. [Ética da Ciência de Dados](02-ethics/README.md)
|
||||
3. [Definindo Dados](03-defining-data/README.md)
|
||||
4. [Introdução a Estatística e Probabilidade](04-stats-and-probability/README.md)
|
||||
|
||||
### Cŕeditos
|
||||
|
||||
Essas aulas foram escritas com ❤️ por [Nitya Narasimhan](https://twitter.com/nitya) e [Dmitry Soshnikov](https://twitter.com/shwars).
|
@ -0,0 +1,106 @@
|
||||
# Ciência de Dados para Iniciantes - Um Currículo
|
||||
|
||||
[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE)
|
||||
[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
|
||||
[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/)
|
||||
[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/)
|
||||
[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com)
|
||||
|
||||
[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/)
|
||||
[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/)
|
||||
[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/)
|
||||
|
||||
Consultores da Azure Cloud na Microsoft estão felizes em oferecer um currículo de 10 semanas com 20 aulas sobre Ciência de Dados. Cada aula inclui quizzes pré e pós aula, instruções sobre como completar cada aula, uma solução, e uma tarefa. Nossa pedagogia baseada em projetos permite que você aprenda enquanto constrói, uma maneira comprovada para novas habilidades "grudarem".
|
||||
|
||||
**Muito obrigado aos nossos autores:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
|
||||
|
||||
**🙏 Agradecimentos especiais 🙏 para nossos autores, revisores e contribuidores de conteúdo Estudantes Embaixadores da Microsoft,** notavelmente [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Rohit Yadav](https://www.linkedin.com/in/rty2423), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Sheena Narula](https://www.linkedin.com/in/sheena-narula-n/), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), Yogendrasingh Pawar, Max Blum, Samridhi Sharma, Tauqeer Ahmad, Aaryan Arora, ChhailBihari Dubey
|
||||
|
||||
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Title.png)|
|
||||
|:---:|
|
||||
| Ciência de Dados para Iniciantes - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
|
||||
# Primeiros Passos
|
||||
|
||||
> **Professores**, nós [incluímos algumas sugestões](for-teachers.md) em como usar esse currículo. Nós adoraríamos ouvir o seu feedback [no nosso fórum de discussão](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
|
||||
|
||||
> **Estudantes**, para usar esse currículo por conta própria, dê fork nesse repositório, complete os exercícios por sua conta, começando com um quiz pré aula, então leia a aula completando o resto das atividades. Tente criar os projetos compreendendo as aulas ao invés de copiar o código da solução; no entanto o código está disponível na pasta /solutions em cada aula baseada em projeto. Outra ideia seria formar um grupo de estudo com seus amigos e ler o conteúdo juntos. Para mais estudos, nós recomendamos [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa).
|
||||
|
||||
<!--[![Promo video](screenshot.png)]( "Promod video")
|
||||
|
||||
> 🎥 Click the image above for a video about the project the folks who created it!-->
|
||||
|
||||
## Pedagogia
|
||||
|
||||
Nós escolhemos dois princípios pedagógicos enquanto construíamos esse currículo: garantir que seja baseado em projeto e que possua quizzes frequentes. Ao final dessa séries, estudandes terão aprendido o básico dos princípios de ciência de dados, incluindo conceitos éticos, preparação dos dados, maneiras diferentes de trabalhar com os dados, visualização de dados, análise de dados, casos de uso de ciência de dados no mundo real, e mais.
|
||||
|
||||
Além do mais, um quiz com valor baixo antes da aula define a intenção do estudante em relação a aprendizagem de um tópico, enquanto um segundo quiz depois da aula garante uma retenção maior. Esse currículo foi desenhado para ser flexível e divertido e pode ser pego inteiro ou em partes. Os projetos começam pequeno e começam a ficar mais complexos no final do ciclo de 10 semanas.
|
||||
|
||||
> Encontre nossos guias de [Código de Conduta](CODE_OF_CONDUCT.md), [Contribuindo](CONTRIBUTING.md), [Tradução](TRANSLATIONS.md). Nós agradecemos seu feedback construtivo!
|
||||
|
||||
## Cada aula inclui:
|
||||
|
||||
- Nota de esboço opcional
|
||||
- Vídeo suplementar opcional
|
||||
- Quiz de aquecimento pré-aula
|
||||
- Aula escrita
|
||||
- Para aulas baseadas em projetos, guias passo-a-passo sobre como construir o projeto
|
||||
- Verificação de conhecimento
|
||||
- Um desafio
|
||||
- Leituras suplementares
|
||||
- Tarefa
|
||||
- Quiz pós-aula
|
||||
|
||||
> **Nota sobre os quizzes**: Todos os quizzes estão [aqui](https://red-water-0103e7a0f.azurestaticapps.net/), para 40 quizzes de três questões cada. Os links deles estão dentro de cada aula mas o "quiz-app" pode ser executado localmente; siga as intruções na pasta `quiz-app`. Eles estão gradualmente localizados.
|
||||
|
||||
## Tarefas
|
||||
|
||||
|
||||
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../sketchnotes/00-Roadmap.png)|
|
||||
|:---:|
|
||||
| Ciência de Dados para Iniciantes: Roadmap - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
|
||||
|
||||
|
||||
| Número da Aula | Tópico | Agrupamento de Aulas | Objetivos de Apredizados | Link da Aula | Autor |
|
||||
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
|
||||
| 01 | Definindo Ciência de Dados | [Introdução](1-Introduction/README.md) | Aprenda os conceitos básicos por trás de ciência de dados e como se relaciona com inteligência artificial, aprendizado de máquina, e big data. | [aula](1-Introduction/01-defining-data-science/README.md) [vídeo](https://youtu.be/pqqsm5reGvs) | [Dmitry](http://soshnikov.com) |
|
||||
| 02 | Ética de Ciência de Dados | [Introdução](1-Introduction/README.md) | Conceitos da Ética de Ciência de Dados, Desafios e Frameworks. | [aula](1-introdução/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
|
||||
| 03 | Definindo Dados | [Introdução](1-Introduction/README.md) | Como dados são classificados e sua fontes de origem comuns. | [aula](1-introdução/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
|
||||
| 04 | Introdução à Probabilidade e Estatística | [Introdução](1-introdução/README.md) | As técnicas matemáticas de probabilidade e estatísca para enteder dados. | [aula](1-introdução/04-stats-and-probability/README.md) [vídeo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
|
||||
| 05 | Trabalhando com Dados Relacionais | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução à dados relacionais e o básico de exploração e análise de dados relacionais com Linguagem de Consulta Estruturada (Structured Query Language), também conhecida como SQL (pronunciada “see-quell”). | [aula](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
|
||||
| 06 | Trabalhando com Dados NoSQL | [Trabalhando com Dados](2-Working-With-Data/README.md) | Introdução à dados não relacionais, seus variados tipos e o básico de exploração e análise de bancos de dados de documentos. | [aula](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
|
||||
| 07 | Trabalhando com Python | [Trabalhando com Dados](2-Working-With-Data/README.md) | Básico de Python para exploração de dados com bibliotecas como o Pandas. Compreensão fundamental de Python é recomendado. | [aula](2-Working-With-Data/07-python/README.md) [vídeo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
|
||||
| 08 | Preparação dos Dados | [Trabalhando com Dados](2-Working-With-Data/README.md) | Tópicos sobre técnicas de dados para limpar e transformas os dados para lidar com desafios de dados ausentes, inacurados, ou incompletos. | [aula](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
|
||||
| 09 | Visualizando Quantidades | [Visualização de Dados](3-Data-Visualization/README.md) | Aprenda a como usar o Matplotlib para visualizar dados sobre pássaros 🦆 | [aula](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 10 | Visualizando Distribuições de Dados | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando observações e tendências dentro de um itnervalo. | [aula](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 11 | Visualizando Proporções | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando porcentagens discretas e agrupadas. | [aula](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 12 | Visualizandos Relações | [Visualização de Dados](3-Data-Visualization/README.md) | Visualizando conexões e correlações entre sets de dados e suas variáveis. | [aula](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 13 | Visualizações Significativas | [Visualização de Dados](3-Data-Visualization/README.md) | Técnicas e orientação para fazer suas visualizações valiosas para resolver problemas efetivamente e intuições. | [aula](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
|
||||
| 14 | Introdução ao ciclo de Ciência de Dados | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Introdução ao ciclo de vida de ciência de dados e seu primeiro passo de adquirir e extrair dados. | [aula](4-Data-Science-Lifecycle/14-introdução/README.md) | [Jasmine](https://twitter.com/paladique) |
|
||||
| 15 | Análise | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Essa fase do ciclo de vida de ciência de dados foca nas técnicas de análise dados. | [aula](4-Data-Science-Lifecycle/15-Analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
|
||||
| 16 | Comunicação | [Ciclo de Vida](4-Data-Science-Lifecycle/README.md) | Essa fase do ciclo de vida de ciência de dados foca em apresentar as intuições dos dados de uma forma que fique fácil para tomadores de decisão entenderem. | [aula](4-Data-Science-Lifecycle/16-Communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
|
||||
| 17 | Ciẽncia de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Esse compilado de aula introdiz ciência de dados na nuvem e seus benefícios. | [aula](5-Data-Science-In-Cloud/17-introdução/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
|
||||
| 18 | Ciẽncia de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Treinando modelos usando ferramentas de Low Code. |[aula](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
|
||||
| 19 | Ciẽncia de Dados na Nuvem | [Dados na Nuvem](5-Data-Science-In-Cloud/README.md) | Implantando modelos com Azure Machine Learning Studio. | [aula](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
|
||||
| 20 | Ciência de Dados na Selva | [Na Selva](6-Data-Science-In-Wild/README.md) | Projetos de Ciência de Dados no mundo real. | [aula](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
|
||||
## Acesso offline
|
||||
|
||||
Você pode executar essa documentação offline usando [Docsify](https://docsify.js.org/#/). Dê fork nesse repositório, [instale Docsify](https://docsify.js.org/#/quickstart) na sua máquina local e depois, na pasta raíz desse repositório, digite `docsify serve`. O website vai usar a porta 3000 no seu localhost: `localhost:3000`.
|
||||
|
||||
> Note, notebooks não serão renderizados via Docsify, então quando precisar rodas um notebook, faça isso separadamente no VS Code rodando um kernel Python.
|
||||
## PDF
|
||||
|
||||
Um PDF com todas as aulas podem ser encontrados [aqui](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf)
|
||||
|
||||
## Procura-se Ajuda!
|
||||
|
||||
Se você quer traduzir tudo ou parte do currículo, por favor siga o nosso guia de [Tradução](TRANSLATIONS.md) guia.
|
||||
|
||||
## Outros Currículos
|
||||
|
||||
Nosso time produz outros currículos! Confira:
|
||||
|
||||
- [Aprendizado de Máquina para Iniciantes](https://aka.ms/ml-beginners)
|
||||
- [IoT para Iniciantes](https://aka.ms/iot-beginners)
|
||||
- [Desenvolvimento Web para Iniciantes](https://aka.ms/webdev-beginners)
|
Loading…
Reference in new issue