Update Translations

7 months ago · 38018b8396
parent d95b2989b4
commit 38018b8396
109 changed files with 90 additions and 10893 deletions
--- a/.github/workflows/co-op-translator.yml
+++ b/.github/workflows/co-op-translator.yml
@ -0,0 +1,90 @@
+name: Co-op Translator
+
+on:
+  push:
+    branches:
+      - main
+
+jobs:
+  co-op-translator:
+    runs-on: ubuntu-latest
+
+    permissions:
+      contents: write
+      pull-requests: write
+
+    steps:
+      - name: Checkout repository
+        uses: actions/checkout@v4
+        with:
+          fetch-depth: 0
+
+      - name: Set up Python
+        uses: actions/setup-python@v4
+        with:
+          python-version: '3.10'
+
+      - name: Install Co-op Translator
+        run: |
+          python -m pip install --upgrade pip
+          pip install co-op-translator
+
+      - name: Run Co-op Translator
+        env:
+          PYTHONIOENCODING: utf-8
+          # Azure AI Service Credentials
+          AZURE_AI_SERVICE_API_KEY: ${{ secrets.AZURE_AI_SERVICE_API_KEY }}
+          AZURE_AI_SERVICE_ENDPOINT: ${{ secrets.AZURE_AI_SERVICE_ENDPOINT }}
+
+          # Azure OpenAI Credentials
+          AZURE_OPENAI_API_KEY: ${{ secrets.AZURE_OPENAI_API_KEY }}
+          AZURE_OPENAI_ENDPOINT: ${{ secrets.AZURE_OPENAI_ENDPOINT }}
+          AZURE_OPENAI_MODEL_NAME: ${{ secrets.AZURE_OPENAI_MODEL_NAME }}
+          AZURE_OPENAI_CHAT_DEPLOYMENT_NAME: ${{ secrets.AZURE_OPENAI_CHAT_DEPLOYMENT_NAME }}
+          AZURE_OPENAI_API_VERSION: ${{ secrets.AZURE_OPENAI_API_VERSION }}
+
+          # OpenAI Credentials
+          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+          OPENAI_ORG_ID: ${{ secrets.OPENAI_ORG_ID }}
+          OPENAI_CHAT_MODEL_ID: ${{ secrets.OPENAI_CHAT_MODEL_ID }}
+          OPENAI_BASE_URL: ${{ secrets.OPENAI_BASE_URL }}
+        run: |
+          # =====================================================================
+          # IMPORTANT: Set your target languages here (REQUIRED CONFIGURATION)
+          # =====================================================================
+          # Example: Translate to Spanish, French, German. Add -y to auto-confirm.
+          # translate -l "all" -y  # <--- MODIFY THIS LINE with your desired languages
+            translate -l "pt es de fa pl hi" -y
+          # translate -l "zh tw hk fr ja ko" -y
+
+      - name: Authenticate GitHub App
+        id: generate_token
+        uses: tibdex/github-app-token@v1
+        with:
+          app_id: ${{ secrets.GH_APP_ID }}
+          private_key: ${{ secrets.GH_APP_PRIVATE_KEY }}
+
+      - name: Create Pull Request with translations
+        uses: peter-evans/create-pull-request@v5
+        with:
+          token: ${{ steps.generate_token.outputs.token }}
+          commit-message: "🌐 Update translations via Co-op Translator"
+          title: "🌐 Update translations via Co-op Translator"
+          body: |
+            This PR updates translations for recent changes merged into the `main` branch.
+
+            ### 📋 Summary of Changes
+            - Translated markdown content has been added under the `translations/` directory
+            - Translated images (if applicable) have been generated in the `translated_images/` directory
+
+            🔁 Co-op Translator ensures that changes in links, structure, or inline elements in the original content are automatically reflected in all translated files.
+
+            ---
+            🌐 This pull request was automatically generated by [Co-op Translator](https://github.com/Azure/co-op-translator), powered by Azure AI.
+
+          branch: update-translations
+          base: main
+          delete-branch: true
+          add-paths: |
+            translations/
+            translated_images/
--- a/1-Introduction/01-defining-data-science/translations/README.es.md
+++ b/1-Introduction/01-defining-data-science/translations/README.es.md
@ -1,171 +0,0 @@
-# Definiendo la ciencia de datos
-
-| ![ Boceto por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png) |
-| :----------------------------------------------------------------------------------------------------: |
-|              Definiendo la ciencia de datos - Boceto por [@nitya](https://twitter.com/nitya)_               |
-
---
-
-[![Video definiendo la ciencia de datos](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
-
-## [Cuestionario antes de la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## ¿Qué son los datos?
-En nuestra vida cotidiana estamos rodeados de datos. El texto que estás leyendo ahora mismo son datos.  La lista de tus contactos en tu teléfono móvil son datos, como lo es la hora que muestra tu reloj. Como seres humanos, operamos naturalmente condatos como por ejemplo contando el dinero que tenemos o escribiendo cartas a nuestros amigos.
-
-Sin embargo, los datos se volvieron mucho más importantes con la creación de los ordenadores.  La función principal de los ordenadores es realizar cálculos, pero necesitan datos para operar. Por ello, debemos entender cómo los ordenadores almacenan y procesan estos datos.
-
-Con la aparición de Internet, aumentó el papel de los ordenadores como dispositivos de tratamiento de datos.  Si lo pensamos bien, ahora utilizamos los ordenadores cada vez más para el procesamiento de datos y la comunicación, incluso más que para los cálculos propiamente dichos. Cuando escribimos un correo electrónico a un amigo o buscamos información en Internet, estamos creando, almacenando, transmitiendo y manipulando datos.
-
-> Te acuerdas de la última vez que utilizaste un ordenador sólo para hacer un cálculo? 
-
-## ¿Qué es la ciencia de datos?
-
-En [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **la ciencia de datos** se define como *un campo científico que utiliza métodos científicos para extraer conocimientos y percepciones de datos estructurados y no estructurados, y aplicar conocimientos procesables de los datos en una amplia gama de dominios de aplicación*. 
-
-Esta definición destaca los siguientes aspectos importantes de la ciencia de datos:
-
-* El objetivo principal de la ciencia de datos es **extraer conocimiento** de los datos, es decir, **comprender** los datos, encontrar algunas relaciones ocultas entre ellos y construir un **modelo**.
-
-* La ciencia de los datos utiliza **métodos científicos**, como la probabilidad y la estadística.  De hecho, cuando se introdujo por primera vez el término *ciencia de los datos*, hubo quiens argumentó que la ciencia de los datos no era más que un nuevo nombre elegante para la estadística. Hoy en día es evidente que el campo es mucho más amplio.
-
-* Los conocimientos obtenidos deben aplicarse para producir algunas **perspectivas aplicables**, es decir, percepciones prácticas que puedan ser aplicadas a situaciones empresariales reales.
-
-* Deberíamos ser capaces de operar tanto con datos **estructurados** como con datos **no estructurados**.  Volveremos a hablar de los diferentes tipos de datos más adelante en el curso.
-
-* **El dominio de aplicación** es un concepto importante, y los científicos de datos suelen necesitar al menos cierto grado de experiencia en el dominio del problema, por ejemplo: finanzas, medicina, marketing, etc.
-
-> Otro aspecto importante de la ciencia de los datos es que estudia cómo se pueden recopilar, almacenar y utilizar los datos mediante ordenadores.  Mientras que la estadística nos proporciona fundamentos matemáticos, la ciencia de los datos aplica conceptos matemáticos para extraer realmente información de los datos.
-
-Una de las formas (atribuida a [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) de ver la ciencia de los datos es considerarla como un paradigma nuevo de la ciencia:
-* **Empírico**, en el que nos basamos principalmente en las observaciones y los resultados de los experimentos
-* **Teórico**, donde los nuevos conceptos surgen de los conocimientos científicos existentes
-* **Computacional**, donde descubrimos nuevos principios basados en algunos experimentos computacionales
-* **Controlado por los datos**, basado en el descubrimiento de relaciones y patrones en los datos  
-
-## Otros campos relacionados
-
-Dado que los datos son omnipresentes, la propia ciencia de los datos es también un campo muy amplio, que toca muchas otras disciplinas.
-
-<dl>
-<dt>Bases de datos</dt>
-<dd>
-Una consideración crítica es **cómo almacenar** los datos, es decir, cómo estructurarlos de forma que permitan un procesamiento más rápido.  Hay diferentes tipos de bases de datos que almacenan datos estructurados y no estructurados, que <a href="../../../2-Working-With-Data/README.md">consideraremos en nuestro curso</a>.
-</dd>
-<dt>Big Data</dt>
-<dd>
-A menudo necesitamos almacenar y procesar cantidades muy grandes de datos con una estructura relativamente sencilla.  Existen enfoques y herramientas especiales para almacenar esos datos de forma distribuida en un núcleo de ordenadores, y procesarlos de forma eficiente.
-</dd>
-<dt>Machine Learning o Aprendizaje automático</dt>
-<dd>
-Una forma de entender los datos es **construir un modelo** que sea capaz de predecir un resultado deseado.  El desarrollo de modelos a partir de los datos se denomina **aprendizaje automático**. Quizá quieras echar un vistazo a nuestro curso <a href="https://aka.ms/ml-beginners">Machine Learning for Beginners</a> para aprender más sobre el tema.
-</dd>
-<dt>Inteligencia artificial</dt>
-<dd>
-Un área del Machine learning llamada inteligencia artificial (IA o AI, por sus siglas en inglés) también está basada en datos, e involucra construir modelos muy complejos que imitan los procesos de pensamiento humanos.  Métodos de inteligencia artificial a menudo permiten transformar datos no estructurados (como el lenguaje natural) en descubrimientos estructurados sobre ellos. 
-</dd>
-<dt>Visualización</dt>
-<dd>
-Cantidades muy grandes de datos son incomprensibles para un ser humano, pero una vez que creamos visualizaciones útiles con esos datos, podemos darles más sentido y sacar algunas conclusiones. Por ello, es importante conocer muchas formas de visualizar la información, algo que trataremos en <a href="../../../3-Data-Visualization/README.md">la sección 3</a> de nuestro curso. Campos relacionados también incluyen la **Infografía**, y la **Interacción Persona-Ordenador** en general. 
-</dd>
-</dl>
-
-## Tipos de datos
-
-Como ya hemos dicho, los datos están en todas partes. Sólo hay que obtenerlos de la forma adecuada. Es útil distinguir entre **datos estructurados** y **datos no estructurados**. Los primeros suelen estar representados de alguna forma bien estructurada, a menudo como una tabla o un número de tablas, mientras que los segundos son simplemente una colección de archivos. A veces también podemos hablar de **datos semiestructurados**, que tienen algún tipo de estructura que puede variar mucho.
-
-
-| Structured                                                                   | Semi-structured                                                                                | Unstructured                            |
-| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
-| List of people with their phone numbers                                      | Wikipedia pages with links                                                                     | Text of Encyclopaedia Britannica        |
-| Temperature in all rooms of a building at every minute for the last 20 years | Collection of scientific papers in JSON format with authors, data of publication, and abstract | File share with corporate documents     |
-| Data for age and gender of all people entering the building                  | Internet pages                                                                                 | Raw video feed from surveillance camera |
-
-## Dónde conseguir datos
-
-Hay muchas fuentes de datos posibles, y será imposible enumerarlas todas. Sin embargo, vamos a mencionar algunos de los lugares típicos donde se pueden obtener datos:
-
-* **Estructurados**
-  - **Internet de las cosas** (IoT), que incluye datos de diferentes sensores, como los de temperatura o presión, proporciona muchos datos útiles.  Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar los costes. 
-  - **Encuestas** que pedimos a los usuarios que completen después de una compra, o después de visitar un sitio web.
-  - **El análisis del comportamiento** puede, por ejemplo, ayudarnos a entender hasta qué punto se adentra un usuario en un sitio, y cuál es el motivo típico por el que lo abandonan.
-* **No estructurado**
-  - Los textos pueden ser una rica fuente de información, como la puntuación general del sentimiento, o la extracción de palabras clave y el significado semántico.
-  - Imágenes o vídeos. Un vídeo de una cámara de vigilancia puede utilizarse para estimar el tráfico en la carretera e informar a la gente sobre posibles atascos.
-  - Los **registros** del servidor web pueden utilizarse para entender qué páginas de nuestro sitio son las más visitadas, y durante cuánto tiempo.
-* **Semiestructurados**
-  - Los gráficos de las redes sociales pueden ser una gran fuente de datos sobre la personalidad de los usuarios y su eficacia para difundir información.
-  - Cuando tenemos un montón de fotografías de una fiesta, podemos intentar extraer datos de **dinámica de grupos** construyendo un gráfico de las personas que se hacen fotos entre sí.
-
-Al conocer las distintas fuentes posibles de datos, se puede intentar pensar en diferentes escenarios en los que se pueden aplicar técnicas de ciencia de datos para conocer mejor la situación y mejorar los procesos empresariales. 
-
-## Qué puedes hacer con los datos
-
-En Data Science, nos centramos en los siguientes pasos del camino de los datos:
-
-<dl>
-<dt>1) Adquisición de datos</dt>
-<dd>
-El primer paso es recoger los datos.  Aunque en muchos casos puede ser un proceso sencillo, como los datos que llegan a una base de datos desde una aplicación web, a veces necesitamos utilizar técnicas especiales. Por ejemplo, los datos de los sensores de IoT pueden ser abrumadores, y es una buena práctica utilizar puntos finales de almacenamiento en búfer, como IoT Hub, para recoger todos los datos antes de su posterior procesamiento.
-</dd>
-<dt>2) Almacenamiento de los datos</dt>
-<dd>
-El almacenamiento de datos puede ser un reto, especialmente si hablamos de big data. A la hora de decidir cómo almacenar los datos, tiene sentido anticiparse a la forma en que se consultarán los datos en el futuro.  Hay varias formas de almacenar los datos:
-<ul>
-<li>Una base de datos relacional almacena una colección de tablas y utiliza un lenguaje especial llamado SQL para consultarlas.  Normalmente, las tablas se organizan en diferentes grupos llamados esquemas.  En muchos casos hay que convertir los datos de la forma original para que se ajusten al esquema.</li>
-<li><a href="https://en.wikipedia.org/wiki/NoSQL">una base de datos no SQL</a>, como <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, no impone esquemas a los datos y permite almacenar datos más complejos, por ejemplo, documentos JSON jerárquicos o gráficos. Sin embargo, las bases de datos NoSQL no tienen las ricas capacidades de consulta de SQL, y no pueden asegurar la integridad referencial, i.e. reglas sobre cómo se estructuran los datos en las tablas y que rigen las relaciones entre ellas.</li>
-<li><a href="https://en.wikipedia.org/wiki/Data_lake">Los lagos de datos</a> se utilizan para grandes colecciones de datos en bruto y sin estructurar. Los lagos de datos se utilizan a menudo con big data, donde los datos no caben en una sola máquina, y tienen que ser almacenados y procesados por un clúster de servidores. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> es el formato de datos que se suele utilizar junto con big data.</li> 
-</ul>
-</dd>
-<dt>3) Procesamiento de los datos</dt>
-<dd>
-Esta es la parte más emocionante del viaje de los datos, que consiste en convertir los datos de su forma original a una forma que pueda utilizarse para la visualización/entrenamiento de modelos.  Cuando se trata de datos no estructurados, como texto o imágenes, es posible que tengamos que utilizar algunas técnicas de IA para extraer **características** de los datos, convirtiéndolos así en formato estructurado.
-</dd>
-<dt>4) Visualización / Descubrimientos humanos</dt>
-<dd>
-A menudo, para entender los datos, necesitamos visualizarlos.  Al contar con muchas técnicas de visualización diferentes en nuestra caja de herramientas, podemos encontrar la vista adecuada para hacer una percepción.  A menudo, un científico de datos necesita "jugar con los datos", visualizándolos muchas veces y buscando algunas relaciones.  También podemos utilizar técnicas estadísticas para probar una hipótesis o demostrar una correlación entre diferentes datos.
-</dd>
-<dt>5) Entrenar un modelo predictivo</dt>
-<dd>
-Dado que el objetivo final de la ciencia de datos es poder tomar decisiones basadas en los datos, es posible que queramos utilizar las técnicas de <a href="http://github.com/microsoft/ml-for-beginners">Machine Learning</a> para construir un modelo predictivo. A continuación, podemos utilizarlo para hacer predicciones utilizando nuevos conjuntos de datos con estructuras similares.
-</dd>
-</dl>
-
-Por supuesto, dependiendo de los datos reales, algunos pasos podrían faltar (por ejemplo, cuando ya tenemos los datos en la base de datos, o cuando no necesitamos el entrenamiento del modelo), o algunos pasos podrían repetirse varias veces (como el procesamiento de datos).
-
-## Digitalización y transformación digital
-
-En la última década, muchas empresas han empezado a comprender la importancia de los datos a la hora de tomar decisiones empresariales.  Para aplicar los principios de la ciencia de los datos a la gestión de una empresa, primero hay que recopilar algunos datos, es decir, traducir los procesos empresariales a formato digital. Esto se conoce como **digitalización**.  La aplicación de técnicas de ciencia de datos a estos datos para orientar las decisiones puede conducir a un aumento significativo de la productividad (o incluso al pivote del negocio), lo que se denomina **transformación digital**.
-
-Veamos un ejemplo.  Supongamos que tenemos un curso de ciencia de datos (como éste) que impartimos en línea a los estudiantes, y queremos utilizar la ciencia de datos para mejorarlo.  ¿Cómo podemos hacerlo?
-
-Podemos empezar preguntándonos "¿Qué se puede digitalizar?".  La forma más sencilla sería medir el tiempo que tarda cada alumno en completar cada módulo, y medir los conocimientos obtenidos haciendo un examen de opción múltiple al final de cada módulo.  Haciendo una media del tiempo que tardan en completarlo todos los alumnos, podemos averiguar qué módulos causan más dificultades a los estudiantes, y trabajar en su simplificación.
-
-> Se puede argumentar que este enfoque no es ideal, ya que los módulos pueden tener diferentes longitudes.  Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres), y comparar esos valores en su lugar.
-
-Cuando empezamos a analizar los resultados de los exámenes de opción múltiple, podemos intentar determinar qué conceptos les cuesta entender a los alumnos y utilizar esa información para mejorar el contenido.  Para ello, tenemos que diseñar los exámenes de forma que cada pregunta se corresponda con un determinado concepto o trozo de conocimiento.
-
-Si queremos complicarnos aún más, podemos representar el tiempo que se tarda en cada módulo en función de la categoría de edad de los alumnos.  Podríamos descubrir que para algunas categorías de edad se tarda un tiempo inadecuado en completar el módulo, o que los estudiantes abandonan antes de completarlo.  Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo, y minimizar la insatisfacción de la gente por expectativas erróneas.
-
-## 🚀 Challenge
-
-En este reto, trataremos de encontrar conceptos relevantes para el campo de la Ciencia de los Datos a través de textos.  Tomaremos un artículo de Wikipedia sobre la Ciencia de los Datos, descargaremos y procesaremos el texto, y luego construiremos una nube de palabras como esta:
-
-![Word Cloud para ciencia de datos](images/ds_wordcloud.png)
-
-Visite [`notebook.ipynb`](notebook.ipynb) para leer el código.  También puedes ejecutar el código y ver cómo realiza todas las transformaciones de datos en tiempo real. 
-
-> Si no sabe cómo ejecutar código en un "jupyter notebook", eche un vistazo a [este artículo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-
-
-## [Cuestionario después de la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## Tareas
-
-* **Tarea 1**: Modifica el código anterior para encontrar conceptos relacionados para los campos de **Big Data** y **Machine Learning**.
-* **Tarea 2**: [Piensa sobre escenarios de la ciencia de datos](assignment.md)
-
-## Créditos
-
-Esta lección ha sido escrita con ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
--- a/1-Introduction/01-defining-data-science/translations/README.hi.md
+++ b/1-Introduction/01-defining-data-science/translations/README.hi.md
@ -1,164 +0,0 @@
-# डेटा विज्ञान को परिभाषित करना
-
-| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/01-Definitions.png)  |
-| :----------------------------------------------------------------------------------------------------: |
-|              डेटा विज्ञान को परिभाषित करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_               |
-
---
-
-[![डेटा विज्ञान वीडियो को परिभाषित करना](/1-Introduction/01-defining-data-science/images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## डेटा क्या है?
-अपने दैनिक जीवन में हम लगातार डेटा से घिरे रहते हैं। अभी आप जो पाठ पढ़ रहे हैं वह डेटा है। आपके स्मार्टफ़ोन में आपके मित्रों के फ़ोन नंबरों की सूची डेटा है, साथ ही आपकी घड़ी पर प्रदर्शित वर्तमान समय भी है। मनुष्य के रूप में, हम स्वाभाविक रूप से हमारे पास मौजूद धन की गणना करके या अपने मित्रों को पत्र लिखकर डेटा के साथ काम करते हैं।
-
-हालाँकि, कंप्यूटर के निर्माण के साथ डेटा बहुत अधिक महत्वपूर्ण हो गया। कंप्यूटर की प्राथमिक भूमिका संगणना करना है, लेकिन उन्हें संचालित करने के लिए डेटा की आवश्यकता होती है। इस प्रकार, हमें यह समझने की आवश्यकता है कि कंप्यूटर डेटा को कैसे संग्रहीत और संसाधित करता है।
-
-इंटरनेट के उद्भव के साथ, डेटा हैंडलिंग उपकरणों के रूप में कंप्यूटर की भूमिका में वृद्धि हुई है। यदि आप इसके बारे में सोचते हैं, तो हम अब वास्तविक गणनाओं के बजाय डेटा प्रोसेसिंग और संचार के लिए कंप्यूटर का अधिक से अधिक उपयोग करते हैं। जब हम किसी मित्र को ई-मेल लिखते हैं या इंटरनेट पर कुछ जानकारी खोजते हैं - तो हम अनिवार्य रूप से डेटा बना रहे हैं, स्टोर कर रहे हैं, ट्रांसमिट कर रहे हैं और उसमें हेरफेर कर रहे हैं।
-> क्या आपको याद है कि पिछली बार आपने किसी चीज़ की गणना करने के लिए कंप्यूटर का उपयोग कब किया था? 
-
-## डेटा साइंस क्या है?
-
-[विकिपीडिया](https://en.wikipedia.org/wiki/Data_science) में, **डेटा साइंस** *एक वैज्ञानिक क्षेत्र के रूप में परिभाषित किया गया है जो संरचित और असंरचित डेटा से ज्ञान और अंतर्दृष्टि निकालने के लिए वैज्ञानिक तरीकों का उपयोग करता है, और आवेदन डोमेन की एक विस्तृत श्रृंखला में डेटा से ज्ञान और कार्रवाई योग्य अंतर्दृष्टि लागू करता है।*. 
-
-यह परिभाषा डेटा विज्ञान के निम्नलिखित महत्वपूर्ण पहलुओं पर प्रकाश डालती है::
-
-* डेटा साइंस का मुख्य लक्ष्य डेटा से **ज्ञान निकालना** है, दूसरे शब्दों में - डेटा को **समझना**, कुछ छिपे हुए संबंध ढूंढना और **मॉडल** बनाना।
-* डेटा विज्ञान **वैज्ञानिक विधियों** का उपयोग करता है, जैसे कि प्रायिकता और सांख्यिकी। वास्तव में, जब *डेटा साइंस* शब्द पहली बार पेश किया गया था, तो कुछ लोगों ने तर्क दिया कि डेटा साइंस आंकड़ों के लिए सिर्फ एक नया फैंसी नाम था। आजकल यह स्पष्ट हो गया है कि क्षेत्र बहुत व्यापक है।
-* प्राप्त ज्ञान को कुछ **कार्रवाई योग्य अंतर्दृष्टि**, यानी व्यावहारिक अंतर्दृष्टि उत्पन्न करने के लिए लागू किया जाना चाहिए जिसे आप वास्तविक व्यावसायिक स्थितियों पर लागू कर सकते हैं।
-* हमें **संरचित** और **असंरचित** दोनों डेटा पर काम करने में सक्षम होना चाहिए। हम पाठ्यक्रम में बाद में विभिन्न प्रकार के डेटा पर चर्चा करने के लिए वापस आएंगे।
-* **एप्लिकेशन डोमेन** एक महत्वपूर्ण अवधारणा है, और डेटा वैज्ञानिकों को अक्सर समस्या क्षेत्र में कम से कम कुछ हद तक विशेषज्ञता की आवश्यकता होती है, उदाहरण के लिए: वित्त, चिकित्सा, विपणन, आदि।
-
-> डेटा साइंस का एक अन्य महत्वपूर्ण पहलू यह है कि यह अध्ययन करता है कि कंप्यूटर का उपयोग करके डेटा कैसे एकत्र, संग्रहीत और संचालित किया जा सकता है। जबकि सांख्यिकी हमें गणितीय आधार प्रदान करती है, डेटा विज्ञान वास्तव में डेटा से अंतर्दृष्टि प्राप्त करने के लिए गणितीय अवधारणाओं को लागू करता है।
-
-(attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) डेटा विज्ञान को देखने का एक तरीका यह है कि इसे विज्ञान का एक अलग प्रतिमान माना जाए:
-* **अनुभवजन्य**, जिसमें हम ज्यादातर अवलोकनों और प्रयोगों के परिणामों पर भरोसा करते हैं
-* **सैद्धांतिक**, जहां मौजूदा वैज्ञानिक ज्ञान से नई अवधारणाएं उभरती हैं
-* **कम्प्यूटेशनल**, जहां हम कुछ कम्प्यूटेशनल प्रयोगों के आधार पर नए सिद्धांतों की खोज करते हैं
-* **डेटा-चालित**, डेटा में संबंधों और पैटर्न की खोज पर आधारित
-
-## अन्य संबंधित क्षेत्र
-
-चूंकि डेटा व्यापक है, डेटा विज्ञान भी एक व्यापक क्षेत्र है, जो कई अन्य विषयों को छूता है।
-
-<dl>
-<dt>डेटाबेस</dt>
-<dd>
-डेटा को **कैसे स्टोर करें** एक महत्वपूर्ण विचार है, यानी इसे इस तरह से कैसे संरचित किया जाए जिससे तेजी से प्रोसेसिंग हो सके। विभिन्न प्रकार के डेटाबेस हैं जो संरचित और असंरचित डेटा संग्रहीत करते हैं, <a href="../../2-Working-With-Data/README.md">जिन पर हम अपने पाठ्यक्रम में विचार करेंगे</a>.
-</dd>
-<dt>बड़ा डेटा</dt>
-<dd>
-अक्सर हमें अपेक्षाकृत सरल संरचना के साथ बहुत बड़ी मात्रा में डेटा को स्टोर और संसाधित करने की आवश्यकता होती है। उस डेटा को एक कंप्यूटर क्लस्टर पर वितरित तरीके से संग्रहीत करने और इसे कुशलतापूर्वक संसाधित करने के लिए विशेष दृष्टिकोण और उपकरण हैं।
-</dd>
-<dt>यंत्र अधिगम</dt>
-<dd>
-डेटा को समझने का एक तरीका **एक मॉडल बनाना** है जो वांछित परिणाम की भविष्यवाणी करने में सक्षम होगा। डेटा से मॉडल विकसित करना **मशीन लर्निंग** कहलाता है। इसके बारे में अधिक जानने के लिए आप हमारे <a href="https://aka.ms/ml-beginners">मशीन लर्निंग फॉर बिगिनर्स</a> पाठ्यक्रम को देखना चाहेंगे।.
-</dd>
-<dt>कृत्रिम होशियारी</dt>
-<dd>
-आर्टिफिशियल इंटेलिजेंस (एआई) के रूप में जाना जाने वाला मशीन लर्निंग का एक क्षेत्र भी डेटा पर निर्भर करता है, और इसमें उच्च जटिलता वाले मॉडल बनाना शामिल है जो मानव विचार प्रक्रियाओं की नकल करते हैं। एआई विधियां अक्सर हमें असंरचित डेटा (जैसे प्राकृतिक भाषा) को संरचित अंतर्दृष्टि में बदलने की अनुमति देती हैं।
-</dd>
-<dt>प्रत्योक्षकरण</dt>
-<dd>
-एक इंसान के लिए बड़ी मात्रा में डेटा समझ से बाहर है, लेकिन एक बार जब हम उस डेटा का उपयोग करके उपयोगी विज़ुअलाइज़ेशन बनाते हैं, तो हम डेटा की अधिक समझ बना सकते हैं, और कुछ निष्कर्ष निकाल सकते हैं। इस प्रकार, जानकारी की कल्पना करने के कई तरीके जानना महत्वपूर्ण है - कुछ ऐसा जिसे हम अपने पाठ्यक्रम के <a href="../../3-Data-Visualization/README.md">धारा 3</a> में शामिल करेंगे। . संबंधित क्षेत्रों में सामान्य रूप से **इन्फोग्राफिक्स**, और **मानव-कंप्यूटर इंटरैक्शन** भी शामिल हैं।
-</dd>
-</dl>
-
-## डेटा के प्रकार
-
-जैसा कि हमने पहले ही उल्लेख किया है, डेटा हर जगह है। बस जरूरत है इसे सही तरीके से पकड़ने की! **संरचित** और **असंरचित** डेटा के बीच अंतर करना उपयोगी है। पूर्व को आम तौर पर कुछ अच्छी तरह से संरचित रूप में दर्शाया जाता है, अक्सर तालिका या तालिकाओं की संख्या के रूप में, जबकि बाद वाला केवल फाइलों का संग्रह होता है। कभी-कभी हम **अर्ध-संरचित** डेटा के बारे में भी बात कर सकते हैं, जिसमें किसी प्रकार की संरचना होती है जो बहुत भिन्न हो सकती है।
-
-| संरचित                                                                   | अर्ध-संरचित                                                                                | असंरचित                            |
-| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
-| उन लोगों की सूची जिनके फ़ोन नंबर हैं | विकिपीडिया पृष्ठ लिंक के साथ | एनसाइक्लोपीडिया ब्रिटानिका का पाठ |
-| पिछले 20 वर्षों से हर मिनट एक इमारत के सभी कमरों में तापमान | लेखकों के साथ JSON प्रारूप में वैज्ञानिक पत्रों का संग्रह, प्रकाशन का डेटा, और सार | कॉर्पोरेट दस्तावेज़ों के साथ फ़ाइल साझा करें |
-| भवन में प्रवेश करने वाले सभी लोगों की आयु और लिंग का डेटा | इंटरनेट पेज | निगरानी कैमरे से कच्चा वीडियो फ़ीड |
-## डेटा कहाँ से प्राप्त करें
-
-डेटा के कई संभावित स्रोत हैं, और उन सभी को सूचीबद्ध करना असंभव होगा! हालाँकि, आइए कुछ विशिष्ट स्थानों का उल्लेख करें जहाँ आप डेटा प्राप्त कर सकते हैं:
-
-* **संरचित**
-  - **इंटरनेट ऑफ थिंग्स** (IoT), जिसमें तापमान या दबाव सेंसर जैसे विभिन्न सेंसर के डेटा शामिल हैं, बहुत उपयोगी डेटा प्रदान करता है। उदाहरण के लिए, यदि कोई कार्यालय भवन IoT सेंसर से लैस है, तो हम लागत को कम करने के लिए स्वचालित रूप से हीटिंग और प्रकाश व्यवस्था को नियंत्रित कर सकते हैं।
-  - **सर्वेक्षण** जो हम उपयोगकर्ताओं को खरीदारी के बाद, या किसी वेब साइट पर जाने के बाद पूरा करने के लिए कहते हैं।
-  - **व्यवहार का विश्लेषण**, उदाहरण के लिए, यह समझने में हमारी सहायता कर सकता है कि उपयोगकर्ता किसी साइट में कितनी गहराई तक जाता है, और साइट छोड़ने का सामान्य कारण क्या है।
-* **असंरचित**
-  - **पाठ** अंतर्दृष्टि का एक समृद्ध स्रोत हो सकता है, जैसे समग्र **भावना स्कोर**, या कीवर्ड और अर्थ अर्थ निकालना।
-  - **छवियां** या **वीडियो**। सड़क पर यातायात का अनुमान लगाने और संभावित ट्रैफिक जाम के बारे में लोगों को सूचित करने के लिए एक निगरानी कैमरे से एक वीडियो का उपयोग किया जा सकता है।
-  - वेब सर्वर **लॉग** का उपयोग यह समझने के लिए किया जा सकता है कि हमारी साइट के कौन से पृष्ठ सबसे अधिक बार देखे जाते हैं, और कितने समय के लिए।
-* **अर्ध-संरचित**
-  - **सोशल नेटवर्क** ग्राफ़ उपयोगकर्ता के व्यक्तित्व के बारे में डेटा के महान स्रोत हो सकते हैं और जानकारी के प्रसार में संभावित प्रभावशीलता हो सकती है।
-  - जब हमारे पास किसी पार्टी से तस्वीरों का एक गुच्छा होता है, तो हम एक दूसरे के साथ तस्वीरें लेने वाले लोगों का ग्राफ बनाकर **ग्रुप डायनेमिक्स** डेटा निकालने का प्रयास कर सकते हैं।
-
-डेटा के विभिन्न संभावित स्रोतों को जानकर, आप विभिन्न परिदृश्यों के बारे में सोचने की कोशिश कर सकते हैं जहां स्थिति को बेहतर तरीके से जानने और व्यावसायिक प्रक्रियाओं को बेहतर बनाने के लिए डेटा विज्ञान तकनीकों को लागू किया जा सकता है।
-
-## आप डेटा के साथ क्या कर सकते हैं
-
-डेटा साइंस में, हम डेटा यात्रा के निम्नलिखित चरणों पर ध्यान केंद्रित करते हैं:
-
-<dl>
-<dt>1) डेटा अधिग्रहण</dt>
-<dd>
-पहला कदम डेटा एकत्र करना है। जबकि कई मामलों में यह एक सीधी प्रक्रिया हो सकती है, जैसे वेब एप्लिकेशन से डेटाबेस में डेटा आना, कभी-कभी हमें विशेष तकनीकों का उपयोग करने की आवश्यकता होती है। उदाहरण के लिए, IoT सेंसर से डेटा भारी हो सकता है, और आगे की प्रक्रिया से पहले सभी डेटा एकत्र करने के लिए IoT हब जैसे बफरिंग एंडपॉइंट का उपयोग करना एक अच्छा अभ्यास है।
-</dd>
-<dt>2) डाटा स्टोरेज</dt>
-<dd>
-डेटा स्टोर करना चुनौतीपूर्ण हो सकता है, खासकर अगर हम बड़े डेटा के बारे में बात कर रहे हैं। डेटा को स्टोर करने का तरीका तय करते समय, भविष्य में डेटा को क्वेरी करने के तरीके का अनुमान लगाना समझ में आता है। डेटा को स्टोर करने के कई तरीके हैं:
-<ul>
-<li>एक रिलेशनल डेटाबेस तालिकाओं के संग्रह को संग्रहीत करता है, और उन्हें क्वेरी करने के लिए SQL नामक एक विशेष भाषा का उपयोग करता है। आमतौर पर, तालिकाओं को विभिन्न समूहों में व्यवस्थित किया जाता है जिन्हें स्कीमा कहा जाता है। कई मामलों में हमें स्कीमा को फिट करने के लिए डेटा को मूल रूप से परिवर्तित करने की आवश्यकता होती है।</li>
-<li><a href="https://en.wikipedia.org/wiki/NoSQL">एक NoSQL</a> डेटाबेस, जैसे कि <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, करता है डेटा पर स्कीमा लागू नहीं करता है, और अधिक जटिल डेटा संग्रहीत करने की अनुमति देता है, उदाहरण के लिए, पदानुक्रमित JSON दस्तावेज़ या ग्राफ़। हालाँकि, NoSQL डेटाबेस में SQL की समृद्ध क्वेरी क्षमता नहीं होती है, और यह संदर्भात्मक अखंडता को लागू नहीं कर सकता है, अर्थात डेटा को तालिकाओं में कैसे संरचित किया जाता है और तालिकाओं के बीच संबंधों को नियंत्रित करने के नियम।</li>
-<li><a href="https://en.wikipedia.org/wiki/Data_lake">डेटा लेक</a> संग्रहण का उपयोग कच्चे, असंरचित रूप में डेटा के बड़े संग्रह के लिए किया जाता है। डेटा झीलों का उपयोग अक्सर बड़े डेटा के साथ किया जाता है, जहां सभी डेटा एक मशीन पर फिट नहीं हो सकते हैं, और सर्वरों के एक समूह द्वारा संग्रहीत और संसाधित किया जाना है। <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> डेटा प्रारूप है जिसे अक्सर बड़े डेटा के संयोजन में उपयोग किया जाता है।</li>
-</ul>
-</dd>
-<dt>3) डाटा प्रोसेसिंग</dt>
-<dd>
-यह डेटा यात्रा का सबसे रोमांचक हिस्सा है, जिसमें डेटा को उसके मूल रूप से एक ऐसे रूप में परिवर्तित करना शामिल है जिसका उपयोग विज़ुअलाइज़ेशन/मॉडल प्रशिक्षण के लिए किया जा सकता है। टेक्स्ट या इमेज जैसे असंरचित डेटा के साथ काम करते समय, हमें डेटा से **फीचर्स** निकालने के लिए कुछ एआई तकनीकों का उपयोग करने की आवश्यकता हो सकती है, इस प्रकार इसे संरचित रूप में परिवर्तित किया जा सकता है।
-</dd>
-<dt>4) विज़ुअलाइज़ेशन / मानव अंतर्दृष्टि</dt>
-<dd>
-अक्सर, डेटा को समझने के लिए, हमें इसकी कल्पना करने की आवश्यकता होती है। हमारे टूलबॉक्स में कई अलग-अलग विज़ुअलाइज़ेशन तकनीकें होने से, हम एक अंतर्दृष्टि बनाने के लिए सही दृश्य ढूंढ सकते हैं। अक्सर, एक डेटा वैज्ञानिक को "डेटा के साथ खेलने" की आवश्यकता होती है, इसे कई बार विज़ुअलाइज़ करना और कुछ रिश्तों की तलाश करना। इसके अलावा, हम एक परिकल्पना का परीक्षण करने या डेटा के विभिन्न टुकड़ों के बीच संबंध साबित करने के लिए सांख्यिकीय तकनीकों का उपयोग कर सकते हैं।   
-</dd>
-<dt>5) एक भविष्य कहनेवाला मॉडल प्रशिक्षण</dt>
-<dd>
-चूंकि डेटा विज्ञान का अंतिम लक्ष्य डेटा के आधार पर निर्णय लेने में सक्षम होना है, इसलिए हम <a href="http://github.com/microsoft/ml-for-beginners">मशीन लर्निंग की तकनीकों का उपयोग करना चाह सकते हैं। </a> एक भविष्य कहनेवाला मॉडल बनाने के लिए। इसके बाद हम समान संरचनाओं वाले नए डेटा सेट का उपयोग करके भविष्यवाणियां करने के लिए इसका उपयोग कर सकते हैं।
-</dd>
-</dl>
-
-बेशक, वास्तविक डेटा के आधार पर, कुछ चरण गायब हो सकते हैं (उदाहरण के लिए, जब हमारे पास पहले से ही डेटाबेस में डेटा है, या जब हमें मॉडल प्रशिक्षण की आवश्यकता नहीं है), या कुछ चरणों को कई बार दोहराया जा सकता है (जैसे डेटा प्रोसेसिंग )
-
-## डिजिटलीकरण और डिजिटल परिवर्तन
-
-पिछले दशक में, कई व्यवसायों ने व्यावसायिक निर्णय लेते समय डेटा के महत्व को समझना शुरू कर दिया। व्यवसाय चलाने के लिए डेटा विज्ञान सिद्धांतों को लागू करने के लिए, पहले कुछ डेटा एकत्र करने की आवश्यकता होती है, अर्थात व्यावसायिक प्रक्रियाओं का डिजिटल रूप में अनुवाद करना। इसे **डिजिटलाइजेशन** के नाम से जाना जाता है। निर्णयों को निर्देशित करने के लिए इस डेटा में डेटा विज्ञान तकनीकों को लागू करने से उत्पादकता (या यहां तक कि व्यावसायिक धुरी) में उल्लेखनीय वृद्धि हो सकती है, जिसे **डिजिटल परिवर्तन** कहा जाता है।
-
-आइए एक उदाहरण पर विचार करें। मान लीजिए कि हमारे पास एक डेटा विज्ञान पाठ्यक्रम है (जैसे यह एक) जिसे हम छात्रों को ऑनलाइन वितरित करते हैं, और हम इसे सुधारने के लिए डेटा विज्ञान का उपयोग करना चाहते हैं। हम यह कैसे कर सकते हैं?
-
-हम "क्या डिजीटल किया जा सकता है?" पूछकर शुरू कर सकते हैं। सबसे आसान तरीका यह होगा कि प्रत्येक छात्र को प्रत्येक मॉड्यूल को पूरा करने में लगने वाले समय को मापें, और प्रत्येक मॉड्यूल के अंत में एक बहुविकल्पीय परीक्षा देकर प्राप्त ज्ञान को मापें। सभी छात्रों में औसत समय-से-पूरा करके, हम यह पता लगा सकते हैं कि कौन से मॉड्यूल छात्रों के लिए सबसे अधिक कठिनाइयों का कारण बनते हैं, और उन्हें सरल बनाने पर काम करते हैं।
-
-> आप तर्क दे सकते हैं कि यह दृष्टिकोण आदर्श नहीं है, क्योंकि मॉड्यूल अलग-अलग लंबाई के हो सकते हैं। मॉड्यूल की लंबाई (वर्णों की संख्या में) से समय को विभाजित करना शायद अधिक उचित है, और इसके बजाय उन मानों की तुलना करें।
-
-जब हम बहुविकल्पीय परीक्षणों के परिणामों का विश्लेषण करना शुरू करते हैं, तो हम यह निर्धारित करने का प्रयास कर सकते हैं कि छात्रों को किन अवधारणाओं को समझने में कठिनाई होती है, और उस जानकारी का उपयोग सामग्री को बेहतर बनाने के लिए कर सकते हैं। ऐसा करने के लिए, हमें परीक्षणों को इस तरह से डिजाइन करने की आवश्यकता है कि प्रत्येक प्रश्न एक निश्चित अवधारणा या ज्ञान के हिस्से से मेल खाता हो।
-
-यदि हम और अधिक जटिल होना चाहते हैं, तो हम छात्रों की आयु वर्ग के विरुद्ध प्रत्येक मॉड्यूल के लिए लिए गए समय को प्लॉट कर सकते हैं। हमें पता चल सकता है कि कुछ आयु वर्गों के लिए मॉड्यूल को पूरा करने में अनुचित रूप से लंबा समय लगता है, या छात्र इसे पूरा करने से पहले छोड़ देते हैं। यह हमें मॉड्यूल के लिए उम्र की सिफारिशें प्रदान करने में मदद कर सकता है, और गलत उम्मीदों से लोगों के असंतोष को कम कर सकता है।
-
-## 🚀 चुनौती
-
-इस चुनौती में, हम ग्रंथों को देखकर डेटा विज्ञान के क्षेत्र से प्रासंगिक अवधारणाओं को खोजने का प्रयास करेंगे। हम डेटा विज्ञान पर एक विकिपीडिया लेख लेंगे, पाठ को डाउनलोड और संसाधित करेंगे, और फिर इस तरह एक शब्द क्लाउड का निर्माण करेंगे:
-
-![डेटा साइंस के लिए वर्ड क्लाउड](/1-Introduction/01-defining-data-science/images/ds_wordcloud.png)
-
-Visit [`notebook.ipynb`](/1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') कोड के माध्यम से पढ़ने के लिए। आप कोड भी चला सकते हैं, और देख सकते हैं कि यह वास्तविक समय में सभी डेटा परिवर्तन कैसे करता है।
-
-> यदि आप नहीं जानते कि जुपिटर नोटबुक में कोड कैसे चलाना है, तो एक नज़र डालें [यह लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## कार्य (Assignments)
-
-* **कार्य 1**: **बिग डेटा** और **मशीन लर्निंग** के क्षेत्रों के लिए संबंधित अवधारणाओं का पता लगाने के लिए ऊपर दिए गए कोड को संशोधित करें
-* **कार्य 2**: [डेटा विज्ञान परिदृश्यों के बारे में सोचें](assignment.hi.md)
-
-## क्रेडिट
-
-यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है। और इस्का हिंदी अनुवाद [सचिन दाभाड़े](https://www.github.com/SachinDabhade) ने किया है
--- a/1-Introduction/01-defining-data-science/translations/README.ko.md
+++ b/1-Introduction/01-defining-data-science/translations/README.ko.md
@ -1,165 +0,0 @@
-# 데이터 과학(Data Science) 정의
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
-|:---:|
-|데이터 과학(Data Science) 정의 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
---
-
-[![데이터 과학(Data Science) 정의 영상](../images/video-def-ds.png)](https://youtu.be/pqqsm5reGvs)
-
-## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## 데이터란 무엇인가?
-일상 생활에서 우리는 항상 데이터에 둘러싸여 있습니다. 지금 당신이 읽고 있는 이 글, 당신의 스마트폰 안에 있는 친구들의 전화번호 목록도 데이터이며, 시계에 표시되는 현재 시간 역시 마찬가지입니다. 인간으로서 우리는 가지고 있는 돈을 세거나 친구들에게 편지를 쓰면서 자연스럽게 데이터를 조작합니다.
-
-그러나 데이터는 컴퓨터의 발명과 함께 훨씬 더 중요해졌습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만 컴퓨터에게는 계산할 데이터가 필요합니다. 따라서, 우리는 컴퓨터가 데이터를 저장하고 처리하는 방법을 이해해야 합니다.
-
-인터넷의 등장으로 데이터 처리 장치로서의 컴퓨터 역할이 증가했습니다. 생각해보면, 우리는 점점 더 컴퓨터를 문자 그대로의 계산보다는 데이터 처리와 통신을 위해 사용하고있습니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 본질적으로 데이터를 생성, 저장, 전송 및 조작을 합니다.
-> 마지막으로 컴퓨터를 사용하여 실제로 무엇인가를 계산한 적이 언제인지 기억하십니까?
-
-## 데이터 과학(data science)란 무엇인가?
-
-[위키피디아](https://en.wikipedia.org/wiki/Data_science)에서, **데이터 과학**은 *정형 데이터와 비정형 데이터에서 지식과 통찰력을 추출하고 광범위한 어플리케이션 도메인에 걸쳐 데이터에서 지식과 실행가능한 통찰력을 적용하기 위해 과학적 방법을 사용하는 과학 분야*로 정의됩니다.
-
-이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:
-
-* 데이터 과학의 주된 목표는 데이터에서 **지식을 추출**하는 것, 즉, 데이터를 **이해**하고, 숨겨진 관계를 찾고 **모델**을 구축하는 것입니다.
-* 데이터 과학은 확률 및 통계와 같은 **과학적 방법**을 사용합니다. 사실 *데이터 과학(data science)*라는 용어가 처음 소개되었을 때, 일부 사람들은 데이터 과학이 통계의 새로운 멋진 이름일 뿐이라고 주장했습니다. 오늘날에는 데이터 과학의 분야가 훨씬 더 광범위하다는 것이 분명해졌습니다.
-* 추출한 지식을 적용하여 **실행 가능한 통찰력**을 생성해야 합니다.
-* **정형** 및 **비정형** 데이터 모두에서 작업할 수 있어야 합니다. 이 과정의 뒷부분에서 다양한 유형의 데이터에 대해 더 논의할 것입니다.
-* **어플리케이션 도메인**은 중요한 개념이며, 데이터 과학자는 종종 문제 도메인(problem domain)에서 최소한 어느 정도의 전문 지식을 필요로 합니다.
-
-> 데이터 과학의 또 다른 중요한 측면은 컴퓨터를 사용하여 데이터를 수집, 저장 및 운영하는 방법을 연구한다는 것입니다. 통계는 우리에게 수학적인 기초를 제공하지만, 데이터 과학은 수학적 개념을 적용하여 실제로 데이터에서 통찰력을 이끌어냅니다.
-
-([짐 그레이](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))에 의하면) 데이터 과학을 보는 방법 중 하나는 데이터 과학을 별도의 과학 패러다임으로 간주하는 것입니다:
-* **경험적**: 우리는 주로 관찰과 실험 결과에 의존합니다.
-* **이론적**: 기존의 과학적 지식에서 새로운 개념이 등장한 것입니다.
-* **전산적(Computational)**: 전산적인 실험을 기반으로 새로운 원리를 발견합니다.
-* **데이터 기반(Data-Driven)**: 데이터에서 관계와 패턴을 발견하는 것에 기반합니다.
-
-## 기타 관련 분야
-
-데이터는 널리 알려진 개념이기 때문에, 데이터 과학 자체도 다른 많은 관련 분야를 다루는 광범위한 분야입니다.
-
-<dl>
-<dt>데이터베이스(Databases)</dt>
-<dd>
-우리가 반드시 고려해야 할 것은 데이터를 **저장하는 방법**, 즉, 데이터를 더 빠르게 처리하기 위해 데이터를 구조화하는 방법입니다. 정형 데이터와 비정형 데이터를 저장하는 다양한 유형의 데이터베이스가 있으며, [이 과정에서 그러한 점을 고려할 것입니다.] (../../../2-Working-With-Data/translations/README.ko.md).
-</dd>
-<dt>빅데이터(Big Data)</dt>
-<dd>
-종종 우리는 비교적 단순한 구조로 정말 많은 양의 데이터를 저장하고 처리해야 합니다. 데이터를 컴퓨터 클러스터에 분산 방식으로 저장하고 효율적으로 처리하기 위한 특별한 접근 방식과 도구가 있습니다.
-</dd>
-<dt>머신러닝(Machine Learning)</dt>
-<dd>
-데이터를 이해하는 방법 중 하나는 원하는 결과를 예측할 수 있는 **모델을 구축**하는 것 입니다. 데이터에서 이러한 모델을 학습할 수 있다는 것은 **머신러닝**에서 연구되는 역역입니다. 이 분야에 대해 자세히 알아보고 싶다면, [초보자를 위한 머신러닝](https://github.com/microsoft/ML-For-Beginners/) 과정을 보실 수 있습니다.
-</dd>
-<dt>인공지능(Artificial Intelligence)</dt>
-<dd>
-머신러닝과 마찬가지로, 인공지능도 데이터에 의존하며 인간과 유사항 행동을 보이는 복잡한 모델을 구축해야 합니다. 또한 인공지능 방법을 사용하면 일부 인사이트를 추출하여 비정형 데이터(예: 자연어)를 정형 데이터로 전환할 수 있습니다.
-</dd>
-<dt>시각화(Visualization)</dt>
-<dd>
-방대한 양의 데이터는 인간이 이해할 수 없지만, 유용한 시각화를 생성하면, 데이터를 더 잘 이해하고 데이터에서 몇 가지 결론을 도출해낼 수 있습니다. 따라서 정보를 시각화하는 여러 가지 방법을 아는 것이 중요합니다. 이는 우리 과정의 [Section 3](../../../3-Data-Visualization/README.md)에서 다룰 것입니다. 관련 분야에는 일반적으로 **인포그래픽(Infographics)** 및 **인간-컴퓨터 상호작용(Human-Computer Interaction)**도 포함됩니다.
-</dd>
-</dl>
-
-## 데이터 유형
-
-이미 언급했던 것처럼 데이터는 어디에나 있으므로, 우리는 데이터를 올바른 방법으로 수집하기만 하면 됩니다! **정형** 데이터와 **비정형** 데이터를 구별하는 것이 유용합니다. 정형 데이터는 일반적으로 잘 구조화된 형식으로, 종종 테이블 또는 테이블 수로 표시되는 반면 비정형 데이터는 파일 모음일 뿐입니다. 크게 다를 수 있는 구조를 가진 **반정형** 데이터에 대해서도 때때로 다룰 것입니다.
-
-| 정형(Structured) | 반정형(Semi-structured) | 비정형(Unstructured) |
-|------------|-----------------|--------------|
-| 사람들과 그들의 전화번호 목록 | 위키피디아 페이지와 그 링크 | 브리태니커 백과사전 텍스트 |
-| 지난 20년 동안 매 분 마다의 모든 방의 온도 | 저자, 출판 데이터, 초록이 포함된 JSON 형식의 과학 논문 모음 | 기업 문서와 파일 공유 |
-| 건물에 출입하는 모든 사람의 연령 및 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원시 비디오 피드 |
-
-## 데이터를 얻을 수 있는 곳
-
-데이터를 얻을 수 있는 소스들은 많고, 모든 소스를 나열하는 것은 불가능합니다! 그러나 데이터를 얻을 수 있는 몇 가지 일반적인 소스들은 이러합니다.
-
-* **정형(Structured)**
-  - **사물 인터넷(IoT)**: 온도 또는 압력 센서와 같은 다양한 센서의 데이터를 포함하는 사물 인터넷은 많은 유용한 데이터를 제공합니다. 예를 들어, 사무실 건물에 IoT 센서가 장착되어 있으면 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
-  - **설문조사**: 상품 구매 후 또는 웹사이트 방문 후 사용자에게 묻는 설문조사.
-  - **행동 분석**: 예를 들어 사용자가 사이트에 얼마나 깊이 들어가고 사이트를 떠나는 일반적인 이유는 무엇인지 이해하는 데 도움이 될 수 있습니다.
-* **비정형(Unstructured)**
-  - **텍스트**: 전반적인 **감정 점수(sentiment score)**에서 시작해서, 키워드 및 의미론적 의미(semantic meaning) 추출에 이르기까지 통찰력을 얻을 수 있는 풍부한 소스가 될 수 있습니다.
-  - **이미지** 또는 **동영상**: 감시 카메라의 비디오를 사용하여 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 알릴 수 있습니다.
-  - **로그**: 웹 서버 로그는 당사 사이트에서 가장 많이 방문한 페이지와 시간을 파악하는 데 사용할 수 있습니다.
-* 반정형(Semi-structured)
-  - **소셜 네트워크(Social Network)**: 소셜 네트워크 그래프는 사용자의 성격과 정보 확산의 잠재적 효과에 대한 훌륭한 데이터 소스가 될 수 있습니다.
-  - **그룹 역학**: 파티에서 찍은 사진이 많을 때 서로 사진을 찍는 사람들의 그래프를 만들어 그룹 역학 데이터를 추출해 볼 수 있습니다.
-
-다양한 데이터 소스를 알면, 상황을 더 잘 파악하고 비즈니스 프로세스를 개선하기 위해, 데이터 과학 기술을 적용할 수 있는 다양한 시나리오에 대해 생각해 볼 수 있습니다.
-
-## 데이터로 할 수 있는 일
-
-데이터 과학에서는 데이터 여정의 다음 단계에 중점을 둡니다.
-
-<dl>
-<dt>1) 데이터 수집</dt>
-<dd>
-첫 번째 단계는 데이터를 수집하는 것입니다. 많은 경우 웹 애플리케이션에서 데이터베이스로 오는 데이터와 같이 간단한 프로세스일 수 있지만 때로는 특별한 기술을 사용해야 합니다. 예를 들어 IoT 센서의 데이터는 압도적으로 많을 수 있으며, IoT Hub와 같은 버퍼링 엔드포인트를 사용하여 추가 프로세싱 전에 모든 데이터를 수집하는 것이 좋습니다.
-</dd>
-<dt>2) 데이터 저장</dt>
-<dd>
-특히 빅 데이터의 경우에, 데이터를 저장하는 것은 어려울 수 있습니다. 데이터를 저장하는 방법을 결정할 때는 나중에 데이터를 쿼리할 방법을 예상하는 것이 좋습니다. 데이터를 저장할 수 있는 방법에는 여러 가지가 있습니다.
-<ul>
-<li>관계형 데이터베이스는 테이블 모음을 저장하고 SQL이라는 특수 언어를 사용하여 쿼리합니다. 일반적으로 테이블은 어떤 스키마를 사용하여 서로 연결됩니다. 많은 경우 스키마에 맞게 원래 형식의 데이터를 변환해야 합니다.</li>
-<li><a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>와 같은 <a href="https://en.wikipedia.org/wiki/NoSQL">NoSQL</a> 데이터베이스는 데이터에 스키마를 적용하지 않으며, 계층적 JSON 문서 또는 그래프와 같은 더 복잡한 데이터를 저장할 수 있습니다. 그러나 NoSQL 데이터베이스는 SQL의 풍부한 쿼리 기능이 없으며 데이터 간의 참조 무결성을 강제할 수 없습니다.</li>
-<li><a href="https://en.wikipedia.org/wiki/Data_lake">Data Lake</a> 저장소는 원시 형식(raw form)의 대규모 데이터 저장소로 사용됩니다. 데이터 레이크는 모든 데이터가 하나의 시스템에 들어갈 수 없고 클러스터에서 저장 및 처리를 해야하는 빅 데이터와 함께 사용하는 경우가 많습니다. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a>은 빅 데이터와 함께 자주 사용되는 데이터 형식입니다.</li> 
-</ul>
-</dd>
-<dt>3) 데이처 처리</dt>
-<dd>
-이 부분은 데이터를 원래 형식에서 시각화/모델 학습에 사용할 수 있는 형식으로 처리하는 것과 관련된, 데이터 여정에서 가장 흥미로운 부분입니다. 텍스트나 이미지와 같은 비정형 데이터를 처리할 때 데이터에서 **특징(features)**을 추출하여 정형화된 형식으로 변환하기 위해 일부 AI 기술을 사용해야 할 수도 있습니다.
-</dd>
-<dt>4) 시각화(Visualization) / 인간 통찰력(Human Insights)</dt>
-<dd>
-데이터를 이해하기 위해 우리는 종종 데이터를 시각화해야 합니다. 우리에게는 다양한 시각화 기술이 있으므로 인사이트를 만들어내기 위한 올바른 데이터의 시각화를 찾아낼 수 있습니다. 종종 데이터 과학자는 "데이터를 가지고 노는" 작업을 수행하여 여러 번 시각화하고 관계를 찾아야 합니다. 또한 통계 기술을 사용하여 몇 가지 가설을 테스트하거나 서로 다른 데이터 조각 간의 상관 관계를 증명할 수 있습니다.
-</dd>
-<dt>5) 예측 모델 학습</dt>
-<dd>
-데이터 과학의 궁극적인 목표는 데이터를 기반으로 의사 결정을 내리는 것이므로, 문제를 해결할 수 있는 예측 모델을 구축하기 위해 <a href="http://github.com/microsoft/ml-for-beginners">머신러닝</a> 기술을 사용할 수 있습니다.
-</dd>
-</dl>
-
-물론 실제 데이터에 따라 일부 단계가 누락될 수 있거나(예: 데이터베이스에 데이터가 이미 있는 경우 또는 모델 학습이 필요하지 않은 경우) 일부 단계가 여러 번 반복될 수 있습니다(예: 데이터 처리 ).
-
-## 디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation)
-
-지난 10년 동안, 많은 기업이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 일부 데이터를 수집해야 합니다. 즉, 어떻게든 비즈니스 프로세스를 디지털 형식으로 전환해야 합니다. 이를 **디지털화(digitalization)**라고 하며, 데이터 과학 기술을 사용하여 결정을 안내하고 종종 생산성(또는 비즈니스 피봇(pivot))이 크게 증가하는 **디지털 트랜스포메이션(Digital Transformation)**을 동반합니다.
-
-예를 들어 보겠습니다. 우리가 학생들에게 온라인으로 제공하는 데이터 과학 과정(예를 들어 현재 이 과정)이 있고 이를 개선하기 위해 데이터 과학을 사용하려고 한다고 가정해 보겠습니다. 어떻게 할 수 있습니까?
-
-우리는 "무엇을 디지털화할 수 있는가?"라고 생각하는 것으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간과 획득한 지식을 측정하는 것입니다(예를 들어, 각 모듈의 끝에 객관식 테스트를 제공함으로). 모든 학생의 완료 시간을 평균화하여 어떤 모듈이 학생들에게 가장 많은 문제를 일으키는지 찾아내고 이를 단순화하기 위해 노력할 수 있습니다.
-
-> 모듈의 길이가 다를 수 있으므로 이 접근 방식이 이상적이지 않다고 주장할 수 있습니다. 시간을 모듈의 길이(문자 수)로 나누고 대신 해당 값을 비교하는 것이 더 공정할 수 있습니다.
-
-객관식 시험의 결과를 분석하기 시작하면 학생들이 잘 이해하지 못하는 특정 개념을 찾아 내용을 개선할 수 있습니다. 그렇게 하려면 각 질문이 특정 개념이나 지식 덩어리에 매핑되는 방식으로 테스트를 설계해야 합니다.
-
-더 복잡하게 하려면 학생의 연령 범주에 대해 각 모듈에 소요된 시간을 표시할 수 있습니다. 일부 연령 범주의 경우 모듈을 완료하는 데 부적절하게 오랜 시간이 걸리거나 학생들이 특정 지점에서 중도 탈락한다는 것을 알 수 있습니다. 이를 통해 모듈에 대한 권장 연령을 제공하고 잘못된 기대로 인한 사람들의 불만을 최소화할 수 있습니다.
-
-## 🚀 챌린지
-
-이 챌린지에서는 텍스트에서 데이터 과학 분야와 관련된 개념을 찾으려고 합니다. 데이터 과학에 대한 Wikipedia 기사를 가져와 텍스트를 다운로드 및 처리한 다음 다음과 같은 워드 클라우드를 구축해봅시다.
-
-![데이터 과학에 대한 워드 클라우드](../images/ds_wordcloud.png)
-
-[`notebook.ipynb`](../notebook.ipynb)에서 코드를 읽어보세요. 코드를 실행할 수 있고, 실시간으로 모든 데이터 변환을 어떻게 수행하는 지 확인할 수 있습니다.
-
-> 주피터 노트북(Jupyter Notebook)에서 코드를 어떻게 실행하는 지 잘 모른다면, [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 읽어보세요.
-
-
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## 과제
-
-* **Task 1**: **빅 데이터** 및 **머신러닝** 분야에 대한 관련 개념을 찾기 위해 위의 코드를 수정합니다.
-* **Task 2**: [데이터 과학 시나리오에 대해 생각하기](./assignment.ko.md)
-
-## 크레딧
-
-강의를 제작한 분: [Dmitry Soshnikov](http://soshnikov.com)
--- a/1-Introduction/01-defining-data-science/translations/README.nl.md
+++ b/1-Introduction/01-defining-data-science/translations/README.nl.md
@ -1,164 +0,0 @@
-# Definitie van Data Science
-
-| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png) |
-| :----------------------------------------------------------------------------------------------------: |
-|              Defining Data Science - _Sketchnote by [@nitya](https://twitter.com/nitya)_               |
-
---
-
-[![Defining Data Science Video](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
-
-## [Starttoets data science](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## Wat is Data?
-In ons dagelijks leven zijn we voortdurend omringd door data. De tekst die je nu leest is data.  De lijst met telefoonnummers van je vrienden op je smartphone is data, evenals de huidige tijd die op je horloge wordt weergegeven. Als mens werken we van nature met data, denk aan het geld dat we moeten tellen of door berichten te schrijven aan onze vrienden.
-
-Gegevens werden echter veel belangrijker met de introductie van computers.  De primaire rol van computers is om berekeningen uit te voeren, maar ze hebben gegevens nodig om mee te werken.  We moeten dus begrijpen hoe computers gegevens opslaan en verwerken.
-
-Met de opkomst van het internet nam de rol van computers als gegevensverwerkingsapparatuur toe.  Als je erover nadenkt, gebruiken we computers nu steeds meer voor gegevensverwerking en communicatie, in plaats van echte berekeningen. Wanneer we een e-mail schrijven naar een vriend of zoeken naar informatie op internet, creëren, bewaren, verzenden en manipuleren we in wezen gegevens.
-> Kan jij je herinneren wanneer jij voor het laatste echte berekeningen door een computer hebt laten uitvoeren?
-
-## Wat is Data Science?
-
-[Wikipedia](https://en.wikipedia.org/wiki/Data_science) definieert **Data Science** als *een interdisciplinair onderzoeksveld met betrekking tot wetenschappelijke methoden, processen en systemen om kennis en inzichten te onttrekken uit (zowel gestructureerde als ongestructureerde) data.* 
-
-Deze definitie belicht de volgende belangrijke aspecten van data science:
-
-* Het belangrijkste doel van data science is om **kennis** uit gegevens te destilleren, in andere woorden - om data **te begrijpen**, verborgen relaties te vinden en een **model** te bouwen.
-* Data science maakt gebruik van **wetenschappelijke methoden**, zoals waarschijnlijkheid en statistiek.  Toen de term *data science* voor het eerst werd geïntroduceerd, beweerden sommige mensen zelfs dat data science slechts een nieuwe mooie naam voor statistiek was.  Tegenwoordig is duidelijk geworden dat het veld veel breder is.    
-* Verkregen kennis moet worden toegepast om enkele **bruikbare inzichten** te produceren, d.w.z. praktische inzichten die je kunt toepassen op echte bedrijfssituaties.
-* We moeten in staat zijn om te werken met zowel **gestructureerde** als **ongestructureerde** data.  We komen later in de cursus terug om verschillende soorten gegevens te bespreken.
-* **Toepassingsdomein** is een belangrijk begrip, en datawetenschappers hebben vaak minstens een zekere mate van expertise nodig in het probleemdomein, bijvoorbeeld: financiën, geneeskunde, marketing, enz.
-
-> Een ander belangrijk aspect van Data Science is dat het bestudeert hoe gegevens kunnen worden verzameld, opgeslagen en bediend met behulp van computers.  Terwijl statistiek ons wiskundige grondslagen geeft, past data science wiskundige concepten toe om daadwerkelijk inzichten uit gegevens te halen.
-
-
-Een van de manieren (toegeschreven aan [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) om naar de data science te kijken, is om het te beschouwen als een apart paradigma van de wetenschap:
-* **Empirisch**, waarbij we vooral vertrouwen op waarnemingen en resultaten van experimenten
-* **Theoretisch**, waar nieuwe concepten voortkomen uit bestaande wetenschappelijke kennis
-* **Computational**, waar we nieuwe principes ontdekken op basis van enkele computationele experimenten
-* **Data-Driven**, gebaseerd op het ontdekken van relaties en patronen in de data  
-
-## Andere gerelateerde vakgebieden
-
-Omdat data alomtegenwoordig is, is data science zelf ook een breed vakgebied, dat veel andere disciplines raakt.
-
-<dl>
-<dt>Databases</dt>
-<dd>
-Een kritische overweging is **hoe de gegevens op te slaan**, d.w.z. hoe deze te structureren op een manier die een snellere verwerking mogelijk maakt.  Er zijn verschillende soorten databases die gestructureerde en ongestructureerde gegevens opslaan, welke <a href ="../../../2-Working-With-Data/README.md">we in onze cursus zullen overwegen</a>.
-</dd>
-<dt>Big Data</dt>
-<dd>
-Vaak moeten we zeer grote hoeveelheden gegevens opslaan en verwerken met een relatief eenvoudige structuur.  Er zijn speciale benaderingen en hulpmiddelen om die gegevens op een gedistribueerde manier op een computercluster op te slaan en efficiënt te verwerken.
-</dd>
-<dt>Machine learning</dt>
-<dd>
-Een manier om gegevens te begrijpen is door **een model** te bouwen dat in staat zal zijn om een gewenste uitkomst te voorspellen.  Het ontwikkelen van modellen op basis van data wordt **machine learning** genoemd. Misschien wilt u een kijkje nemen op onze <a href = "https://aka.ms/ml-beginners">Machine Learning for Beginners</a> Curriculum om er meer over te weten te komen.
-</dd>
-<dt>kunstmatige intelligentie</dt>
-<dd>
-Een gebied van machine learning dat bekend staat als Artificial Intelligence (AI) is ook afhankelijk van gegevens en betreft het bouwen van modellen met een hoge complexiteit die menselijke denkprocessen nabootsen.  AI-methoden stellen ons vaak in staat om ongestructureerde data (bijvoorbeeld natuurlijke taal) om te zetten in gestructureerde inzichten. 
-</dd>
-<dt>visualisatie</dt>
-<dd>
-Enorme hoeveelheden gegevens zijn onbegrijpelijk voor een mens, maar zodra we nuttige visualisaties maken met behulp van die gegevens, kunnen we de gegevens beter begrijpen en enkele conclusies trekken. Het is dus belangrijk om veel manieren te kennen om informatie te visualiseren - iets dat we zullen behandelen in <a href="../../../3-Data-Visualization/README.md">Sectie 3</a> van onze cursus. Gerelateerde velden omvatten ook **Infographics** en **Mens-computerinteractie** in het algemeen. 
-</dd>
-</dl>
-
-## Typen van Data
-
-Zoals we al hebben vermeld, zijn gegevens overal te vinden.  We moeten het gewoon op de juiste manier vastleggen!  Het is handig om onderscheid te maken tussen **gestructureerde** en **ongestructureerde** data. De eerste wordt meestal weergegeven in een goed gestructureerde vorm, vaak als een tabel of een aantal tabellen, terwijl de laatste slechts een verzameling bestanden is.  Soms kunnen we het ook hebben over **semigestructureerde** gegevens, die een soort structuur hebben die sterk kan variëren.
-
-| Gestructureerde                                                                         | Semi-gestructureerde                                                                                        | Ongestructureerde                          |
-| --------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------- | ------------------------------------------ |
-| Lijst van mensen met hun telefoonnummer                                                 | Wikipedia pagina's met links                                                                                | Tekst van encyclopaedia Britannica         |
-| Temperatuur in alle kamers van een gebouw op elke minuut gedurende de laatste 20 jaar   | Verzameling van wetenschappelijke artikelen in JSON-formaat met auteurs, publicatiegegevens en een abstract | Bestanden opslag met bedrijfsdocumenten    |
-| Gegevens van leeftijd en geslacht van alle mensen die het gebouw betreden               | Internet pagina's                                                                                           | Onbewerkte videofeed van bewakingscamera's |
-
-## Waar data vandaan te halen
-
-Er zijn veel mogelijke gegevensbronnen en het zal onmogelijk zijn om ze allemaal op te sommen! Laten we echter enkele van de typische plaatsen noemen waar u gegevens kunt krijgen:
-
-* **Gestructureerd**
-  - **Internet of Things** (IoT), inclusief data van verschillende sensoren, zoals temperatuur- of druksensoren, leveren veel bruikbare data op.  Als een kantoorgebouw bijvoorbeeld is uitgerust met IoT-sensoren, kunnen we automatisch verwarming en verlichting regelen om de kosten te minimaliseren. 
-  - **Enquêtes** die we gebruikers vragen in te vullen na een aankoop of na een bezoek aan een website.
-  - **Analyse van gedrag** kan ons bijvoorbeeld helpen begrijpen hoe diep een gebruiker in een website gaat en wat de typische reden is om de site te verlaten.
-* **Ongestructureerd **
-  - **Teksten** kunnen een rijke bron van inzichten zijn, zoals een algemene **sentimentscore**, of het extraheren van trefwoorden en semantische betekenis.
-  - **Afbeeldingen** of **Video**. Een video van een bewakingscamera kan worden gebruikt om het verkeer op de weg in te schatten en mensen te informeren over mogelijke files.
-  - Webserver **Logs** kunnen worden gebruikt om te begrijpen welke pagina's van onze site het vaakst worden bezocht en voor hoe lang.
-* Semi-gestructureerd
-  - **Social Network** grafieken kunnen geweldige bronnen van gegevens zijn over gebruikerspersoonlijkheden en potentiële effectiviteit bij het verspreiden van informatie.
-  - Wanneer we een heleboel foto's van een feest hebben, kunnen we proberen **Group Dynamics**-gegevens te extraheren door een grafiek te maken van mensen die met elkaar foto's maken.
-
-Door verschillende mogelijke databronnen te kennen, kun je proberen na te denken over verschillende scenario's waarin data science technieken kunnen worden toegepast om de situatie beter te leren kennen en bedrijfsprocessen te verbeteren.
-
-## Wat je met Data kunt doen
-
-In Data Science richten we ons op de volgende stappen van data journey:
-
-<dl>
-<dt>1) Data-acquisitie</dt>
-<dd>
-De eerste stap is het verzamelen van de gegevens.  Hoewel het in veel gevallen een eenvoudig proces kan zijn, zoals gegevens die vanuit een webapplicatie naar een database komen, moeten we soms speciale technieken gebruiken. Gegevens van IoT-sensoren kunnen bijvoorbeeld overweldigend zijn en het is een goede gewoonte om bufferingseindpunten zoals IoT Hub te gebruiken om alle gegevens te verzamelen voordat ze verder worden verwerkt.
-</dd>
-<dt>2) Gegevensopslag</dt>
-<dd>
-Het opslaan van gegevens kan een uitdaging zijn, vooral als we het hebben over big data.  Wanneer u beslist hoe u gegevens wilt opslaan, is het logisch om te anticiperen op de manier waarop u de gegevens in de toekomst zou opvragen.  Er zijn verschillende manieren waarop gegevens kunnen worden opgeslagen:
-<ul>
-<li>Een relationele database slaat een verzameling tabellen op en gebruikt een speciale taal genaamd SQL om deze op te vragen.  Tabellen zijn meestal georganiseerd in verschillene groepen die schema's worden genoemd.  In veel gevallen moeten we de gegevens van de oorspronkelijke vorm converteren naar het schema.</li>
-<li><a href="https://en.wikipedia.org/wiki/NoSQL">A NoSQL</a> database, zoals <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, dwingt geen schema's af op gegevens en maakt het opslaan van complexere gegevens mogelijk, bijvoorbeeld hiërarchische JSON-documenten of grafieken. NoSQL-databases hebben echter niet de uitgebreide querymogelijkheden van SQL en kunnen geen referentiële integriteit afdwingen, d.w.z. regels over hoe de gegevens in tabellen zijn gestructureerd en de relaties tussen tabellen regelen.</li>
-<li><a href="https://en.wikipedia.org/wiki/Data_lake">Data Lake</a> opslag wordt gebruikt voor grote verzamelingen gegevens in ruwe, ongestructureerde vorm. Data lakes worden vaak gebruikt met big data, waarbij alle data niet op één machine past en moet worden opgeslagen en verwerkt door een cluster van servers. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> is het gegevensformaat dat vaak wordt gebruikt in combinatie met big data.</li> 
-</ul>
-</dd>
-<dt>3) Gegevensverwerking</dt>
-<dd>
-Dit is het meest spannende deel van het gegevenstraject, waarbij de gegevens van de oorspronkelijke vorm worden omgezet in een vorm die kan worden gebruikt voor visualisatie / modeltraining.  Bij het omgaan met ongestructureerde gegevens zoals tekst of afbeeldingen, moeten we mogelijk enkele AI-technieken gebruiken om **functies** uit de gegevens te destilleren en deze zo naar gestructureerde vorm te converteren.
-</dd>
-<dt>4) Visualisatie / Menselijke inzichten</dt>
-<dd>
-Vaak moeten we, om de gegevens te begrijpen, deze visualiseren.  Met veel verschillende visualisatietechnieken in onze toolbox kunnen we de juiste weergave vinden om inzicht te krijgen.  Vaak moet een data scientist "spelen met data", deze vele malen visualiseren en op zoek gaan naar wat relaties.  Ook kunnen we statistische technieken gebruiken om een hypothese te testen of een correlatie tussen verschillende gegevens te bewijzen.   
-</dd>
-<dt>5) Het trainen van een voorspellend model</dt>
-<dd>
-Omdat het uiteindelijke doel van data science is om beslissingen te kunnen nemen op basis van data, willen we misschien de technieken van <a href="http://github.com/microsoft/ml-for-beginners">Machine Learning</a> gebruiken om een voorspellend model te bouwen.  We kunnen dit vervolgens gebruiken om voorspellingen te doen met behulp van nieuwe datasets met vergelijkbare structuren.
-</dd>
-</dl>
-
-Natuurlijk, afhankelijk van de werkelijke gegevens, kunnen sommige stappen ontbreken (bijvoorbeeld wanneer we de gegevens al in de database hebben opgeslagen of wanneer we geen modeltraining nodig hebben), of sommige stappen kunnen meerdere keren worden herhaald (zoals gegevensverwerking).
-
-## Digitalisering en digitale transformatie
-
-In het afgelopen decennium begonnen veel bedrijven het belang van gegevens te begrijpen bij het nemen van zakelijke beslissingen.  Om data science-principes toe te passen op het opereren van een bedrijf, moet men eerst wat gegevens verzamelen, d.w.z. bedrijfsprocessen vertalen naar digitale vorm. Dit staat bekend als **digitalisering**.  Het toepassen van data science-technieken op deze gegevens om beslissingen te sturen, kan leiden tot aanzienlijke productiviteitsstijgingen (of zelfs zakelijke spil), **digitale transformatie** genoemd.
-
-Laten we een voorbeeld nemen.  Stel dat we een data science-cursus hebben (zoals deze) die we online aan studenten geven, en we willen data science gebruiken om het te verbeteren.  Hoe kunnen we dat doen?
-
-We kunnen beginnen met de vraag "Wat kan worden gedigitaliseerd?"  De eenvoudigste manier zou zijn om de tijd te meten die elke student nodig heeft om elke module te voltooien en om de verkregen kennis te meten door aan het einde van elke module een meerkeuzetest te geven.  Door het gemiddelde te nemen van de time-to-complete over alle studenten, kunnen we erachter komen welke modules de meeste problemen veroorzaken voor studenten en werken aan het vereenvoudigen ervan.
-
-> Je zou kunnen stellen dat deze aanpak niet ideaal is, omdat modules van verschillende lengtes kunnen zijn.  Het is waarschijnlijk eerlijker om de tijd te delen door de lengte van de module (in aantal tekens) en in plaats daarvan die waarden te vergelijken.
-
-Wanneer we beginnen met het analyseren van resultaten van meerkeuzetoetsen, kunnen we proberen te bepalen welke concepten studenten moeilijk kunnen begrijpen en die informatie gebruiken om de inhoud te verbeteren.  Om dat te doen, moeten we tests zo ontwerpen dat elke vraag is toegewezen aan een bepaald concept of een deel van de kennis.
-
-Als we het nog ingewikkelder willen maken, kunnen we de tijd die voor elke module nodig is, uitzetten tegen de leeftijdscategorie van studenten.  We kunnen erachter komen dat het voor sommige leeftijdscategorieën ongepast lang duurt om de module te voltooien, of dat studenten afhaken voordat ze het voltooien.  Dit kan ons helpen leeftijdsaanbevelingen voor de module te geven en de ontevredenheid van mensen over verkeerde verwachtingen te minimaliseren.
-
-## 🚀 Uitdaging
-
-In deze challenge proberen we concepten te vinden die relevant zijn voor het vakgebied Data Science door te kijken naar teksten.  We nemen een Wikipedia-artikel over Data Science, downloaden en verwerken de tekst en bouwen vervolgens een woordwolk zoals deze:
-
-![Word Cloud for Data Science](../images/ds_wordcloud.png)
-
-Ga naar ['notebook.ipynb'](notebook.ipynb) om de code door te lezen.  Je kunt de code ook uitvoeren en zien hoe alle gegevenstransformaties in realtime worden uitgevoerd. 
-
-> Als je niet weet hoe je code in een Jupyter Notebook moet uitvoeren, kijk dan eens naar [dit artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## Opdrachten
-
-* **Taak 1**: Wijzig de bovenstaande code om gerelateerde concepten te achterhalen voor de velden **Big Data** en **Machine Learning**
-* **Taak 2**: [Denk na over Data Science-scenario's] (assignment.md)
-
-## Credits
-
-Deze les is geschreven met ♥️ door [Dmitry Soshnikov] (http://soshnikov.com)
--- a/1-Introduction/01-defining-data-science/translations/README.pt-br.md
+++ b/1-Introduction/01-defining-data-science/translations/README.pt-br.md
@ -1,165 +0,0 @@
-# Definindo Ciências de Dados
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
-|:---:|
-|Definindo Ciências de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
---
-
-[![Definindo Ciências de Dados](../images/video-def-ds.png)](https://youtu.be/pqqsm5reGvs)
-
-## [Quiz pré-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## O que são Dados?
-Na nossa vida cotidiana, nós estamos constantemente cercados por dados. O texto que você está lendo agora é um dado, a lista de telefones dos seus amigos no seu celular é um dado, assim como o horário atual mostrado no seu relógio. Como seres humanos, nós operamos naturalmente com dados. contando o dinheiro que temos ou escrevendo cartas para os nossos amigos.
-
-No entanto, os dados se tornaram muito mais críticos com a criação de computadores. O papel principal dos computadores é realizar computações, mas eles precisam de dados para operar sobre. Portanto, nós precisamos entender como os computadores armazenam e processam dados.
-
-Com o surgimento da Internet, o papel dos computadores como dispositivos de manipulação de dados aumentou. Se você parar para pensar, agora nós usamos computadores cada vez mais para processamento de dados e comunicação, ao invés de cálculos reais. Quando escrevemos um e-mail para um amigo ou procuramos por alguma informação na Internet - nós estamos essencialmente criando, armazenando, transmitindo, e manipulando dados.
-> Você consegue se lembrar da última vez que usou computadores para de fato computar algo?
-
-## O que é Ciência de Dados?
-
-Na [Wikipedia (PT-BR)](https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados), **Ciência de Dados** é definida como *uma área interdisciplinar voltada para o estudo e a análise de dados econômicos, financeiros e sociais, estruturados e não-estruturados, que visa a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão*.
-
-Essa definição destaca os seguintes aspectos importantes da ciência de dados:
-
-* O principal objetivo da ciência de dados é **extrair conhecimento** dos dados, em outras palavras - **entender** os dados, encontrar alguma relação escondida e construir um **modelo**.
-* Ciência de dados utiliza **métodos científicos**, como probabilidade e estatística. Na verdade, quando o termo *ciência de dados* foi introduzido pela primeira vez, algumas pessoas argumentaram que ciência de dados é apenas um nome chique para estatística. Hoje em dia ficou mais evidente que esse campo é muito mais amplo.
-* Conhecimento adquirido deve ser aplicado para produzir algum **insight para possível tomada de decisão**.
-* Nós devemos ser capazes de operar tanto nos dados **estruturados** quanto nos **não estruturados**. Nós voltaremos a discutir diferentes tipos de dados mais para a frente no curso.
-* **Domínio de aplicação** é um conceito importante, e cientistas de dados frequentemente precisam de pelo menos algum grau de perícia no domínio do problema.
-
-> Outro importante aspecto da Ciência de Dados é que ela estuda como os dados podem ser coletados, armazenados e operados por meio de computadores. Enquanto estatística nos fornece fundações matemáticas, ciência de dados aplica conceitos matemáticos para de fato desenhar percepções a partir dos dados.
-
-Uma das formas (atribuída a [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) para olhar para ciência de dados é considerar que ela é um paradigma separado da ciência:
-* **Empírico**, onde nos baseamos majoritariamente nas observações e resultados dos experimentos
-* **Teórico**, onde novos conceitos surgem a partir de conhecimentos cientificos já existentes
-* **Computacional**, onde nós descobrimos novos princípios baseado em algum experimento computacional
-* **Orientado por Dados**, baseado na descoberta de relações e padrões nos dados
-
-## Outros Campos Relacionados
-
-Já que dados são um conceito difundido, a ciência de dados em si também é um campo amplo, abrangendo muitas outras disciplinas relacionadas.
-
-<dl>
-<dt>Banco de Dados</dt>
-<dd>
-A coisa mais óbvia a considerar é **como armazenar** os dados, ex. como estruturá-los de uma forma que permite um processamento rápido. Existem diferentes tipos de banco de dados que armazenam dados estruturados e não estruturados, que <a href="../../../2-Working-With-Data/README.md">nós vamos considerar nesse curso</a>.
-</dd>
-<dt>Big Data</dt>
-<dd>
-Frequentemente precisamos armazenar e processar quantidades muito grandes de dados com estruturas relativamente simples. Existem algumas abordagens e ferramentas especiais para armazenar esses dados de uma forma distribuída em um cluster de computer, e processá-los de forma eficiente.
-</dd>
-<dt>Aprendizado de Máquina</dt>
-<dd>
-Uma das maneiras de entender dados é **construir um modelo** que será capaz de predizer o resultado esperado. Ser capaz de aprender esses modelos a partir de dados é a área estudada em **aprendizado de máquina**. Você talvez queira olhar o nosso Currículo de <a href="https://aka.ms/ml-beginners">Aprendizado de Máquina para Iniciantes</a> para ir mais a fundo nessa área.
-</dd>
-<dt>Inteligência Artificial</dt>
-<dd>
-Como aprendizado de máquina, inteligência artificial também se baseia em dados, e envolve construir modelos de alta complexidade que irão exibir um comportamento similar ao dos seres humanos. Além disso, métodos de IA frequentemente nos permite transformar dados não estruturados (ex. linguagem natural) em dados estruturados extraindo algumas percepções.
-</dd>
-<dt>Visualização</dt>
-<dd>
-Vastas quantidades de dados são incompreensíveis para o ser humano, mas uma vez que criamos visualizações úteis - nós podemos começar a dar muito mais sentido aos dados, e desenhar algumas conclusões. Portanto, é importante conhecer várias formas de visualizar informação - algo que vamos cobrir na <a href="../../../3-Data-Visualization/README.md">Seção 3</a> do nosso curso. Áreas relacionadas também incluem **Infográficos**, e **Interação Humano-Computador** no geral.
-</dd>
-</dl>
-
-## Tipos de Dados
-
-Como nós já mencionamos - dados estão em todos os lugares, nós só precisamos coletá-los da maneira certa! É útil distinguir entre dados **estruturados** e **não estruturados**. Os primeiros são tipicamente representados em alguma forma bem estruturado, frequentemente como uma ou várias tabelas, enquanto o segundo é apenas uma coleção de arquivos. Algumas vezes nós também podemos falar de dados **semi estruturados**, que possuem alguma estrutura que pode variar muito.
-
-| Estruturado | Semi-estruturado | Não estruturado |
-|----------- |-----------------|--------------|
-| Lista de pessoas com seus números de telefones | Páginas da Wikipédia com links | Texto da Encyclopædia Britannica |
-| Temperatura de todos os quartos de um prédio a cada minuto nos últimos 20 anos | Coleções de artigos cientificos em formato JSON com autores, datas de publicação, e abstract | Compartilhamento de arquivos com documentos corporativos |
-| Dados para idades e gêneros de todas as pessoas entrando em um prédio | Páginas da Internet | Feed de vídeo bruto da câmera de vigilância |
-
-## Onde conseguir Dados
-
-Existem muitas fontes possíveis de dados, e será impossível listar todas elas. No entanto, vamos mencionar alguns dos lugares típicos onde você pode obter dados:
-
-* **Estruturado**
-  - **Internet das Coisas**, incluindo dados de diferentes sensores, como sensores de temperatura ou de pressão, fornece muitos dados úteis. Por exemplo, se um escritório de um prédio é equipado com sensores IoT, nós podemos automaticamente controlar o aquecimento e a iluminação com o objetivo de minimizar custos.
-  - **Pesquisas** que podemos fazer para os usuários depois de uma compra, ou visitar um web site.
-  - **Análise de comportamento** pode, por exemplo, nos ajudar a entender o quão longe um usuário vai dentro de um site, e qual tipicamente é a razão para deixar um site.
-* **Não estruturado**
-  - **Textos** podem ser uma fonte rica de insights, começando da **pontuação geral de sentimento** (sentiment score), até a extração de palavras chaves e até algum significado semântico.
-  - **Imagens** ou **Vídeo**. Um vídeo de uma câmera de vigilância pode ser usado para estimar o tráfico na rua, e informar as pessoas sobre possíveis engarrafamentos.
-  - **Logs**  de servidores web pode ser usado para entender quais páginas do nosso site são mais visitadas, e por quanto tempo.
-* Semi-estruturado
-  - Grafos das **Redes Sociais** podem ser uma boa fonte de dados sobre a personalidade do usuário e a eficácia potencial em espalhar informações.
-  - Quando nós temos um monte de fotos de uma festa, nós podemos tentar extrair dados sobre **Dinâmicas de Grupo** construindo um grafo de pessoas tirando fotos umas das outras.
-
-Conhecendo as diferentes fontes possíveis de dados, você pode tentar pensar sobre diferentes cenários onde técnicas de ciência de dados podem ser aplicadas para conhecer a situação melhor, e melhorar o processo de negócio.
-
-## O que você pode fazer com Dados
-
-Em Ciência de Dados, nós focamos em seguir os passos da jornada dos dados:
-
-<dl>
-<dt>1) Aquisição de Dados</dt>
-<dd>
-Primeiro passo é coletar os dados. Enquanto em muitos casos isso pode ser um processo direto, como dados vindo para um banco de dados a partir de uma aplicação web, algumas vezes nós precisamos usar técnicas especiais. Por exemplo, dados de sensores de IoT podem ser muito pesados, e é uma boa prática usar buffering endpoints como Hub de IoT para coletar todos os dados antes de processá-los.
-</dd>
-<dt>2) Armazenamento de Dados</dt>
-<dd>
-Armazenar os dados pode ser desafiador, especialmente se estamos falando de big data. Enquanto decide como armazenar os dados, faz sentido antecipar a forma como você gostaria de consultá-los mais tarde. Existem diversas formas de como os dados podem ser armazenados:
-<ul>
-<li> Bancos de dados relacionais armazenam uma coleção de tabelas, e utilizam uma linguagem especial chamada SQL para consultá-los. Tipicamente, tabelas seriam conectadas umas às outras usando algum schema. Em vários casas nós precisamos converter os dados da forma original para ajustar al schema.</li>
-<li>Bancos de dados <a href="https://en.wikipedia.org/wiki/NoSQL">NoSQL</a>, como <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, não impõe schema nos dados, e permite o armazenamento de dados mais complexos, como por exemplo, documentos hierárquicos JSON ou grafos. No entanto, bancos de dados NoSQL não possuem a capacidade rica de consulta do SQL, e não podem impor integridade referencial entre os dados.</li>
-<li>Armazenamento em <a href="https://en.wikipedia.org/wiki/Data_lake">Data Lake</a> é usado para grandes coleções de dados na forma bruta. Data lakes são frequentemente usados para big data, onde todos não podem se encaixar em uma máquina, e precisam ser armazenados e processados por um cluster. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> é o formato de dado que é frequentemente usado em conjunção com big data.</li> 
-</ul>
-</dd>
-<dt>3) Processamento de Dados</dt>
-<dd>
-Esse é a parte mais emocionante da jornada dos dados, que envolve processar os dados de sua forma original para a forma que pode ser usada para visualização/treinamento do modelo. Quando lidando com dados não estruturados como textos ou imagens, nós podemos precisar de algumas técnicas de IA para extrair **features** dos dados, convertendo-os então para a forma estruturada.
-</dd>
-<dt>4) Visualização / Percepções Humanas</dt>
-<dd>
-Frequentemente para entender os dados precisamos visualizar eles. Tendo várias técnicas de visualização diferentes na nossa caixa de ferramentas, nós podemos encontrar a visualização certa para termos um insight. Frequentemente, cientistas de dados precisam "brincar com dos dados", visualizando-os várias vezes e procurando alguma relação. Também, nós podemos usar algumas técnicas de estatísticas para testar alguma hipótese ou provar uma correlação entre pedaços diferentes de dados.
-</dd>
-<dt>5) Treinando modelos preditivos</dt>
-<dd>
-Já que o maior objetivo da ciência de dados é ser capaz de tomar decisões baseadas em dados, nós podemos querer usar técnicas de <a href="http://github.com/microsoft/ml-for-beginners">Aprendizando de Máquina</a> para construir modelos preditivos que serão capazes de resolver nosso problema.
-</dd>
-</dl>
-
-Claro, dependendo dos dados em si alguns passos podem ser ignorados (ex., quando já temos os dados em nosso banco de dados, ou quando não precisamos treinar o modelo), ou repetidos várias vezes (como processamento de dados).
-
-## Digitalização e Transformação Digital
-
-Na última década, muitos negócios começaram a entender a importância dos dados para fazer uma decisão de negócio. Para aplicar os princípios da ciência de dados para gerenciar um negócio é necessário coletar alguns dados, ex. transformar de alguma forma processos de negócio em formato digital. Isso é conhecido como **digitalização**, seguido pelo uso técnicas de ciência de dados para guiar as decisões frequentemente leva a um aumento significante da produtividade (ou mesmo pivô de negócios), chamado de **transformação digital**.
-
-Vamos considerar um exemplo. Suponha que temos um curso de ciência de dados (como esse), que é feito online pelos estudantes, e que queremos usar ciência de dados para melhorá-lo. Como podemos fazer isso?
-
-Nós podemos começar pensando "o que pode ser digitalizado?". A maneira mais simples seria medir o tempo que cada estudante leva para completar cada módulo, e o conhecimento obtido (ex. dando questões de múltipla escolha no final de cada módulo). Tendo a média que todos os estudantes levam para completar, nós podemos descobrir quais módulos causam mais problemas para os estudantes, e trabalhar para simplificá-los.
-
-> Você pode argumentar que essa abordagem não é ideal, pois os módulos podem ter tamanhos diferentes. Provavelmente seria mais justo dividir o tempo pelo tamanho do módulo (em número de caracteres), e comparar esses valores.
-
-Quando começamos a analisar os resultados das questões de múltipla escolha, nós podemos tentar descobrir conceitos específicos que os estudantes não entendem muito bem, e melhorar o conteúdo. Para fazer isso nós precisamos fazer questões de uma forma que cada questão mapeia para um certo conteúdo ou conhecimento.
-
-Se nós quiséssemos complicar ainda mais, nós podemos "plotar" o tempo levado para cada módulo em relação à categoria de idade de cada estudante. Nós podemos descobrir que alguma categoria de idade leva um tempo inapropriadamente longo para completar o módulo, ou os estudantes que abandonam em um certo ponto. Isso pode nos ajudar a fornecer recomendações de idade para o módulo, e minimizar a insatisfação das pessoas para expectativas erradas.
-
-## 🚀 Desafio
-
-Nesse desafio, nós vamos tentar encontrar conceitos relevantes para a área de Ciência de Dados olhando textos. Nós vamos pegar um artigo da Wikipedia sobre Ciência de Dados, baixar e processar o texto, e então construir uma nuvem de palavras como essa:
-
-![Nuvem de Palavras para Ciência de Dados](../images/ds_wordcloud.png)
-
-Visite [`notebook.ipynb`](../notebook.ipynb) para ler o código. Você também pode rodar esse código, e ver como ele performa toda a transformação de dados em tempo real.
-
-> Se você não sabe como rodar códigos no Jupyter Notebook, dê uma olhada [nesse artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-
-
-## [Quiz pós-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## Tarefas
-
-* **Tarefa 1**: Modifique o código acima para descobrir conceitos relacionados para as áreas de **Big Data** e **Aprendizado de Máquina**
-* **Tarefa 2**: [Pense Sobre Cenários de Ciência de Dados](assignment.pt-br.md)
-
-## Créditos
-
-Essa aula foi autorado com ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
--- a/1-Introduction/01-defining-data-science/translations/README.ru.md
+++ b/1-Introduction/01-defining-data-science/translations/README.ru.md
@ -1,177 +0,0 @@
-# Что такое наука о данных?
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
-|:---:|
-|Что такое наука о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ |
-
---
-
-[![Defining Data Science Video](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I)
-
-## [Вступительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
-
-## Что такое данные?
-В повседневной жизни мы окружены данными. Текст, который Вы в данный момент читаете, является данными, список номеров телефонов друзей в Вашем смартфоне является данными, также как и время на Ваших часах. Люди умеют оперировать даными естественным образом, считая деньги, которые у нас есть, или составляя письма нашим друзьям.
-
-Однако данные стали намного более важными с изобретением компьютеров. Главная роль компьютеров заключается в вычислениях, но им нужны данные, над которыми их производить. Таким образом, нам необходимо понимать, как компьютеры хранят и обрабатывают информацию.
-
-С появлением Интернета роль компьютеров как вычислительных устройств возрасла. Если задуматься, сейчас мы всё больше используем компьютеры для обработки данных и коммуникации, чем непосредственно для вычислений. Когда пишем электронное письмо другу или ищем что-то в Интернете, мы, в действительности, создаём, храним, передаём и управляем данными.
-
->Можете ли Вы припомнить, когда последний раз использовали компьютер, чтобы что-то посчитать?
-
-## Что такое наука о данных?
-
-В [Википедии](https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0_%D0%BE_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85), **Наука о данных** определяется как *научная область, использующая научные методы для извлечения знаний и инсайтов из структурированных и неструктурированных данных и для применения их в широком спектре приложений.*
-
-Данное определение подчеркивает следующие важные аспекты науки о данных:
-
-* Главная цель науки о данных - **извлечение знаний** из данных, другими словами, - **понимание** данных, нахождение скрытых взаимосвязей и построение **модели**.
-* Наука о данных использует **научные методы**, заимствованные из теории вероятности и статистики. Когда термин "наука о данных" был впервые введён, некоторые специалисты заявляли, что наука о данных - это просто новое модное название статистики. Сегодня уже стало очевидно, что данная область гораздо шире.
-* Полученные знания должны быть использованы для получения **практических инсайтов**.
-* Мы должны уметь оперировать как **структурированными** так и **неструктурированными данными**. Мы вернёмся к обсуждению различных типов данных далее в нашем курсе.
-* **Область применения** - важное понятие, и специалисту в науке о данных часто необходима экспертиза в предметной области.
-
-> Другой важный аспект науки о данных заключается в том, что она исследует, как данные должны быть собраны, сохранены и обработаны с использованием компьютеров. В то время как статистика предоставляет нам математические основы, наука о данных применяет математические знания для того, чтобы извечь инсайты из данных.
-
-Одним из способов (приписываемым [Джиму Грею](https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B5%D0%B9,_%D0%94%D0%B6%D0%B8%D0%BC)) взглянуть на науку о данных является рассмотрение её как отдельных научных парадигм:
-
-* Эмпирической, следуя которой мы полагаемся в большей степени на наблюдения и результаты экспериментов.
-* Теоретической, в которой новые концепции появляются из уже существующих научных знаний.
-* Вычислительной, в которой мы открываем новые принципы, основанные на вычислительных экспериментах.
-* Парадигмой на основе данных (data-driven), которая основывается на исследовании взаимосвязей и паттернов в данных.
-
-## Другие смежные области
-
-Так как данные - это всепроникающая концепция, наука о данных сама по себе также является широкой областью, пересекающаяся с другими дисциплинами.
-
-<dl>
-<dt>Базы данных</dt>
-<dd>
-
-Самым очевидным вопросом является "как хранить" данные, т.е. как организовать их так, чтобы обеспечить более быструю обработку. Существуют различные типы баз данных, позволяющие хранить структурированные и неструктурированные данные, <a href="../../2-Working-With-Data/translations/README.ru.md"> которые мы рассмотрим далее в нашем курсе</a>.
-</dd>
-<dt>Область больших данных</dt>
-<dd>
-
-Зачастую нам необходимо хранить и обрабатывать по-настоящему огромное количество данных с относительно простой структурой. Для этого существуют специальные подходы и методы хранения и эффективной обработки таких данных распределённым способом на вычислительном кластере.
-</dd>
-<dt>Машинное обучение</dt>
-<dd>
-
-Одним из способов понять данные это **построить модель**, способную предсказывать желаемую величину. Способность обучать подобные модели на данных изучается в **машинном обучении**. При желании Вы можете взглянуть на наш курс <a href="https://aka.ms/ml-beginners">"Машинное обучение для начинающих"</a>, чтобы погрузиться глубже в данную область.
-</dd>
-<dt>Искусственный интеллект</dt>
-<dd>
-
-Также как и машинное обучение, искусственный интеллект строится на данных и включает в себя построение сложных комплексных моделей, которые ведут себя подобно человеку. В дополнение, методы ИИ часто позволяют нам трансформировать неструктурированные данные (например, естественную речь) в структурированные при помощи извлечения некоторых признаков. 
-</dd>
-<dt>Визуализация</dt>
-<dd>
-
-Человек способен воспринимать ограниченное количество данных, но с построением полезной визуализации мы начинаем извлекать больше смысла из данных и строить различные выводы. Таким образом, важно знать несколько способов визуализации информации, те, что мы изучим в <a href="../../3-Data-Visualization/translations/README.ru.md">Секции 3</a> нашего курса. Смежными областями здесь также являются **Инфографика** и **Человеко-машинное взаимодействие** в целом.
-</dd>
-</dl>
-
-## Типы данных
-
-Как мы уже упоминали, данные находятся повсюду, нам нужно просто правильно их собрать. Различают **структурированные** и **неструктурированные** данные. Первые часто представлены в чётко структурированном виде, зачастую в виде одной или нескольких таблиц, в то время как вторые являются простым набором файлов. Иногда мы можем выделить **полуструктурированнные** данные, которые имеют некоторую каждый раз различную структуру.
-
-| Структурированные | Полуструктурированные | Неструктурированные |
-|----------- |-----------------|--------------|
-| Список людей и их номеров телефона | Страницы Wikipedia с ссылками | Тексты энциклопедии Britannica |
-| Поминутная температура во всех помещениях здания за последние 20 лет | Коллекция научных статей в формате JSON с указанием авторов, даты публикации и краткого описания | Корпоративные документы общего доступа |
-| Возраст и пол каждого входящего в здание человека | Страницы сети Интернет | Необработанный видеопоток с камеры наблюдения |
-
-## Источники данных
-
-Существует множество возможных источников данных и невозможно перечислить их все. Однако, давайте рассмотрим несколько мест, где можно добыть данные:
-
-* **Структурированные данные**
-  - **Интернет вещей**, включающий в себя данные с различных датчиков, например, датчиков температуры или давления, содержит много полезных данных. В случае, если офисное помещение оборудовано датчиками с поддержкой Интернета вещей, то мы можем автоматически управлять отоплением и освещением, чтобы минимизировать затраты.
-  - **Опросы**, в которых участвуют пользователи после покупки товара или посещения сайта.
-  - **Анализ поведения**, например, может помочь понять, насколько далеко пользователь заходит на сайте и какие основные причины ухода с него.
-* **Неструктурированные данные**
-  - **Тексты** могут быть богатым источником инсайтов, начиная от общей **эмоциональной оценки** вплоть до извлечения ключевых слов и даже семантического значения.
-  - **Изображения** или **видео**. Видео с камеры наблюдения может быть использовано для оценки загруженности дорог и информирования о возможных пробках.
-  - **Логи** веб-сервисов могут быть использованы для того, чтобы понять, какие страницы нашего сайта посещают больше всего и насколько долго задерживаются на них.
-* **Полуструктурированные данные**
-  - Граф **социальной сети** может быть отличным источником данных о личности пользователя и возможной эффективности распространения информации рядом с ним.
-  - В случае, когда у нас имеется пачка фотографий с вечеринки, мы можем попытаться извлечь данные **групповой динамики**, построив граф людей, фотографировавшихся друг с другом.
-
-Зная различные возможные источники данных, Вы можете придумать другие сценарии, когда методы науки о данных могут быть применены наилучшим образом для усовершенствования бизнес-процессов.
-
-## Этапы работы с данными
-
-В науке о данных мы фокусируемся на следующих шагах работы с данными:
-
-<dl>
-<dt>1) Сбор данных</dt>
-<dd>
-Первый шаг - это сбор данных. Часто, это довольно примитивный процесс, например данные сохраняются в базу данных из веб-приложения, но иногда нам необходимые специальные методы. В случае данных с датчиков Интернета вещей, данных может оказаться слишком много, и хорошая практика использовать промежуточные точки, такие как хаб Интернета вещей, для сбора всех данных и последующей обработки.
-
-</dd>
-<dt>2) Хранение данных</dt>
-<dd>
-Хранение данных может быть непростой задачей, особенно когда мы говорим о больших данных. Принимая решение хранить данные, стоит продумать их дальнейшее использование. Вот некоторые из способов хранения данных:
-<ul>
-<li>Реляционные базы данных хранят коллекцию таблиц и используют специальный язык запросов SQL. Обычно, таблицы соединены друг с другом по определённой схеме. Очень часто нам необходимо преобразовать данные, чтобы они подходили под схему.
-</li>
-<li><a href="https://ru.wikipedia.org/wiki/NoSQL">Нереляционные (NoSQL)</a> базы данных, такие как  <a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>, не навязывают строгую модель данных и позволяют хранить более сложные данные, например иерархические JSON документы или графы. С другой стороны, нереляционные базы данных не имеют широких возможностей языка SQL и не гарантируют ссылочной целостности данных.
-</li>
-<li><a href="https://en.wikipedia.org/wiki/Data_lake">Озеро данных</a> - хранилище, используемое для больших коллекций "сырых" данных. Озёра данных часто встречаются в больших данных, когда все данные не помещаются в память одного компьютера и их необходимо хранить и обрабатывать вычислительным кластером. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a> - формат данных, часто применяемый в связке с большими данными.
-</li> 
-</ul>
-</dd>
-<dt>3) Обработка данных</dt>
-<dd>
-
-Это наиболее увлекательная часть работы с данными, которая включает в себя обработку данных из их оригинального формата в формат, пригодный для визуализации и/или обучения модели. Имея дело с неструктурированными данными, мы, возможно, вынуждены применять некоторые методы ИИ для извлечения **признаков** из данных, конвертируя их, таким образом, в структурированный формат.
-
-</dd>
-<dt>4) Визуализация / Визуальный анализ</dt>
-<dd>
-Зачастую, чтобы понять данные, нам необходимо их визуализировать. Имея множество различных методов визуализации, мы можем найти нужный для получения инсайта. Нередко, специалистам по данным необходимо "играть данными", визуализируя их несколько раз в поисках взаимосвязей. Мы также можем использовать статистические методы для проверки гипотез или для доказательства наличия корреляции между двумя наборами данных.
-</dd>
-<dt>5) Тренировка прогнозной модели</dt>
-<dd>
-Из-за того, что главная цель науки о данных - предоставить возможность принятия решения на основе данных, мы можем использовать методы <a href="http://github.com/microsoft/ml-for-beginners">машинного обучения</a> для построения прогнозной модели, которая будет способна решить нашу задачу.
-</dd>
-</dl>
-
-Разумеется, в зависимости от реальных данных некоторые шаги могут отсутствовать (например, в случае, когда наши данные уже лежат в базе данных или когда нам не нужно тренировать модель) или могут повторяться несколько раз (например, обработка данных).
-
-## Цифровизация и цифровая трансформация
-
-В последнее десятилетие, многие компании начали понимать важность данных при принятии решений. Чтобы применить науку о данных к бизнесу, необходимо собрать некоторые данные, т.е. преобразовать бизнес-процессы в цифровой формат. Этот процесс известен как **цифровизация** и сопровождается методами науки о данных для принятия решений. Зачастую, цифровизация ведёт к значительному увеличению продуктивности (и даже смене курса компании), называемому **цифровой трансформацией**.
-
-Рассмотрим пример. Предположим, у нас есть учебный курс по науке о данных (похожий на данный), который мы предоставляем нашим студентам в режиме онлайн, и мы хотим использовать методы науки о данных чтобы улучшить его. Как мы можем это сделать?
-
-Мы можем начать с вопроса "что может быть оцифровано"? Наиболее простой подход - измерить время, затрачиваемое студентами на прохождение каждого модуля, и полученные знания (например, организовав проверочный тест с несколькими вариантами ответов в конце каждого модуля). Усредняя время на завершение модуля по всем студентам, мы можем определить, какие модули курса вызывают наибольшие затруднения среди студентов, и поработать над их упрощением.
-
-> Вы, может быть, возразите, что данный подход не идеален, потому что разделы могут быть различной длины. Вероятно, наиболее справедливым будет разделить затраченное время на длину модуля (количество символов), и сравнить полученные величины.
-
-Когда мы приступаем к анализу результатов проверочных тестов, мы можем распознать отдельные понятия, которые студенты воспринимают плохо, и улучшить материал. Чтобы сделать это, нам необходимо спроектировать тесты таким образом, чтобы каждый вопрос покрывал определённое понятие или небольшую часть урока.
-
-Если же мы хотим усложнить задачу, мы можем построить график времени, затраченного на каждый модуль, и отметить возраст студентов. Мы можем узнать, что для некоторых возрастных категорий прохождение одного модуля занимает непозволительно много времени, или студенты бросают курс на каком-либо этапе. Это поможет нам предоставить возрастные рекомендации для модулей и минимизировать неудовлетворённость студентов от несоответствия их ожиданиям.
-
-## 🚀 Задача
-
-При решении данной задачи мы попробуем найти понятия, относящиеся к науке о данных, рассматривая тексты. Мы возьмем статьи из Википедии о науке о данных, скачаем и обработаем тексты, а затем построим облако слов, похожее на это:
-
-![Word Cloud for Data Science](../images/ds_wordcloud.png)
-
-Откройте [`notebook.ipynb`](../notebook.ipynb), чтобы ознакомиться с исходным кодом. Вы также можете запустить выполнение кода и понаблюдать, как происходит трансформация данных в реальном времени. 
-
-> Если Вы не знаете, как запустить код в Jupyter Notebook, прочтите [данную статью](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-
-## [Проверочный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
-
-## Домашнее задание
-
-* **Задача 1**: Доработайте код из задачи выше, чтобы узнать понятия, относящиеся к областям "большие данные" (**Big Data**) и "машинное обучение" (**Machine Learning**)
-* **Задача 2**: [Поразмыслите о сценариях работы в науке о данных](../assignment.md)
-
-## Благодарности
-
-Данный модуль был написан с ♥️ [Дмитрием Сошниковым](http://soshnikov.com)
--- a/1-Introduction/01-defining-data-science/translations/assignment.es.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.es.md
@ -1,32 +0,0 @@
-# Tarea: Escenarios de la ciencia de datos
-
-En esta primera tarea, os pedimos pensar sobre algún problema o proceso de la vida real en distintos contextos, y como se podrían solucionar o mejorar utilizando procesos de ciencia de datos. Piensa en lo siguiente:
-
-1. ¿Qué datos puedes obtener?
-1. ¿Cómo los obtendrías?
-1. ¿Cómo los almacenarías? ¿Qué tamaño es podemos esperar que tengan los datos?
-1. ¿Qué información podrías ser capaz de extraer de estos datos? ¿qué decisiones podríamos tomar basándonos en ellos?
-
-Intenta pensar en 3 diferentes problemas/procesos y describe cada uno de los puntos de arriba para el contexto de cada problema.
-
-Estos son algunos problemas o contextos que pueden ayudarte a empezar a pensar:
-
-1. ¿Cómo se pueden usar los datos para mejorar el proceso de educación de niños en los colegios?
-1. ¿Cómo podemos usar los datos para controlar la vacunación durante la pandemia?
-1. ¿Cómo se pueden usar los datos para asegurarnos de que somos productivos en nuestro trabajo?
-
-## Instrucciones
-
-Rellena la siguiente table (sustituye los problemas sugeridos por los propuestos por tí si es necesario):
-
-| Contexto del problema | Problema | Qué datos obtener | Cómo almacenar los datos | Qué información/decisiones podemos tomar | 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| Educación | | | | |
-| Vacunación | | | | |
-| Productividad | | | | |
-
-## Rúbrica
-
-Ejemplar | Adecuada | Necesita mejorar
--- | --- | -- |
-Es capaz de indentificar fuentes de datos razonables, formas de almacenarlos y posibles decisiones/información para todos los contextos | Algunos aspectos de la solución no están detallados, no se habla sobre el almacenamiento de los datos, al menos se describen dos contextos distintos | Solo se describen partes de la solución, solo se considera un contexto.
--- a/1-Introduction/01-defining-data-science/translations/assignment.hi.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.hi.md
@ -1,31 +0,0 @@
-# असाइनमेंट: डाटा साइंस के परिदृश्य
-
-इस असाइनमेंट मे हम चाहते हैं कि आप कुछ असल ज़िंदगी की दिक्कतें या क्रिया-कलाप सोचें विभिन्न क्षेत्रों मे, और फिर सोचें कि इसको हम डाटा साइंस के प्रयोग से कैसे सुधार सकते हैं| इन चीजों के बारे मे सोचें: 
-
-1. आप कौनसी डाटा इकट्ठा कर सकते हैं?
-1. आप उसको कैसे इकट्ठा करेंगे?
-1. आप उस डाटा को कैसे संग्रहीत करेंगे? वो डाटा कितनी बड़ी होगी?
-1. अस डाटा से आपको क्या अनुमान मिलेगा? उस डाटा के आधार पर आप क्या निर्णय ले सकते हैं?
-
-किन्ही 3 अलग दिक्कत या क्रिया-कलाप के बारे मे सोचे का प्रयास करें और ऊपर लिखे हर पॉइंट को अलग कार्यक्षेत्र के लिए वर्णित कीजिए|
-
-यहा कुछ कार्यक्षेत्र और दिक्कतें लिखी हैं जिनकी मदद से आप सोचना शुरू कर सकते हैं:
-
-1. आप डाटा का प्रयोग करके विद्यालय जा रहे बच्चों की शिक्षा कैसे सुधार सकते हैं?
-1. आप डाटा का प्रयोग करके महामारी के समय मे टीकाकरण कैसे नियंत्रित कर सकते हैं?
-1. आप डाटा का प्रयोग करके अपने काम मे कैसे और उत्पादक बन सकते हैं?
-## निर्देश:
-
-निम्नलिखित मेज को भरें (अपने विकल्प सुझावित क्षेत्रों की जगह लिखें अगर जरूरत हो तो):
-
-| समस्या डोमेन | समस्या | कॉनसी डाटा संग्रहीत करनी है | डाटा को कैसे संग्रहीत करना है  | कॉन्से निर्णय ले सकते हैं | 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| शिक्षा | | | | |
-| टीकाकरण | | | | |
-| उत्पादकता | | | | |
-
-## सरनामा
-
-अनुकरणीय | पर्याप्त | सुधार चाहिए
--- | --- | -- |
-डाटा के स्तोत्र को पहचानने मे, उसको भंडारित मे और निर्णय लेने मे सक्षम थे | समाधान के कुछ हिस्से विस्तृत नहीं हैं, डाटा को संग्रहीत करना नहीं बताया गया है, कम से कम दो क्षेत्रों का वर्णन है | समाधान के सिर्फ कुछ ही हिस्सों का वर्णन है, सिर्फ एक क्षेत्र पर विचार किया है|
--- a/1-Introduction/01-defining-data-science/translations/assignment.ko.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.ko.md
@ -1,31 +0,0 @@
-# 과제: 데이터 사이언스 시나리오
-
-이 첫 번째 과제에서는 실제 프로세스 또는 여러 문제 영역의 문제에 대해 생각하고 데이터 사이언스 프로세스를 사용하여 이를 개선할 수 있는 방법에 대해 생각해 보도록 요청합니다. 다음에 대해 생각해 보십시오.
-
-1. 어떤 데이터를 수집할 수 있습니까?
-1. 어떻게 모을 것인가?
-1. 데이터를 어떻게 저장하시겠습니까? 데이터가 얼마나 클 것 같습니까?
-1. 이 데이터에서 얻을 수 있는 통찰력은 무엇입니까? 데이터를 기반으로 어떤 결정을 내릴 수 있습니까?
-
-3가지 다른 문제/프로세스에 대해 생각하고 각 문제 영역에 대해 위의 각 요점을 설명하십시오.
-
-다음은 생각을 시작할 수 있는 몇 가지 문제 영역과 문제입니다.
-
-1. 학교에서 아이들의 교육 과정을 개선하기 위해 데이터를 어떻게 사용할 수 있습니까?
-1. 대유행 기간 동안 예방 접종을 통제하기 위해 데이터를 어떻게 사용할 수 있습니까?
-1. 직장에서 생산성을 유지하기 위해 데이터를 어떻게 사용할 수 있습니까?
-## 지침
-
-다음 표를 채우십시오(필요한 경우 제안된 문제 도메인을 자신의 도메인으로 대체).
-
-| 문제 도메인 | 문제 | 수집할 데이터 | 데이터를 저장하는 방법 | 우리가 내릴 수 있는 통찰력/결정| 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| 교육 | | | | |
-| 예방 접종 | | | | |
-| 생산성 | | | | |
-
-## 기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-합리적인 데이터 소스, 데이터 저장 방법 및 모든 도메인 영역에 대한 가능한 결정/통찰력을 식별할 수 있습니다. | 솔루션의 일부 측면이 상세하지 않고, 데이터 저장이 논의되지 않고, 적어도 2개의 문제 영역이 설명되어 있습니다. | 데이터 솔루션의 일부만 설명되고 하나의 문제 영역만 고려됩니다.
--- a/1-Introduction/01-defining-data-science/translations/assignment.nl.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.nl.md
@ -1,33 +0,0 @@
-# Opdracht: Data Science Scenarios
-
-In deze eerste opdracht vragen we je na te denken over processen of problemen van verschillende aspecten van het echte leven. Om vervolgens na te denken over hoe je deze kan verbeteren met Data Science. Denk bijvoorbeeld aan;
-
-1. Welke data kan ik verzamelen
-2. Hoe kan ik deze data verzamelen?
-3. Hoe wil ik deze data opslaan? Hoe groot zal de hoeveelheid data worden?
-4. Wat voor inzichten wil ik krijgen op deze data? Welke beslissingen kan ik gaan maken aan de hand van deze data?
-
-Probeer 3 verschillende problemen/processen te bedenken, en beschrijf voor elk van deze items het onderwerp van het probleem.
-
-Hier zijn wat voorbeeld onderwerpen om je in de goede richting te helpen:
-
-1. Hoe kan ik data gebruiken om het leertraject van kinderen op school te verbeteren?
-2. Hoe kan ik data gebruiken om controle te krijgen op het vaccinatieprocess tijdens de pandemie?
-3. Hoe kan ik data gebruiken om inzicht te krijgen in mijn productiviteit op het werk?
-
-
-## Instructies
-
-Vul de volgende tabel in (vul je eigen onderwerp in, indien nodig):
-
-| Probleem Onderwerp | Probleem | Welke data te verzamelen | Hoe de data te verzamelen | Welke inzichten/beslissingen wil ik maken | 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| Onderwijs | | | | |
-| Vaccinaties | | | | |
-| Productiviteit | | | | |
-
-## Rubriek
-
-Uitstekend | Adequaat | Vereist verbetering
--- | --- | -- |
-Men kon voldoende databronnen vinden, deze juist opslaan en hier de juiste inzichten aan ontlenen voor alle probleemstellingen. | Sommige aspecten van de oplssing zijn niet concreet, de data opslag is niet gedefinieerd, tenminste 2 van de probleemstellingen zijn besproken. | Enkele onderdelen van de oplossing zijn beschreven, slechts een van de probleemstellingen is besproken.
--- a/1-Introduction/01-defining-data-science/translations/assignment.pt-br.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.pt-br.md
@ -1,31 +0,0 @@
-# Tarefa: Cenários de Ciência de Dados
-
-Nessa primeira tarefa, nós pedimos que você pense sobre algum processo ou problema da vida real em diferentes domínios de problemas, e como você pode melhorar isso usando o processo de Ciência de Dados: Pense sobre:
-
-1. Quais dados você pode coletar?
-1. Como você coletaria os dados?
-1. Como você armazenaria os dados? O quão grande os dados provavelmente são?
-1. Quais insights você pode ter a partir desses dados? Quais decisões nós podemos fazer baseando-se nos dados?
-
-Tente pensar sobre 3 diferentes problemas/processos e descreva cada um dos pontos acimas para cada domínio de problemas.
-
-Aqui estão alguns dos domínio de problemas e problemas que podem te ajudar a começar a pensar:
-
-1. Como você usa dados para melhorar o processo de educação para crianças nas escolas?
-1. Como você usa dados para controlar vacinação em uma pandemia?
-1. Como você usa dados para garantir que você está sendo produtivo no trabalho?
-## Instruções
-
-Preencha a seguinte tabela (substitua os domínios de problemas sugeridos pelos os seus próprios se necessário):
-
-| Domínio de Problema | Problema | Quais dados a serem coletados | Como armazenar os dados | Quais insights/decisões nós podemos fazer | 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| Educação | | | | |
-| Vacinação | | | | |
-| Produtividade | | | | |
-
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-Um foi capaz de identificar fontes de dados razoáveis, formas de armazenar dados e possíveis insights/decisões para todos os domínios de problema | Alguns dos aspectos da solução não estão detalhados, armazenamento de dados não é discutido, pelo menos 2 domínios de problemas são descritos | Apenas parte da solução de dados são descritas, apenas um domínio de problema é considerado.
--- a/1-Introduction/01-defining-data-science/translations/assignment.ru.md
+++ b/1-Introduction/01-defining-data-science/translations/assignment.ru.md
@ -1,32 +0,0 @@
-# Домашнее задание: сценарии в науке о данных
-
-В первом домашнем задании Вам предлагается рассмотреть процессы в реальном мире или проблемы в различных областях и как вы можете улучшить положение дел используя науку о данных. Ответьте на следующие вопросы:
-
-1. Какие данные Вы планируете собирать?
-1. Как Вы хотите собрать данные?
-1. Как Вы будете хранить данные? Насколько большими будут они?
-1. Какие инсайты Вы сможете извлечь из этих данных? Какие решения сможете принять на основе этих данных?
-
-Подумайте о трёх различных проблемах/процессах и опишите каждую по пунктам, приведённым выше.
-
-Ниже приведены некоторые области и проблемы в них, с которых Вы можете начать:
-
-1. Как можно использовать данные, чтобы улучшить образовательный процесс в школах?
-1. Как можно использовать данные, чтобы управлять вакцинацией в период пандемии?
-1. Как можно использовать данные, чтобы повысить свою продуктивность на работе?
-
-## Форма ответов
-
-Заполните следующую таблицу (замените предложенные области на другие, если необходимо):
-
-| Область | Проблема | Какие данные нужно собрать | Как хранить данные | Какие инсайты/решения можно извлечь/принять | 
-|----------------|---------|-----------------------|-----------------------|--------------------------------------|
-| Образование | | | | |
-| Вакцинация | | | | |
-| Продуктивность | | | | |
-
-## Оценка
-
-Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
-Верно определены источники данных, способы хранения данных и возможные решения/инсайты для всех областей | Некоторые аспекты решения недостаточно детально рассмотрены, хранилища данных не рассмотрены, рассмотрены по меньшей мере 2 области | Решение неполное, рассмотрена только одна область
--- a/1-Introduction/02-ethics/translations/README.hi.md
+++ b/1-Introduction/02-ethics/translations/README.hi.md
@ -1,259 +0,0 @@
-# डेटा नैतिकता का परिचय
-
-|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
-|:---:|
-| डेटा विज्ञान नैतिकता - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
-
---
-
-हम सब इस डाटा-फाइड दुनिया में रहने वाले डाटा-नागरिक है | 
-
-बाजार के रुझान यह दर्शाते हैं कि २०२२ तक, तीन में से एक बड़ी संस्था अपना डाटा कि खरीद और बेचना ऑनलाइन [दुकानों](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) द्वारा करेंगी | **ऐप डेवलपर** के रूप में, हम डेटा-संचालित अंतर्दृष्टि और एल्गोरिथम-चालित स्वचालन को दैनिक उपयोगकर्ता अनुभवों में एकीकृत करना आसान और सस्ता पाएंगे। लेकिन जैसे-जैसे AI व्यापक होता जाएगा, हमें इस तरह के एल्गोरिदम के [हथियारीकरण](https://www.youtube.com/watch?v=TQHs8SA1qpk) से होने वाले संभावित नुकसान को भी समझना होगा ।
-
-रुझान यह भी संकेत देते हैं कि हम २०२५ तक [180 ज़ेटाबाइट्स](https://www.statista.com/statistics/871513/worldwide-data-created/) डेटा का निर्माण और उपभोग करेंगे । **डेटा वैज्ञानिक** के रूप में, यह हमें व्यक्तिगत डेटा तक पहुंचने के लिये अभूतपूर्व स्तर प्रदान करता है । इसका मतलब है कि हम उपयोगकर्ताओं के व्यवहार संबंधी प्रोफाइल बना सकते हैं और निर्णय लेने को इस तरह से प्रभावित कर सकते हैं जो संभावित रूप से एक [मुक्त इच्छा का भ्रम](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) पैदा करता है जब्कि वह उपयोगकर्ताओं को हमारे द्वारा पसंद किए जाने वाले परिणामों की ओर आकर्षित करना । यह डेटा गोपनीयता और उपयोगकर्ता की सुरक्षा पर भी व्यापक प्रश्न उठाता है ।
-
-डेटा नैतिकता अब डेटा विज्ञान और इंजीनियरिंग का  _आवश्यक रक्षक_ हैं, जिससे हमें अपने डेटा-संचालित कार्यों से संभावित नुकसान और अनपेक्षित परिणामों को नीचे रखने में मदद मिलती है । [AI के लिए गार्टनर हाइप साइकिल](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) डिजिटल नैतिकता में उचित रुझानों की पहचान करता है AI के _democratization_ और _industrialization_ के आसपास बड़े मेगाट्रेंड के लिए प्रमुख ड्राइवर के रूप में जिम्मेदार AI की ज़िम्मेदारी और AI शासन ।
-
-
-![AI के लिए गार्टनर का प्रचार चक्र - २०२०](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
-
-इस पाठ में, हम डेटा नैतिकता के आकर्षक क्षेत्र के बारे में सीखेंगे  - मूल अवधारणाओं और चुनौतियों से लेकर केस-स्टडी और शासन जैसी एप्लाइड AI अवधारणाओं तक - जो डेटा और AI के साथ काम करने वाली समूह और संगठनों में नैतिकता संस्कृति स्थापित करने में मदद करते हैं ।
-
-## [पाठ से पहले की प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
-
-## मूल परिभाषाएं
-
-आइए बुनियादी शब्दावली को समझना शुरू करें ।
-
-"नैतिकता" [ग्रीक शब्द "एथिकोस"](https://en.wikipedia.org/wiki/Ethics) (और इसकी जड़ "एथोस") से आया है जिसका अर्थ _चरित्र या नैतिक प्रकृति_ होता है ।
-
-**नैतिकता** उन साझा मूल्यों और नैतिक सिद्धांतों के बारे में है जो समाज में हमारे व्यवहार को नियंत्रित करते हैं । नैतिकता कानूनों पर नहीं बल्कि "सही बनाम गलत" के व्यापक रूप से स्वीकृत मानदंड पर आधारित है । लेकिन , नैतिक विचार कॉर्पोरेट प्रशासन की पहल और अनुपालन के लिए अधिक प्रोत्साहन पैदा करने वाले सरकारी नियमों को प्रभावित कर सकते हैं ।
-
-**डेटा नैतिकता** एक [नैतिकता की नई शाखा](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) है जो "_डेटा, एल्गोरिदम और से संबंधित नैतिक समस्याओं का अध्ययन और मूल्यांकन करती है_" । यहां, **"डेटा"** - निर्माण, रिकॉर्डिंग, अवधि, प्रसंस्करण प्रसार, साझाकरण और उपयोग से संबंधित कार्यों पर केंद्रित है, **"एल्गोरिदम"** AI , एजेंटों, मशीन लर्निंग और रोबोटो पर केंद्रित है, और ** "अभ्यास"** जिम्मेदार नवाचार, प्रोग्रामिंग, हैकिंग और नैतिकता कोड जैसे विषयों पर केंद्रित है ।
-
-**एप्लाइड नैतिकता** [नैतिक विचारों का व्यावहारिक अनुप्रयोग](https://en.wikipedia.org/wiki/Applied_ethics) है । यह _वास्तविक दुनिया की कार्रवाइयों, उत्पादों और प्रक्रियाओं_ के संदर्भ में नैतिक मुद्दों की सक्रिय रूप से जांच करने और सुधारात्मक उपाय करने की प्रक्रिया है ताकि ये हमारे परिभाषित नैतिक मूल्यों के साथ संरेखित रहें ।
-
-**नैतिकता संस्कृति** यह सुनिश्चित करने के लिए [_operationalizing_ एप्लाइड नैतिकता](https://hbr.org/2019/05/how-to-design-an-ethical-organization) के बारे में है कि हमारे नैतिक सिद्धांतों और प्रथाओं को पूरे संगठन में एक सुसंगत और मापनीय तरीके से अपनाया जाए । सफल नैतिक संस्कृतियाँ संगठन-व्यापी नैतिक सिद्धांतों को परिभाषित करती हैं, अनुपालन के लिए सार्थक प्रोत्साहन प्रदान करती हैं, और संगठन के हर स्तर पर वांछित व्यवहारों को प्रोत्साहित और प्रवर्धित करके नैतिक मानदंडों को सुदृढ़ करती हैं ।
-
-
-## नैतिकता की अवधारणाएं
-
-इस खंड में, हम डेटा नैतिकता के लिए साझा मूल्यों (सिद्धांतों) और नैतिक चुनौतियों (समस्याओं) जैसी अवधारणाओं पर चर्चा करेंगे - और मामले के अध्ययन का पता लगाएंगे जो आपको वास्तविक दुनिया के संदर्भों में इन अवधारणाओं को समझने में मदद करते हैं ।
-
-### 1. नैतिक सिद्धांत
-
-प्रत्येक डेटा नैतिकता रणनीति _नैतिक सिद्धांतों_ को परिभाषित करके शुरू होती है - "साझा मूल्य" जो स्वीकार्य व्यवहारों का वर्णन करते हैं, और हमारे डेटा और AI परियोजनाओं में अनुपालन कार्यों का मार्गदर्शन करते हैं । लेकिन, अधिकांश बड़े संगठन इन्हें एक _नैतिक AI_ मिशन स्टेटमेंट या फ्रेमवर्क में रेखांकित करते हैं जो कॉर्पोरेट स्तर पर परिभाषित होता है और सभी टीमों में लगातार लागू होता है ।
-
-**उदाहरण:** माइक्रोसॉफ्ट की [जिम्मेदार एआई](https://www.microsoft.com/en-us/ai/responsible-ai) मिशन स्टेटमेंट कहती है : _"हम नैतिक सिद्धांतों द्वारा संचालित AI की उन्नति के लिए प्रतिबद्ध हैं जो लोगों को सबसे पहले रखते हैं |"_ - नीचे दिए गए ढांचे में 6 नैतिक सिद्धांतों की वार्ना की गयी है :
-
-![माइक्रोसॉफ्ट की जिम्मेदार एआई](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
-
-आइए संक्षेप में इन सिद्धांतों के बारे में सीखे | _पारदर्शिता_ और _जवाबदेही_ वह मूलभूत मूल्य हैं जिन पर अन्य सिद्धांतों का निर्माण किया गया है - तो चलिए वहां शुरु करते हैं :
-
-* [**जवाबदेही**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) उपयोगकर्ताओं को उनके डेटा और AI संचालन, और इन नैतिक सिद्धांतों के अनुपालन के लिए _जिम्मेदार_ बनाती है ।
-* [**पारदर्शिता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) सुनिश्चित करती है कि डेटा और AI क्रियाएं उपयोगकर्ताओं के लिए _समझने योग्य_ (व्याख्या योग्य) हैं, यह बताते हुए कि निर्णयों के पीछे क्या और क्यों है ।
-* [**निष्पक्षता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - यह सुनिश्चित करने पर ध्यान केंद्रित करती है कि AI डेटा और सिस्टम में किसी भी प्रणालीगत या निहित सामाजिक-तकनीकी पूर्वाग्रहों को संबोधित करते हुए _सभी लोगों_ के साथ उचित व्यवहार करता है ।
-* [**विश्वसनीयता और अहनिकारकता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - सुनिश्चित करती है कि AI- संभावित नुकसान या अनपेक्षित परिणामों को कम करते हुए परिभाषित मूल्यों के साथ _लगातार_ काम करता है ।
-* [**निजता एवं सुरक्षा**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - डेटा वंश को समझने, और उपयोगकर्ताओं को _डेटा गोपनीयता और संबंधित सुरक्षा_ प्रदान करने के बारे में है ।
-* [**समग्रता**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - AI समाधानों को इरादे से डिजाइन करना एवं उन्हें _मानवीय आवश्यकताओं की एक विस्तृत श्रृंखला_ और क्षमताओं को पूरा करने के लिए अनुकूलित करने के बारे में है ।
-
-> 🚨 अपने डेटा नैतिकता मिशन वक्तव्य के बारे में सोचें | अन्य संगठनों से नैतिक AI ढांचों का अन्वेषण करें - ये हैं कुछ उदाहरण [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,एवं [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/) | इनके बीच क्या साझा मूल्य हैं? ये सिद्धांत उनके द्वारा संचालित एआई उत्पाद या उद्योग से कैसे संबंधित हैं ?
-
-### 2. नैतिकता से जुडी चुनौतियां
-
-एक बार जब हमारे पास नैतिक सिद्धांत परिभाषित हो जाते हैं, तो अगला कदम यह देखने के लिए हमारे डेटा और एआई कार्यों का मूल्यांकन करना है कि क्या वे उन साझा मूल्यों के साथ संरेखित हैं । अपने कार्यों के बारे में दो श्रेणियों में सोचें: _डेटा संग्रह_ और _एल्गोरिदम डिज़ाइन_ | 
-
-डेटा संग्रह के साथ, कार्रवाइयों में संभवतः पहचान योग्य जीवित व्यक्तियों के लिए **व्यक्तिगत डेटा** या व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होगी । इसमें [गैर-व्यक्तिगत डेटा के विविध आइटम](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) शामिल हैं, जो _collectively_ किसी व्यक्ति की पहचान करते हैं । नैतिक चुनौतियां _डेटा गोपनीयता_, _डेटा स्वामित्व_, और उपयोगकर्ताओं के लिए _सूचित सहमति_ और _बौद्धिक संपदा अधिकार_ जैसे संबंधित विषयों से संबंधित हो सकती हैं ।
-
-एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं । एल्गोरिथम डिज़ाइन के साथ, क्रियाओं में **डेटासेट** एकत्र करना और क्यूरेट करना शामिल होगा, फिर उनका उपयोग **डेटा मॉडल** को प्रशिक्षित और तैनात करने के लिए किया जाएगा जो वास्तविक दुनिया के संदर्भों में परिणामों की भविष्यवाणी या स्वचालित निर्णय लेते हैं ।
-
-दोनों ही मामलों में, नैतिकता की चुनौतियाँ उन क्षेत्रों को उजागर करती हैं जहाँ हमारे कार्यों का हमारे साझा मूल्यों के साथ टकराव हो सकता है । इन चिंताओं का पता लगाने, सामना करने, कम करने या समाप्त करने के लिए - हमें अपने कार्यों से संबंधित नैतिक "हां या नहीं" प्रश्न पूछने की जरूरत है, फिर आवश्यकतानुसार सुधारात्मक कार्रवाई करें । आइए कुछ नैतिक चुनौतियों और उनके द्वारा उठाए गए नैतिक प्रश्नों पर एक नज़र डालें :
-
-
-#### 2.1 डेटा स्वामित्व
-
-डेटा संग्रह में अक्सर व्यक्तिगत डेटा शामिल होता है जो डेटा विषयों की पहचान कर सकता है । [डेटा स्वामित्व](https://permission.io/blog/data-ownership) _नियंत्रण_ के बारे में और उन [उपयोगकर्ता अधिकारो(https://permission.io/blog/data-ownership) के सम्भंदित है जो निर्माण , प्रसंस्करण और से संबंधित है । 
-
-हमें जो नैतिक प्रश्न पूछने चाहिए, वे हैं : 
- * डेटा का मालिक कौन है ? (उपयोगकर्ता या संगठन)
- * डेटा विषयों के पास क्या अधिकार हैं ? (उदा: पहुंच, मिटाना, सुवाह्यता)
- * संगठनों के पास क्या अधिकार हैं ? (उदा: दुर्भावनापूर्ण उपयोगकर्ता समीक्षाओं का सुधार)
-
-#### 2.2 सूचित सहमति
-
-[सूचित सहमति](https://legaldictionary.net/informed-consent/) उद्देश्य, संभावित जोखिमों और विकल्पों सहित प्रासंगिक तथ्यों की _पूर्ण समझ_ के साथ कार्रवाई (जैसे डेटा संग्रह) के लिए सहमत होने वाले उपयोगकर्ताओं के कार्य को परिभाषित करता है । 
-
-यहां देखने लायक प्रश्न हैं :
- * क्या उपयोगकर्ता (डेटा विषय) ने डेटा कैप्चर और उपयोग के लिए अनुमति दी थी ?
- * क्या उपयोगकर्ता को वह उद्देश्य समझ में आया जिसके लिए उस डेटा को कैप्चर किया गया था ?
- * क्या उपयोगकर्ता ने उनकी भागीदारी से संभावित जोखिमों को समझा ?
-
-#### 2.3 बौद्धिक संपदा
-
-[बौद्धिक संपदा](https://en.wikipedia.org/wiki/Intellectual_property) मानव पहल से उत्पन्न अमूर्त कृतियों को संदर्भित करता है, जिनका व्यक्तियों या व्यवसायों के लिए _आर्थिक_ महत्व हो सकता है ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या जमा किए गए डेटा का किसी उपयोगकर्ता या व्यवसाय के लिए आर्थिक महत्व है ?
- * क्या **उपयोगकर्ता** के पास यहां बौद्धिक संपदा है ?
- * क्या **संगठन** के पास यहां बौद्धिक संपदा है ?
- * अगर ये अधिकार मौजूद हैं, तो हम उनकी रक्षा कैसे कर रहे हैं ?
-
-#### 2.4 डाटा गोपनीयता
-
-[डेटा गोपनीयता](https://www.northeaster.edu/graduate/blog/what-is-data-privacy/) या सूचना गोपनीयता व्यक्तिगत रूप से पहचान योग्य जानकारी के संबंध में उपयोगकर्ता की गोपनीयता के संरक्षण और उपयोगकर्ता की पहचान की सुरक्षा को संदर्भित करता है ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या उपयोगकर्ताओं का (व्यक्तिगत) डेटा हैक और लीक से सुरक्षित है ?
- * क्या उपयोगकर्ताओं का डेटा केवल अधिकृत उपयोगकर्ताओं और संदर्भों के लिए सुलभ है ?
- * क्या डेटा साझा या प्रसारित होने पर उपयोगकर्ताओं की गोपनीयता बनी रहती है ?
- * क्या किसी उपयोगकर्ता की पहचान अज्ञात डेटासेट से की जा सकती है ?
-
-#### 2.5 भूला दिया जाने का अधिकार
-
-[भूला दिया जाने का अधिकार](https://en.wikipedia.org/wiki/Right_to_be_forgotten) अतिरिक्त सुविधाएं प्रदान करता है उपयोगकर्ताओं के लिए व्यक्तिगत डेटा सुरक्षा। विशेष रूप से, यह उपयोगकर्ताओं को इंटरनेट खोजों और अन्य स्थानों से व्यक्तिगत डेटा को हटाने या हटाने का अनुरोध करने का अधिकार देता है, _विशिष्ट परिस्थितियों में_ - उन्हें उनके खिलाफ पिछली कार्रवाई किए बिना ऑनलाइन एक नई शुरुआत करने की अनुमति देता है ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या सिस्टम डेटा विषयों को अपना डेटा मिटाने का अनुरोध करने की अनुमति देता है ?
- * क्या उपयोगकर्ता की सहमति वापस लेने से स्वचालित डेटा मिटाना शुरू हो जाएगा ?
- * क्या डेटा सहमति के बिना या गैरकानूनी तरीके से एकत्र किया गया था ?
- * क्या हम डेटा गोपनीयता के लिए सरकारी नियमों का अनुपालन करते हैं ?
-
-
-#### 2.6 डेटासेट पूर्वाग्रह
-
-डेटासेट या [संग्रह पूर्वाग्रह](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) एल्गोरिथम विकास के लिए डेटा के _गैर-प्रतिनिधि_ सबसेट का चयन करने के बारे में है, जिसमें संभावित अनुचितता पैदा होती है विभिन्न समूहों के लिए भेदभाव । पूर्वाग्रह के प्रकारों में चयन या नमूना पूर्वाग्रह, स्वयंसेवी पूर्वाग्रह और साधन पूर्वाग्रह शामिल हैं ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या हमने डेटा विषयों के प्रतिनिधि सेट की भर्ती की ?
- * क्या हमने विभिन्न पूर्वाग्रहों के लिए अपने एकत्रित या क्यूरेट किए गए डेटासेट का परीक्षण किय ा?
- * क्या हम खोजे गए पूर्वाग्रहों को कम कर सकते हैं या हटा सकते हैं ?
-
-#### 2.7 डेटा की गुणवत्ता
-
-[डेटा गुणवत्ता](https://lakefs.io/data-quality-testing/) जो हमारे एल्गोरिदम को विकसित करने के लिए उपयोग किए गए क्यूरेट किए गए डेटासेट की वैधता को देखता है, यह देखने के लिए जाँच करता है कि सुविधाएँ और रिकॉर्ड सटीकता और स्थिरता के स्तर की आवश्यकताओं को पूरा करते हैं या नहीं हमारे AI उद्देश्य के लिए आवश्यक है ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या हमने अपने उपयोग के मामले में मान्य _features_ को कैप्चर किया ?
- * क्या डेटा विविध डेटा स्रोतों से _लगातार_ कैप्चर किया गया था ? 
- * क्या विविध स्थितियों या परिदृश्यों के लिए डेटासेट _पूर्ण_ है ?
- * क्या वास्तविकता को प्रतिबिंबित करने में जानकारी _सटीक_ रूप से कैप्चर की गई है ?
-
-#### 2.8 एल्गोरिथम की निष्पक्षता
-
-[एल्गोरिदम निष्पक्षता](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) यह देखने के लिए जांच करता है कि क्या एल्गोरिथम डिज़ाइन व्यवस्थित रूप से डेटा विषयों के विशिष्ट उपसमूहों के साथ भेदभाव करता है जिससे [संभावित नुकसान](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) होते हैं  में _allocation_ (जहां संसाधनों को अस्वीकार कर दिया जाता है या उस समूह से रोक दिया जाता है) और _सेवा की गुणवत्ता_ (जहां AI कुछ उपसमूहों के लिए उतना सटीक नहीं है जितना कि यह दूसरों के लिए है) । 
-
-यहां देखने लायक प्रश्न हैं :
- * क्या हमने विविध उपसमूहों और स्थितियों के लिए मॉडल सटीकता का मूल्यांकन किया ?
- * क्या हमने संभावित नुकसान (जैसे, स्टीरियोटाइपिंग) के लिए सिस्टम की जांच की ?
- * क्या हम पहचाने गए नुकसान को कम करने के लिए डेटा को संशोधित कर सकते हैं या मॉडल को फिर से प्रशिक्षित कर सकते हैं ?
-
-अधिक जानने के लिए [AI फेयरनेस चेकलिस्ट](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) जैसे संसाधनों का अन्वेषण करें ।
-
-#### 2.9 मिथ्या निरूपण
-
-[डेटा मिसरिप्रेजेंटेशन](https://www.sciencedirect.com/topics/computer-science/misrepresentation) यह पूछने के बारे में है कि क्या हम एक वांछित कथा का समर्थन करने के लिए भ्रामक तरीके से ईमानदारी से रिपोर्ट किए गए डेटा से अंतर्दृष्टि का संचार कर रहे हैं ।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या हम अपूर्ण या गलत डेटा की रिपोर्ट कर रहे हैं ?
- * क्या हम डेटा को इस तरह से देख रहे हैं जिससे भ्रामक निष्कर्ष निकलते हैं ?
- * क्या हम परिणामों में हेरफेर करने के लिए चुनिंदा सांख्यिकीय तकनीकों का उपयोग कर रहे हैं ?
- * क्या ऐसे वैकल्पिक स्पष्टीकरण हैं जो एक अलग निष्कर्ष प्रस्तुत कर सकते हैं ?
-
-#### 2.10 मुक्त चयन
-[इल्यूज़न ऑफ़ फ्री चॉइस](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) तब होता है जब सिस्टम "चॉइस आर्किटेक्चर" लोगों को पसंदीदा परिणाम लेने के लिए प्रेरित करने के लिए निर्णय लेने वाले एल्गोरिदम का उपयोग करता है। जबकि उन्हें विकल्प और नियंत्रण देना प्रतीत होता है। ये [डार्क पैटर्न](https://www.darkpatterns.org/) उपयोगकर्ताओं को सामाजिक और आर्थिक नुकसान पहुंचा सकते हैं। चूंकि उपयोगकर्ता निर्णय व्यवहार प्रोफाइल को प्रभावित करते हैं, इसलिए ये कार्रवाइयां संभावित रूप से भविष्य के विकल्पों को प्रेरित करती हैं जो इन नुकसानों के प्रभाव को बढ़ा या बढ़ा सकते हैं।
-
-यहां देखने लायक प्रश्न हैं :
- * क्या उपयोगकर्ता ने उस विकल्प को बनाने के निहितार्थों को समझा ?
- * क्या उपयोगकर्ता (वैकल्पिक) विकल्पों और प्रत्येक के पेशेवरों और विपक्षों से अवगत था ?
- * क्या उपयोगकर्ता किसी स्वचालित या प्रभावित विकल्प को बाद में उलट सकता है ?
-
-### 3. केस स्टडी
-
-इन नैतिक चुनौतियों को वास्तविक दुनिया के संदर्भों में रखने के लिए, ऐसे मामलों के अध्ययन को देखने में मदद मिलती है जो व्यक्तियों और समाज को संभावित नुकसान और परिणामों को उजागर करते हैं, जब ऐसे नैतिकता उल्लंघनों की अनदेखी की जाती है ।
-
-कुछ उदाहरण निम्नलिखित हैं :
-
-| नैतिकता चुनौती | मामले का अध्ययन | 
-|--- |--- |
-| **सूचित सहमति** | १९७२ - [टस्केगी सिफलिस अध्ययन](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - अध्ययन में भाग लेने वाले अफ्रीकी अमेरिकी पुरुषों को उन शोधकर्ताओं द्वारा मुफ्त चिकित्सा देखभाल का वादा किया गया था जो उनके निदान या उपचार की उपलब्धता के बारे में विषयों को सूचित करने में विफल रहे। कई विषयों की मृत्यु हो गई और साथी या बच्चे प्रभावित हुए; अध्ययन 40 साल तक चला । | 
-| **डाटा प्राइवेसी** |  २००७ - [नेटफ्लिक्स डेटा प्राइज](https://www.wired.com/2007/12/why-anonymous-data-only-isnt/) ने शोधकर्ताओं को सिफारिश एल्गोरिदम को बेहतर बनाने में मदद करने के लिए 50K ग्राहकों_ से _10M अनाम मूवी रैंकिंग प्रदान की। हालांकि, शोधकर्ता अज्ञात डेटा को व्यक्तिगत रूप से पहचाने जाने योग्य डेटा के साथ _बाहरी डेटासेट_ (उदाहरण के लिए, IMDb टिप्पणियों) में सहसंबंधित करने में सक्षम थे - कुछ नेटफ्लिक्स ग्राहकों को प्रभावी रूप से "डी-अनामीकरण" ।|
-| **संग्रह पूर्वाग्रह**  | २०१३ - द सिटी ऑफ़ बोस्टन [विकसित स्ट्रीट बम्प](https://www.boston.gov/transportation/street-bump), एक ऐप जो नागरिकों को गड्ढों की रिपोर्ट करने देता है, जिससे शहर को समस्याओं को खोजने और ठीक करने के लिए बेहतर रोडवे डेटा मिलता है । हालांकि, [निम्न आय वर्ग के लोगों के पास कारों और फोन तक कम पहुंच थी](https://hbr.org/2013/04/the-hidden-biases-in-big-data), जिससे इस ऐप में उनके सड़क संबंधी मुद्दे अदृश्य हो गए थे। . डेवलपर्स ने शिक्षाविदों के साथ निष्पक्षता के लिए _न्यायसंगत पहुंच और डिजिटल विभाजन_ मुद्दों पर काम किया । |
-| **एल्गोरिथम निष्पक्षता**  | २०१८ - एमआईटी [जेंडर शेड्स स्टडी](http://gendershades.org/overview.html) ने लिंग वर्गीकरण एआई उत्पादों की सटीकता का मूल्यांकन किया, महिलाओं और रंग के व्यक्तियों के लिए सटीकता में अंतराल को उजागर किया । एक [2019 ऐप्पल कार्ड](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) पुरुषों की तुलना में महिलाओं को कम क्रेडिट प्रदान करता है। दोनों ने एल्गोरिथम पूर्वाग्रह में सचित्र मुद्दों को सामाजिक-आर्थिक नुकसान की ओर अग्रसर किया ।|
-| **डेटा गलत बयानी** | २०२० - [जॉर्जिया डिपार्टमेंट ऑफ पब्लिक हेल्थ ने जारी किया COVID-19 चार्ट](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) जो एक्स-अक्ष पर गैर-कालानुक्रमिक क्रम के साथ पुष्टि किए गए मामलों में रुझानों के बारे में नागरिकों को गुमराह करने के लिए प्रकट हुए। यह विज़ुअलाइज़ेशन ट्रिक्स के माध्यम से गलत बयानी दिखाता है । |
-| **स्वतंत्र चुनाव का भ्रम** | २०२० - लर्निंग ऐप [एबीसीमाउस ने एफटीसी शिकायत को निपटाने के लिए 10 मिलियन डॉलर का भुगतान किया](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) जहां माता-पिता भुगतान करने में फंस गए थे सदस्यता वे रद्द नहीं कर सके । यह पसंद वास्तुकला में काले पैटर्न को दिखाता है, जहां उपयोगकर्ता संभावित रूप से हानिकारक विकल्पों की ओर झुकाव कर रहे थे । |
-| **डेटा गोपनीयता और उपयोगकर्ता अधिकार** | २०२१ - फेसबुक [डेटा ब्रीच](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) 530M उपयोगकर्ताओं के डेटा को उजागर किया, जिसके परिणामस्वरूप FTC को $ 5B का समझौता हुआ । हालांकि इसने डेटा पारदर्शिता और पहुंच के आसपास उपयोगकर्ता अधिकारों का उल्लंघन करने वाले उल्लंघन के उपयोगकर्ताओं को सूचित करने से इनकार कर दिया । |
-
-अधिक केस स्टडी के बारे में चाहते हैं ? इन संसाधनों की जाँच करें :
-* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - विविध उद्योगों में नैतिकता की दुविधा । 
-* [डेटा साइंस एथिक्स कोर्स](https://www.coursera.org/learn/data-science-ethics#syllabus) - ऐतिहासिक मामले का अध्ययन ।
-* [जहां चीजें गलत हो गई हैं](https://deon.drivendata.org/examples/) - उदाहरण के साथ डीओन चेकलिस्ट |
-
-> 🚨 आपके द्वारा देखी गई केस स्टडी के बारे में सोचें - क्या आपने अपने जीवन में इसी तरह की नैतिक चुनौती का अनुभव किया है, या इससे प्रभावित हुए हैं ? क्या आप कम से कम एक अन्य केस स्टडी के बारे में सोच सकते हैं जो इस खंड में चर्चा की गई नैतिक चुनौतियों में से एक को दर्शाती है ?
-
-## एप्लाइड नैतिकता
-
-हमने वास्तविक दुनिया के संदर्भों में नैतिक अवधारणाओं, चुनौतियों और केस स्टडी के बारे में बात की है। लेकिन हम अपनी परियोजनाओं में नैतिक सिद्धांतों और प्रथाओं को _लागू करना_ कैसे शुरू करते हैं ? और हम बेहतर शासन के लिए इन प्रथाओं को कैसे _संचालन_कृत करते हैं ? आइए कुछ वास्तविक दुनिया के समाधान देखें :
-
-### 1. व्यावसायिक कोड
-
-व्यावसायिक कोड संगठनों के लिए सदस्यों को उनके नैतिक सिद्धांतों और मिशन वक्तव्य का समर्थन करने के लिए "प्रोत्साहित" करने के लिए एक विकल्प प्रदान करते हैं । पेशेवर व्यवहार के लिए कोड _नैतिक दिशानिर्देश_ हैं, जो कर्मचारियों या सदस्यों को उनके संगठन के सिद्धांतों के अनुरूप निर्णय लेने में मदद करते हैं । वे केवल उतने ही अच्छे हैं जितने सदस्यों से स्वैच्छिक अनुपालन; हालांकि, कई संगठन सदस्यों से अनुपालन को प्रेरित करने के लिए अतिरिक्त पुरस्कार और दंड प्रदान करते हैं ।
-
-उदाहरणों में शामिल :
-
- * [ऑक्सफोर्ड म्यूनिख](http://www.code-of-ethics.org/code-of-conduct/) आचार संहिता
- * [डेटा साइंस एसोसिएशन](http://datascienceassn.org/code-of-conduct.html) आचार संहिता (2013 में बनाया गया)
- * [एसीएम आचार संहिता और व्यावसायिक आचरण](https://www.acm.org/code-of-ethics) (1993 से)
-
-> 🚨 क्या आप एक पेशेवर इंजीनियरिंग या डेटा विज्ञान संगठन से संबंधित हैं ? यह देखने के लिए कि क्या वे पेशेवर आचार संहिता को परिभाषित करते हैं, उनकी साइट का अन्वेषण करें । यह उनके नैतिक सिद्धांतों के बारे में क्या कहता है ? वे सदस्यों को कोड का पालन करने के लिए "प्रोत्साहित" कैसे कर रहे हैं ?
-
-### 2. नैतिकता जाँच सूची
-
-जबकि पेशेवर कोड चिकित्सकों से आवश्यक _नैतिक व्यवहार_ को परिभाषित करते हैं, वे प्रवर्तन में [विशेष रूप से बड़े पैमाने पर परियोजनाओं में](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) [ज्ञात सीमाएं हैं] । इसके बजाय, कई डेटा विज्ञान विशेषज्ञ [चेकलिस्ट के वकील](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), जो **सिद्धांतों को अभ्यासों से जोड़ सकते हैं** अधिक नियतात्मक और कार्रवाई योग्य तरीके ।
-
-चेकलिस्ट प्रश्नों को "हां/नहीं" कार्यों में परिवर्तित करते हैं जिन्हें संचालित किया जा सकता है, जिससे उन्हें मानक उत्पाद रिलीज वर्कफ़्लो के हिस्से के रूप में ट्रैक किया जा सकता है ।
-
-उदाहरणों में शामिल :
- * [डियोन](https://deon.drivendata.org/) - आसान एकीकरण के लिए कमांड-लाइन टूल के साथ [उद्योग अनुशंसाओं](https://deon.drivedata.org/#checklist-citations) से बनाई गई एक सामान्य-उद्देश्य डेटा नैतिकता चेकलिस्ट ।
- * [गोपनीयता ऑडिट चेकलिस्ट](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - कानूनी और सामाजिक जोखिम के दृष्टिकोण से सूचना प्रबंधन प्रथाओं के लिए सामान्य मार्गदर्शन प्रदान करता है ।
- * [एआई फेयरनेस चेकलिस्ट](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - एआई विकास चक्रों में निष्पक्षता जांच को अपनाने और एकीकरण का समर्थन करने के लिए एआई चिकित्सकों द्वारा बनाया गया ।
- * [डेटा और एआई में नैतिकता के लिए 22 प्रश्न](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - डिजाइन, कार्यान्वयन, और संगठनात्मक, संदर्भों में नैतिक मुद्दों की प्रारंभिक खोज के लिए संरचित, अधिक खुला ढांचा ।
- 
-### 3. नैतिकता विनियम
-
-नैतिकता साझा मूल्यों को परिभाषित करने और _स्वेच्छा_ से सही काम करने के बारे में है । **अनुपालन** _कानून का पालन करने के बारे में है_ यदि और जहां परिभाषित किया गया है । **शासन** मोटे तौर पर उन सभी तरीकों को शामिल करता है जिनमें संगठन नैतिक सिद्धांतों को लागू करने और स्थापित कानूनों का पालन करने के लिए काम करते हैं ।
-
-आज, संगठनों के भीतर शासन दो रूप लेता है । सबसे पहले, यह **नैतिक एआई** सिद्धांतों को परिभाषित करने और संगठन में सभी एआई-संबंधित परियोजनाओं में गोद लेने के संचालन के लिए प्रथाओं को स्थापित करने के बारे में है । दूसरा, यह उन क्षेत्रों के लिए सरकार द्वारा अनिवार्य सभी **डेटा सुरक्षा नियमों** का अनुपालन करने के बारे में है जहां यह संचालित होता है ।
-
-डेटा सुरक्षा और गोपनीयता नियमों के उदाहरण :
-
- * `१९७४`, [यूएस गोपनीयता अधिनियम](https://www.justice.gov/opcl/privacy-act-1974) - व्यक्तिगत जानकारी के संग्रह, उपयोग और प्रकटीकरण को नियंत्रित करता है ।
- * `१९९६`, [अमेरिकी स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - व्यक्तिगत स्वास्थ्य डेटा की सुरक्षा करता है ।
- * `१९९८`, [यूएस चिल्ड्रन ऑनलाइन प्राइवेसी प्रोटेक्शन एक्ट (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13 साल से कम उम्र के बच्चों की डेटा गोपनीयता की रक्षा करता है ।
- * `२०१८`, [सामान्य डेटा संरक्षण विनियमन (GDPR)](https://gdpr-info.eu/) - उपयोगकर्ता अधिकार, डेटा सुरक्षा और गोपनीयता प्रदान करता है ।
- * `२०१८`, [कैलिफोर्निया उपभोक्ता गोपनीयता अधिनियम (CCPA)](https://www.oag.ca.gov/privacy/ccpa) उपभोक्ताओं को उनके (व्यक्तिगत) डेटा पर अधिक _अधिकार_ देता है ।
- * `२०२१`, चीन का [व्यक्तिगत सूचना संरक्षण कानून](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) अभी-अभी पारित हुआ, दुनिया भर में सबसे मजबूत ऑनलाइन डेटा गोपनीयता नियमों में से एक बना ।
-
-> 🚨 यूरोपीय संघ परिभाषित GDPR (जनरल डेटा प्रोटेक्शन रेगुलेशन) आज सबसे प्रभावशाली डेटा गोपनीयता नियमों में से एक है । क्या आप जानते हैं कि यह नागरिकों की डिजिटल गोपनीयता और व्यक्तिगत डेटा की सुरक्षा के लिए [8 उपयोगकर्ता अधिकार](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) को भी परिभाषित करता है ? जानें कि ये क्या हैं, और क्यों मायने रखते हैं ।
-
-
-### 4. नैतिकता संस्कृति
-
-ध्यान दें कि _अनुपालन_ ("कानून के पत्र को पूरा करने के लिए पर्याप्त प्रयास करना") और [प्रणालीगत मुद्दों](https://www.coursera.org/learn/data-science-ethics/home/week) को संबोधित करने के बीच एक अमूर्त अंतर है । / 4) (जैसे ossification, सूचना विषमता, और वितरण संबंधी अनुचितता) जो AI के शस्त्रीकरण को गति दे सकता है ।
-
-बाद वाले को [नैतिक संस्कृतियों को परिभाषित करने के लिए सहयोगात्मक दृष्टिकोण](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-drive-approach-26f451afa29f) की आवश्यकता होती है, जो पूरे संगठनों में भावनात्मक संबंध और सुसंगत साझा मूल्यों का निर्माण करते हैं । यह संगठनों में अधिक [औपचारिक डेटा नैतिकता संस्कृतियों](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) की मांग करता है - _किसी_ को [एंडोन कॉर्ड को खींचने](https://en.wikipedia.org/wiki/Andon_(manufacturing)) की अनुमति देता है (इस प्रक्रिया में नैतिकता संबंधी चिंताओं को जल्दी उठाने के लिए) और एआई परियोजनाओं में _नैतिक मूल्यांकन_ (उदाहरण के लिए, भर्ती में) एक मुख्य मानदंड टीम गठन करना ।
-
---
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
-## समीक्षा और स्व अध्ययन 
-
-पाठ्यक्रम और पुस्तकें मूल नैतिकता अवधारणाओं और चुनौतियों को समझने में मदद करती हैं, जबकि केस स्टडी और उपकरण वास्तविक दुनिया के संदर्भों में लागू नैतिकता प्रथाओं के साथ मदद करते हैं। शुरू करने के लिए यहां कुछ संसाधन दिए गए हैं।
-
-* [शुरुआती के लिए मशीन लर्निंग](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - Microsoft से निष्पक्षता पर पाठ ।
-* [जिम्मेदार एआई के सिद्धांत](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - माइक्रोसॉफ्ट लर्न की ओर से फ्री लर्निंग पाथ ।
-* [नैतिकता और डेटा विज्ञान](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
-* [डेटा विज्ञान नैतिकता](https://www.coursera.org/learn/data-science-ethics#syllabus) - मिशिगन विश्वविद्यालय से ऑनलाइन पाठ्यक्रम ।
-* [नैतिकता अलिखित](https://ethicsunwrapped.utexas.edu/case-studies) - टेक्सास विश्वविद्यालय से केस स्टडीज ।
-
-# कार्यभार
-<!-- need to change the link once assignment is translated -->
-[डेटा एथिक्स केस स्टडी लिखें](assignment.hi.md)
--- a/1-Introduction/02-ethics/translations/README.ko.md
+++ b/1-Introduction/02-ethics/translations/README.ko.md
@ -1,263 +0,0 @@
-# 데이터 윤리 소개
-
-| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png) |
-| :-----------------------------------------------------------------------------------------------: |
-|              데이터 과학 윤리 - _Sketchnote by [@nitya](https://twitter.com/nitya)_               |
-
---
-
-우리는 모두 데이터화된 세계(datafied world)에 살고 있는 데이터 시민(data citizens)입니다.
-
-시장 동향에 따르면 2022년까지 3분의 1 규모의 대규모 조직이 온라인 [마켓플레이스 및 거래소](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/)를 통해 데이터를 사고 팔 것입니다. **앱 개발자**로서 우리는 데이터를 기반으로 한 인사이트(data-driven insight)와 알고리즘 기반 자동화(algorithm-driven automation)를 일상적인 사용자 경험에 통합하는 것이 더 쉽고, 더 저렴하다는 것을 알게 될 것입니다. 그러나 AI가 보편화 됨에 따라, 그러한 알고리즘이 규모적으로 [무기화](https://www.youtube.com/watch?v=TQHs8SA1qpk)로 인한 잠재적 위험을 지니고 있음을 이해해야 합니다.
-
-또한 트렌드에 따르면 우리가 2025년까지 [180 제타 바이트](https://www.statista.com/statistics/871513/worldwide-data-created/) 이상의 데이터를 생성하고 사용할 것을 알려줍니다. **데이터 과학자**로서, 이러한 트렌드는 개인 데이터에 대한 전례 없는 수준의 접근을 제공합니다. 이는 사용자의 행동 프로파일(behavioral profiles)을 구축하고, 우리가 선호하는 결과로 사용자를 유도하는 [자유 선택의 환상](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice)을 만들어내므로 의사결정 과정에 영향을 미칩니다.
-
-데이터 윤리는 이제 데이터 과학 및 데이터 엔지니어링에 _필수적인 가드레일_ 이 되어 데이터 기반 작업으로 인한 잠재적 피해와 의도하지 않은 결과를 최소화하는 데 도움이 됩니다. [가트너(Gartner)의 AI 하이프사이클(Hype Cycle)](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/)은 AI의 _민주화(democratization)_ 와 _산업화(industrialization)_ 에 대한 더 큰 메가트렌드의 핵심 요인으로 디지털 윤리와 관련된 트렌드, 책임감 있는 AI(responsible AI), AI 거버넌스를 가리킵니다.
-
-![가트너(Gartner)의 AI 하이프사이클(Hype Cycle) - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
-
-이 강의에서는 핵심 개념 및 과제부터 사례 연구 및 거버넌스와 같은 응용 AI 개념에 이르기까지, 데이터와 AI를 사용하여 작업하는 팀과 조직에서 윤리 문화를 확립하는 데 도움이 되는 데이터 윤리의 멋진 영역을 살펴볼 것입니다.
-
-
-
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
-
-## 기본 정의
-
-기본 용어를 이해하는 것부터 시작해보겠습니다.
-
-윤리라는 단어는 _성격 또는 본성_ 을 의미하는 (그 어원은 "ethos"인) [그리스어 "ethikos"](https://en.wikipedia.org/wiki/Ethics)에서 유래했습니다.
-
-**윤리**는 사회에서 우리의 행동을 지배하는 공유된 가치와 도덕적 원칙에 관한 것입니다. 윤리는 법에 근거한 것이 아니라
-무엇이 "옳고 그른지"에 대해 널리 받아들여지는 규범에 근거합니다. 그러나 윤리적인 고려 사항은 규정 준수에 대한 더 많은 인센티브를 생성하는 기업 거버넌스 이니셔티브 및 정부 규정에 영향을 미칠 수 있습니다.
-
-**데이터 윤리**는 "_데이터, 알고리즘, 그에 해당하는 실행(practice)_ 과 연관된 도덕적 문제를 측정하고 연구"하는 [윤리의 새로운 분과(branch)](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1)입니다. 여기서 **"데이터"** 는 생성, 기록, 큐레이션, 처리 보급, 공유 및 사용과 관련된 작업에 중점을 두고, **"알고리즘"** 은 AI, 에이전트, 머신러닝 및 로봇에 중점을 둡니다. **"실행(practice)"** 은 책임 있는 혁신, 프로그래밍, 해킹 및 윤리 강령과 같은 주제에 중점을 둡니다.
-
-**응용 윤리**는 [도덕적 고려사항의 실제적인 적용](https://en.wikipedia.org/wiki/Applied_ethics)을 말합니다. 이는 _실제 행동, 제품 및 프로세스_ 의 맥락에서 윤리적 문제를 적극적으로 조사하고 우리가 정의한 윤리적 가치와 일치하도록 수정하는 조치를 취하는 과정입니다.
-
-**윤리 문화**는 우리의 윤리 원칙과 관행이 다음과 같이 채택되도록 [_운영화_ 응용 윤리](https://hbr.org/2019/05/how-to-design-an-ethical-organization)에 관한 것입니다. 조직 전체에 걸쳐 일관되고 확장 가능한 방식. 성공적인 윤리 문화는 조직 전체의 윤리 원칙을 정의하고 준수를 위한 의미 있는 인센티브를 제공하며 조직의 모든 수준에서 바람직한 행동을 장려하고 증폭함으로써 윤리 규범을 강화합니다.
-
-
-## 윤리적 개념
-
-이 섹션에서는 데이터 윤리에 대한 **공유 가치**(원칙) 및 **윤리적 과제**(문제)와 같은 개념을 논의하고 이러한 개념을 이해하는 데 도움이 되는 **케이스 스터디**를 살펴볼 것입니다.
-
-### 1. 윤리 원칙
-
-모든 데이터 윤리에 대한 전략은 _윤리 원칙_-데이터 및 AI 프로젝트에서, 허용되는 행동을 설명하고 규정 준수 조치에 대해 설명하는 "공유된 가치"-이 무엇인지 정의하는 것으로부터 시작됩니다. 개인 또는 팀 단위로 정의할 수 있습니다. 그러나 대부분의 대규모 조직은 이런 _윤리적인 AI_ 의 Mission 선언문이나 프레임워크를 회사 차원에서 정의하고, 모든 팀에 일관되게 시행하므로 간략하게 정의합니다.
-
-**예시:** 마이크로소프트의 [책임있는 AI](https://www.microsoft.com/en-us/ai/responsible-ai) Mission 선언문은 다음과 같습니다: _"우리는 사람을 최우선으로 하는 융리 원칙에 따라 AI 기반의 발전에 전념합니다."_ - 아래 프레임워크에서 6가지 윤리 원칙을 식별합니다.
-
-![Microsoft의 책임있는 AI](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
-
-이러한 원칙을 간략하게 살펴보겠습니다. _투명성_ 과 _책임성_ 은 다른 원칙들의 기반이 되는 기본적인 가치입니다. 여기에서부터 시작하겠습니다.
-
-* [**책임**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 실무자가 데이터 및 AI 운영과 이러한 윤리적 원칙 준수에 대해 _책임_ 을 지도록 합니다.
-* [**투명성**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 데이터 및 AI 작업이 사용자에게 _이해 가능_(해석 가능)하도록 보장하여 결정의 배경과 이유를 설명합니다.
-* [**공평성**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - AI가 _모든 사람_ 을 공정하게 대하도록 하는 데 중점을 두고, 데이터 및 시스템의 모든 시스템적 또는 암묵적 사회∙기술적 편견을 해결합니다.
-* [**신뢰성 & 안전**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 AI가 정의된 값으로 _일관되게_ 동작하도록 하여 잠재적인 피해나 의도하지 않은 결과를 최소화합니다.
-* [**프라이버시 & 보안**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)는 데이터 계보(Data Lineage)를 이해하고, 사용자에게 _데이터 개인 정보 보호 및 관련 보호 기능_ 을 제공하는 것입니다.
-* [**포용**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6)은 AI 솔루션을 의도적으로 설계하고 _광범위한 인간의 요구_ 와 기능을 충족하도록 조정하는 것 입니다.
-
-> 🚨 데이터 윤리 Mission 선언문이 무엇인지 생각해보십시오. 다른 조직의 윤리적 AI 프레임워크를 탐색해보세요. - 다음과 같은 예시가 있습니다. [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ,and [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). 이들의 공통점은 무엇입니까? 이러한 원칙은 그들이 운영하는 AI 제품 또는 산업과 어떤 관련이 있습니까?
-
-### 2. 윤리적 과제
-
-윤리적 원칙이 정의되면 다음 단계는 데이터와 AI 작업을 평가하여 이러한 공유 가치와 일치하는지 확인하는 것입니다. _데이터 수집_ 과 _알고리즘 디자인_, 이 두 가지 범주에서 당신의 행동(Action)을 생각해 보십시오.
-
-데이터 수집을 통해, 그 행동에는 식별 가능한(idenitifiable) 살아있는 개인에 대한 **개인 데이터** 또는 개인 식별 정보(PII, Personally Identifiable Information)이 포함될 수 있습니다. 여기에는 종합적으로 개인을 식별할 수 있는 [비개인 데이터의 다양한 항목](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en)도 포함됩니다. 윤리적인 문제는 _데이터 프라이버시(개인 정보 보호)_, _데이터 소유권(ownership)_, 그리고 사용자의 _정보 제공 동의_ 와 _지적 재산권_ 과 같은 관련된 주제와 연관될 수 있습니다.
-
-알고리즘 설계(design)을 사용하면, **데이터 셋**을 수집 및 선별란 다음 이를 사용하여 결과를 예측하거나 실제 상황에서 의사결정을 자동화하는 **데이터 모델**을 교육 및 배포하는 작업이 포함됩니다. 윤리적인 문제는 본질적으로 시스템적인 일부 문제를 포함하여 알고리즘의 _데이터 셋 편향_, _데이터 품질_ 문제, _불공정_ 및 _잘못된 표현_ 으로 인해 발생할 수 있습니다.
-
-두 경우 모두 윤리 문제는 우리의 행동이 공유 가치와 충돌할 수 있는 영역을 강조합니다. 이러한 우려를 감지, 완화, 최소화 또는 제거하려면 우리의 행동과 관련된 도덕적 "예/아니오" 질문을 하고 필요에 따라 수정 조치를 취하십시오. 몇 가지 윤리적 챌린지와 그것이 제기하는 도덕적 질문을 살펴보겠습니다.
-
-
-#### 2.1 데이터 소유권
-
-데이터 수집에는 종종 데이터 주체를 식별할 수 있는 개인 데이터가 포함됩니다. [데이터 소유권](https://permission.io/blog/data-ownership)은 데이터의 생성, 처리 및 보급과 관련된 _제어(control)_ 와 [_사용자 권한_](https://permission.io/blog/data-ownership)에 관한 것입니다.
-
-우리가 물어야 할 도덕적 질문은 다음과 같습니다.: 
- * 누가 데이터를 소유합니까? (사용자 또는 조직)
- * 데이터 주체(data subjects)는 어떤 권리를 가지고 있나요? (예: 접근, 삭제, 이동성)
- * 조직은 어떤 권리를 가지고 있습니까? (예: 악의적인 사용자 리뷰 수정)
-
-#### 2.2 정보 제공 동의
-
-[정보 제공 동의](https://legaldictionary.net/informed-consent/)는 목적, 잠재적 위험 및 대안을 포함한 관련 사실을 _완전히 이해_ 한 사용자가 데이터 수집과 같은 조치에 동의하는 행위를 말합니다.
-
-여기에서 탐색할 질문은 다음과 같습니다.:
- * 사용자(데이터 주체)가 데이터 캡처 및 사용에 대한 권한을 부여했습니까?
- * 사용자가 해당 데이터가 수집된 목적을 이해했습니까?
- * 사용자가 참여로 인한 잠재적 위험을 이해했습니까?
-
-#### 2.3 지적 재산권
-
-[지적 재산권](https://en.wikipedia.org/wiki/Intellectual_property)은 인간의 주도(human initiative)로 인해 생긴 개인이나 기업에 _경제적 가치가 있을 수 있는_ 무형의 창조물을 말합니다. 
-
-여기에서 탐색할 질문은 다음과 같습니다:
- * 수집된 데이터가 사용자나 비즈니스에 경제적 가치가 있었습니까?
- * **사용자**가 여기에 지적 재산권을 가지고 있습니까?
- * **조직**에 지적 재산권이 있습니까?
- * 이러한 권리가 존재한다면, 어떻게 보호가 됩니까?
-
-#### 2.4 데이터 프라이버시
-
-[데이터 프라이버시](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) 또는 정보 프라이버시는 개인 식별 정보에 대한 사용자 개인 정보 보호 및 사용자 신원 보호를 의미합니다.
-
-여기서 살펴볼 질문은 다음과 같습니다:
- * 사용자(개인) 데이터는 해킹 및 유출로부터 안전하게 보호되고 있습니까?
- * 승인된 사용자 및 컨텍스트만 사용자 데이터에 액세스할 수 있습니까?
- * 데이터를 공유하거나 유포할 때 사용자의 익명성이 유지됩니까?
- * 익명화된 데이터 세트에서 사용자를 익명화할 수 있습니까?
-
-
-#### 2.5 잊혀질 권리
-
-[잊혀질 권리](https://en.wikipedia.org/wiki/Right_to_be_forgotten) 또는 [삭제할 권리](https://www.gdpreu.org/right-to-be-forgotten/)는 사용자에 대한 추가적인 개인 데이터 보호를 제공합니다. 특히, 사용자에게 _특정 상황에서_ 인터넷 검색 및 기타 위치에서 개인 데이터 삭제 또는 제거를 요청할 수 있는 권리를 부여하여, 사용자가 과거 조치(action)를 취하지 않고 온라인에서 새로운 출발을 할 수 있게 합니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 시스템에서 데이터 주체(Data Subject)가 삭제를 요청할 수 있습니까?
- * 사용자 동의 철회 시 자동으로 데이터를 삭제해야 하나요?
- * 데이터가 동의 없이 또는 불법적인 방법으로 수집되었나요?
- * 우리는 데이터 개인 정보 보호에 대한 정부 규정을 준수합니까?
-
-
-#### 2.6 데이터셋 편향(Bias)
-
-데이터셋 또는 [데이터 콜렉션 편향](http://researcharticles.com/index.php/bias-in-data-collection-in-research/)은 알고리즘 개발을 위해 _대표적이지 않은(non-representative)_ 데이터 하위 집합을 선택하여, 다양한 그룹의 결과에서 잠재적인 불공정이 발생하는 것에 관한 것입니다. 편향의 유형에는 선택 또는 샘플링 편향, 자원자 편향, 도구 편향이 있습니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 데이터 주체의 대표적인 데이터들을 모집했는가?
- * 다양한 편향에 대해 수집되거나 선별된 데이터 셋을 테스트 했습니까?
- * 발견된 편향을 완화하거나 제거할 수 있습니까?
-
-#### 2.7 데이터 품질
-
-[데이터 품질](https://lakefs.io/data-quality-testing/)은 알고리즘을 개발하는 데 사용된 선별된 데이터 셋의 유효성을 살펴보고, 기능과 레코드가 우리의 AI 목적에 필요한 정확성 및 일관성 수준에 대한 요구사항을 충족하는 지 확인합니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 유스케이스(use case)에 대한 유효한 _기능_ 을 캡처했습니까?
- * 다양한 데이터 소스에서 데이터가 _일관되게_ 캡처되었습니까?
- * 데이터셋은 다양한 조건 또는 시나리오에 대해 _완전_ 합니까?
- * 포착된 정보가 현실을 _정확하게_ 반영합니까?
-
-#### 2.8 알고리즘 공정성
-
-[알고리즘 공정성](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f)은, _할당(해당 그룹에서 리소스가 거부되거나 보류되는 경우)_ 및 _서비스 품질(일부 하위 그룹의 경우 AI가 다른 그룹의 경우만큼 정확하지 않음)_ 에서, 알고리즘 설계가 [잠재적인 피해](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml)로 이어지는 데이터 주체의 특정 하위 그룹을 체계적으로 구별하는지 확인합니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 다양한 하위 그룹 및 조건에 대해 모델 정확도를 평가했습니까?
- * 잠재적인 피해(예: 고정 관념)에 대해 시스템을 면밀히 조사했습니까?
- * 식별된 피해를 완화하기 위해 데이터를 수정하거나 모델을 다시 학습시킬 수 있습니까?
-
-더 알아보고 싶다면, 다음 자료를 살펴보세요: [AI 공정성 체크리스트](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA)
-
-#### 2.9 와전(Misrepresentation)
-
-[데이터 와전(Misrepresentation)](https://www.sciencedirect.com/topics/computer-science/misrepresentation)은 정직하게 보고된 데이터의 통찰력을, 원하는 내러티브(Narrative)에 맞춰 기만적인 방식으로 전달하고 있는지 묻는 것입니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 불완전하거나 부정확한 데이터를 보고하고 있습니까?
- * 오해의 소지가 있는 결론을 도출하는 방식으로 데이터를 시각화하고 있습니까?
- * 결과를 조작하기 위해 선택적 통계 기법을 사용하고 있습니까?
- * 다른 결론을 제시할 수 있는 대안적인 설명이 있습니까?
-
-#### 2.10 자유로운 선택
-[자유롭게 선택하고 있다는 환상](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice)은 시스템 '선택 아키텍처'가 의사결정 알고리즘을 사용하여 사람들에게 선택권과 통제권을 주는 것처럼 하면서 시스템이 선호하는 결과를 선택하도록 유도할 때 발생합니다. 이런 [다크 패턴(dark pattern)](https://www.darkpatterns.org/)은 사용자에게 사회적, 경제적 피해를 줄 수 있습니다. 사용자 결정은 행동 프로파일에 영향을 미치기 때문에, 이러한 행동은 잠재적으로 이러한 피해의 영향을 증폭하거나 확장할 수 있는 향후의 선택을 유도합니다.
-
-여기서는 다음 질문들을 살펴볼 것입니다:
- * 사용자는 그 선택의 의미를 이해했습니까?
- * 사용자는 (대안이 되는) 선택과 각각의 장단점을 알고 있습니까?
- * 사용자가 나중에 자동화되거나 영향을 받은 선택을 되돌릴 수 있습니까?
-
-### 3. 케이스 스터디
-
-이러한 윤리적 문제를 실제 상황에 적용하려면, 그러한 윤리 위반이 간과 되었을 때 개인과 사회에 미칠 잠재적인 피해와 결과를 강조하는 케이스 스터디를 살펴보는 것이 도움이 됩니다. 
-
-다음은 몇 가지 예입니다.
-
-| 윤리적 과제                    | Case Study                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
-| ------------------------------ | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
-| **통보 동의** | 1972 - [Tuskegee 매독 연구](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - 피험자로 연구에 참여한 아프리카계 미국인 남성은 피험자에게 진단이나 정보를 알려주지 않은 연구원들에게 무료 의료 서비스를 약속받았지만, 약속은 지켜지지 않았다. 많은 피험자가 사망하고 배우자와 자녀들이 영향을 받았습니다. 연구는 40년 동안 지속되었습니다.                                                                                                                                                   |
-| **데이터 프라이버시(Privacy)**               | 2007 - [넷플릭스 Data Prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) 는 추천 알고리즘을 개선하기 위해 연구원들에게 _5만명 고객으로부터 수집한 1천만개의 비식별화된(anonymized) 영화 순위_를 제공했습니다. 그러나 연구원들은 비식별화된(anonymized) 데이터를 _외부 데이터셋_ (예를 들어, IMDb 댓글)에 있는 개인식별 데이터(personally-identifiable data)와 연관시킴으로, 효과적으로 일부 Netflix 가입자를 '비익명화(de-anonymizing)' 할 수 있었습니다. |
-| **편향 수집**            | 2013 - 보스턴 시는 시민들이 움푹 들어간 곳을 보고할 수 있는 앱인 [Street Bump](https://www.boston.gov/transportation/street-bump)를 개발하여 시에서 문제를 찾고 수정할 수 있는 더 나은 도로 데이터를 제공합니다. 그러나 [저소득층의 사람들은 자동차와 전화에 대한 접근성이 낮기 때문에](https://hbr.org/2013/04/the-hidden-biases-in-big-data) 이 앱에서 도로 문제를 볼 수 없었습니다. 개발자들은 학계와 협력하여 공정성을 위한 _공평한 접근 및 디지털 격차_ 문제를 해결했습니다. |
-| **알고리즘 공정성** | 2018 - MIT [성별 유색인종 연구](http://gendershades.org/overview.html)에서 성별 분류 AI 제품의 정확도를 평가하여 여성과 유색인의 정확도 격차를 드러냈습니다. [2019년도 Apple Card](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/)는 남성보다 여성에게 신용을 덜 제공하는 것으로 보입니다. 둘 다 사회 경제적 피해로 이어지는 알고리즘 편향의 문제를 나타냅니다.  |
-| **데이터 허위 진술** | 2020년 - [조지아 보건부 코로나19 차트 발표](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid- 19건-거절-재개)의 x축이 시간순이 아닌 순서로 표시된 확인된 사례의 추세에 대해 시민들을 잘못된 방향으로 이끄는 것으로 나타났습니다. 이 발표 시각화 트릭을 통해 잘못된 표현을 나타냈습니다. |
-| **자유 선택의 환상** | 2020 - 학습 앱인 [ABCmouse는 부모들이 취소할 수 없는 구독료에 빠지게 되는 FTC 불만 해결을 위해 1천만 달러 지불](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) 했습니다. 이는 사용자가 잠재적으로 해로운 선택을 하도록 유도하는 선택 아키텍처의 어두운 패턴을 보여줍니다. |
-| **데이터 개인정보 보호 및 사용자 권한** | 2021 - Facebook 의 [데이터 침해](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify- 사용자) 는 5억 3천만 명의 사용자의 데이터를 노출하여 FTC에 50억 달러의 합의금을 냈습니다. 그러나 데이터 투명성 및 액세스에 대한 사용자 권한을 위반하는 위반 사항을 사용자에게 알리는 것을 거부했습니다. |
-
-더 많은 사례 연구를 살펴보고 싶으십니까? 다음 리소스를 확인하세요.:
-* [윤리를 풀다(ethic unwrapped)](https://ethicsunwrapped.utexas.edu/case-studies) - 다양한 산업 분야의 윤리 딜레마
-* [데이터 과학 윤리 과정](https://www.coursera.org/learn/data-science-ethics#syllabus) - 획기적인 사례 연구 탐구
-* [문제가 발생한 곳](https://deon.drivendata.org/examples/) - 사례와 함께 살펴보는 데온(deon)의 체크리스트
-
-> 🚨 당신이 본 사례 연구에 대해 생각해보십시오. 당신은 당신의 삶에서 유사한 윤리적 도전을 경험했거나 영향을 받은 적이 있습니까? 이 섹션에서 논의한 윤리적 문제 중 하나에 대한 다른 사례 연구를 하나 이상 생각할 수 있습니까?
-
-## 응용 윤리(Applied Ethics)
-
-우리는 실제 상황에서 윤리 개념, 도전 과제 및 사례 연구에 대해 이야기했습니다. 그러나 프로젝트에서 윤리적 원칙과 관행을 _적용_ 하기 시작하려면 어떻게 해야 합니까? 그리고 더 나은 거버넌스를 위해 이러한 관행을 어떻게 _운영_ 할 수 있습니까? 몇 가지 실제 솔루션을 살펴보겠습니다: 
-
-### 1. 전문 코드(Professional Codes)
-
-전문 강령(Professional Codes)은 조직이 구성원의 윤리 원칙과 사명 선언문을 지지하도록 "인센티브"를 제공하는 하나의 옵션을 제공합니다. 강령은 직원이나 구성원이 조직의 원칙에 부합하는 결정을 내리는 데 도움이 되는 직업적 행동에 대한 _도덕적 지침_ 입니다. 이는 회원들의 자발적인 준수에 달려 있습니다. 그러나 많은 조직에서 구성원의 규정 준수를 유도하기 위해 추가 보상과 처벌을 제공합니다.
-
-다음과 같은 사례가 있습니다:
-
- * [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) 윤리강령
- * [데이터 과학 협회](http://datascienceassn.org/code-of-conduct.html) 행동강령 (2013년 제정)
- * [ACM 윤리 및 직업 행동 강령](https://www.acm.org/code-of-ethics) (1993년 이후)
-
-> 🚨 전문 엔지니어링 또는 데이터 과학 조직에 속해 있습니까? 그들의 사이트를 탐색하여 그들이 직업적 윤리 강령을 정의하는지 확인하십시오. 이것은 그들의 윤리적 원칙에 대해 무엇을 말합니까? 구성원들이 코드를 따르도록 "인센티브"를 제공하는 방법은 무엇입니까?
-
-### 2. 윤리 체크리스트
-
-전문 강령은 실무자에게 필요한 _윤리적 행동_ 을 정의하지만 특히 대규모 프로젝트 시행에서 [자주 사용되는 제한 사항이 있습니다](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md). 이로 인해 많은 데이터 과학 전문가들이 [체크리스트를 따름으로](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) 보다 결정적이고 실행 가능한 방식으로 **원칙과 사례를 연결** 할 수 있습니다.
-
-체크리스트는 질문을 운영 가능한 "예/아니오" 작업으로 변환하여 표준 제품 릴리스 워크플로의 일부로 추적할 수 있도록 합니다.
-
-다음과 같은 사례가 있습니다:
- * [Deon](https://deon.drivendata.org/) - 쉬운 통합을 위한 Command Line Tool 형태의 범용적인 윤리 체크리스트 ([업계 권고사항](https://deon.drivedata.org/#checklist-citations)에서 만들어짐)
- * [개인정보 감사 체크리스트](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - 법적 및 사회적 노출 관점에서 정보 처리 관행에 대한 일반적인 지침을 제공합니다.
- * [AI 공정성 체크리스트](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - 공정성 검사의 채택 및 AI 개발 주기 통합을 지원하기 위해 AI 실무자가 작성.
- * [데이터 및 AI의 윤리에 대한 22가지 질문](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - 디자인, 구현 및 조직적 맥락에서 윤리적 문제의 초기 탐색을 위한, 보다 개방적인 프레임워크, 구조화.
-
-### 3. 윤리 규정
-
-윤리는 공유 가치를 정의하고 옳은 일을 _자발적으로_ 하는 것입니다. **규정 준수**는 정의된 경우 _법률 준수_ 에 관한 것입니다. **거버넌스**는 조직이 윤리 원칙을 시행하고 확립된 법률을 준수하기 위해 운영하는 모든 방식을 광범위하게 포함합니다.
-
-오늘날 거버넌스는 조직 내에서 두 가지 형태를 취합니다. 첫째, **윤리적 AI** 원칙을 정의하고 조직의 모든 AI 관련 프로젝트에서 채택을 운영하기 위한 관행을 수립하는 것입니다. 둘째, 사업을 영위하는 지역에 대해 정부에서 의무화한 모든 **데이터 보호 규정**을 준수하는 것입니다.
-
-데이터 보호 및 개인 정보 보호 규정 사례:
-
- * `1974`, [미국 개인 정보 보호법](https://www.justice.gov/opcl/privacy-act-1974) - _연방 정부_ 의 개인 정보 수집, 사용 및 공개를 규제합니다.
- * `1996`, [미국 HIPAA(Health Insurance Portability & Accountability Act)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - 개인 건강 데이터를 보호합니다.
- * `1998`, [미국 아동 온라인 개인정보 보호법(COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - 13세 미만 어린이의 데이터 프라이버시를 보호합니다.
- * `2018`, [GDPR(일반 데이터 보호 규정)](https://gdpr-info.eu/) - 사용자 권한, 데이터 보호 및 개인 정보 보호를 제공합니다.
- * `2018`, [캘리포니아 소비자 개인정보 보호법(CCPA)](https://www.oag.ca.gov/privacy/ccpa) 소비자에게 자신의 (개인) 데이터에 대해 더 많은 _권리_ 를 부여합니다.
- * `2021`, 중국의 [개인정보보호법](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) 막 통과되어 전 세계적으로 가장 강력한 온라인 데이터 개인 정보 보호 규정 중 하나를 만들었습니다.
-
-> 🚨 유럽 연합에서 정의한 GDPR(일반 데이터 보호 규정)은 오늘날 가장 영향력 있는 데이터 개인 정보 보호 규정 중 하나입니다. 시민의 디지털 프라이버시와 개인 데이터를 보호하기 위헌 [8가지 사용자 권한](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr)도 정의하고 있다는 사실을 알고 계셨습니까? 이것이 무엇이며 왜 중요한지 알아보십시오.
-
-
-### 4. 윤리 문화
-
-_준수_ ("법규"를 충족하기 위해 충분히 노력함)와 (골화, 정보 비대칭 및 분배 불공정과 같은) AI의 무기화를 가속화할 수 있는 [시스템 문제](https://www.coursera.org/learn/data-science-ethics/home/week) 해결 사이에는 무형의 격차가 있습니다.
-
-후자는 산업에서 _조직 전체적으로_ 정서적 연결과 일관된 공유 가치를 구축하는 [윤리 문화를 정의하기 위한 협력적 접근 방식](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f)이 필요합니다. 이것은 조직에서 더 많은 [공식화된 데이터 윤리 문화](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/)를 요구합니다. 이런 문화는 _누구나_ (프로세스 초기에 윤리 문제 제기를 위해) [Andon 강령을 사용하고](https://en.wikipedia.org/wiki/Andon_(manufacturing)) _윤리적 평가_ (예: 고용 시)를 AI 프로젝트의 핵심 기준 팀 구성으로 만듭니다.
-
---
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
-## 복습 & 독학
-
-과정과 책은 핵심 윤리 개념과 과제를 이해하는 데 도움이 되며, Case Study와 도구는 실제 상황에서 윤리 사항들을 적용하는 데 도움이 됩니다. 다음은 시작을 할 때 도움이 되는 몇가지 자료들입니다.
-
-* [초보자를 위한 기계 학습](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - 공정성(fairness)에 대한 강의, from Microsoft.
-* [책임있는 AI 원칙](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - 무료 학습 경로, from Microsoft Learn.
-* [윤리와 데이터 과학](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
-* [데이터 과학 윤리](https://www.coursera.org/learn/data-science-ethics#syllabus) - 미시간 대학의 온라인 학습 과정.
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - 텍사스 대의 Case Study.
-
-# 과제
-
-[데이터 윤리 Case Study 작성](./assignment.ko.md)
--- a/1-Introduction/02-ethics/translations/README.nl.md
+++ b/1-Introduction/02-ethics/translations/README.nl.md
@ -1,259 +0,0 @@
-# Inleiding tot gegevensethiek
-
-|![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
-|:---:|
-| Ethiek van gegevenswetenschap - _Sketchnote door [@nitya](https://twitter.com/nitya)_ |
-
---
-
-We zijn allemaal databurgers die in een datafied wereld leven.
-
-Markttrends vertellen ons dat tegen 2022 1-op-3 grote organisaties hun data zullen kopen en verkopen via online [Marketplaces and Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020). Als **App-ontwikkelaars** zullen we het gemakkelijker en goedkoper vinden om gegevensgestuurde inzichten en algoritmegestuurde automatisering te integreren in dagelijkse gebruikerservaringen. Maar naarmate AI steeds meer voorkomt, moeten we ook de mogelijke schade begrijpen die wordt veroorzaakt door de [bewapening](https://www.youtube.com/watch?v=TQHs8SA1qpk) van dergelijke algoritmen op grote schaal.
-
-Trends geven ook aan dat we tegen 2025 meer dan [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) aan gegevens zullen creëren en consumeren. Als **Data Scientists** geeft dit ons ongekende niveaus van toegang tot persoonlijke gegevens. Dit betekent dat we gedragsprofielen van gebruikers kunnen maken en de besluitvorming kunnen beïnvloeden op een manier die een [illusie van vrije keuze](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) creëert, terwijl gebruikers aangespoord worden naar resultaten die onze voorkeur hebben. Het roept ook bredere vragen op over gegevensprivacy en gebruikersbescherming.
-
-Gegevensethiek is nu een _noodzakelijke vangrails_ voor datawetenschap en -engineering, waardoor we mogelijke schade en onbedoelde gevolgen van onze gegevensgestuurde acties kunnen minimaliseren. De [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identificeert relevante trends in digitale ethiek, verantwoorde AI en AI-governance als belangrijke drijfveren voor grotere megatrends rond _democratisering_ en _industrialisering_ van AI.
-
-![Gartner's hypecyclus voor AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
-
-In deze les verkennen we het fascinerende gebied van data-ethiek - van kernconcepten en uitdagingen tot casestudy's en toegepaste AI-concepten zoals governance - die helpen een ethische cultuur tot stand te brengen in teams en organisaties die met data en AI werken.
-
-
-
-
-## [Pre-college quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
-
-## Basisdefinities
-
-Laten we beginnen met het begrijpen van de basisterminologie.
-
-Het woord "ethiek" komt van het [Griekse woord "ethikos"](https://en.wikipedia.org/wiki/Ethics) (en de wortel "ethos") wat _karakter of morele aard_ betekent.
-
-**Ethiek** gaat over de gedeelde waarden en morele principes die ons gedrag in de samenleving bepalen. Ethiek is niet gebaseerd op wetten maar op
-algemeen aanvaarde normen van wat "goed versus fout" is. Ethische overwegingen kunnen echter van invloed zijn op initiatieven op het gebied van corporate governance en overheidsregelgeving die meer prikkels voor compliance creëren.
-
-**Data-ethiek** is een [nieuwe tak van ethiek](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) die "morele problemen met betrekking tot _data, algoritmen en overeenkomstige praktijken_" bestudeerd. Hier richt **"data"** zich op acties met betrekking tot het genereren, opnemen, beheren, verwerken, verspreiden, delen en gebruiken. **"Algoritmen"** richt zich op AI, agents, machine learning en robots, en **"practices"** richt zich op onderwerpen als verantwoord innoveren, programmeren, hacken en ethische codes.
-
-**Toegepaste ethiek** is de [praktische toepassing van morele overwegingen](https://en.wikipedia.org/wiki/Applied_ethics). Het is het proces van het actief onderzoeken van ethische kwesties in de context van _real-world acties, producten en processen_, en het nemen van corrigerende maatregelen om ervoor te zorgen dat deze in overeenstemming blijven met onze gedefinieerde ethische waarden.
-
-**Ethische cultuur** gaat over [toegepaste ethiek _activeren_](https://hbr.org/2019/05/how-to-design-an-ethical-organization) om ervoor te zorgen dat onze ethische principes en praktijken worden toegepast in een consistente en schaalbare manier door de hele organisatie heen. Succesvolle ethische culturen definiëren organisatiebrede ethische principes, bieden zinvolle prikkels voor naleving en versterken ethische normen door gewenst gedrag op elk niveau van de organisatie aan te moedigen en te versterken.
-
-
-## Ethische concepten
-
-In dit gedeelte bespreken we concepten als **gedeelde waarden** (principes) en **ethische uitdagingen** (problemen) voor data-ethiek - en onderzoeken we **casestudy's** die je helpen deze concepten in context van de echte wereld te begrijpen.
-
-### 1. Ethische principes
-
-Elke data-ethiekstrategie begint met het definiëren van _ethische principes_ - de 'gedeelde waarden' die acceptabel gedrag beschrijven en richting geven aan daaraan conformerende acties in onze data- en AI-projecten. Je kunt deze op individueel of teamniveau definiëren. De meeste grote organisaties schetsen deze echter in een _ethische AI_-missieverklaring of -kader dat op bedrijfsniveau is gedefinieerd en consistent wordt gehandhaafd in alle teams.
-
-**Voorbeeld:** Microsoft's [Responsible AI](https://www.microsoft.com/en-us/ai/responsible-ai) mission statement luidt: _"We zetten ons in voor de vooruitgang van AI-driven door ethische principes die de mens centraal stellen"_ - door middel van 6 ethische principes in het onderstaande kader:
-
-![Verantwoordelijke AI bij Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
-
-Laten we deze principes kort onderzoeken. _Transparantie_ en _accountability_ zijn fundamentele waarden waarop andere principes voortbouwen - dus laten we daar beginnen:
-
-* [**Verantwoording**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) maakt beoefenaars _verantwoordelijk_ voor hun gegevens- en AI-operaties, en naleving van deze ethische principes.
-* [**Transparantie**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) zorgt ervoor dat gegevens en AI-acties _begrijpelijk_ (interpreteerbaar) zijn voor gebruikers, zoals het wat en waarom achter beslissingen.
-* [**Eerlijkheid**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - richt zich op het waarborgen dat AI _alle mensen_ eerlijk behandelt, waarbij alle systemische of impliciete socio-technische vooroordelen in data en systemen worden geaddresseerd.
-* [**Betrouwbaarheid en veiligheid**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - zorgt ervoor dat AI zich _consistent_ gedraagt met gedefinieerde waarden, waardoor potentiële schade of onbedoelde gevolgen worden geminimaliseerd.
-* [**Privacy en beveiliging**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - gaat over het begrijpen van gegevensafstamming en het bieden van _gegevensprivacy en gerelateerde beschermingen_ voor gebruikers.
-* [**Inclusiviteit**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - gaat over het ontwerpen van AI-oplossingen met intentie, ze aanpassen om te voldoen aan een _brede scala aan menselijke behoeften_ en mogelijkheden.
-
-> 🚨 Denk na over wat jouw missie voor gegevensethiek zou kunnen zijn. Verken ethische AI-kaders van andere organisaties - hier zijn voorbeelden van [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), en [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Welke gedeelde waarden hebben ze gemeen? Hoe verhouden deze principes zich tot het AI-product of de industrie waarin ze actief zijn?
-
-### 2. Ethische uitdagingen
-
-Zodra we ethische principes hebben gedefinieerd, is de volgende stap het evalueren van onze gegevens en AI-acties om te zien of ze in overeenstemming zijn met die gedeelde waarden. Denk na over je acties in twee categorieën: _gegevensverzameling_ en _algoritmeontwerp_.
-
-Bij het verzamelen van gegevens zullen acties waarschijnlijk betrekking hebben op **persoonlijke gegevens** of persoonlijk identificeerbare informatie (PII) voor identificeerbare levende personen. Dit omvat [diverse items van niet-persoonlijke gegevens](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) die _collectief_ een persoon identificeren. Ethische uitdagingen kunnen betrekking hebben op _gegevensprivacy_, _eigendom van gegevens_ en gerelateerde onderwerpen zoals _geïnformeerde toestemming_ en _intellectuele eigendomsrechten_ voor gebruikers.
-
-Bij het ontwerpen van algoritmen zullen acties bestaan uit het verzamelen en beheren van **datasets**, en deze vervolgens gebruiken om **datamodellen** te trainen en in te zetten die resultaten voorspellen of beslissingen automatiseren in reële contexten. Ethische uitdagingen kunnen ontstaan door _dataset bias_, _data quality_ issues, _unfairness_ en _misrepresentation_ (onvoldoende vertegenwoordiging) in algoritmen - inclusief enkele problemen die systemisch van aard zijn.
-
-In beide gevallen wijzen ethische uitdagingen op gebieden waar onze acties in conflict kunnen komen met onze gedeelde waarden. Om deze zorgen op te sporen, te verminderen, te minimaliseren of weg te nemen, moeten we morele "ja/nee"-vragen stellen met betrekking tot onze acties en vervolgens corrigerende maatregelen nemen als dat nodig is. Laten we eens kijken naar enkele ethische uitdagingen en de morele vragen die ze oproepen:
-
-#### 2.1 Gegevenseigendom
-
-Bij het verzamelen van gegevens gaat het vaak om persoonsgegevens die de betrokkenen kunnen identificeren. [Data-eigendom](https://permission.io/blog/data-ownership) gaat over _controle_ en [_gebruikers rechten_](https://permission.io/blog/data-ownership) met betrekking tot het aanmaken, verwerken en verspreiding van gegevens.
-
-De morele vragen die we moeten stellen zijn:
- * Wie is eigenaar van de gegevens? (gebruiker of organisatie)
- * Welke rechten hebben betrokkenen? (bijvoorbeeld: toegang, wissen, overdraagbaarheid)
- * Welke rechten hebben organisaties? (bijvoorbeeld: kwaadwillende gebruikersrecensies corrigeren)
-
-#### 2.2 Geïnformeerde toestemming
-
-[Informed consent](https://legaldictionary.net/informed-consent/) definieert de handeling van gebruikers die instemmen met een actie (zoals gegevensverzameling) met een _volledig begrip_ van relevante feiten, waaronder het doel, potentiële risico's en alternatieven.
-
-Vragen om hier te onderzoeken zijn:
- * Heeft de gebruiker (betrokkene) toestemming gegeven voor het vastleggen en gebruiken van gegevens?
- * Begreep de gebruiker het doel waarvoor die gegevens werden vastgelegd?
- * Begreep de gebruiker de mogelijke risico's van zijn deelname?
-
-#### 2.3 Intellectuele eigendom
-
-[Intellectuele eigendom](https://en.wikipedia.org/wiki/Intellectual_property) verwijst naar immateriële creaties die het resultaat zijn van menselijk initiatief en die _economische waarde_ kunnen hebben voor individuen of bedrijven.
-
-Vragen om hier te onderzoeken zijn:
- * Hadden de verzamelde gegevens economische waarde voor een gebruiker of bedrijf?
- * Heeft de **gebruiker** hier intellectueel eigendom?
- * Heeft de **organisatie** hier intellectueel eigendom?
- * Als deze rechten bestaan, hoe beschermen we ze dan?
-
-#### 2.4 Gegevensprivacy
-
-[Data privacy](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) of informatieprivacy verwijst naar het behoud van de gebruikersprivacy en bescherming van de gebruikersidentiteit met betrekking tot persoonlijk identificeerbare informatie.
-
-Vragen om hier te onderzoeken zijn:
- * Zijn (persoons)gegevens van gebruikers beveiligd tegen hacks en lekken?
- * Zijn gebruikersgegevens alleen toegankelijk voor geautoriseerde gebruikers en contexten?
- * Blijft de anonimiteit van gebruikers behouden wanneer gegevens worden gedeeld of verspreid?
- * Kan een gebruiker worden geanonimiseerd voor een geanonimiseerde datasets?
-
-#### 2.5 Recht om vergeten te worden
-
-Het [Recht om te worden vergeten](https://en.wikipedia.org/wiki/Right_to_be_forgotten) of [Recht tot verwijdering](https://www.gdpreu.org/right-to-be-forgotten/) biedt aanvullende bescherming van persoonsgegevens voor gebruikers. Het geeft gebruikers met name het recht om _onder specifieke omstandigheden_ persoonlijke gegevens van zoekopdrachten op internet en andere locaties te verzoeken tot wissen of verwijdering van persoonlijke gegevens, waardoor ze een nieuwe start online kunnen maken zonder dat er eerdere acties tegen hen worden ondernomen.
-
-Vragen om hier te onderzoeken zijn:
- * Staat het systeem de betrokkenen toe om verwijdering aan te vragen?
- * Moet het intrekken van de toestemming van de gebruiker leiden tot automatische verwijdering?
- * Zijn er gegevens verzameld zonder toestemming of op onrechtmatige wijze?
- * Voldoen we aan de overheidsvoorschriften voor gegevensprivacy?
-
- #### 2.6 Gegevenssetbias
-
-Dataset of [Verzamel Bias](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) gaat over het selecteren van een _niet-representatieve_ subset van gegevens voor de ontwikkeling van algoritmen, waardoor potentiële oneerlijkheid in resultaatuitkomsten voor diverse groepen ontstaat. Soorten bias zijn onder meer selectie- , vrijwilligers- en instrumentbias.
-
-Vragen om hier te onderzoeken zijn:
- * Hebben we een representatieve set van betrokkenen geworven?
- * Hebben we onze verzamelde of samengestelde dataset getest op verschillende vooroordelen?
- * Kunnen we ontdekte vooroordelen verminderen of verwijderen?
-
-#### 2.7 Gegevenskwaliteit
-
-[Data Quality](https://lakefs.io/data-quality-testing/) kijkt naar de validiteit van de samengestelde dataset die is gebruikt om onze algoritmen te ontwikkelen en controleert of functies en records voldoen aan de vereisten voor het niveau van nauwkeurigheid en consistentie nodig voor ons AI-doel.
-
-Vragen om hier te onderzoeken zijn:
- * Hebben we geldige _features_ vastgelegd voor onze use case?
- * Zijn gegevens _consistent_ vastgelegd in verschillende gegevensbronnen?
- * Is de dataset _compleet_ voor diverse omstandigheden of scenario's?
- * Wordt informatie _nauwkeurig_ vastgelegd in weerspiegeling van de werkelijkheid?
-
-#### 2.8 Algoritme Eerlijkheid
-
-[Algorithm Fairness](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) controleert of het ontwerp van het algoritme systematisch discrimineert tegen specifieke subgroepen van betrokkenen die leiden tot [potentiële schade](https://docs .microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) in _allocation_ (waar middelen worden geweigerd of onthouden aan die groep) en _quality of service_ (waar AI voor sommige subgroepen niet zo nauwkeurig is als het is voor anderen).
-
-Vragen om hier te onderzoeken zijn:
- * Hebben we de modelnauwkeurigheid geëvalueerd voor verschillende subgroepen en condities?
- * Hebben we het systeem onderzocht op mogelijke schade (bijv. stereotypering)?
- * Kunnen we gegevens herzien of modellen omscholen om geïdentificeerde schade te beperken?
-
-Verken bronnen zoals [AI Fairness checklists](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) voor meer informatie.
-
-#### 2.9 Verkeerde voorstelling van zaken
-
-[Vertegenwoordigende data](https://www.sciencedirect.com/topics/computer-science/misrepresentation) gaat over de vraag of we inzichten uit eerlijk gerapporteerde gegevens op een misleidende manier communiceren om een gewenst verhaal te ondersteunen.
-
-Vragen om hier te onderzoeken zijn:
- * Rapporteren we onvolledige of onjuiste gegevens?
- * Visualiseren we gegevens op een manier die leidt tot misleidende conclusies?
- * Gebruiken we selectieve statistische technieken om uitkomsten te manipuleren?
- * Zijn er alternatieve verklaringen die tot een andere conclusie kunnen leiden?
-
-#### 2.10 Vrije keuze
-De [Illusie van Vrije Keuze](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) treedt op wanneer systeem-keuze-architecturen besluitvormingsalgoritmen gebruiken om mensen ertoe aan te zetten een gewenste uitkomst te kiezen terwijl het hen opties en controle lijkt te geven. Deze ['darkpatterns'](https://www.darkpatterns.org/) kunnen gebruikers sociale en economische schade toebrengen. Omdat beslissingen van gebruikers van invloed zijn op gedragsprofielen, kunnen deze acties toekomstige keuzes stimuleren die de impact van deze schade kunnen vergroten of uitbreiden.
-
-Vragen om hier te onderzoeken zijn:
- * Begreep de gebruiker de implicaties van het maken van die keuze?
- * Was de gebruiker op de hoogte van (alternatieve) keuzes en de voor- en nadelen van elk?
- * Kan de gebruiker een geautomatiseerde of beïnvloede keuze later terugdraaien?
- ### 3. Casestudy's
-
-Om deze ethische uitdagingen in een reële context te plaatsen, helpt het om casestudies te bekijken die de potentiële schade en gevolgen voor individuen en de samenleving benadrukken, wanneer dergelijke ethische schendingen over het hoofd worden gezien.
-
-Hier zijn een paar voorbeelden:
-
-| Ethische uitdaging | Casestudy |
-|--- |--- |
-| **Informed Consent** | 1972 - [Tuskegee Syphilis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Afro-Amerikaanse mannen die deelnamen aan het onderzoek kregen gratis medische zorg beloofd _maar werden misleid_ door onderzoekers die de proefpersonen niet informeerden over hun diagnose of over beschikbaarheid van de behandeling. Veel proefpersonen stierven en ook partners en kinderen werden hierdoor getroffen; de studie duurde 40 jaar. |
-| **Gegevensprivacy** | 2007 - De [Netflix-gegevensprijs](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) voorzag onderzoekers van _10 miljoen geanonimiseerde filmranglijsten van 50.000 klanten_ om aanbevelingsalgoritmen te helpen verbeteren. Onderzoekers waren echter in staat om geanonimiseerde gegevens te correleren met persoonlijk identificeerbare gegevens in _externe datasets_ (bijv. IMDb-commentaren) - waardoor sommige Netflix-abonnees effectief te "de-anonimiseren" waren.|
-| **Verzamelingsbias** | 2013 - De stad Boston [ontwikkelde Street Bump](https://www.boston.gov/transportation/street-bump), een app waarmee burgers kuilen kunnen melden, waardoor de stad betere weggegevens krijgt om problemen op te sporen en op te lossen. [mensen in lagere inkomensgroepen hadden echter minder toegang tot auto's en telefoons](https://hbr.org/2013/04/the-hidden-biases-in-big-data), waardoor hun problemen met de rijbaan onzichtbaar werden in deze app . Ontwikkelaars werkten samen met academici aan _gelijke toegang en digitale scheidslijnen_ kwesties voor eerlijkheid. |
-| **Algoritmische eerlijkheid** | 2018 - De MIT [Gender Shades Study](http://gendershades.org/overview.html) evalueerde de nauwkeurigheid van AI-producten voor genderclassificatie, waarbij hiaten in de nauwkeurigheid voor vrouwen en personen van kleur werden blootgelegd. Een [Apple Card uit 2019](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) leek vrouwen minder krediet te bieden dan mannen. Beide illustreerden problemen in algoritmische bias die tot sociaaleconomische schade leiden.|
-| **Onjuiste voorstelling van gegevens** | 2020 - Het [Departement van Volksgezondheid van Georgië heeft COVID-19-kaarten vrijgegeven](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid- 19-gevallen-afnemende-heropening) die burgers leek te misleiden over trends in bevestigde gevallen met niet-chronologische volgorde op de x-as. Dit illustreert een verkeerde voorstelling van zaken door middel van visualisatietrucs. |
-| **Illusie van vrije keuze** | 2020 - Leerapp [ABCmouse betaalde $ 10 miljoen om een FTC-klacht op te lossen](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) waar ouders aan een abonnementen vastzaten die ze niet konden opzeggen. Dit illustreert duistere patronen in keuzearchitecturen, waarbij gebruikers naar potentieel schadelijke keuzes werden gepusht. |
-| **Gegevensprivacy en gebruikersrechten** | 2021 - Facebook [Data Breach](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify- gebruikers) gegevens van 530 miljoen gebruikers werden openbaar gemaakt, wat resulteerde in een schikking van $ 5 miljard aan de FTC. De organisatie weigerde echter gebruikers op de hoogte te stellen van de inbreuk die de gebruikersrechten rond gegevenstransparantie en -toegang schendt. |
-
-Meer casestudy's bekijken? Bekijk deze bronnen:
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - ethische dilemma's in verschillende sectoren.
-* [cursus Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - baanbrekende casestudies onderzocht.
-* [Waar het mis is gegaan](https://deon.drivendata.org/examples/) - deon checklist met voorbeelden
-
-> 🚨 Denk eens aan de casestudies die u hebt gezien - heeft u in uw leven een soortgelijke ethische uitdaging meegemaakt of erdoor getroffen? Kun je ten minste één andere casestudy bedenken die een van de ethische uitdagingen illustreert die we in deze sectie hebben besproken?
-
-## Toegepaste ethiek
-
-We hebben gesproken over ethische concepten, uitdagingen en casestudy's in reële contexten. Maar hoe beginnen we met het _toepassen_ van ethische principes en praktijken in onze projecten? En hoe _operationaliseren_ we deze praktijken voor beter bestuur? Laten we enkele echte oplossingen verkennen:
-
-### 1. Professionele codes
-
-Beroepscodes bieden organisaties één mogelijkheid om leden te "stimuleren" om hun ethische principes en missieverklaring te ondersteunen. Codes zijn _morele richtlijnen_ voor professioneel gedrag en helpen werknemers of leden om beslissingen te nemen die in lijn zijn met de principes van hun organisatie. Ze zijn slechts zo goed als de vrijwillige medewerking van leden; veel organisaties bieden echter extra beloningen en boetes om naleving door leden te motiveren.
-
-Voorbeelden zijn:
-
- * [Oxford München](http://www.code-of-ethics.org/code-of-conduct/) Ethische code
- * [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Gedragscode (gemaakt in 2013)
- * [ACM-code voor ethiek en professioneel gedrag](https://www.acm.org/code-of-ethics) (sinds 1993)
-
-> 🚨 Behoor jij tot een professionele engineering- of datawetenschapsorganisatie? Verken hun site om te zien of ze een professionele ethische code definiëren. Wat zegt dit over hun ethische principes? Hoe "stimuleren" ze leden om de code te volgen?
-
-### 2. Ethische checklists
-
-Hoewel professionele richtlijnen _ethisch gedrag_ van beoefenaars definiëren, hebben ze [bekende beperkingen](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) bij de handhaving, met name bij grootschalige projecten. In plaats daarvan pleiten veel data Science-experts [voor checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), die **principes kunnen verbinden met praktijken** in meer deterministische en bruikbare manieren.
-
-Checklists zetten vragen om in "ja/nee"-taken die kunnen worden geoperationaliseerd, zodat ze kunnen worden gevolgd als onderdeel van standaard workflows voor productreleases.
-
-Voorbeelden zijn:
- * [Deon](https://deon.drivendata.org/) - een checklist voor gegevensethiek voor algemene doeleinden gemaakt op basis van [aanbevelingen voor de sector](https://deon.drivendata.org/#checklist-citations) met een opdracht- line tool voor eenvoudige integratie.
- * [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - biedt algemene richtlijnen voor informatieverwerkingspraktijken vanuit juridische en sociale blootstellingsperspectieven.
- * [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - gemaakt door AI-beoefenaars ter ondersteuning van de invoering en integratie van eerlijkheidscontroles in AI-ontwikkelingscycli .
- * [22 vragen voor ethiek in data en AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - meer open kader, gestructureerd voor de eerste verkenning van ethische kwesties in ontwerp-, implementatie- en organisatorische contexten.
-
- ### 3. Ethische voorschriften
-
-Ethiek gaat over het definiëren van gedeelde waarden en het _vrijwillig_ doen van de juiste dingen. **Compliance** gaat over het _volgen van de wet_ indien en waar gedefinieerd. **Governance** omvat in grote lijnen alle manieren waarop organisaties handelen om ethische principes af te dwingen en te voldoen aan gevestigde wetten.
-
-Tegenwoordig neemt governance binnen organisaties twee vormen aan. Ten eerste gaat het om het definiëren van **ethische AI**-principes en het vaststellen van praktijken om de acceptatie in alle AI-gerelateerde projecten in de organisatie te operationaliseren. Ten tweede gaat het om het naleven van alle door de overheid opgelegde **gegevensbeschermingsvoorschriften** voor de regio's waarin het actief is.
-
-Voorbeelden van gegevensbescherming en privacyregelgeving:
-
- * `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regelt de verzameling, het gebruik en de openbaarmaking van persoonlijke informatie door de federale overheid.
- * `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - beschermt persoonlijke gezondheidsgegevens.
- * `1998`, [Amerikaanse Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - beschermt de gegevensprivacy van kinderen onder de 13 jaar.
- * `2018`, [Algemene Verordening Gegevensbescherming (AVG)](https://gdpr-info.eu/) - biedt gebruikersrechten, gegevensbescherming en privacy.
- * `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) geeft consumenten meer _rechten_ over hun (persoonlijke) gegevens.
- * `2021`, China's [wet ter bescherming van persoonsgegevens](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021 -08-20/) zojuist gepasseerd, waardoor een van de sterkste online gegevensprivacyregels ter wereld is gecreëerd.
-
-> 🚨 De door de Europese Unie gedefinieerde AVG (Algemene Verordening Gegevensbescherming) blijft vandaag een van de meest invloedrijke regels voor gegevensprivacy. Wist u dat het ook [8 gebruikersrechten](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) definieert om de digitale privacy en persoonlijke gegevens van burgers te beschermen? Lees wat deze zijn en waarom ze belangrijk zijn.
-
-
-### 4. Ethische cultuur
-
-Onthoud dat er een ongrijpbare kloof blijft tussen _compliance_ (genoeg doen om te voldoen aan "de letter van de wet") en het aanpakken van [systeemproblemen](https://www.coursera.org/learn/data-science-ethics/home/week /4) (zoals ossificatie, informatieasymmetrie en oneerlijke verdeling) die de bewapening van AI kunnen versnellen.
-
-Dit laatste vereist [samenwerkingsbenaderingen voor het definiëren van ethische culturen](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) die emotionele verbindingen en consistente gedeelde waarden _over organisaties_ in de industrie. Dit vraagt om meer [geformaliseerde data-ethiekculturen](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) in organisaties - waardoor _iedereen_ [aan het Andon-koord kan trekken](https:/ /en.wikipedia.org/wiki/Andon_(manufacturing)) (om ethische problemen vroeg in het proces aan de orde te stellen) en het maken van _ethische beoordelingen_ (bijvoorbeeld bij het aannemen) een kerncriterium voor teamvorming in AI-projecten.
-
---
-## [Quiz voor na het college](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
-## Review & Zelfstudie
-
-Cursussen en boeken helpen bij het begrijpen van kernconcepten en uitdagingen op het gebied van ethiek, terwijl casestudy's en hulpmiddelen helpen bij toegepaste ethische praktijken in echte contexten. Hier zijn een paar bronnen om mee te beginnen.
-
-* [Machine Learning voor beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - les over eerlijkheid, van Microsoft.
-* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - gratis leertraject van Microsoft Learn.
-* [Ethiek en gegevenswetenschap](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
-* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - online cursus van de Universiteit van Michigan.
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - casestudy's van de Universiteit van Texas.
-
-# Opdracht
-
-[Schrijf een data-ethiek case study](/assignment.nl.md)
--- a/1-Introduction/02-ethics/translations/README.pt-br.md
+++ b/1-Introduction/02-ethics/translations/README.pt-br.md
@ -1,262 +0,0 @@
-# Introdução a Ética de Dados
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
-|:---:|
-| Ética em Ciência de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
---
-
-Nós somos todos cidadãos dos dados vivendo em um mundo de dados.
-
-Tendências do mercado nos mostram que até 2022, 1 em 3 grandes organizações irá comprar e vender seus dados através de [Marketplaces e Exchanges](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/) online. Como **Desenvolvedores de Aplicativos**, nós vamos achar mais fácil e mais barato integrar insights baseados em dados e automações baseadas em algoritmos nas experiências diárias dos usuário. Mas conforme IA se torna mais difundida, nós também vamos precisar entender os danos potenciais causado pelo uso desses algoritmos [como uma arma](https://www.youtube.com/watch?v=TQHs8SA1qpk).
-
-Tendências também indicam que nós vamos criar e consumir mais de [180 zettabytes](https://www.statista.com/statistics/871513/worldwide-data-created/) de dados em 2025. Como **Cientistas de Dados**, isso nos dará níveis de acesso sem precedentes à dados pessoais. Isso significa que poderemos construir perfis comportamentais dos usuário e influenciar tomadas de decisão de uma forma que crie a [ilusão da livre escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) enquanto potencialmente direcionando os usuários na direção do resultado que nós preferimos. Isso também levanta questões mais amplas sobre privacidade dos dados e proteção dos usuários.
-
-Ética dos dados é agora uma _proteção necessário_ para ciẽncia de dados e engenharia, nos ajudando a minimizar potenciais danos e consequências não intencionas das nossas ações realizadas com base em dados. O [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifica tendências relevantes ná ética digital, IAs responsáveis, e governanças de IA como principais impulsionadores para grandes mega tendências sobre _democratização_ e _industrialização_ da IA.
-
-![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
-
-Nessa aula, nós vamos explorar a área fascinante de ética dos dados - desde conceitos essenciais e desafios, para estudos de caso e conceitos de IA aplicados como governança - isso ajuda a estabelecer a cultura da ética nos times e organizações que trabalham com dados e IA.
-
-
-
-
-## [Quiz pré aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
-
-## Definição Básica
-
-Vamos começar entendendo o básico da terminologia.
-
-A palavra "ética" vem da [palavra Grega "ethikos"](https://en.wikipedia.org/wiki/Ethics) (e sua raíz "ethos") que significa _caráter ou natureza moral_.
-
-**Ética** é sobre os valores e princípios morais compartilhados que governam o nosso comportamento em sociedade. Ética é baseada não nas leis mas nas normas amplamente aceitas sobre o que é "certo vs. errado". No entanto, considerações éticas podem influenciar iniciativas de governança corporativa e regulamentações governamentais que criam mais incentivos para conformidade (compliance).
-
-**Ética de Dados** é uma [nova ramificação da ética](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1) que "estuda e avalia problemas morais relacionados a _dados, algoritmos e práticas correspondentes_". Aqui, **"dados"** focam nas ações relacionadas a geração, gravação, curadoria, disseminação de processamento, compartilhamento, e uso, **"algoritmos"** focam em IA, agentes, aprendizado de máquina, e robôs, e **"práticas"** focam em tópicos como inovação responsável, programação, hacking e códigos de ética.
-
-**Ética Aplicada** é a [aplicação prática de considerações morais](https://en.wikipedia.org/wiki/Applied_ethics). É o processo de investigar ativamente problemáticas éticas no contexto de _ações do mundo real, produtos e processos_, e tomar medidas corretivas para fazer com que esses permanecam alianhados com o nossos valores éticos definidos.
-
-**Cultura Ética** é sobre [operacionalizar a ética aplicada](https://hbr.org/2019/05/how-to-design-an-ethical-organization) para garantir que nossos princípios e práticas éticas sejam adotados de maneira consistente e escalável em toda a organização. Culturas éticas de sucesso definem princípios éticos em toda a organização, fornecem incentivos significativos para consistência, e reinforça as normas éticas encorajando e amplificando comportmentos desejados em todos os níveis da organização.
-
-
-## Conceitos Éticos
-
-Nessa seção, nós vamos discutir conceitos como **valores compartilhados** (princípios) e **desafios éticos** (problemas) para a ética de dados - e explorar **estudos de caso** que ajudam você a entender esses conceitos em contextos do mundo real.
-
-### 1. Princípios Éticos
-
-Toda estratégia de ética de dados começa definindo _pricípios éticos_ - os "valores compartilhados" que descrevem comportamentos aceitáveis, e guia ações complacentes, nos nossos dados e nos projetos de IA. Você pode definir eles individualmente ou com um time. No entando, a maioria das grandes organizações descreve eles em uma declaração de missão ou de estrutura de _IA ética_ que é definida em níveis corporativos e aplicadas consistentemente em todos os times.
-
-**Exemplo:** a declaração de missão da [IA responsável](https://www.microsoft.com/pt-br/ai/responsible-ai?activetab=pivot1:primaryr6) da Microsoft afirma: _"Estamos comprometidos com o avanço da AI impulsionados por princípios éticos que colocam as pessoas em primeiro lugar."_ - identificando 6 princípios éticos na estrutura abaixo:
-
-![IA Responśavel na Microsoft](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
-
-Vamos explorar brevemente esses princípios. _Transparência_ e _responsabilidade_ são valores fundamentais nos quais outros princípios construíram sobre - então vamos começar aí:
-
-* [**Responsabilidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) torna os profissionais _responsáveis_ pelos seus dados e operações da IA, e conformidade (compliance) com esses princípios éticos.
-* [**Transparência**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) garante que os dados e as ações da IA são _compreesíveis_ (interpretáveis) para os usuários, explicando o que e o porquê por trás de cada decisão.
-* [**Justiça**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) - foca em garantir que a IA _trate_ todas as pessoas de forma justa, abordando quaisquer preconceitos sociotécnicos implícitos ou sistêmicos nos dados e sistemas.
-* [**Confiabilidade e Segurança**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - garante que a IA comporte de maneira _consistente_ com os valores definidos, minimizando potenciais danos ou consequências não pretendidas.
-* [**Segurança e Privacidade**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre compreender as linhagem dos dados, e fornecer _privacidade de dados e proteções relacionadas_ aos usuários.
-* [**Inclusão**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) - é sobre projetar soluções de IA com intenção, adaptando elas para atender uma _vasta game de necessidades humanas_ & capacidades.
-
-> 🚨 Pense sobre qual poderia ser a frase de missão da sua ética de dados. Explore estruturas éticas de IA de outras organizações - aqui estão alguns exemplos da [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles), e [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Quais valores compartilhados vocês tem em comum? Como esses princípios se relacionam ao produto de IA ou à indústria na qual eles operam?
-
-### 2. Desafios de Ética
-
-Uma vez que nossos princípios éticos estão definidos, o próximo passo é avaliar nossos dados e ações da IA  para ver se eles estão alinhados com aqueles valores compartilhados. Pense sobre suas ações em duas categorias: _coleção de dados_ e _design de algoritmo_.
-
-Com coleções dados, ações irão, provavelmente, envolver **dados pessoais** ou informação pessoalmente identificável (do Inglês, personally identifiable information, ou PII) para indivíduos vivos identificáveis. Isso inclui [itens diversos de dados não pessoais](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en) que _coletivamente_ identificam um indivíduo. Desafios éticos podem estar relacionados à _privacidade dos dados_, _qualidade dos dados_, e tópicos relacionados como _consentimento informado_ e _direitos de propriedades intelectuais_ para os usuários.
-
-Com o design de algoritmo, as ações envolverão coleta e curadoria dos **datasets**, e então o uso deles para treinar e implantar **modelos de dados** que predizem resultados ou automatizam decisões em contextos do mundo real. Desafios éticos podem surgir de _vieses do dataset_ (biases), problemas com a _qualidade de dados_, _injustiça_, e _má representação_ nos algoritmos - incluindo alguns problemas que são sistêmicos na natureza.
-
-Em ambos os casos, desafios de ética destacam áreas onde nossas ações podem conflitar com nossos valores compartilhados. Para detectar, mitigar, minimizar, ou eliminar, essas preocupações - nós precisamos perguntar questões morais de "sim ou não" relacionadas as nossas ações, e então tomar uma ação corretiva conforme necessário. Vamos olhar alguns desafios éticos e as questões morais que eles levantam:
-
-
-#### 2.1 Propriedade de Dados
-
-A coleta de dados geralmente envolve dados pessoais que podem identificar os titulares dos dados. [Propriedade de dados](https://permission.io/blog/data-ownership) é sobre o _controle_ e [_direitos dos usuários_](https://permission.io/blog/data-ownership) relacionados à criação, processamento, e disseminação dos dados.
-
-As questões morais que precisamos nos perguntar são:
- * Quem detêm/possui os dados? (usuário ou organização)
- * Quais direitos os titulares dos dados tem? (ex: acesso, apagar, portabilidade)
- * Quais direitos as organizações tem? (ex: retificar reviews maliciosas de usuários)
-
-#### 2.2 Consentimento Informado
-
-[Consentimento Informado](https://legaldictionary.net/informed-consent/) define o ato dos usuários aceitar uma ação (como a coleta de dados) com um _compreendimento total_ de fatos relevantes incluindo propósito, potenciais riscos, e alternativas.
-
-Questões a se explorar aqui são:
- * O usuário (titular dos dados) deu permissão para a captação e uso dos dados?
- * O usuário entendeu o propósito para o qual aqueles dados foram coletados?
- * O usuário entendeu os potenciais riscos de sua participação?
-
-#### 2.3 Propriedade Intelectual
-
-[Propriedade intelectual](https://en.wikipedia.org/wiki/Intellectual_property) se refere a criações intangíveis que foram resultados das iniciativas humanas, que podem _ter valor econômico_ para indivíduos ou negócios.
-
-Questões a se explorar aqui são:
- * Os dados coletados tem valor econômicos para um usuário ou negócio?
- * O **usuário** tem propriedade intelectual aqui?
- * As **organizações** tem propriedade intelectual aqui?
- * Se esses direitos existem, como estamos protejendo eles?
-
-#### 2.4 Privacidade de Dados
-
-[Privacidade de dados](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) ou privacidade da informação se refere a preservação da privacidade do usuário e proteção da identidade do usuário com relação as informações de indentificação pessoal.
-
-Questões a se explorar aqui são:
- * Os dados (pessoais) dos usuários estão protegidos contra hacks e vazamentos?
- * Os dados do usuário são acessíveis somente a usuários e contextos autorizados?
- * A anonimidade do usuário são preservados quando os dados são compartilhados ou disseminados?
- * Um usuário podem ser desindentificado de datasets anônimos?
-
-
-#### 2.5 Direito a Ser Esquecido
-
-o [Direito a Ser Esquecido](https://en.wikipedia.org/wiki/Right_to_be_forgotten) ou [Direito de Apagar](https://www.gdpreu.org/right-to-be-forgotten/) fornecem proteções de dados adicionais para os usuários. Especificamente, dá aos usuários o direito de pedir deleção ou remoção dos dados pessoais das buscas da Internet e outros locais, _sobre circunstâncias específicas_ - permitindo a eles um novo começo online sem que as ações passadas sejam colocadas contra eles.
-
-Questões a se explorar aqui são:
- * O sistema permite que os titulares dos dados peçam o apagamento dos mesmos?
- * A retirada do consentimento do usuário deve acionar um apagamento automático?
- * Dados foram colocados sem o consentimento ou por meios ilegais?
- * Estamos de acordo com regulações governamentais para a privacidade de dados?
-
-
-#### 2.6 Viéses dos Datasets
-
-[Viéses da Coleção ou do Dataset](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) é sobre selecionar um subset de dados _não representativos_ para o desenvolvimento de um algoritmo, criando potenciais injustiças nos resultados para grupos diversos. Os tipos de viéses incluem seleção ou viés da amostra, viés voluntário, e viés do instrumento.
-
-Questões a se explorar aqui são:
- * Recrutamos um conjunto representativo de titulares de dados?
- * Nós testamos nossos datasets colecionados ou com curadoria para diversos viéses?
- * Nós podemos mitigar ou remover quaisquer viéses descobertos?
-
-#### 2.7 Qualidade de Dados
-
-[Qualidade de Dados](https://lakefs.io/data-quality-testing/) procura pela validade do dataset com curadoria usado para desenvolver nossos algoritmos, checando para ver se recursos e registros atendem os requisitos para o nível de acurácia e consistência necessários para o propósito da nossa IA.
-
-Questões a se explorar aqui são:
- * Nós coletamos _features_ válidos para nosso caso de uso?
- * Os dados foram coletados _consistentemente_ em diversas fontes de dados?
- * O dataset é _completo_ para diversas condições e cenários?
- * As informações capturadas refletem _com precisão_ a realidade?
-
-#### 2.8 Justiça do Algoritmo
-
-[Justiça do Algoritmo](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) checa para ver se o design do algoritmo discrimina sistematicamente subgrupos específicos dos titulares dos dados levando a [potenciais danos](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) em _alocação_ (onde recursos são negados ou detidos daquele grupo) e _qualidade de serviço_ (onde IA não é tão acurada para alguns subgrupos quanto é para outros).
-
-Questões a se explorar aqui são:
- * Nós avaliamos a acurácia do modelo para diversos subgrupos e condições?
- * Nós examinamos o sistema em busca de danos potenciais (ex. estereótipos)?
- * Nós podemos revisar os dados ou retreinar os modelos para mitigar danos identificados?
-
-Explore recursos como [Checklist de Justiça de IA](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA) para saber mais.
-
-#### 2.9 Má Representação
-
-[Má Representação dos Dados](https://www.sciencedirect.com/topics/computer-science/misrepresentation) é sobre perguntar se nós estamos comunicando insights de dados honestamente relatados de uma maneira enganosa para suportar uma narrativa desejada.
-
-Questões a se explorar aqui são:
- * Estamos relatando dados completos ou inacurados?
- * Estamos visualizando dados de uma maneira que conduz a uma conclusão errada?
- * Estamos usando técnicas estatísticas seletivas para manipular os resultados?
- * Existem explicações alternativas que podem oferecer uma conclusão diferente?
-
-#### 2.10 Livre Escolha
-A [Ilusão da Livre Escolha](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) ocorre quando as "arquiteturas de escolha" do sistema utiliza algoritmos de tomada de decisão para incentivar as pessoas a obterem um resultado preferido enquanto parece lhe dar opções e controle. Esses [dark patterns](https://www.darkpatterns.org/) podem causar danos sociais e econômicos aos usuários. Já que as decisões do usuário impactam perfis de comportamento, essas ações potencialmente conduzem as escolhas futuras que podem aplificar ou extender o impacto desses danos.
-
-Questões a se explorar aqui são:
- * O usuário entende as implicações de fazer aquela escolha?
- * O usuário estava ciente das escolhas (alternativas) e dos prós e contras de cada uma?
- * O usuário pode reverter um escolha automatizada ou influenciada depois?
-
-### 3. Estudo de Casos
-
-Para colocar esses desafios éticos em contextos do mundo real, ajuda olhar para estudo de casos que destacam potenciais danos e consequências para indivíduos e sociedade, quando essas violações éticas são negligenciadas.
-
-Aqui estão alguns exemplos:
-
-| Desafios de Éticas | Estudo de Caso  | 
-|--- |--- |
-| **Consentimento Informado** | 1972 - [Tuskegee Syphillis Study](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Homens afro-americanos que participaram no estudo foram prometidos cuidados médicos livres de custo _mas foram enganados_ pelos pesquisadores que não informaram os participantes de seus diagnósticos ou sobre a avaliabilidade de tratamentos. Muitos participantes morreram e parceiros e ciranças foram afetados; oe studo durou por 40 anos. | 
-| **Privacidade de Dados** |  2007 - O [Netflix data prize](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) forneceu a pesquisadores _10M de avaliações anônimas de filmes de 50K clientes_ para ajudar a melhorar os algoritmos de recomendação. No entanto, os pesquisadores conseguiram correlacionar os dados anônimos com dados de identificação pessoal em _datasets externos_ (ex. comentários no IMDb) - "desanonimizando" efetivamente alguns assinates da Netflix.|
-| **Viéses dos Datasets**  | 2013 - A Cidade de Boston [desenvolveu Street Bump](https://www.boston.gov/transportation/street-bump), um aplicativo que deixa os usuários relatarem burcos nas ruas, dando à cidade melhores dados rodoviários para encontrar e consertar problemas. No entanto, [pessoas que faziam parte de grupos de baixa renda tinham menos acesso a carros e celulares](https://hbr.org/2013/04/the-hidden-biases-in-big-data), fazendo com que os seus problema rodoviários fossem invisíveis nesse aplicativo. Desenvolvedores trabalharm com acadêmicos para questões de _acesso equitativo e divisões digitais_ para justiça. |
-| **Justiça do Algoritmo**  | 2018 - [O Gender Shades Study do MIT](http://gendershades.org/overview.html) avaliou a acurácia de produtos de IA de classificação de gêneros, expondo lacunas na acurácia para mulheres e pessoas não brancas. Um [Apple Card de 2019](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) parece oferecer menos créditos para mulheres do que oferece para homens. Ambos ilustraram questões de viés algorítmico levando a danos socioeconômicos.|
-| **Má Representação de Dados** | 2020 - O [Departamento de Sáude Pública da Georgia (Georgia Department of Public Health) liberou gráficos da COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening) que aparentam a levar os cidadãos a conclusões errôneas sobre as tendências em casos confirmados em uma ordem não cronológica no eixo x. Isso ilustra a má representação atráves de truques de visualização. |
-| **Ilusão da Livre Escolha** | 2020 - Aplicativo de aprendizado [ABCmouse pagou $10M para resolver uma reclamação do FTC](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/) onde os pais foram enganados a pagar assinaturas que eles não podiam cancelar. Isso ilustra "dark patterns" em arquiteturas de escolha, onde usuários foram direcionados a escolhas potencialmente prejudiciais. |
-| **Privacidade de Dados & Direitos do Usuário** | 2021 - [Violação de Dados do facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) expôs dados de mais de 530M de usuários, resultando em um acordo de $5B com o FTC (Federal Trade Commission). No entanto, o Facebook se recusou a notificar os usuários sobre a violação dos dados violando os direitos dos usuários de transparência e acesso de dados. |
-
-Gostaria de explorar mais estudos de caso? Confira:
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - dilemas éticos em indústrias diversas.
-* [Data Science Ethics course](https://www.coursera.org/learn/data-science-ethics#syllabus) - estudos de caso marcantes explorados.
-* [Where things have gone wrong](https://deon.drivendata.org/examples/) - checklists da deon com exemplos
-
-> 🚨 Pense sobre estudos de caso que você ja viu - você ja experienciou, ou foi afetado por, um desafio ético similar em sua vida? Voce consegue pensar em pelo menos um estudo de caso que ilustre um ou mais desafios éticos que discutimos nessa seção?
-
-## Ética aplicada
-
-Nós falamos sobre conceitos de éticas, desafios, e casos de estudo em contextos do mundo real. Mas como nós começamos a _aplicar_ esses princípios éticos em nossos projetos? E como nós _operacionalizamos_ essas práticas para melhor governância? Vamos explorar algumas soluções do mundo real:
-
-### 1. Códigos Profissionais
-
-Códigos Profisionais oferecem uma opção para organizações para "incentivar" membros a apoiar os princípios éticos e frase de missão. Códigos são _diretrizes morais_ para comportamento profissional, ajudando funcionários ou membros a tomar decisões que alinhem com os princípios da sua organização. Eles são tão bons quanto a conformidade voluntária dos membros; no entanto, muitas organizações oferecem recompensas e penalidades adicionais para motivar a conformidade dos membros.
-
-Exemplos incluem:
-
- * [Oxford Munich](http://www.code-of-ethics.org/code-of-conduct/) Código de Ética
- * [Data Science Association](http://datascienceassn.org/code-of-conduct.html) Código de Conduta (criado em 2013)
- * [ACM Code of Ethics and Professional Conduct](https://www.acm.org/code-of-ethics) (desde 1993)
-
-> 🚨 Você faz parte de uma organização profissional de engenharia ou de ciências de dados? Explore o site deles para ver se eles definem um código de ética profissional. O que diz sobre os princípios éticos deles? Como eles estão "incentivando" os membros a seguir o código?
-
-### 2. Checklists de Éticas
-
-Enquanto códigos profissionais definem _comportamentos ético_ requiridos de seus praticantes, eles [tem limitações conhecidas](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) na execução, particularmente em projetos de larga escala. Ao invés disso, muitos experts em Ciência de Dados [defendem as checklists](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), que podem **conectar princípios a práticas** de maneiras para determinísticas e acionáveis.
-
-Checklists convertem as questões em tarefas de "sim/não" que podem ser operacionalizadas, permitindo eles serem rastreados como parte dos fluxos de trabalho de liberação de produtos padrão. 
-
-Exemplos incluem:
- * [Deon](https://deon.drivendata.org/) - uma checklist de propósito gerak criado a partir de [recomendações da insústria](https://deon.drivendata.org/#checklist-citations) com uma ferramenta de linha de comando para fácil integração.
- * [Privacy Audit Checklist](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - fornece orientação geral para práticas de manipulação de informação a partir de perspectivas de exposição legal e social.
- * [AI Fairness Checklist](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - criado por praticantes de IA para apoiar a adoção e integração de verificações de justiça dentro dos ciclos de desenvolvimento de IA.
- * [22 questions for ethics in data and AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - estrutura mais aberto-fechado, estrturado para exploração inicial de problemas éticos em contextos de design, implementação, e organizacional.
-
-### 3. Regulações Éticas
-
-Ética é sobre definir valores compartilhados e fazer a coisa certa _voluntariamente_. **Compliance (Conformidade)** é sobre _seguir a lei_ se e onde definida. **Governância** abrange amplamente todos as formas de como as organizações operam para garantir princípios éticos e cumprir as leis estabelecidas.
-
-Hoje, governância assume duas formas dentro das organizações. Primeira, é sobre definir princípios de **IA ética** e estabelecer práticas para operacionalizar a adoção em todos os projetos de IA na organização. Segundo, trata-se de cumprir com todos os **regulamentos de proteção de dados** para as regiões em que operam.
-
-Exemplos de proteção de dados e regulamentos de privacidade:
-
- * `1974`, [US Privacy Act](https://www.justice.gov/opcl/privacy-act-1974) - regula a coleta, o uso, e divulgação de informações pessoais por parte do _governo federal_.
- * `1996`, [US Health Insurance Portability & Accountability Act (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - protege dados de sáude pessoais.
- * `1998`, [US Children's Online Privacy Protection Act (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - protege a privacidade de dados de crianças menores de 13 anos de idade.
- * `2018`, [General Data Protection Regulation (GDPR)](https://gdpr-info.eu/) - fornece direitos aos usuário, proteção de dados, e privacidade.
- * `2018`, [California Consumer Privacy Act (CCPA)](https://www.oag.ca.gov/privacy/ccpa) dá aos consumidores mais _direitos_ sobre seus dados (pessoais).
- * `2021`, [A Lei de Proteção de Informação Pessoal](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) da China acabou de ser passado, criando uma das regulações de privacidade de dados online mais forte do mundo.
-
-> 🚨 A GDPR (General Data Protection Regulation) da União Europia continua sendo umas das regulações de privacidade de dados mais influentes hoje em dia. Você sabia que a mesma também define [8 direitos dos usuário](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) para proteger a privacidade dos cidadãos e dados pessoais? Saiba mais sobre o que são e porque eles importam.
-
-
-### 4. Cultura Ética
-
-Note que existe uma lacuna intangível entre _compliance_ (fazer o suficiente para cumprir a "a carta da lei") e abordar [problemas sistêmicos](https://www.coursera.org/learn/data-science-ethics/home/week/4) (como ossificação, assimetria informacional, e injustiça distribucional) que podem acelerar o uso da IA como uma arma.
-
-Este último requere [abordagens colaborativas para definir culturas éticas](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f) que constrói conexões emocionais e valores compartilhados consistentes _em todas as organizações_ na indústria. Isso requere mais [culturas de ética de dados formalizadas](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) nas organizações - permitindo _qualquer um_ a [puxar o cordão Andom](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (para aumentar as preocupações éticas mais cedo no processo) e fazendo _avaliações éticas_ (ex. na contratação) um critério fundamental na formação de times em projetos de IA.
-
---
-## [Quiz pós aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
-## Revisão e Autoestudo
-
-Cursos e livros ajudam a entender os conceitos essencias da ética, enquanto estudos de caso e ferramentas ajudam com práticas da ética aplicado em contextos do mundo real. Aqui estão alguns recursos para começar.
-
-* [Machine Learning For Beginners](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - aula sobre Justiça, da Microsoft.
-* [Principles of Responsible AI](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - programa de aprendizado gratuito da Microsoft Learn.
-* [Ethics and Data Science](https://resources.oreilly.com/examples/0636920203964) - O'Reilly EBook (M. Loukides, H. Mason et. al)
-* [Data Science Ethics](https://www.coursera.org/learn/data-science-ethics#syllabus) - curso online da Universidade de Michigan.
-* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - estudos de caso da Universidade do Texas.
-
-# Tarefa 
-
-[Escreva um Caso de Uso de Ética de Dados](assignment.pt-br.md)
--- a/1-Introduction/02-ethics/translations/README.ru.md
+++ b/1-Introduction/02-ethics/translations/README.ru.md
@ -1,273 +0,0 @@
-# Введение в этику данных
-
-|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/02-Ethics.png)|
-|:---:|
-| Этика в науке о данных - _Рисунок [@nitya](https://twitter.com/nitya)_ |
-
---
-
-Мы все инфо-граждане, живущие в инфо-мире.
-
-Из тенденций рынка следует, что к 2022 году одна из трёх крупных организаций будет покупать и продавать свои данные на онлайн [маркетплейсах и биржах](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Как **разработчики приложений**, мы интегрируем инсайты на основе данных и алгоритмы автоматизации в ежедневную жизнь пользователя более простым и дешёвым способом. Однако по мере распространения ИИ, нам необходимо осознавать потенциальную угрозу использования подобных алгоритмов в качестве [оружия](https://www.youtube.com/watch?v=TQHs8SA1qpk) в больших масштабах.
-
-Тенденции также показывают, что мы создадим и потребим более [180 зеттабайт](https://www.statista.com/statistics/871513/worldwide-data-created/) данных к 2025 году. Нам, как **дата сайентистам - специалистам по данным**, открывается беспрецедентный уровень доступа к личным данным. Это означает, что мы сможем составлять поведенческие профили пользователей и влиять на принятие решений, создавая [иллюзию свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) и подталкивая пользователей делать то, что нам нужно. Также возникают широкие вопросы о приватности данных и защите пользователей.
-
-В настоящее время, этика данных является _необходимым ограждением_ для специалистов и инженеров по данным, минимизирующим ущерб и непреднамеренные последствия от наших действий на основе данных. На [графике цикла популярности Gartner для ИИ](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) современные тренды в цифровой этике, ответственном ИИ и управлении ИИ обозначены как ключевые двигатели мегатрендов _демократизации_ и _индустриализации_ искусственного интеллекта.
-
-![Цикл популярности Gartner для ИИ - 2020 год](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==)
-
-В данном уроке мы исследуем увлекательную область этики данных, от основных положений и проблем, до реальных примеров и прикладных концепции, таких как управление данными, которые помогают установить этическую культуру в командах и организациях, работающих с данными и ИИ.
-
-
-
-
-## [Вступительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯
-
-## Основные определения
-
-Давайте начнём с базовых терминов.
-
-Само слово "этика" происходит от [греческого слова "этикос"](https://ru.wikipedia.org/wiki/%D0%AD%D1%82%D0%B8%D0%BA%D0%B0) (и его корня "этос"), означающего _характер или моральная природа_. 
-
-**Этика** изучает общие ценности и моральные принципы, которые определяют наше поведение в обществе. Этика основывается не на законах, а на широких принятых нормах того, что хорошо, а что плохо. Однако, этические соображения могут влиять на политику компаний и государственное регулирование, которое создает больше стимулов для соблюдения этических норм.
-
-
-**Этика данных** - это [новая ветвь этики](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), которая "изучает и оценивает моральные вопросы связанные с _данными, алгоритмами и соответствующими практиками_". Упомянутые здесь вопросы **"данных"** сосредоточены вокруг действий генерации, записи, курирования, обработки, распространения, предоставление доступа и использования. Вопросы **"алгоритмов"** сосредоточены вокруг ИИ, агентов, машинного обучения и роботов. Вопросы **"практик"** сфокусированы на темах ответственных инноваций, программирования, хакинга и этичного исходного кода.
-
-**Прикладная этика** - это [практическое применение моральных соображений](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%B0%D1%8F_%D1%8D%D1%82%D0%B8%D0%BA%D0%B0). Это процесс активного исследования этических проблем в контексте _действий, товаров и процессов реального мира_, и принятия корректирующих мер по удержанию их в соответствии нашим принятым этическим ценностям.
-
-**Этическая культура** - раздел об [_использовании_ прикладной этики](https://hbr.org/2019/05/how-to-design-an-ethical-organization) для того, чтобы убедиться, что наши этические принципы и порядки приняты полномасштабно в рамках всей организации и действуют постоянно. Успешные этические культуры определяют общеорганизационные этические принципы, обеспечивают ощутимые стимулы для их соблюдения и укрепляют этические нормы, поощряя желаемое поведение на каждом уровне организации.
-
-
-## Этические концепции
-
-В данном разделе мы обсудим такие понятия как **общие ценности** (принципы) и **этические вызовы** (проблемы) в этике данных, а также исследуем **реальные примеры**, которые помогут Вам понять эти концепции в реальном мире.
-
-### 1. Принципы этики
-
-Каждая стратегия в этике данных начинается с определения _этических принципов_ - "общих ценностей", которые описывают приемлемое поведение и регламентируют соответствующие действия в проектах, связанных с данными и ИИ. Вы можете определить их на индивидуальном уровне или на уровне команды. Однако, большинство крупных организаций выделяют их как миссию по созданию _этичного ИИ_ или набора правил, который определён на уровне компании и которому подчиняются все без исключения.
-
-**Пример**: Формулировка миссии об [ответственном ИИ](https://www.microsoft.com/en-us/ai/responsible-ai) компании Майкрософт звучит так: _"Мы преданы идее продвижения ИИ на основе этических принципов, которые ставят людей во главу угла"_. Данный лозунг определяет 6 этических принципов, описанных далее.
-
-![Ответсвенный ИИ в компании Майкрософт](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png)
-
-Давайте кратко рассмотрим эти принципы. _Прозрачность_ и _Ответственность_ являются основными, а остальные строятся поверх, поэтому начнем с главных:
-
-* Принцип [**ответственности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) накладывает ответственность на активных пользователей за использование данных и ИИ и требует согласия с данными этическими принципами.
-* Принцип [**прозрачности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) позволяет убедиться, что действия с данными и ИИ _понимаемы_ (осознаваемы) пользователями, разъясняя, что кроется за действиями и их последствия.
-* Принцип [**справедливости**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) фокусируется на равном восприятии искусственным интеллектом _всех людей_ и обращает внимание на системную и скрытую социально-техническую предвзятость в данных и информационных системах.
-* Принцип [**надёжности и сохранности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) обеспечивает _постоянное_ соответствие поведения ИИ заранее определённым ценностям, минимизируя потенциальный ущерб или неумышленные последствия.
-* Принцип [**приватности и безопасности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) говорит о необходимости понимания происхождения данных и обеспечивает _приватность данных и их защиту_ для пользователей.
-* Принцип [**инклюзивности**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) гарантирует создание решений на основе ИИ с целью адаптировать их к _нуждам широкого круга людей с различными возможностями_.
-
-> 🚨 Подумайте о том, какими могут быть формулировки миссий в этике данных. Познакомьтесь с подходами этичного ИИ в других организациях: [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) и [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Какие общие ценности являются схожими? Как эти принципы связаны с продуктами и отраслями этих компаний?
-
-
-### 2. Проблемы этики
-
-Как только мы определили этические принципы, следующим шагом становится оценить наши действия с данными и ИИ с точки зрения того, как они соотносятся с принятыми общими ценностями. Подумайте над Вашими действиями в разрезе двух категорий: _сбора данных_ и _разработка алгоритма_.
-
-При сборе данных, список действий наверняка будет включать в себя **персональные данные** или персональные идентифицирующие данные для установления личностей. Они состоят из
-[различных неперсональных данных](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), которые _в совокупности_ определяются как персональные. Этические вызовы здесь могут относиться к _приватности данных_, _владению данными_ и связанным с ними вопросам _информированного согласия_, и _прав на интеллектуальную собственность_ пользователей.
-
-При разработке алгоритма, действия включают в себя сбор и обработку **датасетов** и последующее использование их для тренировки и развёртывания _модели данных_, способной выдавать прогнозы или автоматизировать принятие решений в реальном мире. Этические вызовы возникают из-за _несбалансированного датасета_, _качества данных_, _несправедливости модели_ и _искажения фактов_ в алгоритмах, включая некоторые системные по своей природе вопросы.
-
-В обоих случаях, этические проблемы подсвечивают области, в которых наши действия могут идти в разрез с нашими общими ценностями. Для того чтобы распознать, смягчить, сократить или устранить конфликты, нам необходимо задать моральные "да/нет" вопросы, связанные с нашими действиями, а затем скорректировать наши действия при необходимости. Давайте взглянем на некоторые этические вызовы и моральные вопросы, которые они поднимают:
-
-
-#### 2.1 Право собственности на данные
-
-Сбор данных часто включает в себя сбор персональных данных, которые могут идентифицировать действующих лиц. [Право собственности на данные](https://permission.io/blog/data-ownership) занимается вопросами _контроля_ и [_прав пользователя_](https://permission.io/blog/data-ownership) в области создания, обработки и распространения данных.
-
-Моральные вопросы, которые мы должны задать себе здесь:
-* Кто владеет данными (пользователь или организация)?
-* Какие права имеют действующие лица, имеющие отношение к данным? (напр., доступ, стирание, перенос)
-* Какие права имеет организация? (напр., редактирование злонамеренных пользовательских отзывов)
-
-#### 2.2 Информированное согласие
-
-[Информированное согласие](https://legaldictionary.net/informed-consent/) определяет согласие пользователя на действия (например, сбор данных) с _полным пониманием_ всех фактов, включая цель, потенциальные риски и альтернативы.
-
-Вопросы для дискуссии:
-* Предоставил ли пользователь (действующее лицо) соглашение на сбор и использование данных?
-* Осознал ли пользователь цель сбора данных?
-* Осознал ли пользователь возможные риски от использования данных?
-
-#### 2.3 Интеллектуальная собственность
-
-[Интеллектуальная собственность](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%BE%D0%B1%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D1%8C) относится к нематериальным творениям, произведенным по инициативе человека, которые могут _иметь экономическую ценность_ для физических или юридических лиц.
-
-Вопросы для дискуссии:
-* Имеют ли собранные данные экономическую ценность для пользователя или компании?
-* Обладает ли **пользователь** интеллектуальной собственностью в данном случае?
-* Обладает ли **компания** интеллектуальной собственностью в данном случае?
-* Если права на собственность существуют, как мы защищаем их?
-
-#### 2.4 Приватность данных
-
-[Приватность данных](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) или информационная приватность относится к сохранению приватности пользователя и защиты его личности относительно пользовательской идентифицирующей информации.
-
-Вопросы для дискуссии:
-* Защищены ли пользовательские (персональные) данные от взломов и утечек?
-* Доступны ли пользовательские данные только уполномоченным пользователям и окружениям?
-* Сохраняется ли анонимность пользователя при передаче и распространении данных?
-* Может ли пользователь быть идентифицирован из анонимизированного датасета?
-
-
-#### 2.5 Право на забвение
-
-[Право на забвение](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B0%D0%B2%D0%BE_%D0%BD%D0%B0_%D0%B7%D0%B0%D0%B1%D0%B2%D0%B5%D0%BD%D0%B8%D0%B5) или [Право на стирание](https://www.gdpreu.org/right-to-be-forgotten/) обеспечивает дополнительную защиту данных пользователя. В особенности, данное право предоставляет пользователям возможность удаления персональных данных из поисковых систем сети Интернет и других мест, позволяя, при определённых обстоятельствах, начать онлайн-историю с чистого листа без учёта предыдущих событий.
-
-Вопросы для дискуссии:
-* Позволяет ли рассматриваемая система действующим лицам запрашивать удаление данных?
-* Должен ли отзыв пользовательского соглашения вызывать автоматическое стирание данных?
-* Были ли данные собраны без согласия или незаконными способами?
-* Действуем ли мы согласно государственному регулированию в сфере приватности данных?
-
-
-#### 2.6 Несбалансированный датасет
-
-Проблема [несбалансированного датасета или коллекции данных](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) появляется при использовании _нерепрезентативной_ выборки для разработки алгоритма, создании потенциальной несправедливости в результатах модели для различных групп. Типы искажений включают в себя систематические ошибки, ошибки наблюдателя, погрешности инструментов.
-
-Вопросы для дискуссии:
-* Имеем ли мы дело с репрезентативным набором действующих лиц?
-* Был ли протестирован собранный или созданный датасет на различные искажения?
-* Можем ли мы уменьшить или избавиться от обнаруженных искажений?
-
-
-#### 2.7 Качество данных
-
-[Качество данных](https://lakefs.io/data-quality-testing/) отображает пригодность собранного датасета, используемого для разработки нашего алгоритма, проверяет, удовлетворяют ли признаки и записи требованиям качества и согласованности, необходимым для целей нашего ИИ.
-
-
-Вопросы для дискуссии:
-* Собрали ли мы _пригодные_ признаки для решения нашей задачи?
-* Собраны ли данные _согласованно_ с различных источников?
-* Является ли датасет _полным_ с точки зрения различных условий и сценариев?
-* _Достоверно_ ли отображает собранная информация реальность?
-
-
-#### 2.8 Справедливость алгоритма
-
-[Справедливость алгоритма](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) указывает, дискриминирует ли созданный алгоритм отдельные группы действующих лиц и ведет ли это к [потенциальному ущербу](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) в _распределении_ (когда ресурсы недоступны или, наоборот, удерживаются отдельной группой) и в _качестве услуг_ (когда ИИ недостаточно точен для некоторых групп в отличие от других).
-
-Вопросы для дискуссии:
-* Правильно ли мы оценили точность модели для различных групп и условий?
-* Внимательно ли мы изучили созданную систему на предмет потенциального ущерба (например, на стереотипизацию)?
-* Можем ли мы перепроверить данные или перетренировать модель, чтобы сократить выявленный ущерб?
-
-
-Изучите материалы, подобные [контрольному списку справедливости ИИ](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), чтобы узнать больше.
-
-#### 2.9 Искажение фактов
-
-[Искажение фактов в данных](https://www.sciencedirect.com/topics/computer-science/misrepresentation) указывает, вводим ли мы в заблуждение инсайтами, чтобы поддержать желаемую точку зрения, несмотря на достоверные собранные данные.
-
-Вопросы для дискуссии:
-* Предоставляем ли мы неполные или неточные данные?
-* Визуализируем ли мы данные таким образом, который ведет к ошибочным выводам?
-* Используем ли мы статистические методы выборочно, чтобы манипулировать результатами?
-* Существуют ли альтернативные суждения, которые могут привести к другим выводам?
-
-
-#### 2.10 Свободный выбор
-
-[Иллюзия свободного выбора](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) появляется, когда система, "проектирующая выбор", использует алгоритмы принятия решений, чтобы подтолкнуть к предподчтительным действиям, и в то же время обманчиво даёт выбор и контроль над ситуацией. Эти [нечестные уловки](https://www.darkpatterns.org/) могут нанести социальный и экономический вред пользователям. Поскольку решения пользователей влияют на поведенческие паттерны, подобные действия могут привести к последующим принятиям решений, которые приумножат или продлят действие нанесённого ущерба.
-
-Вопросы для дискуссии:
-* Понимает ли пользователь последствия принятия того или иного решения?
-* Был ли пользователь осведомлён о (альтернативном) выборе и плюсах и минусах каждого исхода?
-* Может ли пользователь изменить автоматический выбор или выбор, сделанный под влиянием, позднее?
-
-
-### 3. Случаи из реальной практики
-
-В решении упомянутых этических вызовов в контексте реального мира нам поможет взглянуть на случаи, когда потенциальные угрозы и последствия для личности и общества наиболее выражены, когда этические нарушения упущены из виду.
-
-Вот некоторые примеры:
-
-| Этический вызов | Реальный пример  | 
-|--- |--- |
-| **Информированное согласие** | 1972 год - [Исследование сифилиса в Таскиги](https://ru.wikipedia.org/wiki/%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%81%D0%B8%D1%84%D0%B8%D0%BB%D0%B8%D1%81%D0%B0_%D0%B2_%D0%A2%D0%B0%D1%81%D0%BA%D0%B8%D0%B3%D0%B8) - Принявшим участие в исследовании афроамериканцам была обещана бесплатная медицинская помощь, однако их _обманули_ исследователи, не предоставив информацию о диагнозе или доступности лекарств. Многие участники умерли, заразив партнёров или детей. Исследование длилось 40 лет. | 
-| **Приватность данных** |  2007 год - В соревновании [от компании Netflix](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) участникам предложили _10 миллионов анонимизированных оценок фильмов от 50 тысяч клиентов_ для улучшения алгоритма рекомендаций. Однако, участники оказались способны сопоставить анонимизированные данные с персональными данными из _внешнего источника данных_ (например, комментарии на сайте IMDb) и успешно де-анонимизировать некоторых подписчиков Netflix. |
-| **Систематическая ошибка**  | 2013 год - городские власти города Бостона [разработали Street Bump](https://www.boston.gov/transportation/street-bump), приложение, позволяющее гражданам сообщать о дорожных выбоинах, предоставляя властям более качественные данные для поиска и ремонта. Однако, [люди из группы с низким доходом имели ограниченный доступ к машинам и смартфонам](https://hbr.org/2013/04/the-hidden-biases-in-big-data), и их дорожные проблемы не отображались в этом приложении. Разработчики совместно с учеными исправили проблемы _равного доступа и цифрового неравенства_ для большей справедливости. |
-| **Справедливость алгоритма**  | 2018 год  - В [исследовании гендерных оттенков](http://gendershades.org/overview.html) в университете MIT при оценке точности ИИ для задачи гендерной классификации товаров были обнаружены пробелы в точности для женщин и для "цветных" людей. В 2019 году [кредитная программа компании Apple](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) предлагала меньший кредитный лимит женщинам по сравнению с мужчинами. Оба случая иллюстрируют предвзятость, ведущую к социально-экономическому ущербу. |
-| **Искажение фактов** | 2020 год - [Департамент штата Джорджия выпустил графики заболеваемости COVID-19](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), которые ввели в заблуждение граждан насчёт трендов подтверждённых случаев своей хронологической неупорядоченностью. Данный пример показывает искажение фактов при помощи визуализации. |
-| **Иллюзия свободного выбора** | 2020 год - Разработчики обучающего приложения [ABCmouse заплатили 10 миллионов долларов для урегулирования жалобы Федеральной торговой комиссии](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), в которой родители были вынуждены платить за подписку, которую они не могли отменить. Данный случай иллюстрирует тёмную сторону систем с наличием выбора, в которых пользователей подталкивают к потенциально вредному выбору. |
-| **Приватность данных и права пользователя** | 2021 год - [Утечка данных в компании Facebook](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) содержала данные 530 миллионов пользователей и повлекла штраф в 5 миллиардов долларов от Федеральной торговой комиссии. Компания отказалась предупреждать пользователей об утечке данных, нарушив тем самым права пользователей на прозрачность и приватный доступ. |
-
-Хотите узнать больше случаев из реальной жизни? Познакомьтесь с данными ресурсами:
-* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - этические дилеммы в различных отраслях. 
-* [Курс этики в науке о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - рассматриваются ключевые примеры из реальной практики.
-* [Место, где что-то пошло не так](https://deon.drivendata.org/examples/) - список примеров от Deon.
-
-> 🚨 Вспомните реальные случаи из своей жизни. Сталкивались ли Вы сами или пострадали от подобных этических вызовов? Можете ли вы вспомнить по крайней мере ещё один случай, который иллюстрирует один из этических вызовов, которые мы обсудили в данном разделе?
-
-## Прикладная этика
-
-Мы рассмотрели этические концепции, вызовы и случаи из реальной жизни. Но как мы можем начать _применять_ этические принципы в наших проектах? И как мы должны _оперировать_ данными принципами для лучшего управления? Давайте рассмотрим некоторые решения проблем из реальной практики.
-
-### 1. Профессиональные нормы поведения
-
-Профессиональные нормы поведения в организации являются способом _стимулирования_ участников для поддержания её этических принципов и целей. Зафиксированные нормы являются _моральным ориентиром_ для поведения на работе, помощи сотрудникам в принятии решений, которые соответствуют принципам их организации. Они имеют силу только при добровольном согласии участников, однако многие организации предлагают дополнительные вознаграждения и штрафы, чтобы мотивировать участников на согласие. 
-
-Примеры:
-
- * Нормы этики в [университете Оксфорда в городе Мюнхен](http://www.code-of-ethics.org/code-of-conduct/)
- * Нормы поведения в [Ассоциации науки о данных](http://datascienceassn.org/code-of-conduct.html) (написаны в 2013 году)
- * Этические и профессиональные нормы в [Ассоциации вычислительной техники](https://www.acm.org/code-of-ethics) (действуют с 1993 года)
-
-> 🚨 Имеете ли Вы отношение к организациям, занимающимся разработкой ПО и наукой о данных? Исследуйте их сайты на наличие зафиксированных норм этики. Какие этические принципы там определены? Как они "стимулируют" участников следовать принятым нормам?
-
-
-### 2. Списки этических норм
-
-В то время как нормы профессионального поведения определяют необходимое _этичное поведение_ участников, они также принуждают к соблюдению [установленных ограничений](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), особенно в крупных проектах. Вместо этого, многие эксперты в науке о данных [поддерживают использование списков](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), которые **соединяют принципы и реальные практики** более определённым и действенным методом.
-
-Подобные списки конвертируют размытые вопросы в "да/нет" пункты, которые могут быть введены в действие и которые могут отслеживаться как часть стандартного процесса выпуска продукта.
-
-Примеры:
- * [Deon](https://deon.drivendata.org/) - список этических пунктов общего назначения, созданный по [промышленным рекомендациям](https://deon.drivendata.org/#checklist-citations) с поддержкой интерфейса командной строки для удобной интеграции.
- * [Список аудита приватности](https://cyber.harvard.edu/ecommerce/privacyaudit.html) содержит общие рекомендации для обработки информации с точки зрения правового и социального воздействия.
- * [Чеклист справедливого ИИ](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) создан разработчиками систем ИИ для поддержки интеграции проверок справедливости в цикл разработки продуктов с ИИ.
- * [22 вопросв о этике в данных и ИИ](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - более открытый список, ориентированный на первоначальное обнаружение этических проблем в контексте структуры, реализации и организации.
-
-### 3. Регулирование в области этики
-
-Этика определяет общие ценности и правильные поступки _на добровольной основе_. **Соглашение** в свою очередь принуждает _следовать закону_, если он определён, там, где он определён. **Руководство** покрывает широкий спектр способов, которыми организации пользуются для продвижения этических принципов и согласия с установленными законами.
-
-На сегодняшний день, руководство по этике принимает две формы внутри организации. Во-первых, оно определяет принципы **этичного ИИ** и устанавливает правила его внедрения для всех проектов организации, связанных с ИИ. Во-вторых, оно действует в соглашении с государственным **регулированием в области защиты данных** в регионах представительства организации.
-
-
-Примеры государственного регулирования в области защиты данных и конфиденциальности:
-
- * `1974 год`, [Закон США о конфиденциальности](https://www.justice.gov/opcl/privacy-act-1974), регулирующий сбор, использование и раскрытие персональной информации _на государственном уровне_.
- * `1996 год`, [Закон США о переносимости и подотчетности медицинского страхования (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html), защищающий персональные данные в сфере здравоохранения.
- * `1998 год`, [Закон США о защите конфиденциальности детей в Интернете (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule), защищающий конфиденциальность данных детей младше 13 лет.
- * `2018 год`, [Общие правила защиты данных (GDPR)](https://gdpr-info.eu/), обеспечивающий пользовательские права, защиту данных и конфиденциальность.
- * `2018`, [Закон Калифорнии о конфиденциальности потребителей (CCPA)](https://www.oag.ca.gov/privacy/ccpa), предоставляющий потребителям больше _прав_ в области своих (персональных) данных.
- * `2021`, китайский [Закон о защите личной информации](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/), принятый в недавном времени, применяющий одно из самых строгих в мире регулирований в области конфиденциальности данных в сети Интернет.
-
-> 🚨 Принятые Европейским Союзом Общие правила защиты данных (GDPR) остаются на сегодняшний день наиболее влиятельным регулированием в области приватности данных. Знали ли Вы, что они также определяют [8 прав пользователей](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr) в области защиты конфиденциальности и персональных данных граждан? Узнайте подробнее, что они из себя представляют и почему они имеют значение.
-
-### 4. Этичная культура
-
-Отметим, что остаётся неосязаемый промежуток между _соглашением_ (делать достаточно, чтобы оставаться "в рамках закона") и [системными проблемами](https://www.coursera.org/learn/data-science-ethics/home/week/4) (такими, как потеря гибкости, информационная несимметричность и несправедливое распределение), который может ускорить применение ИИ в качестве оружия.
-
-Решение этой проблемы кроется в [совместных подходах к определению этичных культур](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), которые выстраивают эмоциональные связи и постоянные общие ценности _во всех организациях_ отрасли. Это требует более глубокой [формализации культуры в области этики данных](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) в организациях, позволяющей _любому_ [потянуть за ниточки](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (чтобы поднять вопрос этики на ранней стадии) и провести _оценку этичности_ (например, при найме на работу) основных критериев формирования команд в проектах с ИИ.
-
---
-## [Проверочный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/3) 🎯
-## Дополнительные источники 
-
-Курсы и книги помогут Вам понять основные этические принципы и вызовы, а примеры из реальной практики помогут с прикладными вопросами этики в контексте реального мира. Вот некоторые ресурсы, с которых можно начать:
-
-* [Машинное обучение для начинающих (на англ.)](https://github.com/microsoft/ML-For-Beginners/blob/main/1-Introduction/3-fairness/README.md) - курс о справедливости от компании Microsoft.
-* [Принципы ответственного ИИ](https://docs.microsoft.com/ru-ru/learn/modules/responsible-ai-principles/) - бесплатный курс от Microsoft Learn.
-* [Этика в науке о данных](https://resources.oreilly.com/examples/0636920203964) - электронная книга издательства O'Reilly (M. Loukides, H. Mason и др.)
-* [Этика науки о данных](https://www.coursera.org/learn/data-science-ethics#syllabus) - онлайн курс от Мичиганского университета.
-* [Этика без прикрас](https://ethicsunwrapped.utexas.edu/case-studies) - случаи из реальной практики от Техасского университета.
-
-# Домашнее задание
-
-[Опишите реальный случай из этики в науке о данных](assignment.ru.md)
--- a/1-Introduction/02-ethics/translations/assignment.hi.md
+++ b/1-Introduction/02-ethics/translations/assignment.hi.md
@ -1,19 +0,0 @@
-## डेटा एथिक्स केस स्टडी लिखें
-
-## निर्देश
-
-आपने विभिन्न [डेटा नैतिकता चुनौतियों](README.hi.md#2-ethics-challenges) के बारे में सीखा है और [केस स्टडीज](README.hi.md#3-case-studies) के कुछ उदाहरण देखे हैं जो वास्तविक दुनिया में डेटा नैतिकता चुनौतियों को दर्शाते हैं। संदर्भ
-
-इस असाइनमेंट में, आप अपना खुद का केस स्टडी लिखेंगे, जो आपके अपने अनुभव से, या एक प्रासंगिक वास्तविक दुनिया के संदर्भ से डेटा नैतिकता चुनौती को दर्शाता है जिससे आप परिचित हैं। बस इन चरणों का पालन करें:
-
-1. `एक डेटा नैतिकता चुनौती चुनें'। प्रेरणा पाने के लिए [पाठ के उदाहरण](README.hi.md#2-ethics-challenges) देखें या [डीऑन चेकलिस्ट](https://deon.drivendata.org/examples/) जैसे ऑनलाइन उदाहरण देखें।
-
-2. `एक वास्तविक विश्व उदाहरण का वर्णन करें`। ऐसी स्थिति के बारे में सोचें जिसके बारे में आपने सुना है (शीर्षक, शोध अध्ययन इत्यादि) या अनुभवी (स्थानीय समुदाय), जहां यह विशिष्ट चुनौती हुई। चुनौती से संबंधित डेटा नैतिकता के सवालों के बारे में सोचें - और इस मुद्दे के कारण उत्पन्न होने वाले संभावित नुकसान या अनपेक्षित परिणामों पर चर्चा करें। बोनस अंक: संभावित समाधानों या प्रक्रियाओं के बारे में सोचें जिन्हें इस चुनौती के प्रतिकूल प्रभाव को खत्म करने या कम करने में मदद के लिए यहां लागू किया जा सकता है।
-
-3. `संबंधित संसाधन सूची प्रदान करें`। यह साबित करने के लिए कि यह एक वास्तविक दुनिया की घटना थी, एक या अधिक संसाधन (एक लेख, एक व्यक्तिगत ब्लॉग पोस्ट या छवि, ऑनलाइन शोध पत्र आदि के लिंक) साझा करें। बोनस अंक: संसाधनों को साझा करें जो घटना से संभावित नुकसान और परिणामों को भी प्रदर्शित करते हैं, या इसकी पुनरावृत्ति को रोकने के लिए उठाए गए सकारात्मक कदमों को उजागर करते हैं।
-
-## सरनामा
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
-एक या अधिक डेटा नैतिकता चुनौतियों की पहचान की जाती है। <br/> <br/> केस स्टडी स्पष्ट रूप से एक वास्तविक दुनिया की घटना का वर्णन करती है जो उस चुनौती को दर्शाती है, और अवांछनीय परिणामों या इससे होने वाले नुकसान को उजागर करती है। <br/><br/> यह साबित करने के लिए कम से कम एक लिंक किया गया संसाधन है। | एक डेटा नैतिकता चुनौती की पहचान की गई है। <br/><br/> कम से कम एक प्रासंगिक नुकसान या परिणाम पर संक्षेप में चर्चा की गई है। <br/><br/> हालांकि चर्चा सीमित है या वास्तविक दुनिया की घटना के प्रमाण का अभाव है। | एक डेटा चुनौती की पहचान की जाती है। <br/><br/> हालांकि विवरण या संसाधन चुनौती को पर्याप्त रूप से प्रतिबिंबित नहीं करते हैं या यह साबित नहीं करते हैं कि यह वास्तविक दुनिया की घटना है। |
--- a/1-Introduction/02-ethics/translations/assignment.ko.md
+++ b/1-Introduction/02-ethics/translations/assignment.ko.md
@ -1,21 +0,0 @@
-## 데이터 윤리 사례 연구 작성
-
-## 지침
-
-다양한 [데이터 윤리 과제](README?id=_2-ethics-challenges)에 대해 배웠고 실제 컨텍스트의 데이터 윤리 과제를 반영하는 [사례 연구](README?id=_3-case-studies)의 몇 가지 예를 보았습니다.
-
-이 과제에서는 자신의 경험이나 친숙한 관련 실제 상황에서 데이터 윤리 문제를 반영하는 사례 연구를 작성합니다. 다음 단계를 따르세요.
-
-1. `데이터 윤리 과제 선택`. [수업 예시](README?id=_2-ethics-challenges)를 보거나 [Deon 체크리스트](https://deon.drivedata.org/examples/)와 같은 온라인 예시를 탐색하여 영감을 얻으십시오.
-
-2. `실제 사례 설명`. 이러한 특정 문제가 발생한 상황(헤드라인, 연구 연구 등) 또는 경험했던(지역 커뮤니티) 상황에 대해 생각해 보십시오. 문제와 관련된 데이터 윤리 질문에 대해 생각하고 이 문제로 인해 발생하는 잠재적인 피해 또는 의도하지 않은 결과에 대해 논의합니다. 보너스 포인트: 이 문제의 부정적인 영향을 제거하거나 완화하기 위해 여기에 적용될 수 있는 잠재적 솔루션 또는 프로세스에 대해 생각하십시오.
-
-3. `관련 자료 목록 제공`. 하나 이상의 리소스(기사 링크, 개인 블로그 게시물 또는 이미지, 온라인 연구 논문 등)를 공유하여 이것이 실제 발생했음을 증명합니다. 보너스 포인트: 사고로 인한 잠재적 피해 및 결과를 보여주는 리소스를 공유하거나 재발을 방지하기 위해 취한 긍정적인 조치를 강조합니다.
-
-
-
-## 기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-하나 이상의 데이터 윤리 문제가 식별됩니다. <br/> <br/> 사례 연구는 그 도전을 반영하는 실제 사건을 명확하게 설명하고 그로 인해 야기된 바람직하지 않은 결과 또는 피해를 강조합니다. <br/><br/> 이 문제가 발생했음을 증명하는 연결된 리소스가 하나 이상 있습니다. | 하나의 데이터 윤리 과제가 식별됩니다. <br/><br/> 적어도 하나의 관련 피해 또는 결과가 간략하게 논의됩니다. <br/><br/> 그러나 논의가 제한적이거나 실제 발생에 대한 증거가 부족합니다. | 데이터 챌린지가 식별됩니다. <br/><br/> 그러나 설명이나 리소스가 문제를 적절하게 반영하지 않거나 실제 상황임을 증명하지 못합니다. |
--- a/1-Introduction/02-ethics/translations/assignment.nl.md
+++ b/1-Introduction/02-ethics/translations/assignment.nl.md
@ -1,21 +0,0 @@
-## Schrijf een case study over data-ethiek
-
-## Instructies
-
-Je hebt geleerd over verschillende [Data Ethics Challenges](../README.md#2-ethics-challenges) en enkele voorbeelden gezien van [Case Studies](../README.md#3-case-studies) die uitdagingen op het gebied van data-ethiek in de praktijk weerspiegelen.
-
-In deze opdracht schrijf je je eigen case study die een uitdaging op het gebied van data-ethiek weerspiegelt vanuit je eigen ervaring, of vanuit een relevante echte-wereld context die je kent. Volg simpelweg deze stappen:
-
-1. `Kies een uitdaging voor data-ethiek`. Bekijk de [lesvoorbeelden](../README.md#2-ethics-challenges) of verken online voorbeelden zoals [de Deon Checklist](https://deon.drivendata.org/examples/) om inspiratie op te doen.
-
-2. `Beschrijf een voorbeeld uit de echte wereld`. Denk aan een situatie waarvan je hebt gehoord (koppen, onderzoek enz.) of die je hebt meegemaakt (lokale gemeenschap), waarin deze specifieke uitdaging zich voordeed. Denk na over de vragen over gegevensethiek met betrekking tot de uitdaging - en bespreek de mogelijke schade of onbedoelde gevolgen die zich voordoen als gevolg van dit probleem. Bonuspunten: denk na over mogelijke oplossingen of processen die hier kunnen worden toegepast om de negatieve impact van deze uitdaging te elimineren of te verminderen.
-
-3. `Geef een lijst met gerelateerde bronnen`. Deel een of meer bronnen (links naar een artikel, een persoonlijke blogpost of afbeelding, online onderzoekspaper enz.) om te bewijzen dat dit een echt voorval was. Bonuspunten: deel bronnen die ook de mogelijke schade en gevolgen van het incident laten zien, of belicht positieve stappen die zijn genomen om herhaling te voorkomen.
-
-
-
-## Rubriek
-
-Uitstekend | Adquaat | Vereist verbetering
--- | --- | -- |
-Er zijn een of meer uitdagingen op het gebied van data-ethiek geïdentificeerd. <br/> <br/> De casestudy beschrijft duidelijk een incident uit de echte wereld dat die uitdaging weerspiegelt, en benadrukt ongewenste gevolgen of schade die het veroorzaakte. <br/><br/> Er is ten minste één gekoppelde bron om te bewijzen dat dit is gebeurd. | Er wordt één uitdaging op het gebied van gegevensethiek geïdentificeerd. <br/><br/> Minstens één relevante schade of gevolg wordt kort besproken. <br/><br/> De discussie is echter beperkt of er is geen bewijs van echt voorkomen. | Er wordt een data-uitdaging geïdentificeerd. <br/><br/> De beschrijving of bronnen geven echter niet voldoende de uitdaging weer of bewijzen niet voldoende dat het in de praktijk voorkomt. |
--- a/1-Introduction/02-ethics/translations/assignment.pt-br.md
+++ b/1-Introduction/02-ethics/translations/assignment.pt-br.md
@ -1,21 +0,0 @@
-## Escreva um Caso de Estudo de Ética de Dados
-
-## Instruções
-
-Você aprendeu sobre vários [Desafios da Ética de Dados](README.pt-br.md#2-desafios-de-ética) e viu alguns exemplos de [Estudo de Casos](README.pt-br.md#3-estudo-de-casos) refletindo desafios da ética de dados em contextos do mundo real.
-
-Nessa tarefa você irá escrever o seu próprio estudo de caso refletindo um desafio da ética de dados de seu própria experiência, ou de um contexto relevante do mundo real que você está familiarizado. Apenas siga esses passos:
-
-1. `Escolha um Desafio da Ética de Dados`. Olhe [os exemplos da aula](README.pt-br.md#2-desafios-de-ética) ou explore exemplos onlines como [as Checklists da Deon](https://deon.drivendata.org/examples/) para se inspirar.
-
-2. `Descreva um Exemplo do Mundo Real`. Pense sobre a situação que você ouviu sobre (manchetes, pesquisas etc.) ou experienciou (comunidade local), onde esse desafio em específico aconteceu. Pense sobre as questões de ética de dados relacionadas ao desafio - e discuta os danos potenciais ou consequências não-ntencionais que são levantados por causa desse problema. Pontos bônus: pense sobre potenciais soluções ou precessos que podem ser aplicados aqui para ajuda a eliminar ou mitigar o impacto adverso desse desafio.
-
-3. `Forneça um Lista de Recursos Relacionados`. Compartilhe um ou mais recursos (links para artigos, posts ou imagens de blogs pessoais, artigos de pesquisa online etc.) para provar que isso acotnece no mundo real. Pontos bônus: compartilhe recursos que também mostrar potenciais danos e consequências de incidentes, ou destacam medidas positivas tomadas para prevenir sua recorrência.
-
-
-
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-Um ou mais desafios de ética de dados são identificados. <br/> <br/> O estudo de caso descreve claramente um incidente do mundo real refletindo aquele desafio, e destaca consequências não desejáveis ou danos que causou. <br/><br/> Existe pelo menos um recurso linkado para provar que isso aconteceu. |Um desafio da ética de dados é identificado. <br/><br/> Pelo menos um dano ou consequência relevante é discutido brevemete. <br/><br/> No entanto a discussão é limitada ou falta provas de uma ocorrência no mundo real. | Um desafio de dados é identificado. <br/><br/> No entanto a descrição ou recursos não refletem adequadamente o desafio ou provam que aconteceu no mundo real. |
--- a/1-Introduction/02-ethics/translations/assignment.ru.md
+++ b/1-Introduction/02-ethics/translations/assignment.ru.md
@ -1,21 +0,0 @@
-## Опишите реальный случай из этики в науке о данных
-
-## Порядок выполнения
-
-Вы узнали о различных [проблемах в науке о данных](README.ru.md#2-проблемы-этики) и увидели некоторые [случаи из реальной практики](README.ru.md#3-случаи-из-реальной-практики), отражающие этические вызовы в контексте реального мира. 
-
-В данном домашнем задании Вам предстоит написать свой собственный пример, отражающий этический вызов, из Вашего личного опыта или окружения. Следуйте шагам:
-
-1. `Выберите этический вызов, относящийся к науке о данных`. Взгляните на  [примеры из лекции](README.ru.md#2-проблемы-этики) или ознакомьтесь с примерами из Интернета, например [список Deon](https://deon.drivendata.org/examples/).
-
-2. `Опишите случай из реальной практики`. Вспомните ситуацию, о которой Вы слышали (заголовки, исследования и т.п.) или в которой принимали участие (на местном уровне), когда именно этот этический вызов проявился. Обдумайте вопросы в рамках этики данных и обсудите ущерб или непреднамеренные последствия, которые имели место вследствие этой проблемы. Дополнительный вопрос: подумайте о потенциальных решениях или процессах, которые могли бы помочь смягчить или устранить неблагоприятное воздействие этого вызова.
-
-
-3. `Приведите список использованных источников`. Поделитесь одним или несколькими ресурсами (ссылки на статьи, пост в личном блоге или изображение, исследовательская онлайн статья и др.), чтобы подтвердить достоверность приведённого случая. Дополнительный вопрос: поделитесь ресурсами, которые описывают потенциальный ущерб и последствия от инцидента, или выделите положительные изменения для предотвращения его появления.
-
-
-## Оценка
-
-Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
-Найден один или более этических вызовов. <br/> <br/> Приведённый пример полно описывает случай из реальной жизни, отражающий выбранный этический вызов и подчёркивающий нежелательные последствия или ущерб, которые он вызвал. <br/><br/> Приведён по крайней мере один источник в доказательство существования данной проблемы. | Приведёт один этический вызов. <br/><br/> Кратко описан по крайне мере один нанесённый ущерб или одно последствие. <br/><br/> Приведены неубедительные доказательства существования данной проблемы или не приведены вообще. | Вызов верно определён. <br/><br/> Приведённое описание или источники не отображают или не подтверждают существование выбранной проблемы. |
--- a/1-Introduction/03-defining-data/translations/README.es.md
+++ b/1-Introduction/03-defining-data/translations/README.es.md
@ -1,69 +0,0 @@
-# Definiendo los datos
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|Definiendo los datos - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
-Los datos son hechos, información, observaciones y mediciones que son usados para realizar descubrimientos y soportar decisiones informadas. Un punto de datos es una unidad simple de datos dentro de un conjunto de datos, lo cual es una colección de puntos de datos. Los conjuntos de datos pueden venir en distintos formatos y estructuras, y comúnmente se basan en su fuente, o de donde provienen los datos. Por ejemplo, las ganancias mensuales de una compañía pueden estar en una hoja de cálculo, pero los datos del  ritmo cardiaco por hora de un reloj inteligente pueden estar en un formato [JSON](https://stackoverflow.com/a/383699). Es algo común para los científicos de datos el trabajar con distintos tipos de datos dentro de un conjunto de datos.
-
-Esta lección se enfoca en la identificación y clasificación de datos por sus características y sus fuentes.
-
-## [Examen previo a la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-## Cómo se describen los datos
-Los **datos en crudo** son datos que provienen de su fuente en su estado inicial y estos no han sido analizados u organizados. Con el fin de que tenga sentido lo que sucede con un conjunto de datos, es necesario organizarlos en un formato que pueda ser entendido tanto por humanos como por la tecnología usada para analizarla a mayor detalle. La estructura de un conjunto de datos describe como está organizado y puede ser clasificado de forma estructurada, no estructurada y semi-estructurada. Estos tipos de estructuras podrían variar, dependiendo de la fuente pero finalmente caerá en una de estas categorías.
-### Datos cuantitativos
-Los datos cuantitativos son observaciones numéricas en un conjunto de datos que puede ser típicamente analizados, medidos y usados matemáticamente. Algunos ejemplos de datos cuantitativos son: la población de un país, la altura de una persona o las ganancias trimestrales de una compañía. Con algo de análisis adicional, los datos cuantitativos podrían ser usados para descubrir tendencias de temporada en el índice de calidad del aire (AQI) o estimar la probabilidad la hora pico de embotellamiento vial en un día laboral típico.
-
-### Datos cualitativos
-Los datos cualitativos, también conocidos como datos categóricos son datos que no pueden ser medidos de forma objetiva en comparación con los datos cuantitativos. Comúnmente son formatos de datos subjetivos que capturan la calidad de algo, como un producto o un proceso. Algunas veces, los datos cuantitativos son numéricos y no pudiesen ser usados matemáticamente, como números telefónicos o marcas de tiempo. Algunos ejemplos de datos cualitativos son: comentarios en los videos, la marca y modelo de un automóvil o el color favorito de tus amigos más cercanos. Los datos cualitativos pueden ser usados para entender qué productos le gustan más a los usuarios o el identificar las palabras clave populares en solicitudes de empleo.
-
-### Datos estructurados
-Los datos estructurados son datos que están organizados en filas y columnas, donde cada fila tendrá el mismo conjunto de columnas. Las columnas representan un valor de un tipo particular y serán identificadas con un nombre que describa el valor que representa, mientras que las filas contienen los valores en cuestión. Las columnas usualmente tendrán un conjunto específico de reglas o restricciones en sus valores, para asegurar que los valores presentan a la columna de forma precisa. Por ejemplo, imagina una hoja de cálculo de clientes donde cada fila debe tener un número telefónico y los números telefónicos nunca contienen caracteres alfabéticos. Habrá que aplicar reglas a la columna de número telefónico para asegurar éste nunca está vacío y contiene únicamente números.
-
-Un beneficio de los datos estructurados es que estos pueden ser organizados de tal forma que pueden relacionarse con otros datos estructurados. Sin embargo, ya que los datos están diseñados para ser organizados de forma específica, el realizar cambios a su estructura en general puede conllevar un gran esfuerzo. Por ejemplo, agregar una columna de correo a la hoja de cálculo de clientes para que no permita esté vacía significa que necesitas descubrir como agregar estos valores a las filas existentes de clientes en el conjunto de datos.
-
-Ejemplos de datos estructurados: hojas de cálculo, bases de datos relacionales, número de teléfono, estados de cuenta del banco.
-
-### Datos no estructurados
-Los datos no estructurados no pueden ser típicamente categorizados en filas o columnas y no contienen un formato o conjunto de reglas a seguir. Ya que los datos no estructurados tienen menos restricciones en su estructura es más fácil agregar nueva información en comparación con los conjuntos de datos estructurados. Si un sensor captura datos de presión barométrica cada 2 minutos y ha recibido una actualización que ahora permite medir y granar la temperatura, no se requiere la modificación de los datos existentes si estos son no estructurados. Sin embargo, esto puede hacer que el análisis o la investigación de este tipo de datos tomará más tiempo. Por ejemplo, un científico quiere encontrar la temperatura promedio del mes previo desde los sensores de datos, pero descubre que los sensores grabaron una "e" en algunos de sus datos grabados para puntualizar que éste está averiado en lugar de grabar un número, lo cual significa que los datos están incompletos.
-
-Ejemplos de datos no estructurados: archivos de texto, mensajes de texto, archivos de video.
-
-### Datos semi-estructurados
-Los datos semi-estructurados combinan características tanto de datos estructurados como no estructurados. Generalmente no se ajustan a un formato de filas y columnas pero están organizados de tal forma que son considerados estructurados y pueden seguir un formato fijo o conjunto de reglas. La estructura cambiará entre las fuentes, así como también la jerarquía definida para algo más flexible que permite la fácil integración de información nueva. Los metadatos son indicadores que facilitan el decidir como se organizan y almacenan los datos y tendrán varios nombres, basados en los tipos de datos. Algunos nombres comunes para los metadatos son etiquetas, elementos, entidades y atributos. Por ejemplo, un mensaje de correo típico tendrá un asunto, un cuerpo y un conjunto de destinatarios y puede ser organizado por quién o cuando fue enviado.
-
-Ejemplos de datos no estructurados: HTML, archivos CSV, objetos JSON.
-
-## Fuentes de datos 
-
-Una fuente de datos es la ubicación inicial en donde los datos son generados, o donde estos "viven" y varían basados en cómo y cuándo fueron recolectados. Los datos generados por sus usuarios con conocidos como información primaria mientras que la información secundaria proviene de una fuente que ha recolectado datos para uso general. Por ejemplo, un grupo de científicos recolectó observaciones en la selva tropical, dicha información es considerada como primaria, pero si deciden compartirla con otros científicos sería considerada como secundaria para aquellos que la usen.
-
-Las bases de datos son una fuente común y recaen en sistemas de gestión de bases de datos para albergar y mantener los datos donde los usuarios usan comandos llamados consultas (queries) para explorar los datos. Los archivos como fuentes de datos pueden ser archivos de audio, imagen y video también como hojas de cálculo como Excel. Las fuentes de Internet son una ubicación común para albergar datos, donde se pueden encontrar tanto bases de datos como archivos. Las interfaces de programación de aplicaciones, también conocidas como APIs, le permiten a los programadores crear formas para compartir los datos con usuarios externos a través de internet, mientras que los procesos de "web scraping" extraen datos desde una página web. Las [lecciones de trabajando con datos](/2-Working-With-Data) se enfocan en como usar las distintas fuentes de datos.
-
-## Conclusiones
-
-En esta lección has aprendido:
-
- Qué son los datos
- Cómo se describen los datos
- Cómo se clasifican y categorizan los datos
- Dónde se pueden encontrar los datos
-
-## 🚀 Desafío
-
-Kaggle es una fuente excelente de conjuntos de datos abiertos. Usa los [conjuntos de datos de la herramienta de búsqueda](https://www.kaggle.com/datasets) para encontrar algunos conjuntos de datos interesantes y clasifica de 3 a 5 conjuntos de datos con los siguientes criterios:
-
- ¿Los datos son cuantitativos o cualitativos?
- ¿Los datos son estruturados, no estructurados o semi-estructurados?
-
-## [Examen posterior a la lección](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-
-
-## Revisión y auto-estudio
-
- Esta unidad de Microsoft Learn, titulada [clasifica tus datos](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) tiene un desglose detallado de datos estructurados, semi-estructurados y no estructurados.
-
-## Assignación
-
-[Clasificación de los conjuntos de datos](../assignment.md)
--- a/1-Introduction/03-defining-data/translations/README.hi.md
+++ b/1-Introduction/03-defining-data/translations/README.hi.md
@ -1,63 +0,0 @@
-# डेटा का अवलोकन 
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|डेटा का अवलोकन  - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-डेटा मतलब तथ्य, ज्ञान और अनुभव है जिनका इस्तेमाल करके नए खोज और सूचित निर्णयोंका समर्थन किया जाता है।
-
-डेटा पॉइंट यह डेटासेट का सबसे छोटा प्रमाण है। डेटासेट यह एक डेटा पॉइंट्स का बड़ा संग्रह होता है। डेटासेट बहुत सारे अलगअलग प्रकार और संरचनाका होता है, और बहुत बार किसी स्त्रोत पे आधारित होता है। उदाहरण के लिए, किसी कम्पनी की कमाई स्प्रेडशीट मैं जतन की हो सकती है मगर प्रति घंटे के दिल की धकड़न की गति [JSON](https://stackoverflow.com/questions/383692/what-is-json-and-what-is-it-used-for/383699#383699) रूप मैं हो सकती है। डेटा वैज्ञानिकों केलिए अलग अलग प्रकार के डेटा और डेटासेट के साथ काम करना आम बात होती है। 
-
-यह पाठ डेटा को उसके स्त्रोत के हिसाब से पहचानने और वर्गीकृत करने पर केंद्रित है।
-
-## [पाठ के पूर्व की परीक्षा](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-
-## डेटा का वर्णन कैसे किया जाता है 
-**अपरीपक्व डेटा** ऐसे प्रकार का डेटा होता जो उसके स्त्रोत से आते वक्त जिस अवस्था में था वैसे ही है और उसका विश्लेषण या वर्गीकरण नहीं किया गया है। ऐसे डेटासेट से जरूरी जानकारी निकलने के लिए उसे ऐसे प्रकार मे लाना आवश्यक है जो इंसान समझ सके और जिस तंत्रज्ञान का उपयोग डेटा के विश्लेषण में किया जाएगा उसको भी समझ आये। डेटाबेस की संरचना हमें बताती है कि डेटा किस प्रकार से वर्गीकृत किया गया है और उसका संरचित, मिश्र संरचित और असंरचित प्रकार में वर्गीकरण कैसे किया जाता है। संरचना के प्रकार डेटा के स्त्रोत के अनुसार बदल सकते हैं मगर आखिर में इन तीनों में से एक प्रकार के हो सकते हैं। 
-
-### परिमाणात्मक डेटा 
-परिमाणात्मक डेटा मतलब डेटासेट में उपलब्ध होने वाला ऐसा संख्यात्मक डेटा जिसका उपयोग विश्लेषण, मापन और गणितीय चीजों के लिए हो सकता है। परिमाणात्मक डेटा के यह कुछ उदाहरण हैं: देश की जनसंख्या, इंसान की कद या कंपनी की तिमाही कमाई। थोडे अधिक विश्लेषण बाद डेटा की परिस्थिति के अनुसार वायुगुणवत्ता सूचकांक का बदलाव पता करना या फिर किसी सामान्य दिन पर व्यस्त ट्रैफिक की संभावना का अनुमान लगाना मुमकिन है।   
-
-### गुणात्मक डेटा 
-गुणात्मक डेटा, जिसे वर्गीकृत डेटा भी कहा जाता है,  यह एक डेटा का ऐसा प्रकार है जिसे परिमाणात्मक डेटा की तरह वस्तुनिष्ठ तरह से नापा नहीं जा सकता। यह आम तौर पर अलग अलग प्रकार का आत्मनिष्ठ डेटा होता है जैसे से किसी उत्पादन या प्रक्रिया की गुणवत्ता। कभी कभी गुणात्मक डेटा सांख्यिक स्वरुप में हो के भी गणितीय कारणों के लिए इस्तेमाल नहीं किया जा सकता, जैसे की फोन नंबर या समय। गुणात्मक डेटा के यह कुछ उदाहरण हो सकते है: विडियो की टिप्पणियाँ,  किसी गाड़ी का मॉडल या आपके प्रीय दोस्त का पसंदिदा रंग। गुणात्मक डेटा का इस्तेमाल करके ग्राहकौं को कोनसा उत्पादन सबसे ज्यादा पसंद आता है या फिर नौकरी आवेदन के रिज्यूमे में सबसे ज्यादा इस्तेमाल होने वाले शब्द ढूंढ़ना।
-
-### संरचित डेटा 
-संरचित डेटा वह डेटा है जो पंक्तियों और स्तंभों में संगठित होता है, जिसके हर पंक्ति में समान स्तंभ होते है। हर स्तंभ एक विशिष्ट प्रकार के मूल्य को बताता है और उस मूल्य को दर्शाने वाले नाम के साथ जाना जाता है। जबकि पंक्तियौं में वास्तविक मूल्य होते है। हर मूल्य सही स्तंभ का प्रतिनिधित्व करते हैं कि नहीं ये निश्चित करने के लिए स्तंभ में अक्सर मूल्यों पर नियमों का प्रतिबन्ध लगा रहता है। उदाहरणार्थ कल्पना कीजिये ग्राहकों की जानकारी होने वाला एक स्प्रेडशीट फ़ाइल जिसके हर पंक्ति में फोन नंबर होना जरुरी है और फोन नंबर में कभी भी अक्षर नहीं रहते। तो फिर फोन नंबर के स्तंभ पर ऐसा नियम लगा होना चाहिए जिससे यह निश्चित हो कि वह कभी भी खाली नहीं रहता है और उसमें सिर्फ आँकडे ही है ।
-
-सरंचित डेटा का यह फायदा है की उसे स्तंभ और पंक्तियों में संयोजित किया जा सकता है। तथापि, डेटा को एक विशिष्ट प्रकार में संयोजित करने के लिए आयोजित किये जाने के वजह से पुरे संरचना में बदल करना बहुत मुश्किल काम होता है। जैसे की ग्राहकों के जानकारी वाले स्प्रेडशीट फ़ाइलमें अगर हमें ईमेल आयडी खाली ना होने वाला नया स्तंभ जोड़ना हो, तो हमे ये पता करना होगा की पहिले से जो मूल्य इस डेटासेट में है उनका क्या होगा?  
-
-संरचित डेटा के यह कुछ उदाहरण हैं: स्प्रेडशीट, रिलेशनल डेटाबेस, फोन नंबर एवं बैंक स्टेटमेंट ।
-
-### असंरचित डेटा
-असंरचित डेटा आम तौर पर स्तंभ और पंक्तियों में वर्गीकृत नहीं किया जा सकता और किसी नियमों से बंधित भी नहीं रहता। संरचित डेटा के तुलना में असंरचित डेटा में कम नियम होने के कारण उसमे नया डेटा जोडना बहुत आसान होता है। अगर कोई सेंसर जो बैरोमीटर के दबाव को हर दो मिनट के बाद दर्ज करता है, जिसकी वजह से वह दाब को माप के दर्ज कर सकता है, तो उसे असंरचित डेटा होने के कारण डेटाबेस में पहलेसे उपलब्ध डेटा को बदलने की आवश्यकता नहीं है। तथापि, ऐसे डेटा का विश्लेषण और जाँच करने में ज्यादा समय लग सकता है।  
-जैसे की, एक वैज्ञानिक जिसे सेंसर के डेटा से पिछले महीने के तापमान का औसत ढूंढ़ना हो, मगर वो देखता है की सेंसर ने कुछ जगह आधे अधूरे डेटा को दर्ज करने के लिए आम क्रमांक के विपरीत 'e' दर्ज किया है, जिसका मतलब है की डेटा अपूर्ण है।  
-असंरचित डेटा के उदाहरण: टेक्स्ट फ़ाइलें, टेक्स्ट मेसेजेस, विडियो फ़ाइलें।
-
-### मिश्र संरचित डेटा 
-मिश्र संरचित डेटा के ऐसे कुछ गुण है जिसकी वजह से उसे संरचित और असंरचित डेटा का मिश्रण कहा जा सकता हैं। वह हमेशा स्तंभ और पंक्तियों के अनुरूप नहीं रहता मगर ऐसे तरह संयोजित किया गया होता है कि उसे संरचित कहा जा सकता है और शायद अन्य निर्धारित नियमों का पालन भी करता है। डेटा की संरचना उसके स्त्रोत के ऊपर निर्भर होती है जैसे की स्पष्ट अनुक्रम या फिर थोडा परिवर्तनशील होता है जिसमे नया डेटा जोड़ना आसान हो। मेटाडेटा ऐसे संकेतांक होते हैं जिससे डेटा का संयोजन और संग्रह करना आसान होता है, और उन्हें डेटा के प्रकार के अनुरूप नाम भी दिए जा सकते हैं । मेटाडेटा के आम उदाहरण है: टैग्स, एलिमेंट्स, एंटिटीज और एट्रीब्यूट्स.  
-उदाहरणार्थ: एक सामान्य ईमेल को उसका विषय, मायना, और प्राप्तकर्ताओं की सूची होगी और किससे कब भेजना है उसके प्रमाण से संयोजित किया जा सकता है। 
-
-मिश्र संरचित डेटा के उदाहरण: एचटीएमएल, सीइसवी फाइलें, जेसन(JSON)
-
-## डेटा के स्त्रोत 
-डेटा का स्त्रोत, अर्थात वो जगह जहाँ डेटा सबसे पहिली बार निर्माण हुआ था, और हमेशा कहाँ और कब जमा किया था इसपर आधारित होगा। उपयोगकर्ता के द्वारा निर्माण किये हुए डेटा को प्राथमिक डेटा के नाम से पहचाना जाता है जबकि गौण डेटा ऐसे स्त्रोत से आता है जिसने सामान्य कार्य के लिए डेटा जमा किया था। उदाहरण के लिए, वैज्ञानिकों का समूह वर्षावन में टिप्पणियों और सूचि जमा कर रहे है तो वो प्राथमिक डेटा होगा और यदि उन्होंने उस डेटा को बाकि के वैज्ञनिको के साथ बाँटना चाहा तो वो वह गौण डेटा कहलाया जायेगा।  
-
-डेटाबेस यह एक सामान्य स्त्रोत है और वह होस्टिंग और डेटाबेस मेंटेनन्स सिस्टिम पर निर्भर होता है। डेटाबेस मेंटेनन्स सिस्टिम में उपयोगकर्ता कमांड्स, जिन्हें ‘क्वेरीज़’ कहा जाता है इस्तेमाल करके डेटाबेस का डेटा ढूंढ सकते हैं। डेटा स्त्रोत फ़ाइल स्वरुप में हो, तो आवाज, चित्र, वीडियो, स्प्रेडशीट ऐसे प्रकार में हो सकता है। अंतरजाल के स्त्रोत डेटा होस्ट करने का बहुत आम तरीका है। यहाँ डेटाबेस तथा फाइलें ढूंढी जा सकती है। एप्लीकेशन प्रोग्रामिंग इंटरफेस, जिन्हे 'एपीआय'(API) के नाम से जाना जाता है, उसकी मदद से प्रोग्रामर्स डेटा को बाहर के उपयोगकर्ताओं को अंतरजाल द्वारा इस्तेमाल करने के लिए भेज सकते हैं। जबकि वेब स्क्रैपिंग नामक प्रक्रिया से अंतरजाल के वेब पेज का डेटा अलग किया जा सकता है। [डेटा के साथ काम करना](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data) यह पाठ अलग अलग डेटा का इस्तेमाल करने पर ध्यान देता है।
-## निष्कर्ष 
-यह पाठ में हमने पढ़ा कि:
- डेटा क्या होता है 
- डेटा का वर्णन कैसे किया जाता है
- डेटा का वर्गीकरण कैसे किया जाता है 
- डेटा कहा मिलता है 
-
-## 🚀 चुनौती
-Kaggle यह के मुक्त डेटाबेस का बहुत अच्छा स्त्रोत है। [सर्च टूल ](https://www.kaggle.com/datasets) का इस्तेमाल करके कुछ मजेदार डेटासेट ढूंढे और उनमे से तीन-चार डेटाबेस को ऐसे वर्गीकृत करे:
- डेटा परिमाणात्मक है या गुणात्मक है?
- डेटा संरचित, असंरचित या फिर मिश्र संरचित है?
-
-## [पाठ के पश्चात परीक्षा](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-## समीक्षा और स्वअध्ययन
- माइक्रोसॉफ्ट लर्न का [अपना डेटा वर्गीकृत करें](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) पाठ संरचित, असंरचित और मिश्र संरचित डेटा के बारे में और अच्छे से बताता है। 
-
-## अभ्यास 
-[डेटा का वर्गीकरण](assignment.hi.md)
--- a/1-Introduction/03-defining-data/translations/README.ko.md
+++ b/1-Introduction/03-defining-data/translations/README.ko.md
@ -1,69 +0,0 @@
-# 데이터 정의
-
-|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|데이터 정의 - _Sketchnote 작성자 [@nitya](https://twitter.com/nitya)_ |
-
-데이터는 발견을 하고 정보에 입각한 결정을 지원하는 데 사용되는 사실, 정보, 관찰 및 측정입니다. 데이터 포인트는 데이터 포인트의 모음인 데이터셋(Data Set)에 있는 단일 데이터 단위입니다. 데이터셋은 다양한 형식과 구조로 제공될 수 있으며 일반적으로 소스 또는 데이터의 출처를 기반으로 합니다. 예를 들어 회사의 월별 수입은 스프레드시트에 있지만 스마트워치의 시간당 심박수 데이터는 [JSON](https://stackoverflow.com/a/383699) 형식일 수 있습니다. 데이터 과학자는 데이터셋 내에서 다양한 유형의 데이터로 작업하는 것이 일반적입니다.
-
-이 단원에서는 데이터의 특성과 소스를 기준으로 데이터를 식별하고 분류하는 데 중점을 둡니다.
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-## 데이터 설명 방법
-**원시 데이터**는 초기 상태의 소스에서 가져온, 분석이나 구조화되지 않은 데이터입니다. 데이터셋에서 무슨 일이 일어나고 있는지 이해하기 위해서는 데이터셋를 인간이 이해할 수 있는 형식과 추가 분석에 사용할 수 있는 기술로 구성해야 합니다. 데이터셋의 구조는 구성 방법을 설명하고 구조화, 비구조화 및 반구조화로 분류할 수 있습니다. 이러한 유형의 구조는 출처에 따라 다르지만 궁극적으로 이 세 가지 범주에 맞습니다.
-### 정량적 데이터
-정량적 데이터는 데이터셋 내의 수치적 관찰이며 일반적으로 수학적인 분석, 측정 및 사용할 수 있습니다. 정량적 데이터의 몇 가지 예는 다음과 같습니다: 국가의 인구, 개인의 키 또는 회사의 분기별 수입. 몇 가지 추가 분석을 통해 정량적 데이터에서 AQI(대기 질 지수)의 계절적 추세를 발견하거나 일반적인 근무일의 러시아워 교통량 확률을 추정할 수 있습니다.
-
-### 정성 데이터
-범주형 데이터라고도 하는 정성적 데이터는 정량적 데이터의 관찰과 같이 객관적으로 측정할 수 없는 데이터입니다. 일반적으로 제품이나 프로세스와 같은 무언가의 품질을 나타내는 주관적 데이터의 다양한 형식입니다. 경우에 따라 정성적 데이터는 숫자이며  일반적으로 전화번호나 타임스탬프와 같이 수학적으로 사용되지 않습니다. 정성적 데이터의 몇 가지 예는 다음과 같습니다: 비디오 댓글, 자동차 제조사 및 모델 또는 가장 친한 친구가 가장 좋아하는 색상. 정성적 데이터는 소비자가 가장 좋아하는 제품을 이해하거나 입사 지원 이력서에서 인기 있는 키워드를 식별하는 데 사용할 수 있습니다.
-
-### 구조화된 데이터
-구조화된 데이터는 행과 열로 구성된 데이터로, 각 행에는 동일한 열 집합이 있습니다. 열은 특정 유형의 값을 나타내며 값이 나타내는 것을 설명하는 이름으로 식별되는 반면 행에는 실제 값이 포함됩니다. 열에는 값이 열을 정확하게 나타내도록 하기 위해 값에 대한 특정 규칙 또는 제한 사항이 있는 경우가 많습니다. 예를 들어, 각 행에 전화번호가 있어야 하고 전화번호에는 알파벳 문자가 포함되지 않는 고객 스프레드시트를 상상해 보십시오. 전화번호 열이 비어 있지 않고 숫자만 포함되도록 하는 규칙이 적용될 수 있습니다.
-
-구조화된 데이터의 이점은 다른 구조화된 데이터와 관련될 수 있는 방식으로 구성될 수 있다는 것입니다. 그러나 데이터가 특정 방식으로 구성되도록 설계되었기 때문에 전체 구조를 변경하려면 많은 노력이 필요할 수 있습니다. 예를 들어 비워둘 수 없는 이메일 열을 고객 스프레드시트에 추가한다는 것은 이러한 값을 데이터세트의 기존 고객 행에 추가하는 방법을 파악해야 함을 의미합니다.
-
-구조화된 데이터의 예: 스프레드시트, 관계형 데이터베이스, 전화번호, 은행 거래 내역
-
-### 비정형 데이터
-비정형 데이터는 일반적으로 행이나 열로 분류할 수 없으며 따라야 할 형식이나 규칙 집합을 포함하지 않습니다. 구조화되지 않은 데이터는 구조에 대한 제한이 적기 때문에 구조화된 데이터세트에 비해 새로운 정보를 추가하는 것이 더 쉽습니다. 2분마다 기압 데이터를 캡처하는 센서가 이제 온도를 측정하고 기록할 수 있는 업데이트를 수신한 경우 구조화되지 않은 기존 데이터를 변경할 필요가 없습니다. 그러나 이렇게 하면 이러한 유형의 데이터를 분석하거나 조사하는 데 시간이 더 오래 걸릴 수 있습니다. 예를 들어, 센서 데이터에서 전월 평균 온도를 찾고자 하는 과학자가 센서가 기록된 데이터 중 일부에 "e"를 기록하여 일반적인 숫자가 아닌 파손된 것을 확인하는 것을 발견했습니다. 데이터가 불완전하다는 것을 의미합니다.
-
-비정형 데이터의 예: 텍스트 파일, 문자 메시지, 비디오 파일
-
-### 반구조화
-반정형 데이터에는 정형 데이터와 비정형 데이터가 결합된 기능이 있습니다. 일반적으로 행과 열의 형식을 따르지 않지만 구조화된 것으로 간주되고 고정 형식이나 일련의 규칙을 따를 수 있는 방식으로 구성됩니다. 구조는 소스에 따라 다양해지는데, 잘 정의된 계층에서 새로운 정보를 쉽게 통합할 수 있는 보다 유연한 형태같은 것이 있습니다. 메타데이터는 데이터가 구성되고 저장되는 방식을 결정하는 데 도움이 되는 지표이며 데이터 유형에 따라 다양한 이름을 갖게 됩니다. 메타데이터의 일반적인 이름에는 태그, 요소(elements), 엔터티(entity) 및 속성(attribute)이 있습니다. 예를 들어 일반적인 전자 메일 메시지에는 제목, 본문 및 수신자 집합이 있으며 보낸 사람 또는 보낸 시간을 구성할 수 있습니다.
-
-반구조화된 데이터의 예: HTML, CSV 파일, JSON(JavaScript Object Notation)
-
-## 데이터 소스
-
-데이터 소스는 데이터가 생성된 초기 위치 또는 데이터가 "살아 있는" 위치이며 수집 방법과 시기에 따라 달라집니다. 사용자가 생성한 데이터를 1차 데이터라고 하고 2차 데이터는 일반 사용을 위해 데이터를 수집한 소스에서 가져옵니다. 예를 들어, 열대 우림에서 관찰을 수집하는 과학자 그룹은 기본으로 간주되며 다른 과학자와 공유하기로 결정한 경우 이를 사용하는 과학자 그룹에 대해 보조로 간주됩니다.
-
-데이터베이스는 공통 소스이며 사용자가 쿼리라는 명령을 사용하여 데이터를 탐색하는 데이터를 호스팅하고 유지 관리하기 위해 데이터베이스 관리 시스템에 의존합니다. 데이터 소스로서의 파일은 오디오, 이미지 및 비디오 파일과 Excel과 같은 스프레드시트가 될 수 있습니다. 인터넷 소스는 데이터베이스와 파일을 찾을 수 있는 데이터 호스팅을 위한 일반적인 위치입니다. API라고도 하는 응용 프로그래밍 인터페이스를 사용하면 프로그래머가 인터넷을 통해 외부 사용자와 데이터를 공유하는 방법을 만들 수 있으며 웹 스크래핑 프로세스는 웹 페이지에서 데이터를 추출합니다. [데이터 작업 강의](/2-Working-With-Data)에서는 다양한 데이터 소스를 사용하는 방법에대해 알아봅니다.
-
-## 결론
-
-이 단원에서 우리는 다음을 배웠습니다.
-
- 어떤 데이터인가
- 데이터 설명 방법
- 데이터 분류 및 분류 방법
- 데이터를 찾을 수 있는 곳
-
-## 🚀 도전
-
-Kaggle은 공개 데이터셋의 훌륭한 소스입니다. [데이터셋 검색 도구](https://www.kaggle.com/datasets)를 사용하여 흥미로운 데이터셋을 찾고 다음 기준에 따라 3~5개의 데이터셋을 분류합니다.
-
- 데이터는 양적입니까, 질적입니까?
- 데이터가 정형, 비정형 또는 반정형입니까?
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-
-
-## 복습 및 독학
-
- [데이터 분류](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data)라는 제목의 이 Microsoft Learn 단원에는 정형, 반정형 및 비정형 데이터의 분류할 것입니다.
-
-## 과제
-
-[데이터셋 분류](./assignment.ko.md)
--- a/1-Introduction/03-defining-data/translations/README.pt-br.md
+++ b/1-Introduction/03-defining-data/translations/README.pt-br.md
@ -1,67 +0,0 @@
-# Definindo Dados
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|Definindo Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
-Dados são fatos, informações, observações e medidas que são usadas para fazer descobertas e apoiar decisões informadas. Um ponto de dado é uma unidade única dentro de um dataset, que é uma coleção de pontos de dados. Datasets podem vir em diferentes formatos e estruturas, e normalmente será baseado em sua fonte, ou de onde os dados vieram. Por exemplo, os ganhos mensais de uma empresa podem estar em uma planilha mas a frequência cardíaca (por hora) de um smartwatch pode estar em formato [JSON](https://stackoverflow.com/a/383699). É comum para cientistas de dados terem que trabalhar com diferentes tipos de dados em um dataset.
-
-Essa aula irá focar em identificar e classificar dados baseados em sua características e fontes.
-
-## [Quiz Pré Aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-## Como Dados são Descritos
-**Dados Brutos (Raw data)** são dados que vieram em seu estado inicial de sua fonte e não foram analisados ou organizados. Para entender o que está acontecendo com um conjunto de dados, é necessário organizar os dados em um formato que possa ser entendido pelos humanos e também pela tecnologia que pode ser usada para analisar os mesmos. A estrutura do dataset descreve como estão organizados e pode ser classificada em estruturada, não estruturada e semi estruturada. Esses tipos de estruturas irão variar, dependendo da fonte mas irão ultimamente se encaixar nessas categorias.
-
-### Dados Qualitativos
-Dados qualitativos, também conhecidos como dados categóricos são dados que não podem ser medidos objetivamente como observações de dados quantitativos. São geralmente vários formatos de dados subjetivos que coletam a qualidade de algo, como um produto ou processo. Algumas vezes, dados qualitativos são numéricos e tipicamente não seriam usados matematicamente, como números de telefones e marcas de tempo. Alguns exemplos de dados qualitativos são: comentários de vídeos, a marca e modelo de um carro e a cor favorita do seu melhor amigo. Dados qualitativos podem ser usados para entender quais produtos os consumidores mais gostam ou identificar palavras-chaves populares em cúrriculos para aplicação em uma vaga de trabalho.
-
-### Dados Estruturados
-Dados estruturados são dados que estão organizados em linhas e colunas, onde cada linha tem a mesma quantidade de colunas. Colunas representam um valor de um tipo particular e são identificadas com um nome descrevendo o que aquele valor representa, enquanto cada linha contém o valor. Colunas geralmente vão possuir um conjunto específico de regras e restrições nesses valores, para garantir que os valores representam precisamente a coluna. Por exemplo, imagine uma planilha de clientes onde cada linha deve ter um número de telefone e o mesmo nunca pode conter caractéres alfabéticos. Podem existir regras aplicadas na coluna do número de telefone para garantir que nunca esteja vazio e contenha apenas números.
-
-Um benefício de dados estruturados é que podem ser organizados de uma forma que pode ser relacionada a um outro dado estruturado. No entanto, devido ao fato dos dados serem feitos para serem organizados de uma forma específica, fazer mudanças na estrutura em geral pode requerer muito esforço. Por exemplo, adicionar uma coluna de email na planilha de clientes que não pode ser vazia, significa que você terá que decidir como você irá adicionar os valores nas linhas já existentes no dataset.
-
-Exemplos de dados estruturados: planilhas/spreadsheets, bancos de dados relacionais, números de telefone, extratos bancários
-
-### Dados Não Estruturados
-Dados não estruturados tipicamente não podem ser categorizado em linhas e colunas e não possuem um formato ou um conjunto de regras a ser seguido. Devido ao fato de dados não estruturados possuirem menos restrições na sua estrutura é mais fácil adicionar novas informações quando comparados com um dataset estruturado. Se um sensor que coleta dados de pressão bariométrica a cada 2 minutos recebeu uma atualização que agora permite que o mesmo meça e grave a temperatura, não é preciso alterar os dados já existentes se eles são não estruturados. No entanto, isso pode fazer com que a análise ou investigação desses dados leve mais tempo. Por exemplo, um cientista que quer descobrir a temperatura média do mês passado a partir dos dados do sensor, mas descobre que o sensor gravou um "e" em alguns dados gravados indicando que estava quebrado ao invés de um número típico, o que significa que os dados estão incompletos.
-
-Exemplos de dados não estruturados: arquivos de texto, mensagens de texto, arquivo de vídeo
-
-### Dados Semi Estruturados
-Dados semi estruturados possui recursos que o fazem ser uma combinação de dados estruturados e não estruturados. Tipicamente não está em conformidade com linhas e colunas mas estão organizados de uma forma que são considerados estruturados e podem seguir um formato fizo ou um conjunto de regras. A estrutura pode variar entre as fontes, desde uma hierarquia bem definida até algo mais flexível que permite uma fácil integração de novas informação. Metadados são indicadores que ajudam a decidir como os dados são organizados e armazenados e terão vários nomes, baseado no tipo de dado. Alguns nomes comuns para metadados são tags, elementos, entidades e atributos. Por exemplo, uma mensaem de email típica terá um assunto, corpo e um conjunto de recipientes e podem ser organizados por quem ou quando foi mandado.
-
-Exemplos de dados não estruturados: HTML, arquivos CSV, JavaScript Object Notation (JSON)
-
-## Fontes de Dados
-
-Uma fonte de dados é o local inicial onde os dados foram gerados, ou onde "vivem" e irá variar com base em como e quando foram coletados. Dados gerados por seus usuários são conhecidos como dados primários enquanto dados secundários vem de uma fonte que coletou os dados para uso geral. Por exemplo, um grupo de cientistas fazendo observações em uma floresta tropical seriam considerados dados primários e se eles decidirem compartilhar com outros cientistas seriam considerados dados secundários para aqueles que usarem.
-
-Banco de dados são fontes comuns e dependem de um sistema de gerenciamente de banco de dados para hospedar e manter os dados onde usuários usam comandos chamados de "queries" para explorar os dados. Arquivos como fonte de dados podem ser aúdio, imagens, e arquivos de vídeo assim como planilhas como o Excel. Fontes da internet são lugares comuns para hospedar dados, onde banco de dados e arquivos podem ser encontrados. Application programming interfaces, ou APIs, permitem programadores a criarem formas de compartilhar dados com usuários externos através da interet, enquanto processos de "web scraping" extrai dados de uma página da web. As [tarefas em Trabalhando com Dados](../../../2-Working-With-Data) focam em como usar várias fontes de dados.
-
-## Conclusão
-
-Nessa aula nós aprendemos:
-
- O que são dados
- Como dados são descritos
- Como dados são classificados e categorizados
- Onde os dados podem ser encontrados
-
-## 🚀 Desafio
-
-O Kaggle é uma excelente fonte para datasets abertos. Use a [ferramenta de busca de dataset](https://www.kaggle.com/datasets) para encontrar alguns datasets interessantes e classificar de três a cinco datasets com esses critérios:
-
- Os dados são quantitativos ou qualitativos?
- Os dados são estruturados, não estruturados, ou semi estruturados?
-
-## [Quiz Pós Aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-
-
-## Revisão e Auto Estudo
-
- Essa unidade do Microsoft Lean, entitulada [Classifique seus Dados (Classify your Data)](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) tem uma análise detalhada de dados estruturados, semi estruturados, e não estruturados.
-
-## Tarefa
-
-[Classificando Datasets](assignment.pt-br.md)
--- a/1-Introduction/03-defining-data/translations/README.ru.md
+++ b/1-Introduction/03-defining-data/translations/README.ru.md
@ -1,76 +0,0 @@
-# Что такое данные?
-
-|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|Что такое данные - _Рисунок [@nitya](https://twitter.com/nitya)_ |
-
-Данные - это факты, информация, наблюдения и измерения, которые используются для совершения открытий и для принятия информированных решений. Экземпляр данных - единичная сущность внутри датасета - коллекции экземпляров. Датасеты могут иметь различный формат и структуру в зависимости от источника данных и их природы. Например, данные о ежемесячной выручке компании могут лежать в таблице, а почасовые данные сердечного ритма с умных часов - в формате [JSON](https://stackoverflow.com/a/383699). Очень часто дата сайентистам приходится работать с разными типами данных в рамках одного датасета.
-
-В данном уроке мы сосредоточимся на описании и классификации данных по их характеристикам и источникам.
-
-
-## [Вступительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-
-## Классификация данных
-**"Сырые" данные** - это необработанные данные, полученные из источника без дополнительного анализа или организации. Для того, чтобы понять, что содержит в себе датасет, необходимо привести данные к формату, одинаково понятному как человеку, так и методам, которые могут быть использованы при их анализе. Структура датасета характеризует его содержание, которое делится на структурированные, неструктурированные и полуструктурированные данные. Эти типы структуры могут изменяться в зависимости от источника, но в конечном счёте все равно принадлежат одной из трёх упомянутых категорий. 
-
-
-### Количественные данные
-Количественные данные - это численные наблюдения внутри датасета, которые обычно могут быть проанализированы, измерены и использованы при расчетах. Примеры таких данных: население страны, рост человека или поквартальная выручка компании. При дополнительном анализе, количественные данные могут быть использованы для обнаружения сезонных трендов в Индексе качества воздуха (AQI) или при оценке вероятности пробок в час пик в обычный рабочий день.
-
-
-### Качественные данные
-Качественные данные, также известные как категориальные, - это данные, которые не могут быть объективно измерены, в отличие от количественных наблюдений. В общем случае, они представляют из себя различные форматы субъективных данных, которые оценивают качество чего-либо, например товара или процесса. Иногда, качественные данные представлены в численном формате, но не могут быть обработаны обычными математическими методами, как например номера телефонов или временные интервалы. Примеры качественных данных: комментарии к видео, марка и модель автомобиля, любимый цвет Вашего близкого друга. Количественные данные можно использовать для того, чтобы понять, какие товары больше нравятся потребителями или определить популярные ключевые слова в резюме претендентов.
-
-
-### Структурированные данные
-Структурированные данные - это данные, которые организованы в строки и столбцы, при этом каждая строка имеет одинаковый набор столбцов. Стоблцы обозначают величину определённого типа и имеют название, отражающее эту величину, в то время как строки содержат значения этой величины. Столбцы часто имеют специальный набор правил или ограничений для значений, чтобы гарантировать соответствие между столбцом и значениями в нём. Представьте таблицу клиентов, в которой каждая строка должна иметь номер телефона и номера телефонов никогда не содержат букв. Таким образом, можно применить правило к столбцу номеров телефона, чтобы убедиться, что он не содержит пустых значений и содержит только цифры.
-
-Преимущество структурированных данных в том, что они могут быть организованы таким образом, который соотносится с другим набором структурированных данных. Однако, из-за того, что данные должны быть организованны определённым способом, внесение изменений в общую структуру может быть затруднительным. Например, добавление колонки с адресом электронного ящика в таблицу клиентов, которая не может быть пустой, означает, что Вам необходимо продумать, как добавить эти значения в существующие строки датасета, соответствующие клиентам.
-
-Примеры структурированных данных: таблицы, реляционные базы данных, телефонные номера, выписки из банка.
-
-
-### Неструктурированные данные
-Неструктурированные данные обычно не могут быть организованы по строкам или столбцам и не имеют строгого формата и набора правил. Благодаря тому, что неструктурированные данные содержат меньше ограничений на свою структуру, добавить новую информацию в них гораздо легче, чем в случае со структурированными данными. Если датчик, измеряющий давление каждые две минуты, получит обновление, которое позволит измерять и сохранять температуру, то в случае неструктурированных данных нет необходимости изменять уже существующие данные. Однако, такой подход требует более тщательного анализа и исследования выбранного типа данных. Например, специалист, который хочет найти среднюю температуру за предыдущий месяц из показаний датичков, может обнаружить, что датчики в некоторых случаях записали "е" чтобы обозначить поломку, соответственно, данные будут неполными.
-
-Примеры неструктурированных данных: текстовые файлы, текстовые сообщения, видеофайлы.
-
-
-### Полуструктурированные данные
-Полуструктурированные данные имеют свойства как структурированных, так и неструктурированных данных. Обычно, они не соответствуют табличному формату, но организованы таким образом, который считается структурированным и могут иметь фиксированный формат данных и набор правил. Структура может отличаться от источника к источнику, от строго определённой иерархии до чего-то более гибкого, что позволяет более простое слияние с новой информацией. Метаданные - это индикаторы, которые помогают понять, как данные организованы и хранятся, и имеют различные наименования в зависимости от типа данных. Наиболее распространённые наименования метаданных: теги, элементы, сущности и аттрибуты. Например, обычное электронное письмо имеет тему, тело и набор адресатов и может быть организовано по адресам и датам отправки.
-
-Примеры полуструктурированных данных: HTML страницы, CSV файлы, файлы JSON.
-
-## Источники данных
-
-Источник данных - место, где данные были изначально сгенерированы, или где они "лежат", оно может отличаться от того, как и когда данные были собраны. Данные, сгенерированные пользователем (пользователями) называются первичными, а собранные из источника и пригодные для использования - вторичными. Например, группа специалистов, собравших наблюдения в тропическом лесу, буду называть их первичными, а если они поделятся ими с другими, то относительно другой группы данные будут считаться вторичными.
-
-Базы данных - общепринятый источник данных, который управляется и поддерживается системой управления базой данных (СУБД), в которой пользователи при помощи команд инициируют запросы для получения данных. В качестве источников могут выступать аудиофайлы, изображения, видеофайлы, а также таблицы, например файлы Excel. Интернет - распространённое место для хранения данных, где можно найти как базы данных, так и файлы. Прикладные программные интерфейсы, также известные как API, дают программистам возможность создавать различные способы обмена данными с внешними пользователями через Интернет, а парсинг веб-страниц извлекает информацию с сайтов. На уроках [работы с данными](../../../2-Working-With-Data) мы обратим внимание на то, как использовать различные источники данных.
-
-## Заключение
-
-На данном уроке мы изучили:
-
- Что такое данные
- Как можно описать данные
- Классификацию данных
- Где хранятся данные
-
-## 🚀 Задача
-
-Портал Kaggle - отличный источник датасетов. Воспользуйтесь [средством поиска по датасетам](https://www.kaggle.com/datasets), чтобы найти интересные и охарактеризовать 3-5 датасетов по следующим критериям: 
-
- Являются ли данные количественными или качественными?
- Являются ли данные структурированными, неструктурированными, полуструктурированными?
-
-
-## [Проверочный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-
-## Материалы для самостоятельного изучения
-
- Глава курса Microsoft Learn под названием ["Классификация данных"](https://docs.microsoft.com/ru-ru/learn/modules/choose-storage-approach-in-azure/2-classify-data) содержит детальную классификацию структурированных, полуструктурированных и неструктурированных данных.
-
-## Домашнее задание
-[Классификация датасетов](assignment.ru.md)
--- a/1-Introduction/03-defining-data/translations/README.tr.md
+++ b/1-Introduction/03-defining-data/translations/README.tr.md
@ -1,76 +0,0 @@
-# Veriyi Tanımlamak
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/03-DefiningData.png)|
-|:---:|
-|Veriyi Tanımlamak - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-Veri, keşifler yapmak ve bilinçli kararları desteklemek için kullanılan gerçekler, bilgi, gözlemler ve ölçümlerdir. Bir veri noktası, veri noktalarından oluşan bir yığın olan veri setlerindeki bir birim veridir. Veri setleri genellikle kaynağına veya verinin nereden geldiğine bağlı olarak farklı formatlarda ve yapılarda bulunabilir. Örneğin, bir şirketin aylık kazancı bir hesap çizelgesinde bulunabilecekken bir akıllı saatten gelen saatlik kalp atışı verisi [JSON] (https://stackoverflow.com/a/383699) formatında olabilir.
-
-Bu ders veriyi karakteristiklerine ve kaynaklarına göre tanımlama ve sınıflandırma üzerine odaklanmaktadır.
-
-## [Ders Öncesi Kısa Sınavı](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4)
-
-## Veri nasıl tanımlanır
-
-**Ham veri** kaynağından oluşturulduğu şekilde aktarılan ve analiz edilmemiş veya düzenlenmemiş veridir. Bir veri setinde ne olduğunu anlayabilmek için veri setlerinin insanların ve verilerin daha ileri düzeyde analiz etmekte kullanabilecekleri teknolojilerin anlayabileceği bir formatta düzenlenmesi gerekmektedir. Bir veri setinin yapısı veri setinin nasıl düzenlendiğini açıklar ve yapısal, yapısal olmayan ve yarı yapısal olarak sınıflandırılabilir.Bu yapı tipleri değişkenlik gösterebilir ve kaynağa bağlıdır ancak veri setleri nihayetinde bu üç kategoriden birisine uyacaktır.
-
-### Nicel veri
-
-Nicel veri bir veri setinin içerisindeki sayısal gözlemlerdir ve genel olacak analiz edilebilir, ölçülebilir ve matematiksel olarak kullanılabilirdir. Nicel verinin bazı örnekleri şu şekilde verilebilir: ülkenin nüfusu, kişinin boyu veya şirketin kazancı. Bazı ek analizlerle nicel veri, Hava Kalitesi İndeksi'nin sezonsal eğilimlerini keşfetmek için veya sıradan bir iş günündeki trafiğin en yoğun olduğu zamanları tahmin etmek için kullanılabilir.
-
-### Nitel veri
-Nitel veri veya diğer adıysal kategorik veri, nicel verinin gözlemlerindeki gibi objektif olarak ölçülemeyen verilerdir. Genel olarak ürün veya süreç gibi bir şeyin niteliğini tutan çeşitli formatlardaki subjektif verilerdir. Bazen nitel veri telefon numaraları veya zaman damgaları gibi sayısal olabilir ve genellikle bunlar matematiksel olarak kullanılamaz. Nitel data ile ilgili bazı örnekler: video yorumları, bir arabanın marka ve modeli veya en yakın arkadaşının en sevdiği rengi. Nitel veri, müşterilerin hangi ürünleri en çok sevdiğini görmekte veya bir iş başvurusundaki öz geçmişlerde sıklıkla kullanılan kelimeleri belirlemekte kullanılabilir.
-
-### Yapısal veri
-
-Yapısal veri, her satırın aynı sütun takımına sahip olduğu satır ve sütunlarla düzenlenmiş veridir. Sütunlar belirli bir tipteki değeri temsil eder ve değerin neyi temsil ettiğini açıklayan bir isimle tanımlanır, satırlar ise gerçek değerleri bulundurur. Sütunlar genellikle değerin doğru bir şekilde sütunu temsil ettiğini güvence altına almak için spesifik bir dizi kurallara ya da değerler üzerinde sınırlandırmalara sahip olur. Örneğin her satırın bir telefon numarası içermesi gerektiği ve numaraların alfabetik karakterleri asla içermemesi gerektiği bir müşteri çizelgesini düşünün. Telefon numarası sütununa asla boş olmaması ve sadece numara içerdiğinden emin olmak için kurallar uygulanmış olabilir.
-
-Yapısal verinin bir faydası diğer yapısal verilerle ilişkilendirilerek düzenlenebilir olmasıdır. Ancak veri spesifik bir şekilde düzenlendiği için genel yapısında değişiklikler yapmak oldukça fazla efor gerektirecektir. Örneğin bir müşteri çizelgesine bir email sütunu eklemek, sizin aynı zamanda veri setinde bulunan varolan müşteri satırlarına bu değerleri nasıl ekleyeceğinizi çözmenizi gerektirecektir.
-
-Yapısal veriye örnekler: çizelgeler, ilişkisel veritabanları, telefon numaraları, hesap ekstreleri
-
-### Yapısal olmayan veri
-
-Yapısal olmayan veri genellikle satırlar ve sütunlar kullanılarak kategorize edilemez ve bir format veya takip edilecek kurallar bulundurmazlar. Çünkü yapısal olmayan veriler yapılarında daha az sınırlandırmalar bulundururlar. Yapısal veri setleriyle karşılaştırıldığında yeni bilgi eklemek daha kolaydır. Her 2 dakikada bir barometrik basınç verisini toplayan bir sensör eğer sıcaklığı da ölçüp kaydetmesine izin veren bir güncelleme aldıysa ve eğer veri yapısal değilse mevcut veride değişiklik yapmamıza gerek kalmaz. Ancak bu tip bir veriyi analiz edip incelemek daha uzun süre alabilir. Örneğin sensör verisinden geçen ayki ortalama sıcaklığı bulmak isteyen bir bilim adamını düşünelim. Fakat keşfediyor ki sensör topladığı verilerde bir sayı yerine hatalı olduğunu gösteren "e" harfini kaydetmiş, yani bu demek oluyor ki veri eksiktir.
-
-Yapısal olmayan veriler üzerine örnekler: metin dosyaları, metin iletisi, video dosyaları
-
-### Yarı yapısal
-
-Yarı yapısal veri, onu hem yapısal hem de yapısal olmayan verinin bir kombinasyonu yapan özelliklere sahiptir. Genellikle satır ve sütunlar formatına uymaz ancak yapısal olarak kabul edilebilecek bir şekilde düzenlenmiştir ve sabit bir formatı veya bir dizi kuralı takip eder. İyi tanımlanmış bir hiyerarşi veya yeni bilginin kolay entegrasyonuna izin veren daha esnek bir şeyler gibi kaynaklar arasında yapı değişkenlik gösterecektir. Metaveri verilerin nasıl organize edileceğine ve saklanacağına karar vermeye yardımcı olan göstergelerdir ve verinin tipine dayalı olarak çeşitli isimleri olacaktır. Etiketler, elemanlar, varlıklar ve nitelikler bazı yaygın metaveri isimleridir. Örneğin tipik bir email iletisi konuya, mesaj gövdesine ve bir dizi alıcıya sahiptir ve kim tarafından veya ne zaman gönderildiğine göre düzenlenebilir.
-
-Yarı yapısal veriye örnekler: HTML, CSV dosyaları, JavaScript Nesne Notasyonu (JSON)
-
-## Verinin Kaynakları
-
-Bir veri kaynağı verinin oluşturulduğu veya "yaşadığı" ilk konumdur ve nasıl ve ne zaman toplandığına göre değişkenlik gösterecektir. Kullanıcı(lar) tarafından oluşturulan veriler birincil veri olarak tanımlanırken ikincil veri dediğimiz veriler genel kullanım için toplanmış verilerin bulunduğu bir kaynaktan gelir. Örneğin bir yağmur ormanındaki gözlemleri toplayan bir gurup bilim adamı birincil kaynak olarak nitelendirilebilirken eğer bu kişiler toplandıkları verileri başka bilim adamlarıyla paylaşmak isterlerse bu verileri kullanacaklara bu veriler ikincil veri olacaktır.
-
-Veritabanları yaygın bir kaynaktır ve verileri tutmak ve sürdürülebilirliği sağlamak için bir veritabanı yönetim sistemine bağlıdır. Kullanıcılar verileri araştırmak için sorgular dediğimiz komutları kullanır. Dosya şeklindeki veir kaynakları sesler, görüntüler ve video dosyaları olabileceği gibi Excel gibi hesap çizelgeleri de olabilir. Veritabanlarının ve dosyaların bulunabileceği internet kaynakları verileri barındırmak için yaygın bir kaynaktır. Uygulama programlama arayüzleri (API) programlamacıların harici kullanıcılara internet üzerinden veri paylaşımı için yollar oluşturmaya olanak sağlarken web kazıma işlemi web sitelerinden veri çıkarmaya yarar. ["Veriyle Çalışmak"taki dersler](../../../2-Working-With-Data) çeşitli veri kaynaklarının nasıl kullanılacağına odaklanmaktadır.
-
-## Sonuç
-
-Bu derste öğrendiklerimizi gözden geçirelim:
-
- Verinin ne olduğunu
- Verinin nasıl tanımlandığını
- Verinin nasıl sınıflandırılıp kategorize edildiğini
- Verinin nerelerde bulunabileceği öğrendik.
-
-## 🚀 Challange
-
-Kaggle mükemmel bir açık veri seti kaynağıdır. İlginç birkaç veri seti bulmak ve 3 ila 5 veri setini aşağıdaki kriterlere göre sıralamak için [Veri seti arama aracını](https://www.kaggle.com/datasets) kullanın.
-
-Kriterler:
-
- Bu veri nicel midir yoksa nitel midir?
- Bu veri yapısal mıdır, yapısal değil midir yoksa yarı yapısal mıdır? 
-
-## [Ders Sonu Kısa Sınavı](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5)
-
-## İnceleme & Öz Çalışma
-
- Bu [Verini Sınıflandır](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) başlıklı Microsoft Learn dersi detaylı bir şekilde yapısal, yarı yapısal ve yapısal olmayan verileri ele almaktadır.
-
-## Ödev
-
-[Veri Setlerini Sınıflandırma](../assignment.md)
--- a/1-Introduction/03-defining-data/translations/assignment.hi.md
+++ b/1-Introduction/03-defining-data/translations/assignment.hi.md
@ -1,65 +0,0 @@
-# डाटासेट को वर्गीकृत करना 
-
-## निर्देश 
-
-इस असाइनमेंट मे निम्नलिखित प्रॉम्प्ट को देख कर डाटा को पहचाने व एक या उससे ज्यादा डाटा टाइप मे वर्गीकृत करें:
-
-**स्ट्रक्चर टाइप**: संरचित, अर्ध्य-संरचित अथवा असंरचित 
-
-**वैल्यू टाइप**: गुणात्मक अथवा मात्रात्मक
-
-**सोर्स टाइप**: मुख्य अथवा माध्यमिक 
-
-1. एक कंपनी को अधिग्रहित किया गया है और अब उसकी पेरन्ट कंपनी है| डाटा वैज्ञानिकों को पेरन्ट कंपनी से ग्राहकों के फओबने नंबर की सूची प्राप्त हुई है| 
-
-स्ट्रक्चर टाइप:
-
-वैल्यू टाइप: 
-
-सोर्स टाइप: 
-
---
-
-2. एक स्मार्ट वाच उसको पहनने वाले का हृदय दर का माप ले रही है, जो की JSON फॉर्मैट मे है|
-
-स्ट्रक्चर टाइप:
-
-वैल्यू टाइप: 
-
-सोर्स टाइप:
-
---
-
-3. कुछ कर्मचारियो का कार्यस्थल सर्वेक्षण जो की एक CSV फाइल मे संग्रहीत है|
-
-स्ट्रक्चर टाइप:
-
-वैल्यू टाइप: 
-
-सोर्स टाइप:
-
---
-
-4. कुछ खगोल वैज्ञानिक एक आकाशगंगा के डेटाबेस को जांच रहे हैं जो अंतरिक्ष जांच से मिला है| उसकी डाटा मे हर आकाशगंगा मे स्थित ग्रहों की संख्या है|
-
-स्ट्रक्चर टाइप:
-
-वैल्यू टाइप: 
-
-सोर्स टाइप: 
-
---
-
-5. एक वयऐक्टिक फाइनैन्स एप कुछ APIs के सहारे एक व्यक्ति के आर्थिक खाते से जुड़ता है व उनकी कुल योग्यता निकलता है| यूजर अपनी सारी लेनदेन को एक स्प्रेड्शीट की तरह पंक्ति और स्तम्भ के रूप मे देख सकते हैं|
-
-स्ट्रक्चर टाइप:
-
-वैल्यू टाइप: 
-
-सोर्स टाइप:
-
-## सरनामा
-
-अनुकरणीय | पर्याप्त | सुधार चाहिए
--- | --- | -- |
-डाटा के स्तोत्र को पहचानने मे, उसको भंडारित मे और निर्णय लेने मे सक्षम थे | समाधान के कुछ हिस्से विस्तृत नहीं हैं, डाटा को संग्रहीत करना नहीं बताया गया है, कम से कम दो क्षेत्रों का वर्णन है | समाधान के सिर्फ कुछ ही हिस्सों का वर्णन है, सिर्फ एक क्षेत्र पर विचार किया है|
--- a/1-Introduction/03-defining-data/translations/assignment.ko.md
+++ b/1-Introduction/03-defining-data/translations/assignment.ko.md
@ -1,65 +0,0 @@
-# 데이터셋 분류
-
-## 지침
-
-이 과제의 프롬프트에 따라 다음 데이터 타입 중 하나로 데이터를 식별하고 분류합니다.
-
-**구조 유형**: 구조화, 반구조화 또는 비구조화
-
-**값 유형**: 정성적 또는 정량적
-
-**소스 유형**: Primary 또는 Secondary
-
-1. 회사가 인수되었고, 현재 모회사가 있습니다. 데이터 과학자들은 모회사로부터 고객 전화번호 스프레드시트를 받았습니다.
-
-구조 유형:
-
-값 유형:
-
-소스 유형:
-
---
-
-2. 스마트 워치는 착용자로부터 심박수 데이터를 수집하고 있으며 원시 데이터는 JSON 형식입니다.
-
-구조 유형:
-
-값 유형:
-
-소스 유형:
-
---
-
-3. CSV 파일에 저장된 직원 사기의 직장 설문 조사.
-
-구조 유형:
-
-값 유형:
-
-소스 유형:
-
---
-
-4. 천체 물리학자들은 우주 탐사선에 의해 수집된 은하 데이터베이스에 접근하고 있습니다. 데이터에는 각 은하에 있는 행성의 수가 포함됩니다.
-
-구조 유형:
-
-값 유형:
-
-소스 유형:
-
---
-
-5. 개인 금융 앱은 API를 사용하여 사용자의 금융 계정에 연결하여 순자산을 계산합니다. 행과 열 형식으로 모든 거래를 볼 수 있으며 스프레드시트와 유사하게 보입니다.
-
-구조 유형:
-
-값 유형:
-
-소스 유형:
-
-## 기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-모든 구조, 값 및 소스를 올바르게 식별 |모든 구조, 값 및 소스를 3개 모두 올바르게 식별|2개 이하의 모든 구조, 값 및 소스를 올바르게 식별|
--- a/1-Introduction/03-defining-data/translations/assignment.pt-br.md
+++ b/1-Introduction/03-defining-data/translations/assignment.pt-br.md
@ -1,65 +0,0 @@
-# Classificando Datasets
-
-## Instruções
-
-Siga as instruções nessa tarefa para identificar e classificar os dados como um de cada dos seguintes tipos de dados:
-
-**Tipos de Estrutura**: Estruturado, Semi Estruturado, ou Não-Estruturado
-
-**Tipos de Valor**: Qualitativo ou Quantitativo 
-
-**Tipos de Fonte**: Primária ou Secundária
-
-1. Uma empresa voi adquirida e agora tem uma empresa-mãe. Os cientistas de dados receberam uma planilha com números de telefones dos clientes da empresa-mãe. 
-
-Tipo de Estrutura:
-
-Tipo de Valor: 
-
-Tipo de Fonte: 
-
---
-
-2. Um smart watch vem coletando dados da frequência cardíaca de seu usuário, e os dados brutos estão em formato JSON.
-
-Tipo de Estrutura:
-
-Tipo de Valor: 
-
-Tipo de Fonte:  
-
---
-
-Uma pesquisa sobre o moral do funcionário no local de trabalho armazenada em um arquivo CSV.
-
-Tipo de Estrutura:
-
-Tipo de Valor: 
-
-Tipo de Fonte: 
-
---
-
-4. Astrofísicos estão acessando um banco de dados de galáxias que foram coletados por uma sonda espacial. Os dados contém os números de planetas dentro de cada galáxia.
-
-Tipo de Estrutura:
-
-Tipo de Valor: 
-
-Tipo de Fonte: 
-
---
-
-5. Um aplicativo de finanças pessoas usa APIs para conectar com as contas financeiras dos usuários para calcular seu net worth. Eles podem ver todas as suas transações em um formato de linhas e colunas e são similares com uma planilha.
-
-Tipo de Estrutura:
-
-Tipo de Valor: 
-
-Tipo de Fonte:  
-
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-Identificou corretamente todas as estruturas, valores, e fontes |Identificou corretamente 3 todas as estruturas, valores e fontes|Correctly Identificou 2 ou menos todas as estruturas, valores, e fontes|
--- a/1-Introduction/03-defining-data/translations/assignment.ru.md
+++ b/1-Introduction/03-defining-data/translations/assignment.ru.md
@ -1,65 +0,0 @@
-# Классификация датасетов
-
-## Порядок выполнения
-
-Следуйте подсказкам в данном домашнем задании, чтобы определить и классифицировать данные по следующим категориям:
-
-**Структура**: структурированные, полуструктурированные, неструктурированные
-
-**Величины**: количественные или качественные
-
-**Источники**: первичные или вторичные
-
-1. Компания была приобретена и теперь у нее есть материнская компания. Дата сайентисты получили таблицу с номерами телефонов клиентов от материнской компании.
-
-Структура:
-
-Величина: 
-
-Источник: 
-
---
-
-2. Умные часы собрали данные сердечного ритма владельца и сохранили сырые данные в формате JSON.
-
-Структура:
-
-Величина: 
-
-Источник:
-
---
-
-3. Опрос настроения сотрудников, результаты которого хранятся в файле CSV. 
-
-Структура:
-
-Величина: 
-
-Источник: 
-
---
-
-4. Астрофизики получили доступ к базе данных галактик, которая была собрана с помощью космического зонда. Данные содержат номера планет в переделах каждой галактики. 
-
-Структура:
-
-Величина: 
-
-Источник: 
-
---
-
-5. Приложение для управления финансами использует API для соединения с финансовым счетом пользователя для того, чтобы рассчитать его траты. Пользователи могут видеть свои транзакции в строках и столбцах, напоминающих таблицу.
-
-Структура:
-
-Величина: 
-
-Источник: 
-
-## Оценка
-
-Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
-Верно определены все структуры, величины и источники |Верно определены структура, величины и источники трёх примеров целиком |Верно определены структура, величины и источники двух и менее примеров целиком |
--- a/1-Introduction/04-stats-and-probability/translations/README.hi.md
+++ b/1-Introduction/04-stats-and-probability/translations/README.hi.md
@ -1,268 +0,0 @@
-# सांख्यिकी और संभाव्यता का संक्षिप्त परिचय
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](/sketchnotes/04-Statistics-Probability.png)|
-|:---:|
-| सांख्यिकी और संभावना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-सांख्यिकी और संभाव्यता सिद्धांत गणित के दो अत्यधिक संबंधित क्षेत्र हैं जो डेटा विज्ञान के लिए अत्यधिक प्रासंगिक हैं। गणित के गहन ज्ञान के बिना डेटा के साथ काम करना संभव है, लेकिन कम से कम कुछ बुनियादी अवधारणाओं को जानना अभी भी बेहतर है। यहां हम एक संक्षिप्त परिचय प्रस्तुत करेंगे जो आपको आरंभ करने में मदद करेगा।
-
-[![Intro Video](/1-Introduction/04-stats-and-probability/images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
-
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
-
-## प्रायिकता और यादृच्छिक चर
-
-**प्रायिकता** 0 और 1 के बीच की एक संख्या है जो यह व्यक्त करती है कि **ईवेंट** कितनी संभावित है। इसे कई सकारात्मक परिणामों के रूप में परिभाषित किया गया है (जो घटना की ओर ले जाते हैं), परिणामों की कुल संख्या से विभाजित, यह देखते हुए कि सभी परिणाम समान रूप से संभावित हैं। उदाहरण के लिए, जब हम एक पासे को उछालते हैं, तो हमें एक सम संख्या प्राप्त होने की प्रायिकता 3/6 = 0.5 होती है।
-
-जब हम घटनाओं के बारे में बात करते हैं, तो हम **यादृच्छिक चर** का उपयोग करते हैं। उदाहरण के लिए, यादृच्छिक चर जो एक पासे को घुमाते समय प्राप्त संख्या का प्रतिनिधित्व करता है, 1 से 6 तक मान लेगा। 1 से 6 तक की संख्याओं के सेट को **नमूना स्थान** कहा जाता है। हम एक निश्चित मान लेने वाले यादृच्छिक चर की संभावना के बारे में बात कर सकते हैं, उदाहरण के लिए पी (एक्स = 3) = 1/6।
-
-पिछले उदाहरण में यादृच्छिक चर को **असतत** कहा जाता है, क्योंकि इसमें एक गणनीय नमूना स्थान होता है, अर्थात अलग-अलग मान होते हैं जिन्हें गिना जा सकता है। ऐसे मामले हैं जब नमूना स्थान वास्तविक संख्याओं की एक श्रृंखला है, या वास्तविक संख्याओं का पूरा सेट है। ऐसे चरों को **सतत** कहा जाता है। एक अच्छा उदाहरण वह समय है जब बस आती है।
-
-## प्रायिकता वितरण
-
-असतत यादृच्छिक चर के मामले में, फ़ंक्शन P(X) द्वारा प्रत्येक घटना की प्रायिकता का वर्णन करना आसान है। नमूना स्थान *S* से प्रत्येक मान *s* के लिए यह 0 से 1 तक की संख्या देगा, जैसे कि सभी घटनाओं के लिए P(X=s) के सभी मानों का योग 1 होगा।
-
-सबसे प्रसिद्ध असतत वितरण **समान वितरण** है, जिसमें N तत्वों का एक नमूना स्थान होता है, जिनमें से प्रत्येक के लिए 1/N की समान संभावना होती है।
-
-एक सतत चर के संभाव्यता वितरण का वर्णन करना अधिक कठिन है, कुछ अंतराल [ए, बी], या वास्तविक संख्याओं के पूरे सेट से लिए गए मानों के साथ &Ropf;। बस आगमन समय के मामले पर विचार करें। वास्तव में, प्रत्येक सटीक आगमन समय *t* के लिए, ठीक उसी समय पर बस के आने की प्रायिकता 0 है!
-
-> अब आप जानते हैं कि 0 प्रायिकता वाली घटनाएँ होती हैं, और बहुत बार! कम से कम हर बार जब बस आती है!
-
-हम केवल दिए गए मानों के अंतराल में एक चर के गिरने की प्रायिकता के बारे में बात कर सकते हैं, उदाहरण के लिए। P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>)। इस मामले में, प्रायिकता बंटन को **प्रायिकता घनत्व फलन** p(x) द्वारा वर्णित किया जाता है, जैसे कि
-
-![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](/1-Introduction/04-stats-and-probability/images/probability-density.png)
-  
-एकसमान वितरण के एक सतत एनालॉग को **निरंतर वर्दी** कहा जाता है, जिसे एक सीमित अंतराल पर परिभाषित किया जाता है। एक संभावना है कि मान X लंबाई l के अंतराल में आता है l के समानुपाती है, और 1 तक बढ़ जाता है।
-
-एक अन्य महत्वपूर्ण वितरण **सामान्य वितरण** है, जिसके बारे में हम नीचे विस्तार से बात करेंगे।
-
-## माध्य, प्रसरण और मानक विचलन
-मान लीजिए कि हम एक यादृच्छिक चर X के n नमूनों का एक क्रम बनाते हैं: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>। हम पारंपरिक तरीके से अनुक्रम के **माध्य** (या **अंकगणित औसत**) मान को परिभाषित कर सकते हैं (x<sub>1</sub>+x<sub>2</sub>+x<sub >एन</उप>)/एन। जैसे-जैसे हम नमूने का आकार बढ़ाते हैं (अर्थात n&rr;&infin; के साथ सीमा लेते हैं), हम वितरण का माध्य (जिसे **अपेक्षा** भी कहते हैं) प्राप्त करेंगे। हम उम्मीद को **E**(x) से निरूपित करेंगे।
-> यह प्रदर्शित किया जा सकता है कि मूल्यों के साथ किसी भी असतत वितरण के लिए {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} और संबंधित संभावनाएं p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, उम्मीद के बराबर होगा E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
-
-यह पहचानने के लिए कि मान कितनी दूर तक फैले हुए हैं, हम प्रसरण की गणना कर सकते हैं &sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/ एन, जहां & एमयू; अनुक्रम का माध्य है। मूल्य &सिग्मा; इसे **मानक विचलन** कहा जाता है, और &sigma;<sup>2</sup> को **विचरण** कहा जाता है।
-
-## बहुलक, माध्यिका और चतुर्थक
-
-कभी-कभी, माध्य डेटा के लिए "विशिष्ट" मान का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है। उदाहरण के लिए, जब कुछ चरम मान पूरी तरह से सीमा से बाहर होते हैं, तो वे माध्य को प्रभावित कर सकते हैं। एक और अच्छा संकेत एक **माध्य** है, एक मान ऐसा है कि आधा डेटा बिंदु इससे कम है, और दूसरा आधा - अधिक है।
-
-डेटा के वितरण को समझने में हमारी मदद करने के लिए, **चतुर्थक** के बारे में बात करना मददगार होगा:
-
-* प्रथम चतुर्थक, या Q1, एक मान है, जैसे कि 25% डेटा इससे नीचे आता है
-* तीसरा चतुर्थक, या Q3, एक मान है कि 75% डेटा इससे नीचे आता है
-
-ग्राफिक रूप से हम **बॉक्स प्लॉट** नामक आरेख में माध्यिका और चतुर्थक के बीच संबंध का प्रतिनिधित्व कर सकते हैं:
-
-<img src="/1-Introduction/04-stats-and-probability/images/boxplot_explanation.png" width="50%"/>
-
-यहां हम **अंतर-चतुर्थक श्रेणी** IQR=Q3-Q1, और तथाकथित **आउटलेयर** - मानों की भी गणना करते हैं, जो सीमाओं के बाहर होते हैं [Q1-1.5*IQR,Q3+1.5*IQR]।
-
-परिमित वितरण के लिए जिसमें कम संख्या में संभावित मान होते हैं, एक अच्छा "विशिष्ट" मान वह होता है जो सबसे अधिक बार प्रकट होता है, जिसे **मोड** कहा जाता है। इसे अक्सर रंग जैसे श्रेणीबद्ध डेटा पर लागू किया जाता है। एक ऐसी स्थिति पर विचार करें जब हमारे पास लोगों के दो समूह हों - कुछ जो लाल रंग को अधिक पसंद करते हैं, और अन्य जो नीले रंग को पसंद करते हैं। यदि हम रंगों को संख्याओं के आधार पर कोडित करते हैं, तो पसंदीदा रंग का माध्य मान नारंगी-हरे रंग के स्पेक्ट्रम में कहीं होगा, जो किसी भी समूह पर वास्तविक वरीयता को इंगित नहीं करता है। हालांकि, मोड या तो रंगों में से एक होगा, या दोनों रंग, यदि उनके लिए मतदान करने वाले लोगों की संख्या बराबर है (इस मामले में हम नमूने को **मल्टीमॉडल** कहते हैं)।
-
-## वास्तविक दुनिया का डेटा
-
-जब हम वास्तविक जीवन से डेटा का विश्लेषण करते हैं, तो वे अक्सर यादृच्छिक चर नहीं होते हैं, इस अर्थ में कि हम अज्ञात परिणाम के साथ प्रयोग नहीं करते हैं। उदाहरण के लिए, बेसबॉल खिलाड़ियों की एक टीम और उनके शरीर के डेटा, जैसे ऊंचाई, वजन और उम्र पर विचार करें। वे संख्याएँ बिल्कुल यादृच्छिक नहीं हैं, लेकिन हम अभी भी उन्हीं गणितीय अवधारणाओं को लागू कर सकते हैं। उदाहरण के लिए, लोगों के वजन के अनुक्रम को कुछ यादृच्छिक चर से निकाले गए मानों का अनुक्रम माना जा सकता है। [इस डेटासेट](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) से लिए गए [मेजर लीग बेसबॉल](http://mlb.mlb.com/index.jsp) से वास्तविक बेसबॉल खिलाड़ियों के वज़न का क्रम नीचे दिया गया ह। (आपकी सुविधा के लिए, केवल पहले 20 मान दिखाए गए हैं):
-
-
-```
-[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
-```
-
-> **नोट**: इस डेटासेट के साथ काम करने का उदाहरण देखने के लिए, [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) पर एक नज़र डालें। इस पूरे पाठ में कई चुनौतियाँ भी हैं, और आप उस नोटबुक में कुछ कोड जोड़कर उन्हें पूरा कर सकते हैं। यदि आप सुनिश्चित नहीं हैं कि डेटा पर कैसे काम करना है, तो चिंता न करें - हम बाद में पायथन का उपयोग करके डेटा के साथ काम करने के लिए वापस आएंगे। यदि आप जुपिटर नोटबुक में कोड चलाना नहीं जानते हैं, तो [इस लेख](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) पर एक नज़र डालें।
-
-हमारे डेटा के लिए माध्य, माध्यिका और चतुर्थक दिखाने वाला बॉक्स प्लॉट यहां दिया गया है:
-
-![वेट बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/weight-boxplot.png)
-
-चूंकि हमारे डेटा में अलग-अलग खिलाड़ी **भूमिकाएं** के बारे में जानकारी है, इसलिए हम भूमिका के आधार पर बॉक्स प्लॉट भी कर सकते हैं - यह हमें यह विचार प्राप्त करने की अनुमति देगा कि कैसे पैरामीटर मान भूमिकाओं में भिन्न होते हैं। इस बार हम ऊंचाई पर विचार करेंगे:
-
-![भूमिका के अनुसार बॉक्स प्लॉट](/1-Introduction/04-stats-and-probability/images/boxplot_byrole.png)
-
-यह आरेख बताता है कि, औसतन, पहले बेसमेन की ऊंचाई दूसरे बेसमेन की ऊंचाई से अधिक होती है। बाद में इस पाठ में हम सीखेंगे कि हम इस परिकल्पना का अधिक औपचारिक रूप से परीक्षण कैसे कर सकते हैं, और यह कैसे प्रदर्शित करें कि हमारा डेटा सांख्यिकीय रूप से महत्वपूर्ण है।
-
-> वास्तविक दुनिया के डेटा के साथ काम करते समय, हम मानते हैं कि सभी डेटा बिंदु कुछ संभाव्यता वितरण से लिए गए नमूने हैं। यह धारणा हमें मशीन लर्निंग तकनीकों को लागू करने और कार्यशील भविष्य कहनेवाला मॉडल बनाने की अनुमति देती है।
-
-यह देखने के लिए कि हमारे डेटा का वितरण क्या है, हम एक ग्राफ बना सकते हैं जिसे **हिस्टोग्राम** कहा जाता है। एक्स-अक्ष में कई अलग-अलग वज़न अंतराल (तथाकथित **बिन्स**) होंगे, और ऊर्ध्वाधर अक्ष दिखाएगा कि हमारा यादृच्छिक चर नमूना किसी दिए गए अंतराल के अंदर कितनी बार था।
-
-![वास्तविक विश्व डेटा का हिस्टोग्राम](/1-Introduction/04-stats-and-probability/images/weight-histogram.png)
-
-इस हिस्टोग्राम से आप देख सकते हैं कि सभी मान निश्चित औसत वजन के आसपास केंद्रित होते हैं, और हम उस वजन से जितना आगे जाते हैं - उस मान के कम वजन का सामना करना पड़ता है। यानी, यह बहुत ही असंभव है कि बेसबॉल खिलाड़ी का वजन औसत वजन से बहुत अलग होगा। भार में भिन्नता यह दर्शाती है कि भार किस हद तक माध्य से भिन्न होने की संभावना है।
-
-> अगर हम बेसबॉल लीग से नहीं, बल्कि अन्य लोगों का वजन लेते हैं, तो वितरण अलग होने की संभावना है। हालाँकि, वितरण का आकार समान होगा, लेकिन माध्य और विचरण बदल जाएगा। इसलिए, यदि हम अपने मॉडल को बेसबॉल खिलाड़ियों पर प्रशिक्षित करते हैं, तो विश्वविद्यालय के छात्रों पर लागू होने पर यह गलत परिणाम देने की संभावना है, क्योंकि अंतर्निहित वितरण अलग है।
-
-## सामान्य वितरण
-
-वजन का वितरण जो हमने ऊपर देखा है वह बहुत विशिष्ट है, और वास्तविक दुनिया से कई माप एक ही प्रकार के वितरण का पालन करते हैं, लेकिन अलग-अलग माध्य और भिन्नता के साथ। इस वितरण को **सामान्य वितरण** कहा जाता है, और यह आंकड़ों में बहुत महत्वपूर्ण भूमिका निभाता है।
-
-सामान्य वितरण का उपयोग करना संभावित बेसबॉल खिलाड़ियों के यादृच्छिक भार उत्पन्न करने का एक सही तरीका है। एक बार जब हम माध्य वजन `माध्य` और मानक विचलन `एसटीडी` जान लेते हैं, तो हम निम्नलिखित तरीके से 1000 वजन के नमूने तैयार कर सकते हैं:
-```python
-samples = np.random.normal(mean,std,1000)
-```
-
-यदि हम उत्पन्न नमूनों के हिस्टोग्राम की साजिश करते हैं तो हम ऊपर दिखाए गए चित्र के समान ही चित्र देखेंगे। और अगर हम नमूनों की संख्या और डिब्बे की संख्या में वृद्धि करते हैं, तो हम एक सामान्य वितरण की एक तस्वीर उत्पन्न कर सकते हैं जो आदर्श के अधिक करीब है:
-
-![माध्य = 0 और एसटीडी.देव = 1 के साथ सामान्य वितरण](/1-Introduction/04-stats-and-probability/images/normal-histogram.png)
-
-
-*माध्य = 0 और std.dev=1* के साथ सामान्य वितरण
-
-## विश्वास अंतराल
-
-जब हम बेसबॉल खिलाड़ियों के वजन के बारे में बात करते हैं, तो हम मानते हैं कि कुछ निश्चित **यादृच्छिक चर W** है जो सभी बेसबॉल खिलाड़ियों (तथाकथित **जनसंख्या**) के वजन के आदर्श संभाव्यता वितरण से मेल खाती है। वजन का हमारा क्रम सभी बेसबॉल खिलाड़ियों के एक उपसमुच्चय से मेल खाता है जिसे हम **नमूना** कहते हैं। एक दिलचस्प सवाल यह है कि क्या हम डब्ल्यू के वितरण के मापदंडों को जान सकते हैं, यानी जनसंख्या का माध्य और विचरण?
-
-सबसे आसान उत्तर हमारे नमूने के माध्य और विचरण की गणना करना होगा। हालाँकि, ऐसा हो सकता है कि हमारा यादृच्छिक नमूना पूर्ण जनसंख्या का सटीक रूप से प्रतिनिधित्व नहीं करता है। इस प्रकार **कॉन्फिडेंस इंटरवल** के बारे में बात करना समझ में आता है।
-
-> **विश्वास अंतराल** हमारे नमूने को देखते हुए जनसंख्या के वास्तविक माध्य का अनुमान है, जो एक निश्चित प्रायिकता (या **विश्वास का स्तर**) सटीक है।
-
-मान लीजिए हमारे पास हमारे वितरण से एक नमूना X<sub>1</sub>, ..., X<sub>n</sub> है। हर बार जब हम अपने वितरण से एक नमूना लेते हैं, तो हम अलग-अलग माध्य मान के साथ समाप्त होते हैं। इस प्रकार &mu; एक यादृच्छिक चर माना जा सकता है। एक **विश्वास अंतराल** विश्वास के साथ p मानों की एक जोड़ी है (L<sub>p</sub>,R<sub>p</sub>), जैसे कि **P**(L<sub>p </sub>&leq;&mu;&leq;R<sub>p</sub>) = p, यानी अंतराल के भीतर मापे गए माध्य मान के गिरने की प्रायिकता p के बराबर होती है।
-
-यह विस्तार से चर्चा करने के लिए हमारे संक्षिप्त परिचय से परे है कि उन आत्मविश्वास अंतराल की गणना कैसे की जाती है। कुछ और विवरण [विकिपीडिया पर](https://en.wikipedia.org/wiki/Confidence_interval) देखे जा सकते हैं। संक्षेप में, हम जनसंख्या के वास्तविक माध्य के सापेक्ष परिकलित नमूना माध्य के वितरण को परिभाषित करते हैं, जिसे **छात्र वितरण** कहा जाता है।
-
-> **दिलचस्प तथ्य**: छात्र वितरण का नाम गणितज्ञ विलियम सीली गॉसेट के नाम पर रखा गया है, जिन्होंने छद्म नाम "स्टूडेंट" के तहत अपना पेपर प्रकाशित किया था। उन्होंने गिनीज शराब की भठ्ठी में काम किया, और, एक संस्करण के अनुसार, उनके नियोक्ता नहीं चाहते थे कि आम जनता को पता चले कि वे कच्चे माल की गुणवत्ता निर्धारित करने के लिए सांख्यिकीय परीक्षणों का उपयोग कर रहे थे।
-
-यदि हम माध्य का अनुमान लगाना चाहते हैं &mu; हमारी जनसंख्या का विश्वास p के साथ, हमें छात्र वितरण A का *(1-p)/2-th प्रतिशत* लेने की आवश्यकता है, जिसे या तो तालिकाओं से लिया जा सकता है, या कंप्यूटर सांख्यिकीय सॉफ़्टवेयर के कुछ अंतर्निहित कार्यों का उपयोग करके (उदाहरण के लिए पायथन, आर, आदि)। फिर अंतराल के लिए &mu; X&pm;A*D/&radic;n द्वारा दिया जाएगा, जहां X नमूने का प्राप्त माध्य है, D मानक विचलन है।
-
-> **नोट**: हम [स्वतंत्रता की डिग्री](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) की एक महत्वपूर्ण अवधारणा की चर्चा को भी छोड़ देते हैं, जो छात्र वितरण के संबंध में महत्वपूर्ण है। इस अवधारणा को गहराई से समझने के लिए आप सांख्यिकी पर अधिक संपूर्ण पुस्तकों का उल्लेख कर सकते हैं।
-
-वजन और ऊंचाई के लिए आत्मविश्वास अंतराल की गणना का एक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में दिया गया है।
-
-| p | Weight mean |
-|-----|-----------|
-| 0.85 | 201.73±0.94 |
-| 0.90 | 201.73±1.08 |
-| 0.95 | 201.73±1.28 |
-
-ध्यान दें कि आत्मविश्वास की संभावना जितनी अधिक होगी, विश्वास अंतराल उतना ही व्यापक होगा।
-
-## परिकल्पना परीक्षण 
-
-हमारे बेसबॉल खिलाड़ियों के डेटासेट में, अलग-अलग खिलाड़ी भूमिकाएँ होती हैं, जिन्हें नीचे संक्षेप में प्रस्तुत किया जा सकता है (इस तालिका की गणना कैसे की जा सकती है, यह देखने के लिए [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) देखें):
-
-| Role | Height | Weight | Count |
-|------|--------|--------|-------|
-| Catcher | 72.723684 | 204.328947 | 76 |
-| Designated_Hitter | 74.222222 | 220.888889 | 18 |
-| First_Baseman | 74.000000 | 213.109091 | 55 |
-| Outfielder | 73.010309 | 199.113402 | 194 |
-| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
-| Second_Baseman | 71.362069 | 184.344828 | 58 |
-| Shortstop | 71.903846 | 182.923077 | 52 |
-| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
-| Third_Baseman | 73.044444 | 200.955556 | 45 |
-
-हम देख सकते हैं कि पहले बेसमेन की औसत ऊंचाई दूसरे बेसमेन की तुलना में अधिक है। इस प्रकार, हम यह निष्कर्ष निकालने के लिए ललचा सकते हैं कि **पहले बेसमेन दूसरे बेसमेन से अधिक हैं**।
-
-> इस कथन को **एक परिकल्पना** कहा जाता है, क्योंकि हम नहीं जानते कि तथ्य वास्तव में सत्य है या नहीं।
-
-हालांकि, यह हमेशा स्पष्ट नहीं होता है कि क्या हम यह निष्कर्ष निकाल सकते हैं। ऊपर की चर्चा से हम जानते हैं कि प्रत्येक माध्य का एक संबद्ध विश्वास अंतराल होता है, और इस प्रकार यह अंतर केवल एक सांख्यिकीय त्रुटि हो सकता है। हमें अपनी परिकल्पना का परीक्षण करने के लिए कुछ और औपचारिक तरीके की आवश्यकता है।
-
-आइए पहले और दूसरे बेसमेन की ऊंचाई के लिए अलग-अलग आत्मविश्वास अंतराल की गणना करें:
-
-| Confidence | First Basemen | Second Basemen |
-|------------|---------------|----------------|
-| 0.85 | 73.62..74.38 | 71.04..71.69 |
-| 0.90 | 73.56..74.44 | 70.99..71.73 |
-| 0.95 | 73.47..74.53 | 70.92..71.81 |
-
-हम देख सकते हैं कि बिना किसी विश्वास के अंतराल ओवरलैप हो जाते हैं। इससे हमारी परिकल्पना सिद्ध होती है कि पहले बेसमेन दूसरे बेसमेन से ऊंचे होते हैं।
-
-अधिक औपचारिक रूप से, हम जिस समस्या को हल कर रहे हैं वह यह देखना है कि क्या **दो संभाव्यता वितरण समान हैं**, या कम से कम समान पैरामीटर हैं। वितरण के आधार पर, हमें उसके लिए विभिन्न परीक्षणों का उपयोग करने की आवश्यकता है। यदि हम जानते हैं कि हमारे वितरण सामान्य हैं, तो हम **[स्टूडेंट टी-टेस्ट](https://en.wikipedia.org/wiki/Student%27s_t-test)** लागू कर सकते हैं।
-
-स्टूडेंट टी-टेस्ट में, हम तथाकथित **टी-वैल्यू** की गणना करते हैं, जो भिन्नता को ध्यान में रखते हुए, साधनों के बीच अंतर को इंगित करता है। यह प्रदर्शित किया जाता है कि टी-मान **छात्र वितरण** का अनुसरण करता है, जो हमें दिए गए आत्मविश्वास स्तर **p** के लिए थ्रेशोल्ड मान प्राप्त करने की अनुमति देता है (इसकी गणना की जा सकती है, या संख्यात्मक तालिकाओं में देखा जा सकता है)। फिर हम परिकल्पना को स्वीकृत या अस्वीकार करने के लिए टी-मान की तुलना इस सीमा से करते हैं।
-
-पायथन में, हम **SciPy** पैकेज का उपयोग कर सकते हैं, जिसमें `ttest_ind` फ़ंक्शन शामिल है (कई अन्य उपयोगी सांख्यिकीय कार्यों के अलावा!)। यह हमारे लिए टी-वैल्यू की गणना करता है, और कॉन्फिडेंस पी-वैल्यू की रिवर्स लुकअप भी करता है, ताकि हम निष्कर्ष निकालने के लिए कॉन्फिडेंस को देख सकें।
-
-उदाहरण के लिए, पहले और दूसरे बेसमेन की ऊंचाई के बीच हमारी तुलना हमें निम्नलिखित परिणाम देती है:
-
-```python
-from scipy.stats import ttest_ind
-
-tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
-print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
-```
-```
-T-value = 7.65
-P-value: 9.137321189738925e-12
-```
-
-हमारे मामले में, पी-वैल्यू बहुत कम है, जिसका अर्थ है कि इस बात का समर्थन करने वाले मजबूत सबूत हैं कि पहले बेसमेन लम्बे होते हैं।
-
-अन्य विभिन्न प्रकार की परिकल्पनाएँ भी हैं जिनका हम परीक्षण करना चाहते हैं, उदाहरण के लिए:
-* यह साबित करने के लिए कि दिया गया नमूना कुछ वितरण का अनुसरण करता है। हमारे मामले में हमने मान लिया है कि ऊंचाई सामान्य रूप से वितरित की जाती है, लेकिन इसके लिए औपचारिक सांख्यिकीय सत्यापन की आवश्यकता होती है।
-* यह सिद्ध करने के लिए कि नमूने का माध्य मान कुछ पूर्वनिर्धारित मान से मेल खाता है
-* कई नमूनों के साधनों की तुलना करना (उदाहरण के लिए विभिन्न आयु समूहों में खुशी के स्तर में क्या अंतर है)
-
-## बड़ी संख्या का नियम और केंद्रीय सीमा प्रमेय
-
-सामान्य वितरण के इतना महत्वपूर्ण होने का एक कारण तथाकथित **केंद्रीय सीमा प्रमेय** है। मान लीजिए कि हमारे पास स्वतंत्र N मानों X<sub>1</sub>, ..., X<sub>N</sub> का एक बड़ा नमूना है, जिसे माध्य &mu; और विचरण &सिग्मा;<sup>2</sup>. फिर, पर्याप्त रूप से बड़े N के लिए (दूसरे शब्दों में, जब N&rarr;&infin;), माध्य &Sigma;<sub>i</sub>X<sub>i</sub> को सामान्य रूप से माध्य &mu के साथ वितरित किया जाएगा; और विचरण &sigma;<sup>2</sup>/N.
-
-> केंद्रीय सीमा प्रमेय की व्याख्या करने का एक अन्य तरीका यह कहना है कि वितरण की परवाह किए बिना, जब आप किसी भी यादृच्छिक चर मानों के योग के माध्य की गणना करते हैं तो आप सामान्य वितरण के साथ समाप्त होते हैं।
-
-केंद्रीय सीमा प्रमेय से यह भी पता चलता है कि, जब N&rar;&infin;, नमूने के माध्य की प्रायिकता &mu; बन जाता है 1. इसे **बड़ी संख्या का नियम** कहते हैं।
-
-## सहप्रसरण और सहसंबंध
-
-डेटा साइंस द्वारा की जाने वाली चीजों में से एक डेटा के बीच संबंध ढूंढ रहा है। हम कहते हैं कि दो अनुक्रम **सहसम्बन्ध** तब होते हैं जब वे एक ही समय में समान व्यवहार प्रदर्शित करते हैं, अर्थात वे या तो एक साथ उठते/गिरते हैं, या एक क्रम ऊपर उठता है जब दूसरा गिरता है और इसके विपरीत। दूसरे शब्दों में, दो अनुक्रमों के बीच कुछ संबंध प्रतीत होता है।
-
-> सहसंबंध आवश्यक रूप से दो अनुक्रमों के बीच कारण संबंध को इंगित नहीं करता है; कभी-कभी दोनों चर किसी बाहरी कारण पर निर्भर हो सकते हैं, या यह विशुद्ध रूप से संयोग से दो अनुक्रम सहसंबद्ध हो सकते हैं। हालांकि, मजबूत गणितीय सहसंबंध एक अच्छा संकेत है कि दो चर किसी न किसी तरह से जुड़े हुए हैं।
-
-गणितीय रूप से, मुख्य अवधारणा जो दो यादृच्छिक चर के बीच संबंध दिखाती है, वह है **सहप्रसरण**, जिसकी गणना इस प्रकार की जाती है: Cov(X,Y) = **E**\[(X-**E**(X) ))(वाई-**ई**(वाई))\]। हम दोनों चरों के विचलन की गणना उनके माध्य मानों से करते हैं, और फिर उन विचलनों के गुणनफल की गणना करते हैं। यदि दोनों चर एक साथ विचलित होते हैं, तो उत्पाद हमेशा एक सकारात्मक मूल्य होगा, जो कि सकारात्मक सहप्रसरण को जोड़ देगा। यदि दोनों चर आउट-ऑफ-सिंक विचलित हो जाते हैं (अर्थात एक औसत से नीचे गिर जाता है जब दूसरा औसत से ऊपर उठता है), तो हमें हमेशा ऋणात्मक संख्याएँ मिलेंगी, जो कि ऋणात्मक सहप्रसरण को जोड़ देंगी। यदि विचलन निर्भर नहीं हैं, तो वे लगभग शून्य तक जोड़ देंगे।
-
-सहप्रसरण का निरपेक्ष मान हमें यह नहीं बताता कि सहसंबंध कितना बड़ा है, क्योंकि यह वास्तविक मूल्यों के परिमाण पर निर्भर करता है। इसे सामान्य करने के लिए, हम **सहसंबंध** प्राप्त करने के लिए, दोनों चरों के मानक विचलन द्वारा सहप्रसरण को विभाजित कर सकते हैं। अच्छी बात यह है कि सहसंबंध हमेशा [-1,1] की सीमा में होता है, जहां 1 मूल्यों के बीच मजबूत सकारात्मक सहसंबंध को इंगित करता है, -1 - मजबूत नकारात्मक सहसंबंध, और 0 - बिल्कुल भी कोई संबंध नहीं (चर स्वतंत्र हैं)।
-
-**उदाहरण**: हम ऊपर बताए गए डेटासेट से बेसबॉल खिलाड़ियों के वज़न और ऊंचाई के बीच सहसंबंध की गणना कर सकते हैं:
-
-```python
-print(np.corrcoef(weights,heights))
-```
-नतीजतन, हमें इस तरह **सहसंबंध मैट्रिक्स** मिलता है:
-```
-array([[1.        , 0.52959196],
-       [0.52959196, 1.        ]])
-```
-
-> सहसंबंध मैट्रिक्स C की गणना किसी भी इनपुट अनुक्रम S<sub>1</sub>, ..., S<sub>n</sub> के लिए की जा सकती है। C<sub>ij</sub> का मान S<sub>i</sub> और S<sub>j</sub> के बीच सहसंबंध है, और विकर्ण तत्व हमेशा 1 होते हैं (जो कि स्व-सहसंबंध भी है एस<उप>मैं</sub>)।
-
-हमारे मामले में, मान 0.53 इंगित करता है कि किसी व्यक्ति के वजन और ऊंचाई के बीच कुछ संबंध है। हम रिश्ते को देखने के लिए दूसरे के खिलाफ एक मूल्य का स्कैटर प्लॉट भी बना सकते हैं:
-
-![वजन और ऊंचाई के बीच संबंध](/1-Introduction/04-stats-and-probability/images/weight-height-relationship.png)
-
-> सहसंबंध और सहप्रसरण के अधिक उदाहरण [साथ वाली नोटबुक](/1-Introduction/04-stats-and-probability/notebook.ipynb) में पाए जा सकते हैं।
-
-## निष्कर्ष
-
-इस भाग में हमने सीखा है:
-
-* डेटा के बुनियादी सांख्यिकीय गुण, जैसे माध्य, विचरण, मोड और चतुर्थक
-* सामान्य वितरण सहित यादृच्छिक चर के विभिन्न वितरण
-* विभिन्न गुणों के बीच सहसंबंध कैसे खोजें
-* कुछ परिकल्पनाओं को सिद्ध करने के लिए गणित और सांख्यिकी के ध्वनि उपकरण का उपयोग कैसे करें,
-* यादृच्छिक चर दिए गए डेटा नमूने के लिए विश्वास अंतराल की गणना कैसे करें
-
-हालांकि यह निश्चित रूप से उन विषयों की संपूर्ण सूची नहीं है जो संभाव्यता और आंकड़ों के भीतर मौजूद हैं, यह आपको इस पाठ्यक्रम में एक अच्छी शुरुआत देने के लिए पर्याप्त होना चाहिए।
-
-## चुनौती
-
-अन्य परिकल्पना का परीक्षण करने के लिए नोटबुक में नमूना कोड का उपयोग करें जो:
-1. पहले बेसमेन दूसरे बेसमेन से बड़े होते हैं
-2. पहले बेसमेन तीसरे बेसमेन से लम्बे होते हैं
-3. शॉर्टस्टॉप दूसरे बेसमेन से लम्बे होते हैं
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
-
-## समीक्षा और आत्म अध्ययन
-
-संभाव्यता और सांख्यिकी इतना व्यापक विषय है कि यह अपने पाठ्यक्रम के योग्य है। यदि आप सिद्धांत में गहराई तक जाने में रुचि रखते हैं, तो आप निम्नलिखित में से कुछ पुस्तकों को पढ़ना जारी रख सकते हैं:
-
-1. न्यूयॉर्क विश्वविद्यालय के [कार्लोस फर्नांडीज-ग्रांडा](https://cims.nyu.edu/~cfgranda/) के पास डेटा साइंस के लिए [संभाव्यता और सांख्यिकी](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (ऑनलाइन उपलब्ध) के लिए महान व्याख्यान नोट्स हैं।
-1. [पीटर और एंड्रयू ब्रूस। डेटा वैज्ञानिकों के लिए व्यावहारिक सांख्यिकी](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) । [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
-1. [जेम्स डी. मिलर। डेटा विज्ञान के लिए सांख्यिकी](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[आर . में नमूना कोड](https://github.com/PacktPublishing/Statistics-for-Data-Science)] 
-
-## कार्यभार
-
-[लघु मधुमेह अध्ययन](assignment.hi.md)
-
-## क्रेडिट
-
-यह पाठ ♥️ के साथ [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा लिखा गया है।
--- a/1-Introduction/04-stats-and-probability/translations/README.ko.md
+++ b/1-Introduction/04-stats-and-probability/translations/README.ko.md
@ -1,263 +0,0 @@
-# 통계 및 확률에 대한 간략한 소개
-
-|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/04-Statistics-Probability.png)|
-|:---:|
-| 통계 및 확률 - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
-
-통계 및 확률 이론은 데이터 과학과 매우 관련성이 높은 수학 영역입니다. 수학에 대한 깊은 지식이 없어도 데이터로 작업하는 것은 가능하지만 최소한 몇 가지 기본 개념은 알고 있는 것이 좋습니다. 이 장에서 통계 및 확률을 시작하는 데 도움이 되는 간단한 소개를 제공합니다.
-
-[![인트로 영상](../images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
-
-
-## [강의전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
-
-## 확률과 랜덤 변수
-
-**확률**은 **사건**의 확률을 나타내는 0과 1 사이의 숫자입니다. 모든 결과의 가능성이 동일할 경우 이벤트로 이어지는 긍정적인 결과의 수를 총 결과 수로 나눈 값으로 정의됩니다. 예를 들어, 주사위를 굴릴 때 짝수가 나올 확률은 3/6 = 0.5입니다.
-
-이벤트에 대해 이야기할 때 **임의 변수**를 사용합니다. 예를 들어, 주사위를 던질 때 얻은 숫자를 나타내는 확률 변수는 1에서 6까지의 값을 취합니다. 1에서 6까지의 숫자 집합을 **샘플 공간**이라고 합니다. 예를 들어 P(X=3)=1/6과 같이 임의의 변수가 특정 값을 취할 확률에 대해 이야기할 수 있습니다.
-
-이전 예의 확률 변수는 셀 수 있는 샘플 공간, 즉 열거할 수 있는 별도의 값이 있기 때문에 **이산**이라고 합니다. 표본 공간이 실수의 범위이거나 실수의 전체 집합인 경우가 있습니다. 이러한 변수를 **연속**이라고 합니다. 좋은 예는 버스가 도착하는 시간입니다.
-
-## 확률 분포
-
-이산 확률 변수의 경우 각 이벤트의 확률을 함수 P(X)로 설명하기 쉽습니다. 샘플 공간 *S*의 각 값 *s*에 대해 모든 이벤트에 대한 P(X=s)의 모든 값의 합이 1이 되도록 0에서 1까지의 숫자를 제공합니다.
-
-가장 잘 알려진 이산 분포는 **균일 분포**로, 각 요소에 대해 동일한 확률이 1/N인 N 요소의 표본 공간이 있습니다.
-
-일부 구간 [a,b]에서 가져온 값 또는 실수 &Ropf의 전체 집합을 사용하여 연속 변수의 확률 분포를 설명하는 것이 더 어렵습니다. 버스 도착 시간의 경우를 고려하십시오. 실제로 각 정확한 도착 시간 *t*에 대해 버스가 정확히 그 시간에 도착할 확률은 0입니다!
-
-> 이제 확률이 0인 이벤트가 매우 자주 발생한다는 것을 알았습니다! 적어도 버스가 도착할 때마다!
-
-예를 들어 주어진 값 간격에 변수가 떨어질 확률에 대해서만 이야기할 수 있습니다. P(t<sub>1</sub>&le;X<t<sub>2</sub>). 이 경우 확률 분포는 **확률 밀도 함수** p(x)로 다음과 같이 설명됩니다.
-
-![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../images/probability-density.png)
-  
-균일 분포의 연속 아날로그는 유한 간격으로 정의되는 **연속 균일**이라고 합니다. 값 X가 길이 l의 구간에 들어갈 확률은 l에 비례하고 1까지 올라갑니다.
-
-또 다른 중요한 분포는 **정규 분포**입니다. 이에 대해서는 아래에서 더 자세히 설명하겠습니다.
-
-## 평균, 분산 및 표준 편차
-
-확률 변수 X의 n개 샘플 시퀀스를 그린다고 가정합니다: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. 우리는 전통적인 방식으로 시퀀스의 **mean**(또는 **산술 평균**) 값을 다음과 같이 정의할 수 있습니다. (x<sub>1</sub>+x<sub>2</sub>+x<sub >n</sub>)/n. 표본의 크기를 늘리면(즉, n&rarr;&infin;으로 극한을 취함) 분포의 평균(**기대값**이라고도 함)을 얻게 됩니다. 기대치를 **E**(x)로 표시합니다.
-
-> 값이 {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>}이고 해당 확률이 있는 이산 분포의 경우 p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, 기대값은 E(X)=x<sub>1< /sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N </sub>.
-
-값이 얼마나 퍼져 있는지 식별하기 위해 분산 sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/를 계산할 수 있습니다. n, 여기서 &mu; 수열의 평균입니다. 가치 σ; **표준편차**라고 하고 sigma;<sup>2</sup>를 **분산**이라고 합니다.
-
-## 모드(Mode), 중앙값(Median) 및 사분위수(Quartiles)
-
-때때로 평균은 데이터의 "일반적인" 값을 적절하게 나타내지 않습니다. 예를 들어, 범위를 완전히 벗어난 극단값이 몇 개 있는 경우 평균에 영향을 줄 수 있습니다. 또 다른 좋은 표시는 데이터 포인트의 절반이 그보다 낮고 다른 절반은 더 높은 값인 **중앙값**입니다.
-
-데이터 분포를 이해하는 데 도움이 되도록 **사분위수**에 대해 이야기하는 것이 좋습니다.
-
-* 1사분위수 또는 Q1은 데이터의 25%가 그 아래로 떨어지는 값입니다.
-* 3사분위수 또는 Q3은 데이터의 75%가 그 아래에 속하는 값입니다.
-
-**박스 플롯**이라는 다이어그램에서 중앙값과 사분위수 간의 관계를 그래픽으로 나타낼 수 있습니다.
-
-<img src="../images/boxplot_explanation.png" width="50%"/>
-
-여기에서 **사분위수 범위** IQR=Q3-Q1 및 소위 **이상치** - 경계 외부에 있는 값[Q1-1.5*IQR,Q3+1.5*IQR]도 계산합니다.
-
-적은 수의 가능한 값을 포함하는 유한 분포의 경우 좋은 "전형적인" 값이 가장 자주 나타나는 값이며, 이를 **모드(Mode)**라고 합니다. 색상과 같은 범주형 데이터에 자주 적용됩니다. 빨간색을 강하게 선호하는 사람과 파란색을 선호하는 사람의 두 그룹이 있는 상황을 생각해 보십시오. 색상을 숫자로 코딩하면 좋아하는 색상의 평균 값은 주황색-녹색 스펙트럼의 어딘가에 있을 것이며, 이는 어느 그룹의 실제 선호도를 나타내지 않습니다. 그러나 모드는 투표하는 사람들의 수가 같을 경우 색상 중 하나 또는 두 색상 모두가 됩니다(이 경우 샘플 **다중 모드**라고 함).
-## 실제 데이터
-
-실생활의 데이터를 분석할 때 결과를 알 수 없는 실험을 하지 않는다는 의미에서 확률변수가 아닌 경우가 많습니다. 예를 들어, 야구 선수로 구성된 팀과 키, 체중 및 나이와 같은 신체 데이터를 고려하십시오. 그 숫자는 정확히 무작위가 아니지만 여전히 동일한 수학적 개념을 적용할 수 있습니다. 예를 들어, 사람들의 가중치 시퀀스는 임의의 변수에서 가져온 값 시퀀스로 간주될 수 있습니다. 아래는 [이 데이터셋](http://wiki.stat.ucla.edu)에서 가져온 [메이저리그 야구](http://mlb.mlb.com/index.jsp)의 실제 야구 선수들의 가중치 순서입니다. /socr/index.php/SOCR_Data_MLB_HeightsWeights) (편의를 위해 처음 20개 값만 표시됨):
-
-```
-[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, .0, 180.0, 188.0, 180.0, 185.0, 180.5
-```
-
-> **참고**: 이 데이터셋으로 작업하는 예를 보려면 [노트북 파일](../notebook.ipynb)을 살펴보세요. 또한 이 단원에는 여러 가지 문제가 있으며 해당 노트북에 몇 가지 코드를 추가하여 완료할 수 있습니다. 데이터 작업 방법이 확실하지 않은 경우 걱정하지 마세요. 나중에 Python을 사용하여 데이터 작업으로 다시 돌아올 것입니다. Jupyter Notebook에서 코드를 실행하는 방법을 모른다면 [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 참조하십시오.
-
-다음은 데이터의 평균, 중앙값 및 사분위수를 보여주는 상자 그림입니다.
-
-![Weight Box Plot](../images/weight-boxplot.png)
-
-우리 데이터에는 다양한 플레이어 **역할**에 대한 정보가 포함되어 있기 때문에 역할별로 상자 그림을 그릴 수도 있습니다. 이를 통해 매개변수 값이 역할에 따라 어떻게 다른지에 대한 아이디어를 얻을 수 있습니다. 이번에는 높이를 고려할 것입니다.
-
-![역할별 상자 플롯](../images/boxplot_byrole.png)
-
-이 도표는 평균적으로 1루수의 키가 2루수의 키보다 높다는 것을 암시합니다. 이 수업의 뒷부분에서 우리는 이 가설을 보다 공식적으로 테스트하는 방법과 우리의 데이터가 이를 보여주기 위해 통계적으로 유의하다는 것을 증명하는 방법을 배울 것입니다.
-
-> 실제 데이터로 작업할 때 모든 데이터 포인트는 일부 확률 분포에서 추출한 샘플이라고 가정합니다. 이 가정을 통해 우리는 기계 학습 기술을 적용하고 작동하는 예측 모델을 구축할 수 있습니다.
-
-데이터 분포를 확인하기 위해 **히스토그램**이라는 그래프를 그릴 수 있습니다. X축은 다양한 가중치 간격(소위 **빈**)을 포함하고 세로축은 랜덤 변수 샘플이 주어진 간격 내에 있는 횟수를 표시합니다.
-
-![실제 데이터의 히스토그램](../images/weight-histogram.png)
-
-이 히스토그램에서 모든 값이 특정 평균 가중치의 중심에 있고 해당 가중치에서 멀어질수록 해당 값의 가중치가 더 적음을 알 수 있습니다. 즉, 야구 선수의 체중이 평균 체중과 크게 다를 가능성은 매우 낮습니다. 가중치의 분산은 가중치가 평균과 다를 가능성이 있는 정도를 나타냅니다.
-
-> 야구리그가 아닌 타인의 가중치를 취하면 분포가 달라질 가능성이 높다. 그러나 분포의 모양은 동일하지만 평균과 분산은 변경됩니다. 따라서 야구 선수를 대상으로 모델을 훈련하면 기본 분포가 다르기 때문에 대학 학생에게 적용하면 잘못된 결과가 나올 수 있습니다.
-## 정규 분포
-
-위에서 본 가중치 분포는 매우 일반적이며 실제 세계의 많은 측정값은 동일한 유형의 분포를 따르지만 평균과 분산은 다릅니다. 이 분포를 **정규 분포**라고 하며 통계에서 매우 중요한 역할을 합니다.
-
-정규 분포를 사용하는 것은 잠재적인 야구 선수의 무작위 가중치를 생성하는 올바른 방법입니다. 평균 가중치 'mean'과 표준 편차 'std'를 알게 되면 다음과 같은 방식으로 1000개의 가중치 샘플을 생성할 수 있습니다.
-```파이썬
-샘플 = np.random.normal(mean,std,1000)
-```
-
-생성된 샘플의 히스토그램을 플롯하면 위에 표시된 것과 매우 유사한 그림을 볼 수 있습니다. 샘플 수와 빈 수를 늘리면 이상에 더 가까운 정규 분포 그림을 생성할 수 있습니다.
-
-![평균이 0이고 std.dev=1인 정규 분포](../images/normal-histogram.png)
-
-*mean=0 및 std.dev=1인 정규 분포*
-
-## 신뢰 구간
-
-야구 선수의 체중에 대해 이야기할 때 모든 야구 선수(소위 **인구**)의 체중에 대한 이상적인 확률 분포에 해당하는 특정 **무작위 변수 W**가 있다고 가정합니다. 가중치 시퀀스는 **샘플**이라고 하는 모든 야구 선수의 하위 집합에 해당합니다. 흥미로운 질문은 W 분포의 매개변수, 즉 모집단의 평균과 분산을 알 수 있습니까?
-
-가장 쉬운 대답은 표본의 평균과 분산을 계산하는 것입니다. 그러나 무작위 표본이 전체 모집단을 정확하게 나타내지 않을 수 있습니다. 따라서 **신뢰 구간**에 대해 이야기하는 것이 좋습니다.
-
-> **신뢰 구간**은 표본이 제공된 모집단의 실제 평균 추정치로, 특정 확률(또는 **신뢰 수준**)이 정확합니다.
-
-분포에서 샘플 X<sub>1</sub>, ..., X<sub>n</sub>이 있다고 가정합니다. 분포에서 표본을 추출할 때마다 다른 평균값 μ가 됩니다. 따라서 뮤; 확률변수라고 할 수 있습니다. 신뢰 p가 있는 **신뢰 구간**은 값 쌍(L<sub>p</sub>,R<sub>p</sub>)입니다. **P**(L<sub>p </sub><leq;&mu;&leq;R<sub>p</sub>) = p, 즉 측정된 평균값이 구간 내에 포함될 확률은 p와 같습니다.
-
-이러한 신뢰 구간을 계산하는 방법에 대해 자세히 설명하는 것은 짧은 소개를 넘어서는 것입니다. 더 자세한 내용은 [위키피디아](https://en.wikipedia.org/wiki/Confidence_interval)에서 찾을 수 있습니다. 간단히 말해서, 모집단의 실제 평균을 기준으로 계산된 표본 평균의 분포를 정의하며, 이를 **학생 분포**라고 합니다.
-
-> **흥미로운 사실**: 학생 분포는 "학생"이라는 가명으로 논문을 발표한 수학자 William Sealy Gosset의 이름을 따서 명명되었습니다. 그는 기네스 양조장에서 일했으며 버전 중 하나에 따르면 그의 고용주는 일반 대중이 원료의 품질을 결정하기 위해 통계적 테스트를 사용하고 있다는 사실을 알기를 원하지 않았습니다.
-
-평균 &mu; 우리 모집단의 p를 신뢰하는 경우, 학생 분포 A의 *(1-p)/2-백분위수*를 가져와야 합니다. 이는 테이블이나 통계 소프트웨어의 일부 내장 기능을 사용하는 컴퓨터에서 가져올 수 있습니다(예: .파이썬, R 등). 그런 다음 &mu; X&pm;A*D/&radic;n으로 주어지며, 여기서 X는 샘플의 얻은 평균, D는 표준 편차입니다.
-
-> **참고**: 학생 배포와 관련하여 중요한 [자유도](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics))의 중요한 개념에 대한 논의도 생략합니다. 이 개념을 더 깊이 이해하려면 통계에 대한 더 완전한 책을 참조할 수 있습니다.
-
-몸무게와 키에 대한 신뢰구간을 계산하는 예시는 [첨부노트](../notebook.ipynb)에 나와 있습니다.
-
-| 피 | 무게 평균 |
-|-----|-----------|
-| 0.85 | 201.73±0.94 |
-| 0.90 | 201.73±1.08 |
-| 0.95 | 201.73±1.28 |
-
-신뢰 확률이 높을수록 신뢰 구간이 넓어집니다.
-
-## 가설 검증
-
-야구 선수 데이터셋에는 다양한 선수 역할이 있으며 아래에 요약할 수 있습니다(이 표를 계산하는 방법을 보려면 [첨부 노트](../notebook.ipynb) 참조).
-
-| 역할 | 높이 | 무게 | 카운트 |
-|---------|--------|--------|-------|
-| 포수 | 72.723684 | 204.328947 | 76 |
-| 지명타자 | 74.222222 | 220.888889 | 18 |
-| 퍼스트_루수 | 74.000000 | 213.109091 | 55 |
-| 외야수 | 73.010309 | 199.113402 | 194 |
-| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
-| Second_Baseman | 71.362069 | 184.344828 | 58 |
-| 유격수 | 71.903846 | 182.923077 | 52 |
-| 시작_투수 | 74.719457 | 205.163636 | 221 |
-| Third_Baseman | 73.044444 | 200.955556 | 45 |
-
-1루수의 평균 신장이 2루수의 평균 신장보다 높다는 것을 알 수 있습니다. 따라서 우리는 **1루수가 2루수보다 높다**라는 결론을 내릴 수 있습니다.
-
-> 사실이 사실인지 아닌지 알 수 없기 때문에 이 진술을 **가설**이라고 합니다.
-
-그러나 우리가 이러한 결론을 내릴 수 있는지 여부가 항상 분명한 것은 아닙니다. 위의 논의에서 우리는 각 평균에 연관된 신뢰 구간이 있다는 것을 알고 있으므로 이 차이는 단지 통계적 오류일 수 있습니다. 우리는 우리의 가설을 검증하기 위해 좀 더 공식적인 방법이 필요합니다.
-
-1루수와 2루수 키에 대한 신뢰 구간을 별도로 계산해 보겠습니다.
-
-| 자신감 | 1루수 | 2루수 |
-|------------|------------------|----------------|
-| 0.85 | 73.62..74.38 | 71.04..71.69 |
-| 0.90 | 73.56..74.44 | 70.99..71.73 |
-| 0.95 | 73.47..74.53 | 70.92..71.81 |
-
-신뢰하지 않는 경우 구간이 겹치는 것을 볼 수 있습니다. 이것은 1루수가 2루수보다 높다는 우리의 가설을 증명합니다.
-
-보다 공식적으로, 우리가 해결하는 문제는 **두 개의 확률 분포가 동일한지** 또는 최소한 동일한 매개변수를 갖는지 확인하는 것입니다. 분포에 따라 다른 테스트를 사용해야 합니다. 분포가 정상이라는 것을 안다면 **[Student t-test](https://en.wikipedia.org/wiki/Student%27s_t-test)** 를 적용할 수 있습니다.
-
-스튜던트 t-검정에서는 분산을 고려하여 평균 간의 차이를 나타내는 소위 **t-값**을 계산합니다. t-값은 **학생 분포**를 따르며, 이를 통해 주어진 신뢰 수준 **p**에 대한 임계값을 얻을 수 있습니다(이는 계산하거나 숫자 표에서 조회할 수 있음). 그런 다음 t-값을 이 임계값과 비교하여 가설을 승인하거나 기각합니다.
-
-파이썬에서는 `ttest_ind` 기능을 포함하는 **SciPy** 패키지를 사용할 수 있습니다(다른 많은 유용한 통계 기능 외에도!). 그것은 우리를 위해 t-값을 계산하고 또한 신뢰 p-값의 역 조회를 수행하여 우리가 결론을 도출하기 위해 신뢰를 볼 수 있도록 합니다.
-
-예를 들어, 1루수와 2루수의 키를 비교하면 다음과 같은 결과가 나옵니다.
-```파이썬
-scipy.stats에서 ttest_ind 가져오기
-
-tval, pval = ttest_ind(df.loc[df['역할']=='First_Baseman',['신장']], df.loc[df['역할']=='지정된_히터',['신장'] ],equal_var=거짓)
-print(f"T 값 = {tval[0]:.2f}\nP 값: {pval[0]}")
-```
-```
-T-값 = 7.65
-P-값: 9.137321189738925e-12
-```
-우리의 경우 p-값이 매우 낮습니다. 이는 1루수가 키가 크다는 강력한 증거가 있음을 의미합니다.
-
-테스트할 수 있는 다른 유형의 가설도 있습니다. 예를 들면 다음과 같습니다.
-* 주어진 표본이 어떤 분포를 따른다는 것을 증명하기 위해. 우리의 경우 높이가 정규 분포라고 가정했지만 공식적인 통계 검증이 필요합니다.
-* 표본의 평균값이 미리 정의된 값과 일치함을 증명하기 위해
-* 여러 표본의 평균을 비교하기 위해(예: 연령대에 따른 행복 수준의 차이)
-
-## 대수의 법칙과 중심극한정리
-
-정규 분포가 중요한 이유 중 하나는 소위 **중심극한 정리**입니다. 평균이 &mu인 분포에서 샘플링된 독립적인 N 값 X<sub>1</sub>, ..., X<sub>N</sub>의 큰 샘플이 있다고 가정합니다. 및 분산 σ<sup>2</sup>. 그런 다음 충분히 큰 N에 대해(즉, N<sub>i</sub>X<sub>i</sub>인 경우) 평균 Σ<sub>i</sub>는 정규 분포를 따르고 평균은 Δmu; 및 분산 σ<sup>2</sup>/N.
-
-> 중심극한정리를 해석하는 또 다른 방법은 분포에 관계없이 임의의 변수 값의 합계의 평균을 계산할 때 정규 분포로 끝나는 것이라고 말하는 것입니다.
-
-중심극한정리로부터, N''일 때, 표본 평균의 확률은 α와 같다는 것이 또한 따른다. 1이 됩니다. 이것은 **대수의 법칙**으로 알려져 있습니다.
-
-## 공분산과 상관
-
-데이터 과학이 하는 일 중 하나는 데이터 간의 관계를 찾는 것입니다. 두 시퀀스가 동시에 유사한 동작을 나타낼 때 **상관관계**가 있다고 말합니다. 즉, 동시에 상승/하강하거나, 다른 시퀀스가 떨어질 때 한 시퀀스가 상승하고 그 반대의 경우도 마찬가지입니다. 즉, 두 시퀀스 사이에 어떤 관계가 있는 것 같습니다.
-
-> 상관 관계가 반드시 두 시퀀스 간의 인과 관계를 나타내는 것은 아닙니다. 때로는 두 변수 모두 외부 원인에 따라 달라질 수 있거나 순전히 우연히 두 시퀀스가 상관 관계가 있을 수 있습니다. 그러나 강한 수학적 상관관계는 두 변수가 어떻게든 연결되어 있다는 좋은 표시입니다.
-
- 수학적으로 두 확률 변수 간의 관계를 보여주는 주요 개념은 **공분산**이며 다음과 같이 계산됩니다. Cov(X,Y) = **E**\[(X-**E**(X) ))(Y-**E**(Y))\]. 평균값에서 두 변수의 편차를 계산한 다음 해당 편차의 곱을 계산합니다. 두 변수가 함께 벗어나면 제품은 항상 양수 값이 되어 양의 공분산이 됩니다. 두 변수가 동기화되지 않은 상태에서 벗어나면(즉, 하나는 평균 아래로 떨어지고 다른 하나는 평균 이상으로 상승하는 경우) 항상 음수를 얻게 되며, 이는 합산하여 음의 공분산이 됩니다. 편차가 종속적이지 않은 경우 합산하면 대략 0이 됩니다.
-
-공분산의 절대 값은 실제 값의 크기에 따라 달라지기 때문에 상관 관계가 얼마나 큰지 알려주지 않습니다. 정규화하기 위해 공분산을 두 변수의 표준 편차로 나누어 **상관**을 얻을 수 있습니다. 좋은 점은 상관 관계가 항상 [-1,1] 범위에 있다는 것입니다. 여기서 1은 값 간의 강한 양의 상관 관계를 나타내고, -1 - 강한 음의 상관 관계를 나타내고, 0 - 상관 관계가 전혀 없음(변수는 독립적임)을 나타냅니다.
-
-**예**: 위에서 언급한 데이터셋에서 야구 선수의 체중과 키 간의 상관 관계를 계산할 수 있습니다.
-```파이썬
-print(np.corrcoef(무게, 높이))
-```
-결과적으로 다음과 같은 **상관 행렬**을 얻습니다.
-```
-배열([[1. , 0.52959196],
-       [0.52959196, 1. ]])
-```
-
-> 상관 행렬 C는 입력 시퀀스 S<sub>1</sub>, ..., S<sub>n</sub>의 개수에 관계없이 계산할 수 있습니다. C<sub>ij</sub>의 값은 S<sub>i</sub>와 S<sub>j</sub> 사이의 상관 관계이며 대각선 요소는 항상 1입니다(이는 S<sub>i</sub>).
-
-우리의 경우 값 0.53은 사람의 체중과 키 사이에 약간의 상관 관계가 있음을 나타냅니다. 관계를 시각적으로 보기 위해 다른 값에 대한 한 값의 산점도를 만들 수도 있습니다.
-
-![체중과 키의 관계](../images/weight-height-relationship.png)
-
-> [첨부노트](../notebook.ipynb)에서 상관관계와 공분산의 더 많은 예를 볼 수 있습니다.
-
-## 결론
-
-이 섹션에서는 다음을 배웠습니다.
-
-* 평균, 분산, 모드 및 사분위수와 같은 데이터의 기본 통계 속성
-* 정규 분포를 포함한 다양한 확률 변수 분포
-* 서로 다른 속성 간의 상관 관계를 찾는 방법
-* 몇 가지 가설을 증명하기 위해 수학과 통계의 건전한 장치를 사용하는 방법,
-* 주어진 데이터 샘플에서 확률 변수에 대한 신뢰 구간을 계산하는 방법
-
-이것은 확률과 통계에 존재하는 주제의 완전한 목록은 아니지만 이 과정을 시작하기에 충분할 것입니다.
-
-## 🚀 도전
-
-노트북의 샘플 코드를 사용하여 다음과 같은 다른 가설을 테스트합니다.
-1. 1루수가 2루수보다 나이가 많다
-2. 1루수는 3루수보다 키가 크다
-3. 유격수는 2루수보다 키가 크다
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
-
-## 복습 및 독학
-
-확률과 통계는 그 자체로 충분한 가치가 있는 광범위한 주제입니다. 이론에 대해 더 깊이 알고 싶다면 다음 책을 계속 읽어도 좋습니다.
-
-1. 뉴욕대학교의 [Carlos Fernanderz-Graranda](https://cims.nyu.edu/~cfgranda/) 강의노트가 훌륭합니다. [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (온라인에서 사용 가능)
-1. [피터와 앤드류 브루스. 데이터 과학자를 위한 실용 통계.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R의 샘플 코드](https://github.com/andrewgbruce/statistics-for-data-scientists)].
-1. [제임스 D. 밀러. 데이터 과학 통계](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[샘플 코드 R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
-
-## 과제
-
-[소형 당뇨병 연구](./assignment.ko.md)
-
-## 크레딧
-
-이 수업은 [Dmitry Soshnikov](http://soshnikov.com)의 ♥️ 으로 작성되었습니다.
--- a/1-Introduction/04-stats-and-probability/translations/README.pt-br.md
+++ b/1-Introduction/04-stats-and-probability/translations/README.pt-br.md
@ -1,261 +0,0 @@
-# Uma Breve Introdução a Estatística e Probabilidade
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/04-Statistics-Probability.png)|
-|:---:|
-| Estatística e Probabilidade - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
-Teoria da Probabilidade e Estatística são duas áreas altamente relacionadas da Matemática que são altamente relevante para a Ciência de Dados. É possível operar com dados sem um conhecimento aprofundado de matemática, mas ainda é bom saber pelo menos alguns conceitos. Aqui nós vamos apresentar uma breve introdução que ajudará você a começar.
-
-[![Vídeo de Introdução](../images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
-
-
-## [Quiz Pré Aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
-
-## Probabilidade e Variáveis Aleatórias
-
-**Probabilidade** é um número entre 0 e 1 que expressa o quão provável um **evento** é. É definida como um número de resultados positivos (que levam ao evento), divido pelo número possível de resultados, dado que todos os resultados são igualmente prováveis. Por exemplo, quando jogamos um dado, a probabilidade de termos um número par é 3/6 = 0.5.
-
-Quando falamos de eventos, usamos **variáveis aleatórias**. Por exemplo, a variável aleatória que representa o número obtido quando jogamos um dado assumiria valores entre 1 e 6. O conjunto de números entre 1 a 6 é chamado de **espaço amostral**. Podemos falar sobre a probabilidade de uma variável aleatória ser um certo valor, como por exemplo P(X=3)=1/6.
-
-A variável aleatória nos exemplos anteriores são chamadas de **discretas**, pois possui um espaço amostral contável, ex. existem valores separados que podem ser numerados. Existem casos onde o espaço amostral é uma gama de valores reais, ou todo o conjunto de números reais. Essas variáveis são chamadas de **contínuas**. Um bom exemplo é a hora em que o ônibus chega.
-
-## Distribuição de Probabilidade
-
-No caso de variáveis discretas, é fácil descrever a probabilidade de cada um por uma função P(X). Para cada valor *s* do espaço amostrals *S* vai dar um número entre 0 e 1, de modo que todos os valores P(X=s) para todos os eventos seria 1.
-
-A distribuição discreta mais conhecida é a **distribuição uniforme**, no qual existe um espaço amostral de N elementos, com probabilidade de 1/N para todos eles.
-
-É mais difícil descrever a distribuição de probabilidade para uma variável contínua, com valores sorteados dentro de um intervalo [a, b], ou todo o conjunto dos números reais &Ropf;. Considere o caso da chegado do horário de ônibus. Na verdade, para cada horário de chegada exato $t$, a probabilidade do ônibus chegar exatamente naquele horário é 0!
-
-> Agora você sabe que eventos com probabilidade 0 acontecem, e muito frequentemente! Pelo menos toda vez que o ônibus chegar!
-
-Nós só podemos falar da probabilidade de uma variável cair em um determinado intervalo de valores, ex. P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). Nesse caso, a distribuição de probabilidade é descrita por uma **função densidade de probabilidade** p(x), sendo que
-
-![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](..//images/probability-density.png)
-
-Um análogo contínuo de distribuição uniforme é chamado de **uniforme contínuo**, o qual é definido em um intervalo finito. Uma probabilidade de que o valor X caia em um intervalo de tamanho l é proporcional a l, e vai até 1.
-
-Outra distribuição importante é a **distribuição normal**, a qual vamos falar sobre em mais detalhes abaixo.
-
-## Média, Variância e Desvio Padrão
-
-Vamos supor que sorteamos um sequência de n amostras da variável aleatória X: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. Nós podemos definir o valor da **média** (ou **média aritmética**) da sequência da forma tradicional como (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n. Conforme aumentamos o tamanho da amostra (ex. obter o limite com n&rarr;&infin;), nós vamos obter a média (também chamada de **expectância ou esperança**) da distribuição. Nós vamos denotá-la por **E**(x).
-
-> Pode ser demonstrado que para qualquer distribuição discreta com valores {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} e probabilidades correspondentes p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, a expectativa seria igual a E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
-
-Para demonstrar o quanto os valores estão espalhados, nós podemos computar a variância &sigma;sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/n, onde &mu; é a média da sequência. O valor de &sigma; é chamado de **desvio padrão**, e &sigma;<sup>2</sup> é chamado de **variância**.
-
-## Moda, Média e Quartis
-
-Algumas vezes, a média não representa adequadamente o valor "típico" para dados. Por exemplo, quando existem poucos valores extremos que estão completamente fora da faixa, eles podem afetar a média. Outra boa indicação é a **mediana**, um valor sendo que metade dos pontos de dados estão abaixo dele, e a outra metade - acima.
-
-Para nos ajudar a entender a distribuição dos dados, é útil falar de **quartis**:
-
-* O primeiro quartil, ou Q1, é um valor sendo que 25% dos dados estarão abaixo dele
-* O terceiro quartil,ou Q3, é um valor sendo que 75% dos dados estarão abaixo dele
-
-Graficamente nós podemos representar a relação entre mediana e quartis em um diagrama chamado de **box plot**:
-
-<img src="../images/boxplot_explanation.png" width="50%"/>
-
-Nós também podemos computar o **intervalo interquartil** IQR=Q3-Q1, e os tão chamados **outliers** - valores que se localizam fora dos limites [Q1-1.5*IQR,Q3+1.5*IQR].
-
-Para distribuições finitas que contenham um pequeno número de valores positivos, um bom valor "típico" é aquele que aparece mais frequentemente, que é chamado de **moda**. Geralmente é aplicado para dados categóricos, como cores. Considere uma situação onde nós temos dois grupos de pessoas - alguns preferem fortemente vermelho, enquanto outros preferem azul. Se atribuirmos números a cores, o valor médio para uma cor favorita estaria em algum lugar entre o espectro laranja-verde, o que não indica, de fato, a preferência de nenhum grupo. No entanto, a moda seria ou uma das cores, ou ambas as cores, se os números de pessoas que votaram para elas fossem iguais (nesse caso nós chamamos a amostra de **multimodal**).
-## Dados do Mundo Real
-
-Quando analisamos dados da vida real, eles normalmente não são variáveis aleatórias como tal, no sentido de que não realizamos experimentos com resultado desconhecido. Por exemplo, considere um time de jogadores de baseball, e os seus dados corporais, como altura, peso e idade. Esses númerps não são exatamente aleatórios, mas nós podemos aplicar os mesmos conceitos matemáticos. Por exemplo, a sequência da altura das pessoas pode ser considerada uma sequência de valores sortidos de alguma variável aleatória. Abaixo  está a sequência de pesos de jogadores reais da [Major League Baseball](http://mlb.mlb.com/index.jsp), retirados [desse dataset](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (para a sua conveniência, apenas os primeiros 20 valores são mostrados):
-
-```
-[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
-```
-
-> **Nota**: Para ver o exemplo de trabalhar com esse dataset, olhe o [notebook](../notebook.ipynb). Existe também um número de desafios nessa aula, e você pode completá-los adicionando alguns códigos nesse notebook. Se você não tem certeza de como operar os dados, não se preocupe - nós vamos voltar a trabalhar com dados usando Python em um outro momento. Se você não sabe como rodar código no Jupyter Notebook, dê uma olhada [neste artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-Aqui está o box plot mostrando a média, mediana e quartis para os nossos dados:
-
-![Box Plot dos Pesos](../images/weight-boxplot.png)
-
-Já que os nossos dados possuem informação de **posições** diferentes dos jogadores, nós podemos fazer o box plot baseado nas posições - permitirá a gente ter uma ideia de como os valores dos parâmetros mudam conforme diferentes posições. Agora vamos considerar a altura:
-
-![Box plot por posição](../images/boxplot_byrole.png)
-
-Esse diagrama sugere que, em média, a altura do jogador na primeira base é maior do que a altura dos jogadores na segunda base. Mais tarde nessa aula nós vamos aprender como podemos testar essa hipótese mais formalmente, e como demonstrar que o nosso dado é estatisticamente significante para mostrar isso.
-
-> Quando trabalhando com dados do mundo real, nós assumimos que todos os pontos de dados são amostras sortidas de alguma distribuição de probabilidade. Essa suposição permite que a gente aplica técnicas de aprendizado de máquina e contrua modelos preditivos que funcionam.
-
-Para ver qual a distribuição dos nossos dados é, nós podemos "plotar" um gráfico chamado de **histograma**. O eixo x seria um número de diferentes intervalos de valores para peso (chamados de **grupos** (bins)), e o eixo vertical mostrari o número de vezes que a amostra da nossa variável aleatória estava dentro do intervalo dado.
-
-![Histogram de dados do mundo real](../images/weight-histogram.png)
-
-A partir desse histograma você pode ver que todos os valores estão centrados ao redor de uma certa média de peso, e quanto mais longe nós formos - menos pesos desse valor são encotnrados. Ex. é muito improvável que o peso de um jogador de baseball seja muito diferente da média de pesos. Variância dos pesos mostram até que pontos os pesos tendem a diferir da média.
-
-> Se nós pegarmos os pesos de outras pessoas, não da liga de baseball, a distribuição provavelmente será diferente. No entante, a forma da distribuição será a mesma, mas a média e a variância iria mudar. Então, se treinarmos o modelo nos jogadores de baseball, provavelmente teremos resultados errados quando aplicado em estudantes de uma universidade, pois a distribuição subjacente é diferente.
-## Distribuição Normal
-
-A distribuição de pesos que vimos acima é bem típica, e muitas medidas do mundo real seguem o mesmo tipo de distribuição, mas com médias e variâncias diferentes. Essa distribuição é chamada de **distribuição normal**, e possui um papel importante na estatística.
-
-Usar distribuição normal é uma forma correta de gerar pesos aleatórios para potenciais jogadores de baseball. Uma vez que sabemos a média de pesso `mean` e desvio padrão `std`, nós podemos gerar 1000 amostras de peso da seguinte forma:
-```python
-samples = np.random.normal(mean,std,1000)
-``` 
-
-Se "plotarmos" o histograma das amostras geradas nós vamos ver a figura bem similar com a mostrada acima. Se aumentarmos o número de amostrar e o número de grupos (bins), nós podemos gerar a figura de uma distribuição normal que é mais perto do ideal:
-
-![Distribuição Normal com mean=0 (média) e std.dev=1 (desvio padrão)](../images/normal-histogram.png)
-
-*Distribuição Normal com mean=0 e std.dev=1*
-
-## Intervalos de Confiânça
-
-Quando falamos sobre os pesos de jogadores de baseball, nós assumimos que existem certas **variáveis aleatórias W** que correspondem a distribuição de probabilidade ideal dos pesos de todos os jogadores de baseball (chamados de **população (population)**). Nossa sequência de pesos correspondem a um subset de todos os jogadores que chamamos de **amostra**. Uma questão interessante é, nós podemos saber os parâmetros da distribuição W, ex. média e variância de uma população?
-
-A resposta mais fácil seria calcular média e variância da nossa amostra. No entante, pode acontecer que nossa amostra aleatória não representa precisamente a população completa. Portanto faz sentido falar sobre **intervalos de confiança**.
-
-> **Intervalo de confiança** é a estimação da média verdadeira de uma população dada a nossa amostra, que é precisa é uma certa probabilidade (ou **nível de confiança**).
-
-Suponha que temos uma amostra X<sub>1</sub>, ..., X<sub>n</sub> da nossa distribuição. Cada vez que sorteamos uma amostra da nossa distribuição, nós acabaríamos com diferentes valores de média &mu;. Portanto &mu; pode ser considerado uma variável aleatória. Um **intervalo de confiança** com confiança p é um par de valores (L<sub>p</sub>,R<sub>p</sub>), de forma que **P**(L<sub>p</sub>&leq;&mu;&leq;R<sub>p</sub>) = p, ex. a probabilidade da média medida estar dentro do intervalo igual a p.
-
-Vai além da nossa pequena introdução discutir detalhadamente como esses intervalos de confiança são calculados. Mais detalhes podem ser encontrados [na Wikipedia](https://en.wikipedia.org/wiki/Confidence_interval). Resumidamente, nós definimos a distribuição da média da amostra computada em relação a média verdadeira da população, que é chamada de **distribuiçao student (student distribution)**.
-
-> **Fato interessante**: distribuição Student é nomeada em homenagem ao matemático William Sealy Gosset, que publicou seu artigo com o pseudônimo "Student". Ele trabalhou na cervejaria Guinness, e, de acordo com uma das versões, seu empregador não queria que o público geral soubesse que eles estavam usando testes estatísticos para determinar a qualidade de materiais brutos.
-
-Se nós quiséssemos estimar a média &mu; da nossa população com confiança p, nós precisamos pegar *percentil número (1-p)/2 ((1-p)/2-th percentile)* de uma distribuição Student A, que pode ser coletada de tabelas, ou computadores usando alguma função imbutida de uma software de estatística (ex. Python, R, etc.). Então o intervalo &mu; seria dados por X&pm;A*D/&radic;n, onde X é a média obtida da amostra, D é o desvio padrão.
-
-> **Nota**: Nós também omitimos a discussão de um conceito importante de [degrees of freedom (graus de liberdade)](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), que é importante em relação a distribuição Student. Você pode dar uma olhada em livros mais completos sobre estatísticas para entender esse conceito mais profundadamente.
-
-Um exemplo para calcular o intervalo de confiança para pesos e alturas é dado no [notebook](../notebook.ipynb).
-
-| p | Weight mean |
-|-----|-----------|
-| 0.85 | 201.73±0.94 |
-| 0.90 | 201.73±1.08 |
-| 0.95 | 201.73±1.28 |
-
-Perceba que quanto maior é a probabilidade da confiança, mais amplo é o intervalo de confiança.
-
-## Testando Hipóteses
-No nosso dataset de jogadores de baseball, existem diferentes posições, as quais podem ser sumarizadas abaixo (olhe o [notebook](../notebook.ipynb) para ver como essa tabela pode ser calculada):
-
-| Role | Height | Weight | Count |
-|------|--------|--------|-------|
-| Catcher | 72.723684 | 204.328947 | 76 |
-| Designated_Hitter | 74.222222 | 220.888889 | 18 |
-| First_Baseman | 74.000000 | 213.109091 | 55 |
-| Outfielder | 73.010309 | 199.113402 | 194 |
-| Relief_Pitcher | 74.374603 | 203.517460 | 315 |
-| Second_Baseman | 71.362069 | 184.344828 | 58 |
-| Shortstop | 71.903846 | 182.923077 | 52 |
-| Starting_Pitcher | 74.719457 | 205.163636 | 221 |
-| Third_Baseman | 73.044444 | 200.955556 | 45 |
-
-Nós podemos ver que a média das alturas dos jogadores na primeira base é maior que a dos jogadores na segunda base. Portanto, nós podemos ser tentados a concluir que **jogadores da primeira base é maior que os da segunda base**.
-
-> Essa afirmação é chamada de **uma hipótese**, pois nós não sabemos se é verdade ou não.
-
-No entanto, nem sempre é óbvio fazer essa conclusão. A partir da discussão acima nós sabemos que cada média tem um intervalo de confiança associado, e portante esse diferença pode ser apenas um erro estatístico. Nós precisamos de formas mais formais de testar nossa hipótes.
-
-Vamos computar o intervalo de confiança separadamente para as alturas dos jogadores na primeira base e dos jogadores da segunda base:
-
-| Confidence | First Basemen | Second Basemen |
-|------------|---------------|----------------|
-| 0.85 | 73.62..74.38 | 71.04..71.69 |
-| 0.90 | 73.56..74.44 | 70.99..71.73 |
-| 0.95 | 73.47..74.53 | 70.92..71.81 |
-
-Nós podemos ver que sobre nenhuma confiança os intervalos se sobrepõem. Isso prova a nossa hipótese de que os jogador na primeira base são mais altos que os jogadores da segunda base.
-
-Mais formalmente, o problema que estamos resolvendo é ver se **duas distribuições de probabilidades são as mesmas**, ou se pelo menos possuem os mesmos parâmetros. Dependendo da distribuição, nós precisamos usar diferentes testes para isso. Se nós soubermos que a nossa distribuição é normal, nós podemos aplicar **[Teste t de Student (Student t-test)](https://en.wikipedia.org/wiki/Student%27s_t-test)**.
-
-No teste t de Student, nós computamos o **valor t**, que indica a diferença entre a média, levando em conta a variância. É demonstrado que o valor t segue a **distribuição student**, o que nos permite ter o valor limite para um determinado nível de confiança **p** (isso pode ser computado, ou procurado nas tabelas numéricas). Nós então comparamos o valor t para esse limite para aprovar ou rejeitar a hipótese
-
-Em Python, nós podemos usar o pacote **SciPy**, o qual inclui a função `ttest_ind` (e mais funções estatísticas!). Ela computa o valor t para a gente, e também faz a pesquisa inversa do valor de confiança p, para que podemos apenas olhar para a confiança para chegarmos a uma conclusão.
-
-Por exemplo, nossa comparação entre alturas dos jogadores da primeira base e da segunda base nos dá o seguinte resultado:
-```python
-from scipy.stats import ttest_ind
-
-tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
-print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
-```
-```
-T-value = 7.65
-P-value: 9.137321189738925e-12
-```
-No nosso caso, o valor p é bem baixo, o que significa que existem fortes evidências que confirmam que os jogadores da primeira base são maiores.
-
-Existe também outros tipos diferentes de hipótes que podemos querer testar, por exemplo:
-* Provar que uma dada amostra segue alguma distribuição. No nosso caso nós assumimos que alturas são normalmente distribuídas, mas isso precisa de verificação estatística formal.
-* Provar que uma valor média de uma amostra corresponde a algum valor predefinido
-* Comparar as médias de um número de amostras (ex. qual é a diferença em níveis de felicidade entre diferentes faixas etárias)
-
-## Lei dos Números Grandes e Teorema do Limite Central
-
-Uma das razões pelo qual a distribuição normal é tão importante é a tão chamada **teorema do limite central**. Vamos supor que temos uma grande amostra de N valores independentes X<sub>1</sub>, ..., X<sub>N</sub>, amostrado de qualquer distribuição com média &mu; e variância &sigma;<sup>2</sup>. Então, para N suficientemente grande (em outras palavras, quando N&rarr;&infin;), a média &Sigma;<sub>i</sub>X<sub>i</sub> seria normalmente distribuída, com média &mu; e variância &sigma;<sup>2</sup>/N.
-
-> Outra forma de interpretar o teorema do limite central é dizer que independentemente da distribuição, quando você computa a média da soma de quaisquer valores de variável aleatória você acabará com uma distribuição normal.
-
-A partir do teorema do limite central também segue que, quando when N&rarr;&infin;, a probabilidade da média da amostra ser igual a &mu; se torna 1. Isso é conhecido como a **lei dos números grandes**.
-
-## Covariância e Correlação
-
-Uma das coisas que Ciência dos Dados faz é encontrar relações entre dados. Nós dizemos que duas sequências **correlacionam** quando elas exibem um comportamento similar ao mesmo tempo, ex. eles sobem/caem simultâneamente, ou uma sequência sobe enquanto a outra desce e vice-versa. Em outras palavras, aparenta ter algum tipo de relaçõa entre as duas sequências.
-
-> Correlação não necessariamente indica uma relação causal entre duas sequências; algumas vezes ambas as variáveis podem depender de alguma causa externa, or pode ser puramente uma coincidência que duas sequências se relacionem. No entanto, uma forte correlaçõe matemática é um bom indício
-
- Matematicamente, o conceito principal que mostra uma relações entre duas variávies aleatórias é **covariância**, que é computada da seguinte forma: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Nós computamos o desvio de ambas as variáveis em relação a média, e então o produto desses desvios. Se ambas as variáveis desviam juntas, o produto seria sempre um valor positivo, que resulta em uma covariância positiva. Se ambas as variáveis desviam de forma não sincronizadas (ex. uma está abaixo da média enquanto outra está acima), nós sempre vamos ter números negativos, que resulta em uma covariância negativa. Se os desvios não são dependentes, eles sempre vão resultar em quase zero.
-
-O valor absoluto da  covariância não nos informa o quão grande a correlação é, pois depende da magnitude dos valores reais. Para normalizar isso, nós podemos dividir a covariância pelo desvio padrão de ambas as variáveis, para conseguirmos a **correlação**. O bom é que a correlação sempre vai estar na faixa de [-1, 1], onde 1 indica uma forte correlaçao positiva entre os valores, -1 - forte correlação negativa, e 0 - nenhuma correlação (variáveis são independentes).
-
-**Exemplo**: Nós podemos computar a correlação entre pesos e alturas de jogadores de baseball do dataset mencionado acima:
-```python
-print(np.corrcoef(weights,heights))
-```
-Como resultado, temos uma **matriz de correlação** como essa:
-```
-array([[1.        , 0.52959196],
-       [0.52959196, 1.        ]])
-```
-
-> Matriz de correlação C pode ser computada para qualquer número de sequências de input S<sub>1</sub>, ..., S<sub>n</sub>. O valor de C <sub>ij</sub> é a correlação entre S<sub>i</sub> e S<sub>j</sub>, e elementos diagonais são sempre 1 (o que também é uma auto-correlação de S<sub>i</sub>).
-
-No nosso caso, o valor 0.53 indica que existe alguma correlação entre peso e altura de uma pessoa. Nós podemos fazer um gráfico de pontos de um valor contra o outro para ver a relação visualmente:
-
-![Relação entre peso e altura](../images/weight-height-relationship.png)
-
-> Mais exemplos de correlação e covariância podem ser encontrados no [notebook](../notebook.ipynb).
-
-## Conclusão
-
-Nessa seção nós aprendemos:
-* propriedades estatísticas básicas dos dados, como média, variância, moda e quartis
-* diferentes distribuições para variáveis aleatórias, incluindo distribuição normal
-* como encontrar a correlação entre propriedades diferentes
-* como usar aparelhos de som de matemática e estatística para provar algumas hipóteses,
-* como computar intervalos de confiância para variáveis aleatórias dado uma amostra de dados
-
-Enquanto essa definitivamente não é uma lista exaustiva de tópicos que existem dentro de probabilidade e estatística, deve ser o suficiente para você começar bem esse curso.
-
-## 🚀 Desafio
-
-Use o código de exemplo no notebook para testar outras hipóteses que:
-1. Jogadores na primeira base e mais velhos que jogadores na segunda base
-2. Jogadores na primeira base e mais altos que jogadores na terceira base
-3. Interbases (Shortstops) são maiores que jogadores na segunda base
-
-## [Quis Pós Aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
-
-## Revisão e Autoestudo
-
-Probabilidade e estatística é um tópico muito amplo que merece um curso próprio. Se você está interessado em aprofundar a teoria, talvez você queira continuar lendo alguns dos seguintes livros:
-
-1. [Carlos Fernanderz-Granda](https://cims.nyu.edu/~cfgranda/) da Universidade de Nova Iorque (New York University) tem boas notas de aula [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (disponíveis online)
-1. [Peter and Andrew Bruce. Estatística prática para Cientistas de Dados (Practical Statistics for Data Scientists).](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[sample code in R](https://github.com/andrewgbruce/statistics-for-data-scientists)]. 
-1. [James D. Miller. Estatística para Ciência de Dados (Statistics for Data Science)](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[sample code in R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
-
-## Tarefa
-
-[Small Diabetes Study (Pequeno Estudo de Diabetes)](assignment.pt-br.md)
-
-## Créditos
-
-Essa aula foi autorada com ♥️ por [Dmitry Soshnikov](http://soshnikov.com)
--- a/1-Introduction/04-stats-and-probability/translations/README.ru.md
+++ b/1-Introduction/04-stats-and-probability/translations/README.ru.md
@ -1,272 +0,0 @@
-# Краткое введение в теорию вероятности и статистику
-
-|![ Рисунок [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/04-Statistics-Probability.png)|
-|:---:|
-| Теория вероятности и статистика - _Рисунок [@nitya](https://twitter.com/nitya)_ |
-
-
-Статистика и теория вероятности - две связанные друг с другом области математики, которые активно применяются в науке о данных. Оперировать данными вполе возможно без глубоких знаний математики, но всё лучше знать, по крайней мере, некоторые базовые концепции. В этом уроке мы приводим краткое введение, чтобы помочь Вам их понять. 
-
-[![Вступительное видео](../images/video-prob-and-stats.png)](https://youtu.be/Z5Zy85g4Yjw)
-
-
-## [Вступительный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6)
-
-## Вероятность и случайная величина
-
-**Вероятность** - число от 0 до 1, которое выражает, насколько вероятным является **событие**. Она определяется как число благоприятных исходов (которые ведут к появлению события), делённое на число всех исходов, при условии, что все исходы одинаково вероятны. Например, при броске кубика, вероятность того, что мы получим чётное числов равна 3/6 = 0.5.
-
-Когда мы говорим о событиях, мы используем **случайные величины**. Например, случайная величина, которая представляет собой число, выпавшее при броске кубика, принимает значения от 1 до 6. Числа от 1 до 6 в данном случае называются **пространством элементарных событий**. Мы можем говорить о вероятности случайной величины, оперируя конкретным числом, например P(X=3)=1/6.
-
-Случайная величина из предыдущего примера называется **дискретной**, потому что она имеет счётное пространство элементарных событий, т.е. принимает отдельные значения, которые можно перечислить. Существуют случаи, когда пространство событий представляет собой диапазон действительных чисел, или целый их набор. Такие величины называются **непрерывными**. Отличным примером такой величины является время прибытия автобуса.
-
-
-## Распределение вероятности
-
-В случае случайных дискретных величин, легко описать вероятность каждого события функцией P(X). Для каждого значения *s* из пространства событий *S* она возвращает число от 0 до 1 таким образом, что сумма всех значений функции P(X=s) для всех событий равна 1.
-
-Наиболее широко известное распределение - **равномерное распределение**, при котором элементы пространства событий N имеют равную вероятность 1/N.
-
-Описать распределение вероятности непрерывной величины, принимающей значения в интервале [a,b] или в пространстве действительных чисел &Ropf;, гораздо сложнее. Рассмотрим случай со временем прибытия автобуса. На самом деле, для каждого отдельного времени прибытия $t$, вероятность прибытия автобуса точно в данное время равна 0!
-
-> Теперь Вы знаете, что события с нулевой вероятностью встречаются, и очень часто! По крайней мере, каждый раз, когда приходит автобус.
-
-Мы можем говорить о вероятности случайной величины, распределённой на интервале значений, напр. P(t<sub>1</sub>&le;X&lt;t<sub>2</sub>). В этом случае, распределение вероятности описывается **функцией плотности вероятности** p(x), например
-
-![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../images/probability-density.png)
-
-Непрерывный аналог равномерного распределения называется **непрерывное равномерное распределение**, которое определено на конечном интервале. Вероятность того, что величина X попадёт в интервал длиной l, пропорциональна l и возрастает вплоть до 1.
-
-Другим важным распределением является **нормальное распределение**, о котором мы поговорим подробнее ниже.
-
-## Среднее, дисперсия и стандартное отклонение
-
-Предположим мы построили последовательность из n элементов случайной величины X: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. Мы можем рассчитать **среднее** (or **арифметическое среднее**) значение традиционным способом: (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n. По мере увеличения числа элементов выборки (т.е. взять неограниченное число n&rarr;&infin;), мы получим среднее (также называемое **математическим ожиданием**) распределения. Обозначим его **E**(x).
-
-> Можно продемонстрировать, что для любого дискретного распределения, принимающего значения {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} с вероятностями p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, математическое ожидание равно E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
-
-Чтобы определить, насколько широко распределены данные, мы можем посчитать дисперсию &sigma;<sup>2</sup> = &sum;(x<sub>i</sub> - &mu;)<sup>2</sup>/n, где &mu; - среднее значение ряда. Величина &sigma; называется **стандартным отклонением**, а &sigma;<sup>2</sup> - **дисперсией**.
-
-
-## Мода, медиана и квартили
-
-Иногда, среднее значение необъективно отображает "обычное" значение в данных. Например, когда имеются несколько экстремальных значений, которые лежат далеко за пределами интервала, они могут влиять на среднее. Ещё одна полезная величина - **медиана**, значение, меньше которого половина точек, а другая половина - больше.
-
-Чтобы лучше понять распределение данных, полезно упомянуть **квартили**:
-
-* Первая квартиль, или Q1, - величина, меньше которой 25% всех данных
-* Третья квартиль, или Q3 - величина, меньше которой 75% всех данных
-
-Взаимосвязь между медианой и квартилями мы можем изобразить графически при помощи диаграммы **ящик с усами**:
-
-<img src="../images/boxplot_explanation.png" width="50%"/>
-
-
-Мы также можем посчитать **интерквартильный размах** IQR=Q3-Q1 и так называемые **выбросы** - значения, оторые лежат за пределами [Q1-1.5*IQR,Q3+1.5*IQR].
-
-
-Для конечного распределения, которое принимает небольшое число возможных значений, хорошее "обычное" значение - то, которое появляется наиболее часто, оно называется **мода**. Она актуальна для категориальных данных, таких как цвета. Представим ситуцию, в которой у нас есть две группы людей, одни из них предпочитают красный цвет, другим больше нравится синий. Если мы закодируем цвета при помощи цифр, среднее значение для предпочитаемого цвета будет где-то в оранжево-зелёном спектре и не отобразит реальные предпочтения ни одной из групп. Однако, мода примет значение одного из цветов, или обоих, если число проголосовавших за них людей одинаково (в этом случае мы называем выборку **мультимодальной**).
-
-## Реальные данные
-
-Когда мы анализируем данные из реального мира, они зачастую не являются случайными по своей природе, в том смысле, что мы не проводим эксперименты с неизвестным результатом. Например, рассмотрим игроков бейсбольной команды и их параметры, такие как рост, вес и возраст. Эти числа не совсем случайные, но, несмотря на это, мы можем применять те же самые математические концепции. Например, последовательность весов людей может быть рассмотрена как последовательность чисел, взятых из какой-либо случайной величины. Ниже приведена последовательность весов реальных бейсбольных игроков [Главной бейсбольной лиги](http://mlb.mlb.com/index.jsp), взятых из [этого датасета](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (приводим только первые 20 значений для Вашего ознакомления)
-
-```
-[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
-```
-
-> **Замечание**: Чтобы ознакомиться с примером работы с данным датасетом, взгляните на [соответствующий блокнот](../notebook.ipynb). Также там доступны задачи из данного урока, и Вы можете выполнить их, добавив свой код в этот блокнот. Если Вы не знаете как обращаться с данными, не переживайте, мы вернёмся к работе с данными при помощи языка Python позже. Если вы не знаете, как запускать код в Jupyter блокнотах, взгляните на [эту статью](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
-
-Ниже приведён график "ящик с усами", отображающий среднее значение, медину и квартили для наших данных:
-
-![График весов](../images/weight-boxplot.png)
-
-Так как наши данные содержат информацию о различных **ролях** игроков, мы также может построить подобный график по ролям, это позволит нам увидеть, как параметры игроков варьируются в зависимости от роли. На этот раз отобразим рост:
-
-![График "ящик с усами" по ролям](../images/boxplot_byrole.png)
-
-Из этого графика следует, что, в среднем, бейсболист с первой базы выше ростом, чем со второй. Далее в этом уроке мы рассмотрим, как проверить эту гипотезу формально и как продемонстрировать, что наши данные обладают статистической значимостью, чтобы подтвердить нашу гипотезу.
-
-> При работе с реальными данными, мы предполагаем, что все экземпляры данных взяты из одного распределения. Это предположение позволяет нам применять методы машинного обучения и строить работающие предиктивные модели.
-
-Для того, чтобы увидеть распределение наших данных, мы можем построить график под названием **гистограмма**. Шкала X будет содержать различные интервалы весов (так называемые **столбцы**), а шкала Y - количество попаданий случайной величины в заданный интервал.
-
-![Гистограмма реальных данных](../images/weight-histogram.png)
-
-На гистограмме вы можете увидеть, что все значения сосредоточены вокруг определённого среднего веса и что чем дальше мы от этого веса, тем меньше весов находится в столбце. Т.е. крайне маловероятно, что веса бейсболистов будут сильно отличаться от среднего веса. Дисперсия весов показывает степень вероятности, с которой веса будут отличаться от своего среднего значения.
-
-> Если мы возьмём веса других людей, не из бейсбольной лиги, то распределение наверняка будет другим. Однако форма распределения останется той же самой, но среднее и дисперсия изменятся. Таким образом, если мы натренируем нашу модель на бейсбольных игроках, мы, вероятно, получим плохие результаты, применяя эту модель к студентам университета, потому что распределение их весов другое.
-
-## Нормальное распределение
-
-Распределение весов, которое мы наблюдали выше, крайне типичное, множество измерений величин реального мира подчиняются этому типу распределений, но с другими средним значением и дисперсией. Данное распределение называется **нормальным распределением**, и оно занимает очень важное место в статистике.
-
-Использование нормального распределения - верный способ сгенерировать случайные веса потенциальных бейсболистов. Как только мы узнаем средний вес `mean` и стандартное отклонение `std`, мы можем сгенерироваться 1000 примеров весов следующей командой:
-
-```python
-samples = np.random.normal(mean,std,1000)
-``` 
-
-Если мы построим гистограмму сгенерированных примеров, мы увидим картину, очень похожую на ту, что мы видели выше. И в случае увеличения количества примеров и количества столбцов, мы можем получить изображение нормального распределения, которое более близко к идеальному:
-
-![Нормальное распределение с параметрами mean=0 и std.dev=1](../images/normal-histogram.png)
-
-*Нормальное распределение с параметрами среднее (mean) = 0 и стандартным отклонением (std.dev) = 1*
-
-## Доверительные интервалы
-
-Когда мы говорим о весе бейсболистов, мы полагаем, что существует **случайная величина W**, которая соответствует идеальному распределению вероятности весов всех бейсболистов (так называемой **популяции**). Наша последовательность весов соответствует подмножеству множества всех бейсболистов, которое мы называем **выборкой**. Интересный вопрос состоит в том, можем ли мы узнать параметры распределения W, т.е. среднее значение и дисперсию популяции?
-
-Самым простым решением может быть посчитать среднее и дисперсию нашей выборки. Однако, может произойти так, что наша случайная выборка не достаточно точно представляет полную популяцию. Таким образом, имеет смысл обсудить понятие **доверительных интервалов**.
-
-> **Доверительный интервал** - оценка реального среднего значения популяции при условии нашей выборки, которая точна для определенного уровня вероятности (или **степени достоверности**)
-
-Предположим у нас есть выборка X<sub>1</sub>, ..., X<sub>n</sub> из нашего распределения. Каждый раз, когда мы выделяем выборку из нашего распределения, мы получаем различные среднее значение &mu;. Таким образом, &mu; может быть рассмотрено в качестве случайной величины. **Доверительный интервал** с уверенностью p - пара таких значений (L<sub>p</sub>,R<sub>p</sub>), что **P**(L<sub>p</sub>&leq;&mu;&leq;R<sub>p</sub>) = p, т.е. вероятность измеренного среднего значения попадает лежит в данном интервале с вероятностью p.
-
-Детальное обсуждение расчёта подобных доверительных интервалов лежит за рамками нашего краткого введения. Некоторые подробности Вы можете найти [на портале Wikipedia](https://ru.wikipedia.org/wiki/%D0%94%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D1%80%D0%B2%D0%B0%D0%BB). Коротко, мы нашли распределение рассчитанного выборочного среднего по отношению к реальному среднему популяции, которое называется **распределением Стьюдента**.
-
-> **Интересный факт**: распределение Стьюдента названо в честь математика Уильяма Сили Госсета, который публиковал свои статьи под псевдонимом "Стьюдент". Он работал в пивоварне Гиннес и, по одной из версий, его работодатель не хотел, чтобы широкая публика знала, что на производстве использовали статистические методы для определения качества исходных материалов.
-
-Если мы хотим подсчитать среднее значение &mu; популяции с уверенностью p, нам необходимо взять *(1-p)/2-ую перцентиль* распределения Стьюдента A, которая находится в специальной таблице или рассчитывается встренными функциями статистического ПО (например языки программирования Python, R, и др.). Затем найдём интервал для &mu; при помощи X&pm;A*D/&radic;n, где X - полученное выборочное среднее, D - стандартное отклонение.
-
-> **Замечание**: мы также опустим обсуждение важной концепции [степени свободы](https://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B5%D0%BF%D0%B5%D0%BD%D0%B8_%D1%81%D0%B2%D0%BE%D0%B1%D0%BE%D0%B4%D1%8B_(%D1%82%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%B2%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B5%D0%B9)), которая имеет прямое отношение к распределению Стьюдента. Вы также можете ознакомиться с более полными пособиями по статистике, чтобы глубже изучить данное понятие.
-
-Пример расчёта доверительных интервалов для весов и высот бейсболистов приведёт в [соответствующем блокноте](../notebook.ipynb).
-
-| p | Weight mean |
-|-----|-----------|
-| 0.85 | 201.73±0.94 |
-| 0.90 | 201.73±1.08 |
-| 0.95 | 201.73±1.28 |
-
-Отметим, что чем выше степень уверенности, тем шире доверительный интервал.
-
-## Проверка гипотез
-
-В нашем датасете бейсболистов есть разные роли игроков, которые могут быть агрегированы как в примере ниже (взгляните на [соответствующий блокнот](../notebook.ipynb), чтобы увидеть, как рассчитывается данная таблица):
-
-| Роль | Высота | Вес | Количество |
-|------|--------|--------|-------|
-| Кэтчер | 72.723684 | 204.328947 | 76 |
-| Назначенный хиттер | 74.222222 | 220.888889 | 18 |
-| Игрок первой базы | 74.000000 | 213.109091 | 55 |
-| Аутфилдер | 73.010309 | 199.113402 | 194 |
-| Релиф-питчер | 74.374603 | 203.517460 | 315 |
-| Игрок второй базы | 71.362069 | 184.344828 | 58 |
-| Шорт-стоп | 71.903846 | 182.923077 | 52 |
-| Стартовый питчер | 74.719457 | 205.163636 | 221 |
-| Игрок третьей базы | 73.044444 | 200.955556 | 45 |
-
-Мы можем отметить, что средняя высота игрока первой базы больше, чем игрока второй. Поэтому, мы можем заключить, что **игрок первой базы выше, чем игрок второй базы**.
-
-> Данное утверждение называется **гипотезой**, потому что мы не знаем, правдив ли данный факт.
-
-Однако, не всегда очевидно, можем ли мы сделать такой вывод. Из обсуждения выше мы знаем, что каждое среднее ассоциировано с доверительным интервалом, и, таким образом, эта разница может быть всего лишь статистической погрешностью. Нам необходим более формальный способ, чтобы проверить нашу гипотезу.
-
-Давайте посчитаем доверительные интервалы отдельно для высот игроков первой и второй баз:
-
-| Степень уверенности | Игрок первой базы | Игрок второй базы |
-|------------|---------------|----------------|
-| 0.85 | 73.62..74.38 | 71.04..71.69 |
-| 0.90 | 73.56..74.44 | 70.99..71.73 |
-| 0.95 | 73.47..74.53 | 70.92..71.81 |
-
-Мы можем заметить, что нет никакой уверенности, что интервалы пересекаются. Это подтверждает нашу гипотезу о том, что игрок первой базы выше, чем игрок второй.
-
-Более формально задача, которую мы решаем, состоит в том, чтобы увидеть, **являются ли два распределения вероятности одинаковыми**, или, по крайней мере, имеют те же самые параметры. Нам необходимо использовать разные тесты в зависимости от рассматриваемого распределения. В случае, когда мы знаем, что наше распределение нормальное, мы можем применять **[t-критерий Стьюдента](https://ru.wikipedia.org/wiki/T-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0)**. 
-
-В t-критерии Стьюдента мы рассчитываем так называемое **t-значение**, которое показывает разницу между двумя средними, обращая внимание на дисперсию. Оно показывает, что t-значение подчиняется **распределению Стьдента**, которое позволяет нам определить пороговое значение при условии степени уверенности **p** (оно также может быть вычислено или найдено в расчётных таблицах). Мы можем сравнивать t-значения с полученным пороговым значением, чтобы подтвердить или опровергнуть гипотезу.
-
-В языке Python, мы можем использовать библиотеку **SciPy**, которая содержит функцию `ttest_ind` (в дополнение ко многим другим полезным статистическим функциям). Она вычисляет t-значение и также проводит обратный поиск степени уверенности p-значения, поэтому мы можем просто взглянуть на степень уверенности для построения вывода.
-
-Например, наше сравнение между высотами игроков первой и второй баз имеет следующие результаты:
-```python
-from scipy.stats import ttest_ind
-
-tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
-print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
-```
-```
-T-value = 7.65
-P-value: 9.137321189738925e-12
-```
-
-В нашем случае, p-значение очень маленькое и означает, что существует веское доказательство того, что игрок первой базы выше.
-
-Существуют также и другие виды гипотез, которые мы можем хотеть проверить, например:
-* Доказать, что данная выборка подчиняется некоторому распределению. В нашем случае мы полагали, что высоты распределены нормально, но данный факт требует формального статистического подтверждения.
-* Доказать, что среднее значение выборки совпадает с некоторым определённым заранее значением.
-* Сравнить средние нескольких выборок (например, какова разница в уровне счастья среди разных возрастных групп)
-
-## Закон больших чисел и центральная предельная теорема
-
-Одной из причин, почему нормальное распределение настолько важно, является так называемая **центральная предельная теорема**. Предположим, у нас имеется большое число N независимых величин X<sub>1</sub>, ..., X<sub>N</sub>, взятых из любого распределения со средним значением &mu; и дисперсией &sigma;<sup>2</sup>. Тогда, для достаточного большого N (другими словами, при N&rarr;&infin;), среднее значение &Sigma;<sub>i</sub>X<sub>i</sub> будет распределено нормально, со средним &mu; и дисперсией &sigma;<sup>2</sup>/N.
-
-> Другая интерпретация центральной предельной теоремы заключается в том, что вне зависимости от распределения, когда вы вычисляете среднее значение суммы значений любой случайной величины, вы приходите к нормальному распределению.
-
-Из центральной предельной теоремы также следует, что когда N&rarr;&infin;, вероятность того, что выборочное среднее будет равно &mu;, равняется 1. Данный факт называется **законом больших чисел**.
-
-## Ковариация и корреляция
-
-Одна из задач науки о данных - нахождение зависимостей в данных. Мы говорим, что две последовательности **коррелируют**, когда они демонстрируют похожее поведение в одно и то же время, т.е. они либо растут/падают совместно, либо одна последовательность растет, когда другая падает и наоборот. Другими словами, между ними существует какая-либо связь.
-
-> Корреляция не обязательно означает каузацию (причинно-следственную связь) между двумя последовательностями; иногда обе переменные могут зависеть от одной внешней причины, или их корреляция может быть чистым совпадением. Однако, сильная математическая корреляция является хорошим индикатором, что две переменные как-либо связаны.
-
-Математически, **ковариация** - основная концепция, которая показывает связь двух случайных величин, и рассчитывается по формуле: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Мы вычисляем стандартное отклонение обоих переменных от их средних значений, затем произведение этих отклонений. Если обе переменные отклоняются совместно, произведение будет всегда положительной величиной и приведёт к положительной ковариации. Если обе переменные отклоняются по-разному (т.е. одна снижается ниже среднего, когда другая поднимается выше), мы всегда будем получать отрицательные числа, которые приведут к отрицательной ковариации. Если отклонения не зависят друг от друга, их сумма будет примерно равна нулю.
-
-Абсолютная величина ковариации не может сказать нам, насколько сильная корреляция, потому что она зависит от величины реальных значений. Для того, чтобы нормализовать их, мы можем поделить ковариацию на стандартное отклонение обоих переменных и получить **корреляцию**. Очень удачно, что корреляция всегда находится в диапазоне [-1,1], где 1 означает сильную положительную корреляцию, -1 - сильную отрицательную корреляцию, а 0 - отсутствие корреляции (переменные являются независимыми).
-
-**Пример**: Мы можем рассчитать корреляцию между весом и ростом бейсболистм из датасета, рассмотренного выше:
-```python
-print(np.corrcoef(weights,heights))
-```
-В результате, мы получаем **корреляционную матрицу** наподобие этой:
-```
-array([[1.        , 0.52959196],
-       [0.52959196, 1.        ]])
-```
-
-> Корреляционная матрица может быть построена для любого числа входных последовательностей S<sub>1</sub>, ..., S<sub>n</sub>. Значение C<sub>ij</sub> является коэффициентом корреляции между S<sub>i</sub> и S<sub>j</sub>, а диагональные элементы всегда равны 1 (что по сути является автокорреляцией последовательности S<sub>i</sub>).
-
-В нашем случае, значение 0.52 означает, что существует некоторая корреляция между весом и ростом человека. Мы также можем построить точечный график зависимости между одной величиной от другой, чтобы оценить связь между ними визуально:
-
-![Связь между ростом и весом](../images/weight-height-relationship.png)
-
-> Больше примеров корреляции и ковариации Вы можете найти в [соответствующем ноутбуке](notebook.ipynb).
-
-## Заключение
-
-В данной главе мы изучили:
-
-* базовые статистические свойства данных, такие как среднее значение, дисперсия, мода и квартили
-* различные распределени случайной величины, включая нормальное распределение
-* как найти корреляцию между различными величинами
-* как использовать математические и статистические методы, чтобы доказать некоторые гипотезы
-* как вычислить доверительные интервалы случайной величины при условии данной выборки
-
-Хотя всё вышеперечисленное не является исчерпывающим списком тем в теории вероятности и статистике, этого должно быть достаточно для Вашего успешного погружения в этот курс.
-
-## 🚀 Задача
-
-Используя примеры из блокнота, проверьте другие гипотезы:
-1. Игрок первой базы старше, чем игрок второй
-2. Игрок первой базы выше, чем игрок третьей
-3. Шорт-стоп выше, чем игрок второй базы
-
-## [Проверочный тест](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7)
-
-## Материалы для самостоятельного изучения
-
-Теория вероятности и статистика - это широкий набор тем, которые заслуживают отдельного курса. Если Вы хотите изучить теорию поглубже, ознакомьтесь со следующими книгами:
-
-1. [Carlos Fernanderz-Granda](https://cims.nyu.edu/~cfgranda/) из университета Нью-Йорка написал отличные лекционные материалы [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (доступны онлайн)
-1. [Peter and Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[примеры кода на языке R](https://github.com/andrewgbruce/statistics-for-data-scientists)]. 
-1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[примеры кода на языке R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
-
-## Домашнее задание
-
-[Небольшое исследование диабета](assignment.ru.md)
-
-## Благодарности
-
-Данный урок был написан с ♥️ [Дмитрием Сошниковым](http://soshnikov.com)
--- a/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.hi.md
@ -1,25 +0,0 @@
-# लघु मधुमेह अध्ययन
-इस असाइनमेंट में, हम [यहाँ](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html) से लिए गए मधुमेह रोगियों के एक छोटे डेटासेट के साथ काम करेंगे।
-
-|   | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y  |
-|---|-----|-----|-----|----|----|----|----|----|----|----|----|
-| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
-| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
-| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
-| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
-
-## निर्देश
-
-* ज्यूपिटर नोटबुक वातावरण में [असाइनमेंट नोटबुक] (असाइनमेंट.आईपीएनबी) खोलें
-* नोटबुक में सूचीबद्ध सभी कार्यों को पूरा करें, अर्थात्:
-   * [ ] सभी मूल्यों के लिए माध्य मान और विचरण की गणना करें
-   * [ ] लिंग के आधार पर बीएमआई, बीपी और वाई के लिए प्लॉट बॉक्सप्लॉट
-   * [ ] आयु, लिंग, बीएमआई और वाई चर का वितरण क्या है?
-   * [ ] विभिन्न चर और रोग प्रगति के बीच सहसंबंध का परीक्षण करें (Y)
-   * [ ] इस परिकल्पना का परीक्षण करें कि पुरुषों और महिलाओं के बीच मधुमेह की प्रगति की डिग्री अलग है
-
-## सरनामा
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
-सभी आवश्यक कार्य पूर्ण, ग्राफिक रूप से सचित्र और समझाया गया है | अधिकांश कार्य पूर्ण हैं, ग्राफ़ और/या प्राप्त मूल्यों से स्पष्टीकरण या टेकअवे गायब हैं | केवल मूल कार्य जैसे माध्य/विचरण की गणना और मूल प्लॉट पूरे होते हैं, डेटा से कोई निष्कर्ष नहीं निकाला जाता है
--- a/1-Introduction/04-stats-and-probability/translations/assignment.ko.md
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.ko.md
@ -1,30 +0,0 @@
-# 소당뇨병 연구
-
-이 과제에서 우리는 [여기](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html)에서 가져온 당뇨병 환자의 작은 데이터셋으로 작업할 것입니다.
-
-|   | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y  |
-|---|-----|-----|-----|----|----|----|----|----|----|----|----|
-| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
-| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
-| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
-| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
-
-## 지침
-
-* jupyter notebook 환경에서 [과제노트](assignment.ipynb) 열기
-* notebook 에 나열된 모든 작업, 즉:
-
-   [ ] 모든 값의 평균값과 분산 계산
-
-   [ ] 성별에 따른 BMI, BP 및 Y에 대한 플롯 상자 그림
-
-   [ ] 연령, 성별, BMI 및 Y 변수의 분포는 무엇입니까?
-
-   [ ] 다른 변수와 질병 진행 사이의 상관 관계 테스트(Y)
-
-   [ ] 당뇨병 진행 정도가 남녀 간에 다르다는 가설 검정
-## 기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-필요한 모든 작업이 완료되고 그래픽으로 설명 및 설명 되어 있음 | 대부분의 작업이 완료되었으며 그래프 및/또는 얻은 값의 설명이나 요약이 누락되었습니다. | 평균/분산 계산 및 기본 도표와 같은 기본 작업만 완료되어 있으며 데이터에서 결론이 내려지지 않습니다.
--- a/1-Introduction/04-stats-and-probability/translations/assignment.pt-br.md
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.pt-br.md
@ -1,25 +0,0 @@
-# Pequeno Estudo de Diabetes
-
-Nessa tarefa, nós vamos trabalhar com um pequeno dataset de diabetes em pacientes retirados [daqui](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html).
-
-|   | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y  |
-|---|-----|-----|-----|----|----|----|----|----|----|----|----|
-| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
-| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
-| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
-| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
-
-## Instruções
-
-* Abre o [notebook da tarefa](assignment.ipynb) em um ambiente jupyter notebook
-* Complete todas as tarefas listadas no notebook, nomeadamente:
-   [ ] Compute os valores de média e variância para todos os valores
-   [ ] "Plote" boxplots para BMI, BP e Y dependendo do gênero
-   [ ] Qual a distribuição das variáveis Age, Sex, BMI e Y?
-   [ ] Teste a correlação entre diferentes variáveis e progressão da doença (Y)
-   [ ] Teste a hipótese que o grau de progressão da diabetes é diferente entre homens e mulheres
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-Todas as tarefas estão completados, graficamente ilustradas e explicadas | A maior para das tarefas estão completadas, explicações ou conclusões a partir de gráficos e/ou valores obtidos estão faltando | Apenas as tarefas básicas como computar a média/variância e "plots" básicos estão completados, nenhuma conclusão é feita a partir dos dados dados.
--- a/1-Introduction/04-stats-and-probability/translations/assignment.ru.md
+++ b/1-Introduction/04-stats-and-probability/translations/assignment.ru.md
@ -1,26 +0,0 @@
-# Небольшое исследование диабета
-
-В данном домашнем задании мы поработаем с небольшим датасетом пациентов с диабетом, взятым [здесь](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html).
-
-|   | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y  |
-|---|-----|-----|-----|----|----|----|----|----|----|----|----|
-| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
-| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
-| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
-| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
-
-## Порядок выполнения
-
-* Откройте [блокнот для домашнего задания](../assignment.ipynb) в окружении Jupyter
-* Выполните все перечисленные там задачи, а именно:
-   [ ] Вычислите средние значения и дисперсии для всех величин
-   [ ] Постройте "ящики с усами" для признаков BMI, BP и Y в зависимости от пола пациента
-   [ ] Какие распределения имеют признаки Age, Sex, BMI и Y?
-   [ ] Проверьте корреляцию между различными переменными и степенью болезни (столбец Y)
-   [ ] Проверьте гипотезу о том, что степень диабета различается у мужчин и женщин
-
-## Оценка
-
-Отлично | Достаточно | Нуждается в улучшении
--- | --- | -- |
-Все задачи выполнены, проиллюстрированы и содержат пояснения | Большинство задач выполнены, пояснения или выводы из графиков и/или полученных значений отсутствуют | Некоторые простые задачи, такие как вычисление среднего/дисперсии, выполнены, выводы на основе данных не были получены
--- a/2-Working-With-Data/05-relational-databases/translations/README.hi.md
+++ b/2-Working-With-Data/05-relational-databases/translations/README.hi.md
@ -1,179 +0,0 @@
-# डेटा के साथ कार्य करना: संबंधपरक डेटाबेस
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](/sketchnotes/05-RelationalData.png)|
-|:---:|
-| डेटा के साथ कार्य करना: संबंधपरक डेटाबेस - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-संभावना है कि आपने जानकारी संग्रहीत करने के लिए अतीत में एक स्प्रेडशीट का उपयोग किया है। आपके पास पंक्तियों और स्तंभों का एक सेट था, जहाँ पंक्तियों में जानकारी (या डेटा) होती थी, और स्तंभों में जानकारी (कभी-कभी मेटाडेटा कहा जाता है) का वर्णन होता था। तालिकाओं में स्तंभों और पंक्तियों के इस मूल सिद्धांत पर एक संबंधपरक डेटाबेस बनाया गया है, जिससे आप कई तालिकाओं में जानकारी फैला सकते हैं। इससे आप अधिक जटिल डेटा के साथ काम कर सकते हैं, दोहराव से बच सकते हैं, और डेटा को एक्सप्लोर करने के तरीके में लचीलापन रख सकते हैं। आइए एक रिलेशनल डेटाबेस की अवधारणाओं का पता लगाएं।
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/8)
-
-## यह सब टेबल से शुरू होता है
-
-एक रिलेशनल डेटाबेस में इसकी कोर टेबल होती है। स्प्रैडशीट की तरह ही, तालिका स्तंभों और पंक्तियों का एक संग्रह है। पंक्ति में वह डेटा या जानकारी होती है जिसके साथ हम काम करना चाहते हैं, जैसे किसी शहर का नाम या वर्षा की मात्रा। कॉलम उनके द्वारा संग्रहीत डेटा का वर्णन करते हैं।
-
-आइए शहरों के बारे में जानकारी संग्रहीत करने के लिए एक तालिका शुरू करके अपनी खोज शुरू करें। हम उनके नाम और देश से शुरुआत कर सकते हैं। आप इसे एक टेबल में इस प्रकार स्टोर कर सकते हैं:
-
-| City     | Country       |
-| -------- | ------------- |
-| Tokyo    | Japan         |
-| Atlanta  | United States |
-| Auckland | New Zealand   |
-
-ध्यान दें कि **शहर**, **देश** और **जनसंख्या** के कॉलम नाम संग्रहीत किए जा रहे डेटा का वर्णन करते हैं, और प्रत्येक पंक्ति में एक शहर के बारे में जानकारी होती है।
-
-## सिंगल टेबल अप्रोच की कमियां
-
-संभावना है, ऊपर दी गई तालिका आपको अपेक्षाकृत परिचित लगती है। आइए अपने बढ़ते डेटाबेस में कुछ अतिरिक्त डेटा जोड़ना शुरू करें - वार्षिक वर्षा (मिलीमीटर में)। हम वर्ष 2018, 2019 और 2020 पर ध्यान केंद्रित करेंगे। अगर हम इसे टोक्यो के लिए जोड़ते हैं, तो यह कुछ इस तरह दिख सकता है:
-
-| City  | Country | Year | Amount |
-| ----- | ------- | ---- | ------ |
-| Tokyo | Japan   | 2020 | 1690   |
-| Tokyo | Japan   | 2019 | 1874   |
-| Tokyo | Japan   | 2018 | 1445   |
-
-आप हमारी तालिका के बारे में क्या देखते हैं? आप देख सकते हैं कि हम शहर के नाम और देश को बार-बार दोहरा रहे हैं। इसमें काफी स्टोरेज लग सकता है, और इसकी कई प्रतियां रखने के लिए काफी हद तक अनावश्यक है। आखिरकार, टोक्यो का केवल एक ही नाम है जिसमें हम रुचि रखते हैं।
-
-ठीक है, चलो कुछ और कोशिश करते हैं। आइए प्रत्येक वर्ष के लिए नए कॉलम जोड़ें:
-
-| City     | Country       | 2018 | 2019 | 2020 |
-| -------- | ------------- | ---- | ---- | ---- |
-| Tokyo    | Japan         | 1445 | 1874 | 1690 |
-| Atlanta  | United States | 1779 | 1111 | 1683 |
-| Auckland | New Zealand   | 1386 | 942  | 1176 |
-
-हालांकि यह पंक्ति दोहराव से बचा जाता है, लेकिन यह कुछ अन्य चुनौतियों को भी जोड़ता है। हर बार नया साल आने पर हमें अपनी तालिका की संरचना को संशोधित करने की आवश्यकता होगी। इसके अतिरिक्त, जैसे-जैसे हमारा डेटा बढ़ता है, वैसे-वैसे हमारे वर्षों में कॉलम के रूप में मूल्यों को पुनः प्राप्त करना और गणना करना मुश्किल हो जाएगा।
-
-यही कारण है कि हमें कई तालिकाओं और संबंधों की आवश्यकता है। अपने डेटा को अलग करके हम दोहराव से बच सकते हैं और हम अपने डेटा के साथ काम करने के तरीके में अधिक लचीलापन रखते हैं।
-
-## रिश्तों की अवधारणा
-
-आइए अपने डेटा पर वापस लौटें और निर्धारित करें कि हम चीजों को कैसे विभाजित करना चाहते हैं। हम जानते हैं कि हम अपने शहरों के लिए नाम और देश को संग्रहित करना चाहते हैं, इसलिए यह शायद एक टेबल में सबसे अच्छा काम करेगा।
-
-| City     | Country       |
-| -------- | ------------- |
-| Tokyo    | Japan         |
-| Atlanta  | United States |
-| Auckland | New Zealand   |
-
-लेकिन इससे पहले कि हम अगली तालिका बनाएं, हमें यह पता लगाना होगा कि प्रत्येक शहर को कैसे संदर्भित किया जाए। हमें किसी पहचानकर्ता, आईडी या (तकनीकी डेटाबेस के संदर्भ में) प्राथमिक कुंजी की आवश्यकता है। प्राथमिक कुंजी एक मान है जिसका उपयोग किसी तालिका में एक विशिष्ट पंक्ति की पहचान करने के लिए किया जाता है। हालांकि यह स्वयं एक मूल्य पर आधारित हो सकता है (उदाहरण के लिए, हम शहर के नाम का उपयोग कर सकते हैं), यह लगभग हमेशा एक संख्या या अन्य पहचानकर्ता होना चाहिए। हम नहीं चाहते कि आईडी कभी बदले क्योंकि इससे रिश्ता टूट जाएगा। आप ज्यादातर मामलों में पाएंगे कि प्राथमिक कुंजी या आईडी एक स्वतः उत्पन्न संख्या होगी।
-
-> प्राथमिक कुंजी को अक्सर पीके के रूप में संक्षिप्त किया जाता है
-
-### शहरों
-
-| city_id | City     | Country       |
-| ------- | -------- | ------------- |
-| 1       | Tokyo    | Japan         |
-| 2       | Atlanta  | United States |
-| 3       | Auckland | New Zealand   |
-
-> ✅ आप देखेंगे कि हम इस पाठ के दौरान "आईडी" और "प्राथमिक कुंजी" शब्दों का परस्पर उपयोग करते हैं। यहाँ की अवधारणाएँ DataFrames पर लागू होती हैं, जिन्हें आप बाद में एक्सप्लोर करेंगे। डेटाफ़्रेम "प्राथमिक कुंजी" की शब्दावली का उपयोग नहीं करते हैं, हालांकि आप देखेंगे कि वे उसी तरह से बहुत अधिक व्यवहार करते हैं।
-
-हमारे शहरों की तालिका बनाने के साथ, आइए वर्षा को संग्रहित करें। हम शहर के बारे में पूरी जानकारी की नकल करने के बजाय आईडी का उपयोग कर सकते हैं। हमें यह भी सुनिश्चित करना चाहिए कि नई बनाई गई तालिका में एक *id* कॉलम भी हो, क्योंकि सभी तालिकाओं में एक आईडी या प्राथमिक कुंजी होनी चाहिए।
-
-### बारिश
-
-| rainfall_id | city_id | Year | Amount |
-| ----------- | ------- | ---- | ------ |
-| 1           | 1       | 2018 | 1445   |
-| 2           | 1       | 2019 | 1874   |
-| 3           | 1       | 2020 | 1690   |
-| 4           | 2       | 2018 | 1779   |
-| 5           | 2       | 2019 | 1111   |
-| 6           | 2       | 2020 | 1683   |
-| 7           | 3       | 2018 | 1386   |
-| 8           | 3       | 2019 | 942    |
-| 9           | 3       | 2020 | 1176   |
-
-नव निर्मित **वर्षा** तालिका के अंदर **city_id** कॉलम पर ध्यान दें। इस कॉलम में वे मान हैं जो **शहरों** तालिका में आईडी का संदर्भ देते हैं। तकनीकी संबंधपरक डेटा के संदर्भ में, इसे **विदेशी कुंजी** कहा जाता है; यह किसी अन्य तालिका से प्राथमिक कुंजी है। आप इसे केवल एक संदर्भ या सूचक के रूप में सोच सकते हैं। **सिटी_आईडी** 1 संदर्भ टोक्यो।
-
-> [!नोट] विदेशी कुंजी को अक्सर FK . के रूप में संक्षिप्त किया जाता है
-
-## डेटा पुनर्प्राप्त करना
-
-हमारे डेटा को दो तालिकाओं में विभाजित करके, आप सोच रहे होंगे कि हम इसे कैसे पुनः प्राप्त करते हैं। यदि हम एक रिलेशनल डेटाबेस जैसे MySQL, SQL सर्वर या Oracle का उपयोग कर रहे हैं, तो हम स्ट्रक्चर्ड क्वेरी लैंग्वेज या SQL नामक भाषा का उपयोग कर सकते हैं। SQL (कभी-कभी उच्चारित अगली कड़ी) एक मानक भाषा है जिसका उपयोग रिलेशनल डेटाबेस में डेटा को पुनः प्राप्त करने और संशोधित करने के लिए किया जाता है।
-
-डेटा पुनर्प्राप्त करने के लिए आप `SELECT` कमांड का उपयोग करते हैं। इसके मूल में, आप उन स्तंभों को **चुनते हैं जिन्हें आप देखना चाहते हैं **से** उस तालिका में जिसमें वे शामिल हैं। यदि आप केवल शहरों के नाम प्रदर्शित करना चाहते हैं, तो आप निम्न का उपयोग कर सकते हैं:
-
-```sql
-SELECT city
-FROM cities;
-
-- Output:
-- Tokyo
-- Atlanta
-- Auckland
-```
-
-`चयन` वह जगह है जहां आप कॉलम सूचीबद्ध करते हैं, और `से` वह जगह है जहां आप टेबल सूचीबद्ध करते हैं।
-
-> [नोट] SQL सिंटैक्स केस-असंवेदनशील है, जिसका अर्थ है `चुनें` और `चयन` का मतलब एक ही है। हालाँकि, आप जिस प्रकार के डेटाबेस का उपयोग कर रहे हैं उसके आधार पर कॉलम और टेबल केस संवेदनशील हो सकते हैं। नतीजतन, प्रोग्रामिंग में हर चीज को हमेशा केस संवेदी की तरह व्यवहार करना सबसे अच्छा अभ्यास है। SQL क्वेरी लिखते समय सामान्य परंपरा यह है कि कीवर्ड को सभी अपर-केस अक्षरों में रखा जाए।
-
-उपरोक्त क्वेरी सभी शहरों को प्रदर्शित करेगी। आइए कल्पना करें कि हम केवल न्यूजीलैंड में शहरों को प्रदर्शित करना चाहते थे। हमें किसी प्रकार के फ़िल्टर की आवश्यकता है। इसके लिए SQL कीवर्ड `WHERE` या "जहां कुछ सच है" है।
-
-```sql
-SELECT city
-FROM cities
-WHERE country = 'New Zealand';
-
-- Output:
-- Auckland
-```
-
-## डेटा में शामिल होना
-
-अब तक हमने एक ही टेबल से डेटा रिकवर किया है। अब हम **शहरों** और **वर्षा** दोनों के डेटा को एक साथ लाना चाहते हैं। यह उन्हें एक साथ *शामिल करके* किया जाता है। आप प्रभावी रूप से दो तालिकाओं के बीच एक सीम बनाएंगे, और प्रत्येक तालिका से एक कॉलम के मानों का मिलान करेंगे।
-
-हमारे उदाहरण में, हम **वर्षा** में **शहर_आईडी** कॉलम का मिलान **शहरों** में **शहर_आईडी** कॉलम से करेंगे। यह अपने संबंधित शहर के साथ वर्षा मूल्य से मेल खाएगा। हम जिस प्रकार के जॉइन करेंगे, उसे *इनर* जॉइन कहा जाता है, जिसका अर्थ है कि यदि कोई पंक्तियाँ दूसरी टेबल की किसी भी चीज़ से मेल नहीं खाती हैं तो वे प्रदर्शित नहीं होंगी। हमारे मामले में हर शहर में बारिश होती है, इसलिए सब कुछ प्रदर्शित किया जाएगा।
-
-आइए हमारे सभी शहरों के लिए 2019 की वर्षा को पुनः प्राप्त करें।
-
-हम इसे चरणों में करने जा रहे हैं। पहला कदम सीम के लिए कॉलम को इंगित करके डेटा को एक साथ जोड़ना है - **city_id** जैसा कि पहले हाइलाइट किया गया था।
-
-```sql
-SELECT cities.city
-    rainfall.amount
-FROM cities
-    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
-```
-
-हमने उन दो कॉलमों को हाइलाइट किया है जो हम चाहते हैं, और तथ्य यह है कि हम टेबल्स को **city_id** द्वारा एक साथ जोड़ना चाहते हैं। अब हम केवल वर्ष 2019 को फ़िल्टर करने के लिए `WHERE` स्टेटमेंट जोड़ सकते हैं।
-
-```sql
-SELECT cities.city
-    rainfall.amount
-FROM cities
-    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
-WHERE rainfall.year = 2019
-
-- Output
-
-- city     | amount
-- -------- | ------
-- Tokyo    | 1874
-- Atlanta  | 1111
-- Auckland |  942
-```
-
-## सारांश
-
-रिलेशनल डेटाबेस कई तालिकाओं के बीच सूचनाओं को विभाजित करने के आसपास केंद्रित होते हैं जिन्हें बाद में प्रदर्शन और विश्लेषण के लिए एक साथ लाया जाता है। यह गणना करने और अन्यथा डेटा में हेरफेर करने के लिए उच्च स्तर की लचीलापन प्रदान करता है। आपने रिलेशनल डेटाबेस की मूल अवधारणाओं को देखा है, और दो तालिकाओं के बीच जुड़ने का तरीका देखा है।
-
-## चुनौती
-
-इंटरनेट पर कई रिलेशनल डेटाबेस उपलब्ध हैं। आप ऊपर सीखे गए कौशल का उपयोग करके डेटा का पता लगा सकते हैं।
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/9)
-
-## समीक्षा और आत्म अध्ययन
-
-आपके लिए SQL और रिलेशनल डेटाबेस अवधारणाओं की खोज जारी रखने के लिए [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum) पर कई संसाधन उपलब्ध हैं
-
- [संबंधपरक डेटा की अवधारणाओं का वर्णन करें](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-77958-bethanycheum)
- [Transact-SQL के साथ क्वेरी करना प्रारंभ करें](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-77958-bethanycheum) (ट्रांजैक्ट-एसक्यूएल एसक्यूएल का एक संस्करण है)
- [Microsoft पर SQL सामग्री जानें](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-77958-bethanycheum)
-
-## कार्यभार
-
-[असाइनमेंट शीर्षक](assignment.hi.md)
--- a/2-Working-With-Data/05-relational-databases/translations/README.ko.md
+++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md
@ -1,181 +0,0 @@
-# 데이터 처리: 관계형 데이터베이스
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/05-RelationalData.png)|
-|:---:|
-| 데이터 처리: 관계형 데이터베이스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-과거에 스프레드 시트를 통해 정보를 저장한 경험이 있을 것입니다. 이는 행(rows)과 열(columns)을 가지고 있으며, 행(rows)에는 정보(혹은 데이터)를 나타내고 열(columns)에는 해당 정보(또는 메타데이터)를 정의합니다. 관계형 데이터베이스는 테이블의 행과 열의 핵심 원리를 기반으로 구축되며 여러 테이블에 정보를 분산시킬 수 있습니다. 이를 통해 더 복잡한 데이터를 다룰 수 있을 뿐만 아니라 중복을 방지하고, 데이터 탐색 방식에서 유연성을 가질 수 있습니다. 관계형 데이터베이스의 개념을 좀 더 살펴보겠습니다.
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/8)
-
-## 모든 것의 시작 : 테이블(table)
-
-관계형 데이터베이스는 테이블을 가지며, 스프레드 시트와 마찬가지로 열과 행으로 이루어져 있습니다. 행에는 도시 이름이나 강우량등의 작업하고자 하는 데이터나 정보를 나타냅니다. 열에는 저장된 데이터에 대한 설명을 나타냅니다.
-
-그렇다면 이제 실습을 시작해보겠습니다. 우선 도시 정보를 저장하는 테이블을 생성해 보도록 하겠습니다. 아래와 같이 나라와 도시 이름을 저장할 수 있을 것입니다.:
-
-| City     | Country       |
-| -------- | ------------- |
-| Tokyo    | Japan         |
-| Atlanta  | United States |
-| Auckland | New Zealand   |
-
-**city**, **country** 및 **population**의 열 이름은 저장 중인 데이터를 가리키며, 각 행에는 도시에 대한 정보가 저장되어 있습니다.
-
-## 단일 테이블의 단점
-
-위의 테이블은 비교적 친숙해 보일 수도 있습니다. 이제 데이터베이스에 급증하는 연간 강우량(밀리미터 단위)에 대한 몇가지 데이터를 추가해 보겠습니다. 만약 우리가 2018,2018 그리고 2020년의 데이터를 추가한다면, 다음과 같을 것입니다.:
-
-| City  | Country | Year | Amount |
-| ----- | ------- | ---- | ------ |
-| Tokyo | Japan   | 2020 | 1690   |
-| Tokyo | Japan   | 2019 | 1874   |
-| Tokyo | Japan   | 2018 | 1445   |
-
-테이블에서 뭔가 알아차리셨나요? 도시의 이름과 국가를 계속해서 중복적으로 사용하고 있는 것을 발견했을 것입니다. 이러한 경우 불필요한 복사본을 저장함에 따라 저장소 낭비가 발생하게 됩니다. 결국, Tokyo는 하나만 존재해야 합니다.
-
-그렇다면 다른 방식으로 접근해 보겠습니다. 각 연도에 대한 새 열을 추가하겠습니다.:
-
-| City     | Country       | 2018 | 2019 | 2020 |
-| -------- | ------------- | ---- | ---- | ---- |
-| Tokyo    | Japan         | 1445 | 1874 | 1690 |
-| Atlanta  | United States | 1779 | 1111 | 1683 |
-| Auckland | New Zealand   | 1386 | 942  | 1176 |
-
-이러한 방식은 행에 대한 중복을 피할수는 있지만, 몇 가지 해결해야할 과제가 존재합니다. 우선, 새로운 연도가 추가될 때마다 테이블의 구조를 수정해야만 합니다. 또한, 데이터가 증가함에 따라 값을 검색하고 계산하는 것이 더 어려워집니다.
-
-이것이 여러 테이블의 관계가 필요한 이유입니다. 데이터를 분리함으로써 중복을 방지하고, 데이터를 보다 유연하게 사용할 수 있습니다.
-
-## 관계의 개념
-
-다시 데이터를 보며 어떻게 데이터를 분할할 것인지 결정해 보겠습니다. 이미 우리는 City의 Name과 Country를 저장하는 것이 최선의 방법인 것을 알고 있고, 실제로 가장 잘 동작할 것입니다.
-
-| City     | Country       |
-| -------- | ------------- |
-| Tokyo    | Japan         |
-| Atlanta  | United States |
-| Auckland | New Zealand   |
-
-하지만 우리가 다음 테이블을 생성하기 이전에, 우리는 각각의 도시를 어떻게 참조할 것인지 생각해 봐야합니다. 구분 지을 수 있는 여러 형태의 식별자,ID 또는 기본키(Primary key)가 필요합니다. 기본키(Primary key)는 테이블에서 특정 행을 식별하는데 사용되는 값입니다. 기본키로 값 자체(ex. 도시 이름)를 사용할 수도 있지만, 대부분 숫자 또는 다른 식별자가 사용됩니다. ID 값이 바뀌면서 관계를 깨뜨릴 수 있기 때문에 대부분 기본키 또는 자동 생성된 번호를 사용합니다.  
-
-> ✅ 기본키(Primary key)는 주로 PK라고 약칭 됩니다.
-
-### 도시
-
-| city_id | City     | Country       |
-| ------- | -------- | ------------- |
-| 1       | Tokyo    | Japan         |
-| 2       | Atlanta  | United States |
-| 3       | Auckland | New Zealand   |
-
-> ✅ 이번 강의에서 우리는 "id"와 "기본키(Primary key)"를 혼용해서 사용하고 있습니다. 이에 대한 자세한 개념은 나중에 살펴볼 데이터 프레임(DataFrames)에 적용됩니다. 데이터 프레임(DataFrames)이 "기본 키"라는 용어를 사용하지는 않지만, 동일한 방식인 것을 알 수 있습니다.
-
-도시 테이블이 생성되었으니, 강우량 테이블을 만들어 보겠습니다. 도시에 대한 전체 정보를 가져오는 대신, 이제 우리는 id를 사용할 수 있습니다. 모든 테이블은 id 또는 기본 키를 가져야 하므로, 새로 생성되는 테이블도 *id* 열을 가져야 합니다.
-
-### 강수량
-
-| rainfall_id | city_id | Year | Amount |
-| ----------- | ------- | ---- | ------ |
-| 1           | 1       | 2018 | 1445   |
-| 2           | 1       | 2019 | 1874   |
-| 3           | 1       | 2020 | 1690   |
-| 4           | 2       | 2018 | 1779   |
-| 5           | 2       | 2019 | 1111   |
-| 6           | 2       | 2020 | 1683   |
-| 7           | 3       | 2018 | 1386   |
-| 8           | 3       | 2019 | 942    |
-| 9           | 3       | 2020 | 1176   |
-
-새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래키**(foreign key)라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다.
-
-> ✅ 외래키(Foreign key)는 주로 FK라고 약칭합니다.
-
-## 데이터 조회
-
-데이터가 두개의 테이블로 분리되어 있을때는, 어떻게 데이터를 검색할까요?. 만약 우리가 MYSQL, SQL Server, Oracle과 같은 관계형 데이터베이스를 사용하는 경우, 우리는 구조화된 질의언어 혹은 SQL을 사용할 수 있습니다 . SQL("에스큐엘"이라고 발음된다.)은 관계형 데이터베이스에서 데이터를 검색하고 수정하는 데 사용되는 표준 언어입니다.
-
-데이터를 검색할 때는 `SELECT` 명령어를 사용합니다. 핵심은 데이터가 담긴 테이블에서(**from**) 찾고자 하는 열을 검색(**select**)하는 것입니다. 만약 도시의 이름만 보이고 싶다면, 다음 내용을 따라하세요:
-
-```sql
-SELECT city
-FROM cities;
-
-- Output:
-- Tokyo
-- Atlanta
-- Auckland
-```
-
-`SELECT`는 열의 집합이라면, `FROM`은 테이블의 집합이라고 할 수 있습니다.
-
-> [주의] SQL 문법은 대소문자를 구분하지 않으며, `select`와 `SELECT`는 서로 같습니다. 그러나, 데이터베이스의 타입에 따라 열과 테이블은 대소문자를 구분할 수도 있습니다. 따라서, 대소문자를 구분해 프로그래밍하는 것이 좋습니다. SQL 쿼리를 작성할 때 키워드를 대문자로 적는 것이 원칙입니다.
-
-위의 예시 쿼리는 모든 도시를 나타냅니다. 여기서 뉴질랜드(New Zealand)의 도시만 보여주고 싶다면 어떻게 할까요? 사용할 키워드는 `WHERE`, 혹은 "where something is true" 입니다.
-
-```sql
-SELECT city
-FROM cities
-WHERE country = 'New Zealand';
-
-- Output:
-- Auckland
-```
-
-## 데이터 조인
-
-우리는 이전까지 단일 테이블에서 데이터를 검색했습니다. 이제 도시(**city**)와 강수량(**rainfall**)의 데이터를 하나로 통합해 보여주려 합니다. 이것은 데이터 *조인*을 통해서 할 수 있습니다. 데이터 조인은 두개의 다른 테이블의 열을 일치시킴으로써 효과적으로 이어줍니다.
-
-예를들어, 강수량(**rainfall**) 테이블의 **city_id** 열과 도시(**city**) 테이블의 **city_id** 열을 매칭할 수 있습니다. 조인을 통해 각 도시들과 그에 맞는 강수량을 매칭할 것입니다. 여러 조인의 종류 중에서 먼저 다룰 것은 *inner* 조인입니다. *inner* 조인은 테이블간의 행이 정확하게 일치하지 않으면 표시되지 않습니다. 위의 예시의 경우 모든 도시에 비가 내리므로, 모든 행이 표시될 것입니다.
-
-그렇다면 모든 도시의 2019년 강수량을 보겠습니다. 
-
-첫번째로 이전에 강조했던 **city_id** 열을 매칭해 데이터를 결합하겠습니다.
-
-```sql
-SELECT cities.city
-    rainfall.amount
-FROM cities
-    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
-```
-
-같은 **city_id**값과 함께 테이블 명을 명시함으로써, 테이블 조인에 핵심적인 열을 강조했습니다. 이제 `WHERE` 구문을 추가해 2019년만 검색해 보겠습니다.
-
-```sql
-SELECT cities.city
-    rainfall.amount
-FROM cities
-    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
-WHERE rainfall.year = 2019
-
-- Output
-
-- city     | amount
-- -------- | ------
-- Tokyo    | 1874
-- Atlanta  | 1111
-- Auckland |  942
-```
-
-## 요약
-
-관계형 데이터 베이스는 여러 테이블 간에 정보를 분산시키며, 데이터 분석과 검색을 위해 결합됩니다. 계산을 수행할때나 조작할때 높은 유연성을 보장하는 것이 장점입니다. 지금까지 관계형 데이터베이스의 핵심 개념과 두 테이블 간의 조인을 수행하는 방법을 살펴보았습니다.
-
-## 🚀 챌린지
-
-인터넷에는 수많은 관계형 데이터베이스가 있습니다. 위에서 배운 내용과 기술을 토대로 이제 데이터를 자유롭게 다룰 수 있습니다.
-
-## 강의 후 퀴즈
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/9)
-
-## 리뷰 & 복습
-
-[Microsoft 학습](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum)에 SQL 및 관계형 데이터베이스 개념에 대한 학습을 계속할 수 있는 자료들이 있습니다.
-
- [관계형 데이터의 개념 설명](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-77958-bethanycheum)
- [Transact-SQL로 시작하는 쿼리](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-77958-bethanycheum) (Transact-SQL SQL의 버전이다.)
- [Microsoft 학습의 SQL 콘텐츠](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-77958-bethanycheum)
-
-## 과제
-
-[과제](assignment.md)
--- a/2-Working-With-Data/05-relational-databases/translations/README.md
+++ b/2-Working-With-Data/05-relational-databases/translations/README.md
@ -1 +0,0 @@
-<!--add translations to this folder-->
--- a/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
+++ b/2-Working-With-Data/05-relational-databases/translations/assignment.hi.md
@ -1,59 +0,0 @@
-# हवाईअड्डा डेटा प्रदर्शित करना
-
-आपको एक [डेटाबेस](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) प्रदान किया जायेगा। बनाया गया है [SQLite](https://sqlite.org/index.html) पर जिसमें हवाई अड्डों के बारे में जानकारी होती है। स्कीमा नीचे प्रदर्शित किया गया है। आप [विजुअल स्टूडियो कोड](https://code.visualstudio.com/) में [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) का इस्तेमाल करेंगे। Visualstudio.com?WT.mc_id=academic-77958-bethanycheum) विभिन्न शहरों के हवाई अड्डों के बारे में जानकारी प्रदर्शित करने के लिए।
-
-## निर्देश
-
-असाइनमेंट के साथ आरंभ करने के लिए, आपको कुछ चरणों का पालन करना होगा। आपको कुछ टूलींग स्थापित करने और नमूना डेटाबेस डाउनलोड करने की आवश्यकता होगी।
-
-### अपना सिस्टम सेटअप करें
-
-आप डेटाबेस के साथ इंटरैक्ट करने के लिए विजुअल स्टूडियो कोड और SQLite एक्सटेंशन का उपयोग कर सकते हैं।
-
-1. [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum) पर नेविगेट करें और विजुअल स्टूडियो कोड इंस्टॉल करने के लिए निर्देशों का पालन करें
-1. मार्केटप्लेस पेज पर दिए निर्देशों के अनुसार [SQLite एक्सटेंशन](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) एक्सटेंशन इंस्टॉल करें
-
-### डेटाबेस डाउनलोड करें और खोलें
-
-इसके बाद आप एक ओपन डेटाबेस डाउनलोड करेंगे।
-
-1. [GitHub से डेटाबेस फ़ाइल](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) डाउनलोड करें और इसे एक निर्देशिका में सहेजें
-1. विजुअल स्टूडियो कोड खोलें
-1. SQLite एक्सटेंशन में डेटाबेस को **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) चुनकर और `SQLite: Open database` टाइप करके खोलें।
-1. **फ़ाइल से डेटाबेस चुनें** चुनें और **airports.db** फ़ाइल खोलें जिसे आपने पहले डाउनलोड किया था
-1. डेटाबेस खोलने के बाद (आप स्क्रीन पर अपडेट नहीं देखेंगे), **Ctl-Shift-P** (या मैक पर **Cmd-Shift-P**) का चयन करके एक नई क्वेरी विंडो बनाएं। और `SQLite: new query` टाइप करना
-
-एक बार खुलने के बाद, नई क्वेरी विंडो का उपयोग डेटाबेस के विरुद्ध SQL कथन चलाने के लिए किया जा सकता है। डेटाबेस के विरुद्ध क्वेरी चलाने के लिए आप **Ctl-Shift-Q** (या मैक पर **Cmd-Shift-Q**) कमांड का उपयोग कर सकते हैं।
-
-> [!नोट] SQLite एक्सटेंशन के बारे में अधिक जानकारी के लिए, आप [दस्तावेज़ीकरण](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) से परामर्श कर सकते हैं।
-
-## डेटाबेस स्कीमा
-
-एक डेटाबेस की स्कीमा इसकी टेबल डिजाइन और संरचना है। **airports** डेटाबेस दो तालिकाओं के रूप में, `cities`, जिसमें यूनाइटेड किंगडम और आयरलैंड के शहरों की सूची है, और `airports`, जिसमें सभी हवाई अड्डों की सूची है। क्योंकि कुछ शहरों में कई हवाई अड्डे हो सकते हैं, जानकारी संग्रहीत करने के लिए दो टेबल बनाए गए थे। इस अभ्यास में आप विभिन्न शहरों की जानकारी प्रदर्शित करने के लिए जॉइन का उपयोग करेंगे।
-
-| Cities           |
-| ---------------- |
-| id (PK, integer) |
-| city (text)      |
-| country (text)   |
-
-| Airports                         |
-| -------------------------------- |
-| id (PK, integer)                 |
-| name (text)                      |
-| code (text)                      |
-| city_id (FK to id in **Cities**) |
-
-## कार्यभार
-
-निम्नलिखित जानकारी वापस करने के लिए प्रश्न बनाएं:
-
-1. `Cities` तालिका में सभी शहर के नाम
-1. आयरलैंड के सभी शहर `Cities` तालिका . में
-1. सभी हवाई अड्डों के नाम उनके शहर और देश के साथ
-1. लंदन, यूनाइटेड किंगडम में सभी हवाई अड्डे
-
-## रूब्रिक
-
-| अनुकरणीय  |   पर्याप्त   |   सुधार की जरूरत  |
-| --------- | -------- | ----------------- |
--- a/2-Working-With-Data/06-non-relational/translations/README.hi.md
+++ b/2-Working-With-Data/06-non-relational/translations/README.hi.md
@ -1,148 +0,0 @@
-# डेटा के साथ कार्य करना: गैर-संबंधपरक डेटा
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/06-NoSQL.png)|
-|:---:|
-|NoSQL डेटा के साथ काम करना - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/10)
-
-डेटा रिलेशनल डेटाबेस तक सीमित नहीं है। यह पाठ गैर-संबंधपरक डेटा पर केंद्रित है और इसमें स्प्रेडशीट और NoSQL की मूल बातें शामिल होंगी।
-
-## स्प्रेडशीट
-
-स्प्रेडशीट डेटा को स्टोर और एक्सप्लोर करने का एक लोकप्रिय तरीका है क्योंकि इसे सेटअप करने और आरंभ करने के लिए कम काम की आवश्यकता होती है। इस पाठ में आप स्प्रेडशीट के बुनियादी घटकों के साथ-साथ सूत्रों और कार्यों के बारे में जानेंगे। उदाहरणों को Microsoft Excel के साथ चित्रित किया जाएगा, लेकिन अधिकांश भागों और विषयों में अन्य स्प्रेडशीट सॉफ़्टवेयर की तुलना में समान नाम और चरण होंगे।
-
-![दो वर्कशीट के साथ एक खाली माइक्रोसॉफ्ट एक्सेल वर्कबुक](../images/parts-of-spreadsheet.png)
-
-स्प्रैडशीट एक फ़ाइल है और इसे कंप्यूटर, डिवाइस या क्लाउड आधारित फ़ाइल सिस्टम के फ़ाइल सिस्टम में एक्सेस किया जा सकता है। सॉफ़्टवेयर स्वयं ब्राउज़र आधारित या एक एप्लिकेशन हो सकता है जिसे कंप्यूटर पर इंस्टॉल किया जाना चाहिए या ऐप के रूप में डाउनलोड किया जाना चाहिए। Excel में इन फ़ाइलों को **कार्यपुस्तिका** के रूप में भी परिभाषित किया जाता है और इस शब्दावली का उपयोग इस पाठ के शेष भाग में किया जाएगा।
-
-किसी कार्यपुस्तिका में एक या अधिक **कार्यपत्रक** होते हैं, जहां प्रत्येक कार्यपत्रक को टैब द्वारा लेबल किया जाता है। वर्कशीट के भीतर **सेल्स** नामक आयत होते हैं, जिनमें वास्तविक डेटा होगा। एक सेल एक पंक्ति और स्तंभ का प्रतिच्छेदन है, जहां स्तंभों को वर्णानुक्रमिक वर्णों और पंक्तियों को संख्यात्मक रूप से लेबल किया जाता है। कुछ स्प्रैडशीट्स में सेल में डेटा का वर्णन करने के लिए पहली कुछ पंक्तियों में हेडर होंगे।
-
-Excel कार्यपुस्तिका के इन बुनियादी तत्वों के साथ, हम उपयोग करेंगे और [माइक्रोसॉफ्ट टेम्पलेट्स](https://templates.office.com/) के एक उदाहरण का उपयोग एक स्प्रैडशीट के कुछ अतिरिक्त भागों के माध्यम से चलने के लिए एक इन्वेंट्री पर केंद्रित होगा।
-
-### एक सूची का प्रबंधन
-
-"इन्वेंटरी उदाहरण" नाम की स्प्रैडशीट फ़ाइल एक इन्वेंट्री के भीतर आइटम्स की एक स्वरूपित स्प्रेडशीट है जिसमें तीन वर्कशीट होते हैं, जहां टैब को "इन्वेंटरी लिस्ट", "इन्वेंटरी पिक लिस्ट" और "बिन लुकअप" के रूप में लेबल किया जाता है। इन्वेंटरी लिस्ट वर्कशीट की पंक्ति 4 हेडर है, जो हेडर कॉलम में प्रत्येक सेल के मूल्य का वर्णन करता है।
-
-![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया सूत्र](../images/formula-excel.png)
-
-ऐसे उदाहरण हैं जहां एक सेल अपना मूल्य उत्पन्न करने के लिए अन्य कोशिकाओं के मूल्यों पर निर्भर है। इन्वेंटरी लिस्ट स्प्रैडशीट अपनी इन्वेंट्री में प्रत्येक आइटम की लागत का ट्रैक रखती है, लेकिन क्या होगा यदि हमें इन्वेंट्री में हर चीज का मूल्य जानने की आवश्यकता है? [**सूत्र**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) सेल डेटा पर कार्रवाई करते हैं और इसका उपयोग गणना करने के लिए किया जाता है इस उदाहरण में सूची की लागत। इस स्प्रैडशीट ने प्रत्येक आइटम के मूल्य की गणना करने के लिए इन्वेंटरी वैल्यू कॉलम में एक सूत्र का उपयोग किया है, जो कि QTY हेडर के तहत मात्रा को गुणा करके और इसकी लागत को COST हेडर के तहत सेल द्वारा गुणा करके किया जाता है। किसी सेल पर डबल क्लिक या हाईलाइट करना फॉर्मूला दिखाएगा। आप देखेंगे कि सूत्र बराबर चिह्न से शुरू होते हैं, उसके बाद गणना या संचालन होता है।
-
-![Microsoft Excel में एक उदाहरण सूची सूची से एक हाइलाइट किया गया फ़ंक्शन](../images/function-excel.png)
-
-हम इसका कुल मूल्य प्राप्त करने के लिए इन्वेंटरी वैल्यू के सभी मूल्यों को एक साथ जोड़ने के लिए एक अन्य सूत्र का उपयोग कर सकते हैं। योग उत्पन्न करने के लिए प्रत्येक सेल को जोड़कर इसकी गणना की जा सकती है, लेकिन यह एक कठिन काम हो सकता है। Excel में [**functions**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), या सेल मानों पर गणना करने के लिए पूर्वनिर्धारित सूत्र हैं . फ़ंक्शंस के लिए तर्कों की आवश्यकता होती है, जो इन गणनाओं को करने के लिए उपयोग किए जाने वाले आवश्यक मान हैं। जब फ़ंक्शंस को एक से अधिक तर्क की आवश्यकता होती है, तो उन्हें किसी विशेष क्रम में सूचीबद्ध करने की आवश्यकता होगी या फ़ंक्शन सही मान की गणना नहीं कर सकता है। यह उदाहरण SUM फ़ंक्शन का उपयोग करता है, और पंक्ति 3, कॉलम B (जिसे B3 भी कहा जाता है) के तहत सूचीबद्ध कुल जोड़ने के तर्क के रूप में इन्वेंट्री वैल्यू के मानों का उपयोग करता है।
-
-## नोएसक्यूएल (NoSQL)
-
-NoSQL गैर-संबंधपरक डेटा को संग्रहीत करने के विभिन्न तरीकों के लिए एक छत्र शब्द है और इसे "गैर-एसक्यूएल", "गैर-संबंधपरक" या "न केवल एसक्यूएल" के रूप में व्याख्या किया जा सकता है। इस प्रकार के डेटाबेस सिस्टम को 4 प्रकारों में वर्गीकृत किया जा सकता है।
-
-![एक की-वैल्यू डेटा स्टोर का ग्राफिकल प्रतिनिधित्व 4 अद्वितीय संख्यात्मक कुंजियाँ दिखा रहा है जो 4 विभिन्न मानों से जुड़ी हैं](../images/kv-db.png)
-> [माइकल बियालेकी ब्लॉग](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) से स्रोत
-
-[मौलिक मूल्य](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) डेटाबेस अद्वितीय कुंजी जोड़ते हैं, जो एक मूल्य से जुड़े एक अद्वितीय पहचानकर्ता हैं। इन जोड़ियों को एक उपयुक्त हैशिंग फ़ंक्शन के साथ [हैश टेबल](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) का उपयोग करके संग्रहीत किया जाता है।
-
-![लोगों, उनकी रुचियों और स्थानों के बीच संबंधों को दर्शाने वाले ग्राफ़ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/graph-db.png)
-> [माइक्रोसॉफ्ट](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) से स्रोत
-
-[ग्राफ](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) डेटाबेस डेटा में संबंधों का वर्णन करते हैं और उनका प्रतिनिधित्व करते हैं नोड्स और किनारों के संग्रह के रूप में। एक नोड एक इकाई का प्रतिनिधित्व करता है, कुछ ऐसा जो वास्तविक दुनिया में मौजूद है जैसे कि छात्र या बैंक स्टेटमेंट। किनारे दो संस्थाओं के बीच संबंध का प्रतिनिधित्व करते हैं प्रत्येक नोड और किनारे में ऐसे गुण होते हैं जो प्रत्येक नोड और किनारों के बारे में अतिरिक्त जानकारी प्रदान करते हैं।
-
-![पहचान और संपर्क जानकारी नामक दो स्तंभ परिवारों के साथ एक ग्राहक डेटाबेस दिखाते हुए एक स्तंभ डेटा स्टोर का चित्रमय प्रतिनिधित्व](../images/columnar-db.png)
-
-[Columnar](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) डेटा स्टोर डेटा को कॉलम और पंक्तियों में व्यवस्थित करता है एक संबंधपरक डेटा संरचना की तरह लेकिन प्रत्येक कॉलम को एक कॉलम परिवार नामक समूहों में विभाजित किया जाता है, जहां एक कॉलम के तहत सभी डेटा संबंधित होते हैं और एक इकाई में पुनर्प्राप्त और बदला जा सकता है।
-
-### Azure Cosmos DB के साथ दस्तावेज़ डेटा स्टोर
-
-[दस्तावेज़](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) डेटा स्टोर एक की अवधारणा पर निर्मित होते हैं कुंजी-मूल्य डेटा स्टोर और फ़ील्ड और ऑब्जेक्ट्स की एक श्रृंखला से बना है। यह खंड कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटाबेस का पता लगाएगा।
-
-एक Cosmos DB डेटाबेस "न केवल SQL" की परिभाषा में फिट बैठता है, जहाँ Cosmos DB का दस्तावेज़ डेटाबेस डेटा को क्वेरी करने के लिए SQL पर निर्भर करता है। SQL पर [पिछला पाठ](../../05-relational-databases/README.md) भाषा की मूल बातें शामिल करता है, और हम यहां दस्तावेज़ डेटाबेस में कुछ समान प्रश्नों को लागू करने में सक्षम होंगे। हम Cosmos DB Emulator का उपयोग करेंगे, जो हमें कंप्यूटर पर स्थानीय रूप से एक दस्तावेज़ डेटाबेस बनाने और एक्सप्लोर करने की अनुमति देता है। एमुलेटर के बारे में और पढ़ें [यहां](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)।
-
-एक दस्तावेज़ फ़ील्ड और ऑब्जेक्ट मानों का संग्रह है, जहां फ़ील्ड वर्णन करते हैं कि ऑब्जेक्ट मान क्या दर्शाता है। नीचे एक दस्तावेज़ का एक उदाहरण है।
-
-```json
-{
-    "firstname": "Eva",
-    "age": 44,
-    "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
-    "_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
-    "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
-    "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
-    "_attachments": "attachments/",
-    "_ts": 1630544034
-}
-```
-
-इस दस्तावेज़ में रुचि के क्षेत्र हैं: `firstname`, `id`, और `age`। अंडरस्कोर के साथ बाकी फ़ील्ड कॉसमॉस डीबी द्वारा उत्पन्न किए गए थे।
-
-#### कॉसमॉस डीबी एम्यूलेटर के साथ डेटा एक्सप्लोर करना
-
-आप एमुलेटर [यहां विंडोज के लिए](https://aka.ms/cosmosdb-emulator) डाउनलोड और इंस्टॉल कर सकते हैं। इस [दस्तावेज़ीकरण](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) को देखें। macOS और Linux के लिए एमुलेटर चलाएँ।
-
-एमुलेटर एक ब्राउज़र विंडो लॉन्च करता है, जहां एक्सप्लोरर व्यू आपको दस्तावेजों का पता लगाने की अनुमति देता है।
-
-![कॉसमॉस डीबी एम्यूलेटर का एक्सप्लोरर व्यू](../images/cosmosdb-emulator-explorer.png)
-
-यदि आप साथ चल रहे हैं, तो नमूना डीबी नामक नमूना डेटाबेस उत्पन्न करने के लिए "नमूना के साथ प्रारंभ करें" पर क्लिक करें। यदि आप तीर पर क्लिक करके नमूना डीबी का विस्तार करते हैं तो आपको `Persons` नामक एक कंटेनर मिलेगा, एक कंटेनर में वस्तुओं का संग्रह होता है, जो कंटेनर के भीतर दस्तावेज होते हैं। आप `Items` के तहत चार अलग-अलग दस्तावेजों का पता लगा सकते हैं।
-
-![कॉसमॉस डीबी एमुलेटर में नमूना डेटा की खोज](../images/cosmosdb-emulator-persons.png)
-
-#### कॉसमॉस डीबी एमुलेटर के साथ दस्तावेज़ डेटा को क्वेरी करना
-
-हम नए SQL क्वेरी बटन (बाएं से दूसरा बटन) पर क्लिक करके नमूना डेटा को क्वेरी कर सकते हैं।
-
-`SELECT * FROM c` कंटेनर में सभी दस्तावेज लौटाता है। आइए एक क्लॉज जोड़ें और 40 से कम उम्र के सभी लोगों को खोजें।
-
-`SELECT * FROM c where c.age < 40`
-
- ![40 से कम आयु फ़ील्ड मान वाले दस्तावेज़ों को खोजने के लिए Cosmos DB एमुलेटर में नमूना डेटा पर एक चयन क्वेरी चला रहा है](../images/cosmosdb-emulator-persons-query.png)
-
-क्वेरी दो दस्तावेज़ लौटाती है, ध्यान दें कि प्रत्येक दस्तावेज़ के लिए आयु मान 40 . से कम है.
-
-#### JSON और दस्तावेज़
-
-यदि आप जावास्क्रिप्ट ऑब्जेक्ट नोटेशन (JSON) से परिचित हैं, तो आप देखेंगे कि दस्तावेज़ JSON के समान दिखते हैं। इस निर्देशिका में अधिक डेटा वाली एक `PersonsData.json` फ़ाइल है जिसे आप `Upload Item` बटन के माध्यम से एम्यूलेटर में व्यक्ति कंटेनर में अपलोड कर सकते हैं।
-
-ज्यादातर मामलों में, JSON डेटा लौटाने वाले API को सीधे दस्तावेज़ डेटाबेस में स्थानांतरित और संग्रहीत किया जा सकता है। नीचे एक और दस्तावेज है, यह माइक्रोसॉफ्ट ट्विटर अकाउंट से ट्वीट्स का प्रतिनिधित्व करता है जिसे ट्विटर एपीआई (API) का उपयोग करके पुनर्प्राप्त किया गया था, फिर कॉसमॉस डीबी में डाला गया था।
-
-```json
-{
-    "created_at": "2021-08-31T19:03:01.000Z",
-    "id": "1432780985872142341",
-    "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
-    "_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
-    "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
-    "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
-    "_attachments": "attachments/",
-    "_ts": 1630537000
-}
-```
-
-इस दस्तावेज़ में रुचि के क्षेत्र हैं: `created_at`, `id`, और `text`।
-
-## चुनौती
-
-
-एक `TwitterData.json` फ़ाइल है जिसे आप नमूना डीबी डेटाबेस पर अपलोड कर सकते हैं। यह अनुशंसा की जाती है कि आप इसे एक अलग कंटेनर में जोड़ें। इसके द्वारा किया जा सकता है:
-
-1. ऊपर दाईं ओर नए कंटेनर बटन पर क्लिक करना
-1. कंटेनर के लिए एक कंटेनर आईडी बनाने के लिए मौजूदा डेटाबेस (SampleDB) का चयन करना
-1. विभाजन कुंजी को `/id` . पर सेट करना
-1. ओके पर क्लिक करना (आप इस दृश्य में शेष जानकारी को अनदेखा कर सकते हैं क्योंकि यह आपकी मशीन पर स्थानीय रूप से चलने वाला एक छोटा डेटासेट है)
-1. अपना नया कंटेनर खोलें और 'आइटम अपलोड करें' बटन के साथ Twitter डेटा फ़ाइल अपलोड करें
-
-टेक्स्ट फ़ील्ड में Microsoft वाले दस्तावेज़ ढूँढने के लिए कुछ चुनिंदा क्वेरीज़ चलाने का प्रयास करें। संकेत: [LIKE कीवर्ड](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) का उपयोग करने का प्रयास करें
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/11)
-
-
-
-## समीक्षा और आत्म अध्ययन
-
- इस स्प्रैडशीट में कुछ अतिरिक्त स्वरूपण और विशेषताएं जोड़ी गई हैं जिन्हें इस पाठ में शामिल नहीं किया गया है। यदि आप अधिक सीखने में रुचि रखते हैं, तो Microsoft के पास एक्सेल पर [दस्तावेज़ीकरण और वीडियो की बड़ी लाइब्रेरी](https://support.microsoft.com/excel) है।
-
- यह वास्तु दस्तावेज विभिन्न प्रकार के गैर-संबंधपरक डेटा में विशेषताओं का विवरण देता है: [गैर-संबंधपरक डेटा और NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data))
-
- कॉसमॉस डीबी एक क्लाउड आधारित गैर-संबंधपरक डेटाबेस है जो इस पाठ में उल्लिखित विभिन्न नोएसक्यूएल प्रकारों को भी संग्रहीत कर सकता है। इस [कॉसमॉस डीबी माइक्रोसॉफ्ट लर्न मॉड्यूल](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) में इन प्रकारों के बारे में और जानें 
-
-## कार्यभार
-
-[सोडा लाभ](assignment.hi.md)
--- a/2-Working-With-Data/06-non-relational/translations/README.ko.md
+++ b/2-Working-With-Data/06-non-relational/translations/README.ko.md
@ -1,149 +0,0 @@
-# 데이터 처리: 비-관계형 데이터
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/06-NoSQL.png)|
-|:---:|
-|데이터 처리: NoSQL 데이터 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/10)
-
-데이터는 관계형 데이터베이스에만 국한되지 않습니다. 이 과정을 통해 비-관계형 데이터에 초점을 맞춰 스프레드시트와 NoSQL의 기초에 대해 설명하겠습니다.
-
-## 스프레드시트
-
-스프레드시트는 설정 및 시작에 필요한 작업량이 적기 때문에 데이터를 저장하거나 탐색하는 일반적인 방법입니다. 이 과정에서는 공식 및 함수뿐만 아니라 스프레드시트의 기본 구성요소에 대해 알아보겠습니다. 예시들은 Microsoft Excel에서 다룰 것이며, 대부분의 다른 스프레드시트 소프트웨어 또한 유사한 이름과 단계들을 가지고 있습니다.
-
-![An empty Microsoft Excel workbook with two worksheets](../images/parts-of-spreadsheet.png)
-
-스프레드시트는 하나의 파일이며, 컴퓨터, 장치, 클라우드 기반 파일 시스템에서 접근할 수 있습니다. 소프트웨어 자체로써 브라우저 기반이거나 컴퓨터나 앱에서 다운로드해야 하는 응용 프로그램일 수도 있습니다. 엑셀에서 이러한 파일은 **워크북**이라고 정의되며, 이 과정의 나머지 부분에서 다시 설명하도록 하겠습니다.
-
-워크북은 하나 이상의 **워크시트**가 포함되며, 각 워크시트에는 탭으로 레이블이 지정됩니다. 워크시트에는 **셀**이라 불리는 사각형이 있고, 실제 데이터가 여기에 들어가게 됩니다. 셀은 행과 열의 교차하며 열에는 알파벳 문자의 레이블, 행에는 숫자 레이블이 지정됩니다. 일부 스프레드시트는 처음 몇 행에 셀의 데이터를 설명하는 머릿글이 위치할 수도 있습니다.
-
-엑셀 워크북의 기본 요소를 사용하며 스프레드시트의 몇가지 추가적인 기능을 살펴보기 위해서, 재고를 다루는 [마이크로소프트 템플릿](https://templates.office.com/)에서 제공하는 몇 가지 예제를 사용하겠습니다. 
-
-### 재고 관리
-
-"재고 예시"라는 스프레드시트 파일은 세 개의 워크시트를 가지고 있는 재고 목록의 형식화된 스프레드시트입니다. 탭에는 "재고 목록", "선택한 재고 목록", "Bin 조회" 레이블을 가지고 있습니다. 재고 목록 워크시트의 4행은 각 셀의 값을 설명하는 머리글입니다.
-
-![A highlighted formula from an example inventory list in Microsoft Excel](../images/formula-excel.png)
-
-위의 예시 중 어떤 셀은 값을 생성하기 위해 다른 셀의 값에 의존하기도 합니다. 재고 목록 스프레드시트는 재고에 대한 단가는 가지고 있지만, 만약 우리가 재고의 전체적인 비용을 알아야 한다면 어떻게 할까? 이 예에서 [**공식**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) 셀 데이터에 대해 계산을 수행하고 재고 비용을 계산하는 데 사용됩니다. 이 스프레드시트는 재고 비용 열의 공식을 사용해 QTY 헤더에 따른 수량과 COST 헤더에 따른 단가를 곱해 각 항목의 값을 계산했습니다. 셀을 두 번 클릭하거나 강조 표시하면 공식이 표시됩니다. 공식은 등호 다음에 계산 또는 연산으로 시작합니다. 
-
-![A highlighted function from an example inventory list in Microsoft Excel](../images/function-excel.png)
-
-우리는 재고 비용의 모든 값을 더한 총 합계를 구하기 위해 다른 공식을 사용할 수도 있습니다. 총 합계를 계산하기 위해 각각의 셀을 추가해 계산할 수도 있지만, 이것은 너무 지루한 작업입니다. 이 같은 문제를 해결하기 위해 엑셀은 [**함수**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), 또는 셀 값에 대한 계산을 수행하기 위한 사전에 정의된 공식을 가지고 있습니다. 함수는 이러한 계산을 수행하는 데 필요한 값인 인수가 필요합니다. 함수에 둘 이상의 인수가 필요한 경우, 인수가 특정 순서로 나열되지 않는다면 올바른 값이 도출되지 않을 수 있습니다. 이 예제에서는 SUM 함수를 사용하겠습니다. 재고 값들을 인수로 사용해, 3행 B열(또는 B3)에 나열된 합계를 추가합니다.
-
-## NoSQL
-
-NoSQL은 비관계적 데이터를 저장하는 다양한 방법을 포괄적으로 지칭하는 용어이며, "비SQL", "비-관계적" 또는 "SQL의 확장"으로 해석될 수 있다. 이러한 유형의 데이터베이스 시스템은 4가지 유형으로 분류할 수 있습니다.
-
-![Graphical representation of a key-value data store showing 4 unique numerical keys that are associated with 4 various values](../images/kv-db.png)
-> 출처: [Michał Białecki 블로그](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/)
-
-[키-값](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) 데이터베이스는 값과 연결된 고유 식별자인 고유 키를 쌍으로 구성합니다. 이러한 쌍들은 해시 함수를 사용하여 [해시 테이블](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/)에 저장됩니다.
-
-
-![Graphical representation of a graph data store showing the relationships between people, their interests and locations](../images/graph-db.png)
-> 출처: [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example)
-
-[그래프](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) 데이터베이스는 데이터의 관계를 설명하고 노드(node)와 엣지(edge)의 집합으로 표현됩니다. 노드는 학생 또는 은행 명세서처럼 실제 세계에 존재하는 엔티티를 나타냅니다. 엣지는 두 엔티티간의 관계를 나타냅니다. 각 노드와 가장자리는 각각에 대한 추가 정보를 제공하는 속성을 가지고 있습니다.
-
-![Graphical representation of a columnar data store showing a customer database with two column families named Identity and Contact Info](../images/columnar-db.png)
-
-[컬럼 기반](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) 데이터 스토어는 데이터를 관계형 데이터 구조처럼 열과 행으로 구성하지만, 각 열은  컬럼패밀리(column family)라 불리는 그룹으로 나뉘며, 한 컬럼 아래의 모든 데이터가 관련되 하나의 단위로 검색 및 변경할 수 있습니다.
-
-### Azure Cosmos DB를 사용한 문서 데이터 저장소
-
-[문서](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) 데이터 저장소는 키 값 데이터 저장소의 개념을 기반으로 하며, 일련의 필드와 객체로 구성됩니다. 이 섹션에서는 Cosmos DB 에뮬레이터를 사용하여 문서 데이터베이스를 살펴봅니다.
-
-Cosmos DB 데이터베이스는 "Not Only SQL"의 정의에 부합하며, 여기서 Cosmos DB의 문서 데이터베이스는 SQL에 의존하여 데이터를 쿼리합니다. SQL에 대한 [이전 과정](../../05-relational-databases/README.md)에서는 언어의 기본 사항에 대해 설명하며 여기서 동일한 쿼리 중 일부를 문서 데이터베이스에 적용할 수 있습니다. 우리는 컴퓨터에서 로컬로 문서 데이터베이스를 만들고 탐색할 수 있는 Cosmos DB 에뮬레이터를 사용할 것입니다. 에뮬레이터에 관해서는 [이곳](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21)에서 더 자세히 알아보세요.
-
-문서는 필드 및 오브젝트 값의 집합으로, 여기서 필드는 오브젝트 값이 나타내는 것을 설명합니다. 아래는 문서의 예시입니다.
-
-```json
-{
-    "firstname": "Eva",
-    "age": 44,
-    "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5",
-    "_rid": "bHwDAPQz8s0BAAAAAAAAAA==",
-    "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/",
-    "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"",
-    "_attachments": "attachments/",
-    "_ts": 1630544034
-}
-```
-
-이 문서의 관심 필드는 `firstname`, `id`, 그리고 `age` 입니다. 밑줄이 있는 나머지 필드는 Cosmos DB에서 생성되었습니다.
-
-#### Cosmos DB 에뮬레이터를 이용한 데이터 탐색
-
-당신은 [이곳](https://aka.ms/cosmosdb-emulator)에서 윈도우 전용 에뮬레이터를 다운로드하여 설치할 수 있습니다. macOS 및 Linux용 에뮬레이터를 실행하는 방법은 이 [설명서](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos)를 참조하세요.
-
-에뮬레이터는 탐색기 보기를 통해 문서를 탐색할 수 있는 브라우저 창을 실행합니다.
-
-![The Explorer view of the Cosmos DB Emulator](../images/cosmosdb-emulator-explorer.png)
-
-다음은 "샘플부터 시작(Start with Sample)"을 클릭하여 샘플DB(SampleDB)라고 불리는 샘플 데이터베이스를 
-생성합니다. 화살표를 클릭하여 샘플 DB를 확장하게 되면, 컨테이너 안에 있는 문서인 항목들을 모아둔 `사람`이라는 컨테이너가 있습니다. 당신은 이제 `항목` 아래에 있는 4개의 개별문서들을 탐색할 수 있습니다.
-
-![Exploring sample data in the Cosmos DB Emulator](../images/cosmosdb-emulator-persons.png)
-
-#### Cosmos DB 에뮬레이터를 사용한 문서 데이터 쿼리
-
-우리는 또한 새로운 SQL Query 버튼(왼쪽에서 2번째 버튼)을 클릭하여 샘플 데이터를 조회할 수 있습니다.
-
-`SELECT * FROM c` 는 컨테이너에 있는 모든 문서를 반환합니다. `WHERE` 절을 추가하고 40세 이하의 모든 사람을 찾아봅시다!
-
-`SELECT * FROM c where c.age < 40`
-
- ![Running a SELECT query on sample data in the Cosmos DB Emulator to find documents that have an age field value that is less than 40](../images/cosmosdb-emulator-persons-query.png)
-
-이 쿼리는 나이에 대한 값이 40보다 작은 두 개의 문서를 반환합니다.
-
-#### JSON 과 문서들
-
-만약 당신이 JavaScript Object Notation (JSON)에 익숙한 경우 문서가 JSON과 유사하다는 것을 알 수 있습니다. 이 디렉토리에는 `항목 업로드` 버튼을 통해 에뮬레이터의 사용자 컨테이너에 업로드할 수 있는 더 많은 데이터가 포함된 `PersonData.json` 파일이 있습니다.
-
-대부분의 경우 JSON 데이터를 반환하는 API는 문서 데이터 베이스에 직접 전송 및 저장할 수 있습니다. 아래는 트위터 API를 사용하여 검색된 마이크로소프트 트위터 계정의 트윗을 나타낸 문서이며 Cosmos DB에 삽입되었습니다.
-
-```json
-{
-    "created_at": "2021-08-31T19:03:01.000Z",
-    "id": "1432780985872142341",
-    "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK",
-    "_rid": "dhAmAIUsA4oHAAAAAAAAAA==",
-    "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/",
-    "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"",
-    "_attachments": "attachments/",
-    "_ts": 1630537000
-```
-
-이 문서의 관심 필드는 `created_at`, `id`, 그리고 `text` 입니다.
-
-## 🚀 과제
-
-샘플 DB 데이터베이스에 업로드할 수 있는 `TwitterData.json` 파일이 있습니다. 별도의 컨테이너에 추가하는 것을 추천합니다. 이 작업은 다음에 따라 수행할 수 있습니다.:
-
-1. 오른쪽 상단에 있는 새 컨테이너 버튼을 클릭합니다.
-1. 컨테이너에 대한 컨테이너 id 를 작성하는 기존 데이터베이스(Sample DB)를 선택합니다.
-1. 파티션 키를 `/id`로 설정합니다.
-1. OK(확인)를 클릭합니다.(이 보기의 나머지 정보는 컴퓨터에서 로컬로 실행되는 작은 데이터 집합이므로 무시할 수 있습니다.)
-1. 새 컨테이너를 열고 `항목업로드`버튼으로 트위터 데이터 파일을 업로드합니다.
-
-텍스트 필드에 Microsoft가 있는 문서를 찾기 위해 몇 가지 쿼리를 실행해 보십시오. 힌트: [LIKE 키워드](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character)를 사용해 보십시오.
-
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/11)
-
-
-
-## 리뷰 & 복습
-
- 이 과정에서는 다루지 않는 일부 추가 형식 및 기능이 이 스프레드쉬트에 추가되었습니다. 마이크로 소프트는 흥미를 가질만한 엑셀에 대한 [많은 영상과 문서들](https://support.microsoft.com/excel)을 가지고 있습니다.
-
- 이 아키텍처 문서에는 여러 유형의 비관계형 데이터의 특성이 자세히 나와 있습니다: [비-관계형 데이터와 NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)
-
- Cosmos DB는 클라우드 기반 비관계형 데이터베이스로, 이 과정에서 언급한 다양한 NoSQL 유형도 저장할 수 있습니다. [Cosmos DB Microsoft 학습 모듈](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/)에서 이러한 유형에 대해 자세히 알아보세요.
-
-## 과제
-
-[탄산음료 수익](assignment.md)
--- a/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
+++ b/2-Working-With-Data/06-non-relational/translations/assignment.hi.md
@ -1,19 +0,0 @@
-# सोडा लाभ
-
-## निर्देश
-
-[कोका कोला कंपनी स्प्रेडशीट](../CocaColaCo.xlsx) में कुछ गणनाएं नहीं हैं। आपका कार्य है:
-
-1. वित्त वर्ष '15, '16, '17, और '18' के सकल लाभ की गणना करें
-     - सकल लाभ = शुद्ध परिचालन राजस्व - बेची गई वस्तुओं की लागत
-1. सभी सकल लाभ के औसत की गणना करें। इसे एक फ़ंक्शन के साथ करने का प्रयास करें।
-     - औसत = वित्तीय वर्षों की संख्या से विभाजित सकल लाभ का योग (10)
-     - [औसत फ़ंक्शन](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) पर दस्तावेज़ीकरण
-1. यह एक एक्सेल फाइल है, लेकिन इसे किसी भी स्प्रेडशीट प्लेटफॉर्म में संपादित किया जा सकता है
-
-[यीयी वांग को डेटा स्रोत क्रेडिट](https://www.kaggle.com/yiyiwang0826/cocacola-excel)
-
-## रूब्रिक
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
--- a/2-Working-With-Data/07-python/translations/README.ko.md
+++ b/2-Working-With-Data/07-python/translations/README.ko.md
@ -1,284 +0,0 @@
-# 데이터 처리: Python and Panda 라이브러리
-
-| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/07-WorkWithPython.png) |
-| :-------------------------------------------------------------------------------------------------------: |
-|                 데이터처리: 파이썬(python) - _Sketchnote by [@nitya](https://twitter.com/nitya)_                 |
-
-[![Intro Video](../images/video-ds-python.png)](https://youtu.be/dZjWOGbsN4Y)
-
-데이터베이스가 질의 언어를 사용하여 데이터를 저장하고 쿼리하는 매우 효율적인 방법을 제공하지만, 데이터 처리의 가장 유연한 방법은 데이터를 조작하기 위해 자신만의 프로그램을 작성하는 것입니다. 대부분의 경우 데이터베이스 쿼리를 수행하는 것이 더 효과적인 방법입니다. 그러나 더 복잡한 데이터 처리가 필요한 경우 SQL을 사용하여 쉽게 처리할 수 없습니다.
-데이터 처리는 어떤 프로그래밍 언어로도 프로그래밍이 가능하지만, 데이터 작업에 있어서 더 유용한 언어가 있습니다. 데이터 과학자는 일반적으로 다음 언어 중 하나를 선호합니다:
-
-* **[Python(파이썬)](https://www.python.org/)** 은 범용 프로그래밍 언어로 간단하기 때문에 초보자를 위한 최고의 선택지 중 하나입니다. 파이썬(python)에는 ZIP 아카이브에서 데이터를 추출하거나 그림을 흑백으로 변환하는 것과 같은 실제 문제를 해결하는 데 도움이 되는 많은 추가 라이브러리가 존재합니다. 게다가, 데이터 과학 외에도 파이썬은 웹 개발에도 많이 사용됩니다.
-* **[R(알)](https://www.r-project.org/)** 은 통계 데이터 처리를 염두에 두고 개발된 전통적인 도구 상자입니다. 또한 대규모 라이브러리 저장소(CRAN)를 포함하고 있어 데이터 처리에 적합합니다. 그러나, R은 범용 프로그래밍 언어가 아니며 데이터 과학 영역 밖에서는 거의 사용되지 않습니다.
-* **[Julia(줄리아)](https://julialang.org/)** 데이터 과학을 위해 특별히 개발된 또 다른 언어이다. 이것은 파이썬보다 더 나은 성능을 제공하기 위한 것으로 과학 실험을 위한 훌륭한 도구입니다.
-
-이 과정에서는 간단한 데이터 처리를 위해 파이썬을 사용하는 것에 초점을 맞출 것입니다. 사전에 파이썬에 익숙해질 필요가 있습니다. 파이썬에 대해 더 자세히 살펴보고 싶다면 다음 리소스 중 하나를 참조할 수 있습니다:
-
-* [Turtle Graphics와 Fractal로 Python을 재미있게 배우기](https://github.com/shwars/pycourse) - GitHub 기반 Python 프로그래밍에 대한 빠른 소개 과정
-* [Python으로 첫 걸음 내딛기](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) - [Microsoft 학습](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum)으로 이동하기
-
-데이터는 다양한 형태로 나타날 수 있습니다. 이 과정에서 우리는 세 가지 형태의 데이터를 고려할 것입니다. - **표로 나타낸 데이터(tabular data)**, **텍스트(text)** and **이미지(images)**.
-
-모든 관련 라이브러리에 대한 전체 개요를 제공하는 대신 데이터 처리의 몇 가지 예를 중점적으로 살펴보겠습니다. 이를 통해 무엇이 가능한지에 대한 주요 아이디어를 얻을 수 있으며, 필요할 때 문제에 대한 해결책을 찾을 수 있는 방도를 파악할 수 있습니다.
-
-> **유용한 Tip**. 방법을 모르는 데이터에 대해 특정 작업을 수행해야 할 경우 인터넷에서 검색해 보십시오. [스택오버플로우](https://stackoverflow.com/)는 일반적으로 많은 일반적인 작업을 위해 다양한 파이썬의 유용한 코드 샘플을 가지고 있습니다.
-
-
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/12)
-
-## 표 형식 데이터 및 데이터 프레임
-
-이전에 관계형 데이터베이스에 대해 이야기할 때 이미 표 형식의 데이터를 다뤘습니다. 데이터가 많고 다양한 테이블이 연결된 경우 SQL을 사용하여 작업하는 것이 좋습니다. 그러나, 데이터 테이블을 가질 때 많은 경우들이 있으며, 우리는 분포, 값들 사이의 상관관계 등과 같이 데이터 자체에 대한 조금의 **이해**나 **통찰력**을 얻을 필요가 있습니다. 데이터 과학에서는 원본 데이터의 일부 변환을 수행한 후 시각화를 수행해야 하는 경우가 많습니다. 이 두 단계는 파이썬을 사용하면 쉽게 수행할 수 있습니다.
-
-파이썬에는 표 형식의 데이터를 처리하는 데 도움이 되는 두 가지 가장 유용한 라이브러리가 있습니다:
-* **[Pandas](https://pandas.pydata.org/)** 를 사용하면 관계형 테이블과 유사한 이른바 **데이터 프레임**을 조작할 수 있습니다. 명명된 컬럼을 가질 수 있으며 일반적으로 행,열 및 데이터 프레임에 대해 다양한 작업을 수행할 수 있습니다.
-* **[Numpy](https://numpy.org/)** 는 **tensors(텐서)** 작업을 위한 라이브러리 입니다. (예: 다차원 **배열**). 배열은 동일한 기본 유형의 값을 가지며 데이터 프레임보다 간단하지만, 더 많은 수학적 연산을 제공하고 오버헤드를 덜 발생시킵니다.
-
-또한 알아야 할 몇 개의 또 다른 라이브러리들도 있습니다:
-* **[Matplotlib](https://matplotlib.org/)** 은 데이터 시각화 및 플롯 그래프에 사용되는 라이브러리입니다.
-* **[SciPy](https://www.scipy.org/)** 는 몇 가지 추가적인 과학적 기능을 가진 라이브러리이다. 우리는 확률과 통계에 대해 이야기할 때 이 라이브러리를 사용합니다.
-
-다음은 파이썬 프로그램 시작 부분에서 이러한 라이브러리를 가져오기 위해 일반적으로 사용하는 코드 일부입니다:
-```python
-import numpy as np
-import pandas as pd
-import matplotlib.pyplot as plt
-from scipy import ... # 필요한 하위 항목을 정확하게 지정해야 합니다.
-``` 
-
-Pandas는 몇 가지 기본적인 개념을 중심으로 합니다.
-
-### 시리즈(Series) 
-
-**시리즈(Series)** 은 리스트 또는 numpy 배열과 유사한 일련의 값들입니다. 주요 차이점은 시리즈에도 **색인**이 있고 시리즈에 대해 작업할 때(예: 추가) 인덱스가 고려된다는 것입니다. 인덱스는 정수 행 번호만큼 단순할 수도 있고(목록 또는 배열에서 시리즈를 생성할 때 기본적으로 사용되는 인덱스) 날짜 간격과 같은 복잡한 구조를 가질 수도 있습니다.
-
-> **주의**: 동봉된 [`notebook.ipynb`](notebook.ipynb) 파일에는 몇 가지 Pandas 소개 코드가 있습니다. 여기서는 몇 가지 예시만 간략히 설명하며, 전체 notebook 코드를 확인해 보시기 바랍니다.
-
-예시: 우리는 아이스크림 가게의 매출을 분석하려고 합니다. 일정 기간 동안 일련의 판매 번호(매일 판매되는 품목 수)를 생성해 봅시다.
-
-```python
-start_date = "Jan 1, 2020"
-end_date = "Mar 31, 2020"
-idx = pd.date_range(start_date,end_date)
-print(f"Length of index is {len(idx)}")
-items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
-items_sold.plot()
-```
-![Time Series Plot](../images/timeseries-1.png)
-
-이제 우리가 매주 친구들을 위한 파티를 준비하고, 파티를 위해 아이스크림 10팩을 추가로 가져간다고 가정해 봅시다. 이것을 증명하기 위해 주간별로 색인화된 또 다른 시리즈를 만들 수 있습니다:
-```python
-additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"))
-```
-두 시리즈를 더하면 총 갯수(total_items)가 나온다:
-```python
-total_items = items_sold.add(additional_items,fill_value=0)
-total_items.plot()
-```
-![Time Series Plot](../images/timeseries-2.png)
-
-> **주의** 지금까지 우리는 `total_control+control_control_control` 이라는 간단한 구문을 사용하지 않고 있습니다. 그랬다면 결과 시리즈에서 많은 `NaN` (*숫자가 아님*) 값을 받았을 것입니다. 이는 `additional_items` 시리즈의 일부 인덱스 포인트에 누락된 값이 있고 항목에 `Nan`을 추가하면 `NaN`이 되기 때문입니다. 따라서 추가하는 동안 'fill_value' 매개변수를 지정해야 합니다.
-
-시계열을 사용하면 다른 시간 간격으로 시리즈를 **리샘플링(resample)**할 수도 있습니다. 예를 들어, 월별 평균 판매량을 계산하려고 한다고 가정합니다. 다음 코드를 사용할 수 있습니다:
-```python
-monthly = total_items.resample("1M").mean()
-ax = monthly.plot(kind='bar')
-```
-![Monthly Time Series Averages](../images/timeseries-3.png)
-
-### 데이터프레임(DataFrame)
-
-데이터프레임(DataFrame)은 기본적으로 동일한 인덱스를 가진 시리즈 모음입니다. 여러 시리즈를 DataFrame으로 결합할 수 있습니다:
-```python
-a = pd.Series(range(1,10))
-b = pd.Series(["I","like","to","play","games","and","will","not","change"],index=range(0,9))
-df = pd.DataFrame([a,b])
-```
-이렇게 하면 다음과 같은 가로 테이블이 생성됩니다:
-|     | 0   | 1    | 2   | 3   | 4      | 5   | 6      | 7    | 8    |
-| --- | --- | ---- | --- | --- | ------ | --- | ------ | ---- | ---- |
-| 0   | 1   | 2    | 3   | 4   | 5      | 6   | 7      | 8    | 9    |
-| 1   | I   | like | to  | use | Python | and | Pandas | very | much |
-
-시리즈를 열로 사용하고 딕셔너리(Dictionary)를 사용하여 열 이름을 지정할 수도 있습니다:
-```python
-df = pd.DataFrame({ 'A' : a, 'B' : b })
-```
-위의 코드는 다음과 같은 테이블을 얻을 수 있습니다:
-
-|     | A   | B      |
-| --- | --- | ------ |
-| 0   | 1   | I      |
-| 1   | 2   | like   |
-| 2   | 3   | to     |
-| 3   | 4   | use    |
-| 4   | 5   | Python |
-| 5   | 6   | and    |
-| 6   | 7   | Pandas |
-| 7   | 8   | very   |
-| 8   | 9   | much   |
-
-**주의** 또한 이전 표를 바꿔서 이 같은 표 레이아웃을 얻을 수 있습니다.
-```python
-df = pd.DataFrame([a,b]).T..rename(columns={ 0 : 'A', 1 : 'B' })
-```
-여기서 `.T`는 행과 열을 변경하는 DataFrame을 전치하는 작업, 즉 행과 열을 변경하는 작업을 의미하며 `rename` 작업을 사용하면 이전 예제와 일치하도록 열 이름을 바꿀 수 있습니다.
-
-다음은 DataFrame에서 수행할 수 있는 몇 가지 가장 중요한 작업입니다:
-
-**특정 컬럼 선택(Column selection)**. `df['A']`를 작성하여 개별 열을 선택할 수 있습니다. 이 작업은 시리즈를 반환합니다. 또한 `df[['B','A']]`를 작성하여 열의 하위 집합을 다른 DataFrame으로 선택할 수 있습니다. 그러면 다른 DataFrame이 반환됩니다.
-
-**필터링(Filtering)** 은 기준에 따라 특정 행만 적용합니다. 예를 들어 `A` 열이 5보다 큰 행만 남기려면 `df[df['A']>5]`라고 쓸 수 있습니다.
-
-> **주의**: 필터링이 작동하는 방식은 다음과 같습니다. 표현식 `df['A']<5`는 원래 시리즈 `df['A']`의 각 요소에 대해 표현식이 `True`인지 아니면 `False`인지를 나타내는 `부울(Boolean)` 시리즈를 반환합니다. 부울 계열이 인덱스로 사용되면 DataFrame에서 행의 하위 집합을 반환합니다. 따라서 임의의 Python 부울 표현식을 사용할 수 없습니다. 예를 들어 `df[df['A']>5 및 df['A']<7]`를 작성하는 것은 잘못된 것입니다. 대신, 부울 계열에 특수 `&` 연산을 사용하여 `df[(df['A']>5) & (df['A']<7)]`로 작성해야 합니다(*여기서 대괄호가 중요합니다*).
-
-**새로운 계산 가능한 열 만들기**. 우리는 직관적인 표현을 사용하여 DataFrame에 대한 새로운 계산 가능한 열을 쉽게 만들 수 있습니다.:
-```python
-df['DivA'] = df['A']-df['A'].mean() 
-``` 
-이 예제에서는 평균값으로부터 A의 차이를 계산합니다. 여기서 실제로 발생하는 일은 열을 계산하고 왼쪽에 이 열을 할당하여 다른 열을 만드는 것입니다. 따라서 시리즈와 호환되지 않는 연산은 사용할 수 없습니다. 예를 들어 아래와 같은 코드는 잘못되었습니다.:
-```python
-# 잘못된 코드 -> df['ADescr'] = "Low" if df['A'] < 5 else "Hi"
-df['LenB'] = len(df['B']) # <- 잘못된 결과
-``` 
-위의 예제는 문법적으로는 정확하지만, 우리가 의도한 대로 개별 요소의 길이가 아니라 열의 모든 값에 시리즈 `B`의 길이를 할당하기 때문에 잘못된 결과를 도출합니다.
-
-이와 같이 복잡한 표현식을 계산해야 하는 경우 `apply` 함수를 사용할 수 있습니다. 마지막 예제는 다음과 같이 작성할 수 있습니다:
-```python
-df['LenB'] = df['B'].apply(lambda x : len(x))
-# or 
-df['LenB'] = df['B'].apply(len)
-```
-
-위의 작업 후에 다음과 같은 DataFrame이 완성됩니다:
-
-|     | A   | B      | DivA | LenB |
-| --- | --- | ------ | ---- | ---- |
-| 0   | 1   | I      | -4.0 | 1    |
-| 1   | 2   | like   | -3.0 | 4    |
-| 2   | 3   | to     | -2.0 | 2    |
-| 3   | 4   | use    | -1.0 | 3    |
-| 4   | 5   | Python | 0.0  | 6    |
-| 5   | 6   | and    | 1.0  | 3    |
-| 6   | 7   | Pandas | 2.0  | 6    |
-| 7   | 8   | very   | 3.0  | 4    |
-| 8   | 9   | much   | 4.0  | 4    |
-
-**숫자를 기준으로 행 선택** `iloc(정수 위치:integer location)` 구성을 사용하여 수행할 수 있습니다. 예를 들어 DataFrame에서 처음 5개 행을 선택하려면:
-```python
-df.iloc[:5]
-```
-
-**그룹화(Grouping)** 는 종종 Excel의 *피벗 테이블*과 유사한 결과를 얻는 데 사용됩니다. 주어진 `LenB` 수에 대해 `A` 열의 평균 값을 계산하려고 한다고 가정합니다. 그런 다음 `LenB`로 DataFrame을 그룹화하고 `mean`을 호출할 수 있습니다:
-```python
-df.groupby(by='LenB').mean()
-```
-그룹의 요소 수와 평균을 계산해야 하는 경우 더 복잡한 `집계(aggregate)` 함수를 사용할 수 있습니다:
-```python
-df.groupby(by='LenB') \
- .aggregate({ 'DivA' : len, 'A' : lambda x: x.mean() }) \
- .rename(columns={ 'DivA' : 'Count', 'A' : 'Mean'})
-```
-This gives us the following table:
-
-| LenB | Count | Mean     |
-| ---- | ----- | -------- |
-| 1    | 1     | 1.000000 |
-| 2    | 1     | 3.000000 |
-| 3    | 2     | 5.000000 |
-| 4    | 3     | 6.333333 |
-| 6    | 2     | 6.000000 |
-
-### 데이터 얻기
-
-우리는 Python 객체에서 시리즈 및 DataFrame을 구성하는 것이 얼마나 쉬운지 보았습니다. 그러나 데이터는 일반적으로 텍스트 파일 또는 Excel 표의 형태로 제공됩니다. 운 좋게도 Pandas는 디스크에서 데이터를 로드하는 간단한 방법을 제공합니다. 예를 들어 CSV 파일을 읽는 것은 다음과 같이 간단합니다:
-```python
-df = pd.read_csv('file.csv')
-```
-"도전(Channenge)" 섹션에서 외부 웹 사이트에서 가져오기를 포함하여 데이터를 로드하는 더 많은 예를 볼 수 있습니다.
-
-
-### 출력(Printing) 및 플로팅(Plotting)
-
-데이터 과학자는 종종 데이터를 탐색해야 하므로 시각화할 수 있는 것이 중요합니다. DataFrame이 클 때 처음 몇 행을 인쇄하여 모든 작업을 올바르게 수행하고 있는지 확인하려는 경우가 많습니다. 이것은 `df.head()`를 호출하여 수행할 수 있습니다. Jupyter Notebook에서 실행하는 경우 DataFrame을 멋진 표 형식으로 인쇄합니다.
-
-또한 일부 열을 시각화하기 위해 'plot' 함수를 사용하는 것을 보았습니다. `plot`은 많은 작업에 매우 유용하고 `kind=` 매개변수를 통해 다양한 그래프 유형을 지원하지만, 항상 원시 `matplotlib` 라이브러리를 사용하여 더 복잡한 것을 그릴 수 있습니다. 데이터 시각화는 별도의 강의에서 자세히 다룰 것입니다.
-
-이 개요는 Pandas의 가장 중요한 개념을 다루지만 Pandas 라이브러리는 매우 풍부하고 이를 사용하여 수행할 수 있는 작업은 무궁무진합니다! 이제 특정 문제를 해결하기 위해 배운 것을 적용해 보겠습니다.
-
-## 🚀 도전과제 1: 코로나 확산 분석
-
-우리가 초점을 맞출 첫 번째 문제는 COVID-19의 전염병 확산 모델링입니다. 이를 위해 [존 홉킨스 대학](https://jhu.edu/)의 [시스템 과학 및 엔지니어링 센터](https://systems.jhu.edu/)(CSSE)에서 제공하는 여러 국가의 감염자 수 데이터를 사용합니다. 이 [GitHub 레포지토리](https://github.com/CSSEGISandData/COVID-19)에서 데이터 세트를 사용할 수 있습니다.
-
-데이터를 다루는 방법을 보여주고 싶기 때문에 `notebook-covidspread.ipynb`(notebook-covidspread.ipynb)를 열고 위에서 아래로 읽으시기 바랍니다. 셀을 실행할 수도 있고 마지막에 남겨둔 몇 가지 과제를 수행할 수도 있습니다.
-
-![COVID Spread](../images/covidspread.png)
-
-> Jupyter Notebook에서 코드를 실행하는 방법을 모르는 경우 [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 참조하십시오.
-
-## 비정형 데이터 작업
-
-데이터가 표 형식으로 제공되는 경우가 많지만 경우에 따라 텍스트나 이미지와 같이 덜 구조화된 데이터를 처리해야 합니다. 이 경우 위에서 본 데이터 처리 기술을 적용하려면 어떻게든 구조화된 데이터를 **추출(extract)** 해야 합니다. 다음은 몇 가지 예시입니다:
-
-* 텍스트에서 키워드 추출 및 해당 키워드가 나타나는 빈도 확인
-* 신경망을 사용하여 그림의 개체에 대한 정보 추출
-* 비디오 카메라 피드에서 사람들의 감정에 대한 정보 얻기
-
-## 🚀 도전과제 2: 코로나 논문 분석
-
-이 도전과제에서 우리는 COVID 팬데믹이라는 주제를 계속해서 다룰 것이며 해당 주제에 대한 과학 논문을 처리하는 데 집중할 것입니다. 메타데이터 및 초록과 함께 사용할 수 있는 COVID에 대한 7000개 이상의(작성 당시) 논문이 포함된 [CORD-19 데이터 세트](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge)가 있습니다(이 중 약 절반에 대해 전체 텍스트도 제공됨). 
-
-[건강 인지 서비스를 위한 텍스트 분석](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum)를 사용하여 이 데이터 세트를 분석하는 전체 예는 이 블로그 게시물에 설명되어 있습니다. 우리는 이 분석의 단순화된 버전에 대해 논의할 것입니다.
-
-> **주의**: 우리는 더이상 데이터 세트의 복사본을 이 리포지토리의 일부로 제공하지 않습니다. 먼저 [Kaggle의 데이터세트](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge)에서 [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) 파일을 다운로드해야 할 수도 있습니다. Kaggle에 가입해야 할 수 있습니다. [여기](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html)에서 등록 없이 데이터 세트를 다운로드할 수도 있지만 여기에는 메타데이터 파일 외에 모든 전체 텍스트가 포함됩니다.
-
-[`notebook-papers.ipynb`](notebook-papers.ipynb)를 열고 위에서 아래로 읽으십시오. 셀을 실행할 수도 있고 마지막에 남겨둔 몇 가지 과제를 수행할 수도 있습니다.
-
-![Covid Medical Treatment](../images/covidtreat.png)
-
-## 이미지 데이터 처리
-
-최근에는 이미지를 이해할 수 있는 매우 강력한 AI 모델이 개발되었습니다. 사전에 훈련된 신경망이나 클라우드 서비스를 사용하여 해결할 수 있는 작업이 많이 있습니다. 몇 가지 예는 다음과 같습니다:
-
-* **이미지 분류(Image Classification)** 는 이미지를 미리 정의된 클래스 중 하나로 분류하는 데 도움이 됩니다. [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum)과 같은 서비스를 사용하여 자신의 이미지 분류기를 쉽게 훈련할 수 있습니다.
-* **물체 검출** 은 이미지에서 다른 물체를 감지합니다. [컴퓨터 비전(Computer vision)](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum)과 같은 서비스는 여러 일반 개체를 감지할 수 있으며 [커스텀 비전(Custom Vision)](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) 모델을 훈련하여 관심 있는 특정 개체를 감지할 수 있습니다.
-* **얼굴 인식** 은 연령, 성별 및 감정 감지를 포함합니다. 이것은 [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum)를 통해 수행할 수 있습니다.
-
-이러한 모든 클라우드 서비스는 [Python SDK](https://docs.microsoft.com/samples/azure-samples/cognitive-services-python-sdk-samples/cognitive-services-python-sdk-samples/?WT.mc_id=academic-77958-bethanycheum)를 사용하여 호출할 수 있으므로, 데이터 탐색 워크플로에 쉽게 통합할 수 있습니다.
- 
-다음은 이미지 데이터 소스에서 데이터를 탐색하는 몇 가지 예입니다:
-* 블로그 게시물 중 [코딩 없이 데이터 과학을 배우는 방법](https://soshnikov.com/azure/how-to-learn-data-science-without-coding/)에서 우리는 인스타그램 사진을 살펴보고 사람들이 사진에 더 많은 좋아요를 주는 이유를 이해하려고 합니다. 먼저 [컴퓨터 비전(Computer vision)](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum)을 사용하여 사진에서 최대한 많은 정보를 추출한 다음 [Azure Machine Learning AutoML](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml/?WT.mc_id=academic-77958-bethanycheum)을 사용하여 해석 가능한 모델을 빌드합니다.
-* [얼굴 연구 워크숍(Facial Studies Workshop)](https://github.com/CloudAdvocacy/FaceStudies)에서는 사람들을 행복하게 만드는 요소를 이해하고자, 이벤트에서 사진에 있는 사람들의 감정을 추출하기 위해 [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum)를 사용합니다.
-
-## 결론
-
-이미 정형 데이터이든 비정형 데이터이든 관계없이 Python을 사용하여 데이터 처리 및 이해와 관련된 모든 단계를 수행할 수 있습니다. 아마도 가장 유연한 데이터 처리 방법일 것이며, 이것이 대부분의 데이터 과학자들이 Python을 기본 도구로 사용하는 이유입니다. 데이터 과학 여정에 대해 진지하게 생각하고 있다면 Python을 깊이 있게 배우는 것이 좋습니다!
-
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/13)
-
-## 리뷰 & 복습
-
-**책**
-
-* [Wes McKinney. 데이터 분석을 위한 Python: Pandas, NumPy 및 IPython을 사용한 데이터 논쟁(Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython)](https://www.amazon.com/gp/product/1491957662)
-
-**온라인 자료**
-
-* 공식 [판다까지 10분(10 minutes to Pandas)](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) tutorial
-* [Pandas 시각화에 대한 문서(Documentation on Pandas Visualization)](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)
-
-**Python 학습**
-
-* [거북이 그래픽과 도형으로 재미있는 방식으로 파이썬 배우기(Learn Python in a Fun Way with Turtle Graphics and Fractals)](https://github.com/shwars/pycourse)
-* [파이썬으로 첫걸음(Take your First Steps with Python)](https://docs.microsoft.com/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum): 관련 강의 [Microsoft 강의](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum)
-
-## 과제
-
-[Perform more detailed data study for the challenges above](../assignment.md)
-
-## 크레딧
-
-본 레슨은 [Dmitry Soshnikov](http://soshnikov.com)님에 의해 작성되었습니다.
--- a/2-Working-With-Data/07-python/translations/assignment.hi.md
+++ b/2-Working-With-Data/07-python/translations/assignment.hi.md
@ -1,23 +0,0 @@
-# पायथन में डाटा प्रोसेसिंग के लिए असाइनमेंट
-
-इस असाइनमेंट में, हम आपको उस कोड के बारे में विस्तार से बताने के लिए कहेंगे जिसे हमने अपनी चुनौतियों में विकसित करना शुरू किया है। असाइनमेंट में दो भाग होते हैं:
-
-## COVID-19 स्प्रेड मॉडलिंग
-
- - [ ] 5-6 अलग-अलग देशों के लिए तुलना के लिए एक प्लॉट पर $R_t$ ग्राफ़ प्लॉट करें, या साथ-साथ कई प्लॉट का उपयोग करें
- - [ ] देखें कि संक्रमित मामलों की संख्या के साथ मौतों और ठीक होने वालों की संख्या कैसे संबंधित है।
- - [ ] संक्रमण दर और मृत्यु दर को दृष्टिगत रूप से सहसंबद्ध करके और कुछ विसंगतियों की तलाश करके पता लगाएं कि एक सामान्य बीमारी कितने समय तक चलती है। यह पता लगाने के लिए आपको विभिन्न देशों को देखने की आवश्यकता हो सकती है।
- - [ ] मृत्यु दर की गणना करें और यह समय के साथ कैसे बदलता है। *आप गणना करने से पहले एक बार श्रृंखला को स्थानांतरित करने के लिए दिनों में रोग की अवधि को ध्यान में रखना चाह सकते हैं*
-
-## COVID-19 पेपर्स एनालिसिस
-
- [] विभिन्न दवाओं के सह-घटना मैट्रिक्स का निर्माण करें, और देखें कि कौन सी दवाएं अक्सर एक साथ होती हैं (अर्थात एक सार में उल्लिखित)। आप दवाओं और निदान के लिए सह-घटना मैट्रिक्स के निर्माण के लिए कोड को संशोधित कर सकते हैं।
- [] हीटमैप का उपयोग करके इस मैट्रिक्स की कल्पना करें।
- [ ] एक विस्तृत लक्ष्य के रूप में, [कॉर्ड डायग्राम](https://en.wikipedia.org/wiki/Chord_diagram) का उपयोग करके दवाओं की सह-घटना की कल्पना करें। [यह लाइब्रेरी](https://pypi.org/project/chord/) आपको कॉर्ड डायग्राम बनाने में मदद कर सकता है।
- [ ] एक और खिंचाव लक्ष्य के रूप में, नियमित अभिव्यक्तियों का उपयोग करके विभिन्न दवाओं (जैसे **400mg** इन *400mg क्लोरोक्वीन दैनिक*) की खुराक निकालें, और डेटाफ़्रेम बनाएं जो विभिन्न दवाओं के लिए अलग-अलग खुराक दिखाता है। **नोट**: उन संख्यात्मक मानों पर विचार करें जो दवा के नाम के निकट पाठ्य-क्षेत्र में हैं।
-
-## रूब्रिक
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
-सभी कार्य पूर्ण हैं, ग्राफिक रूप से सचित्र और समझाया गया है, जिसमें दो खिंचाव लक्ष्यों में से कम से कम एक शामिल है | 5 से अधिक कार्य पूरे हो गए हैं, कोई भी लक्ष्य पूरा करने का प्रयास नहीं किया गया है, या परिणाम स्पष्ट नहीं हैं | 5 से कम (लेकिन 3 से अधिक) कार्य पूर्ण हैं, विज़ुअलाइज़ेशन बिंदु को प्रदर्शित करने में मदद नहीं करते हैं
--- a/2-Working-With-Data/08-data-preparation/translations/README.ko.md
+++ b/2-Working-With-Data/08-data-preparation/translations/README.ko.md
@ -1,339 +0,0 @@
-# 데이터 작업: 데이터 전처리
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/08-DataPreparation.png)|
-|:---:|
-|데이터 전처리 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/14)
-
-
-
-원본에 따라 원시 데이터에는 분석 및 모델링에 문제를 일으킬 수 있는 일부 불일치 요소가 포함될 수 있습니다. 즉, 이 데이터는 "더티"로 분류될 수 있으며 사전에 처리해야 합니다. 이 단원에서는 누락, 혹은 부정확하거나 불완전한 데이터의 문제를 처리하기 위해 데이터를 정리하고 변환하는 기술에 중점을 둡니다. 이 강의에서 다루는 주제는 Python과 Pandas 라이브러리를 활용하며 이 디렉토리의 [notebook](../notebook.ipynb)에서 시연됩니다.
-
-## 정제 데이터의 중요성
-
- **사용 및 재사용 용이성**: 데이터가 적절하게 구성되고 정규화되면 검색, 사용 및 다른 사람과 공유하기가 더 쉽습니다.
-
- **일관성**: 데이터 과학은 종종 복수의 데이터셋으로 작업해야 하는데, 서로 다른 소스의 데이터셋은 함께 결합되야 합니다. 각 개별 데이터 세트에 공통 표준화가 적용되도록 하나의 데이터 세트로 병합될 때 더욱 유용합니다.
-
- **모델 정확도**: 데이터를 정제하면 해당 데이터에 의존하는 모델의 정확도가 향상됩니다.
-
-## 공통 정제 목표 및 전략
-
- **데이터셋 탐색**: [이후 강의](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing)에서 다룰 데이터 탐색은 정제해야 하는 데이터를 찾는 데 도움이 될 수 있습니다. 데이터셋 내의 값을 시각적으로 관찰하면 나머지 데이터가 어떻게 보일지에 대한 기대치를 설정하거나, 해결할 수 있는 문제에 대한 아이디어를 제공할 수 있습니다. 탐색에는 기본 쿼리, 시각화 및 샘플링이 포함될 수 있습니다.
-
-  **형식화(Formatting)**: 소스에 따라 데이터가 표시되는 방식에 불일치가 있을 수 있습니다. 이로 인해 데이터셋 내에서 표시되지만 시각화 또는 쿼리 결과에 제대로 표시되지 않는 값을 검색하고 표시하는 데 문제가 발생할 수 있습니다. 일반적인 형식화 문제에는 공백, 날짜 및 데이터 유형 해결이 포함되며 이러한 문제를 해결하는 것은 일반적으로 데이터를 사용하는 사람들에게 달려 있습니다. 예를 들어 날짜와 숫자가 표시되는 방식에 대한 표준은 국가마다 다를 수 있습니다.
-
-  **중복**: 두 번 이상 발생하는 데이터는 부정확한 결과를 생성할 수 있으므로 보통 제거해야 합니다. 이는 두 개 이상의 데이터셋을 함께 결합할 때 발생할 수 있습니다. 그러나 결합된 데이터셋의 중복이 추가 정보를 제공할 수 있으며 보존할 필요가 있는 경우도 있습니다.
-
- **결측치(Missing Data)**: 누락된 데이터는 부정확함과 편향된 결과를 초래할 수 있습니다. 때로는 데이터를 "다시 로드"하여 누락된 값을 Python과 같은 계산 및 코드로 채우거나 단순히 값과 해당 데이터를 제거하여 이러한 문제를 해결할 수 있습니다. 데이터가 누락되는 데는 여러 가지 이유가 있으며 이러한 누락된 값을 해결하기 위한 방법론은 초기 데이터가 누락된 이유에 따라 달라질 수 있습니다.
-
-## DataFrame 정보 탐색
-> **학습 목표:** 하위 섹션이 끝날때까지, pandas DataFrame에 저장된 데이터에 대한 정보를 능숙하게 찾을 수 있을 것입니다.
-
-데이터를 pandas에 로드하면 DataFrame에 없을 가능성이 더 높아집니다(이전 [단원](../../07-python/translations/README.ko.md#데이터프레임) 참조. 그러나 DataFrame에 있는 데이터셋에 60,000개의 행과 400개의 열이 있는 경우). 다행스럽게도 [pandas](https://pandas.pydata.org/)는 처음 몇 행과 마지막 몇 행 외에도 DataFrame에 대한 전체 정보를 빠르게 볼 수 있는 몇 가지 편리한 도구를 제공합니다.
-
-
-이 기능을 살펴보기 위해 Python scikit-learn 라이브러리를 가져오고 상징적인 데이터셋인 **Iris 데이터셋** 을 사용합니다.
-
-```python
-import pandas as pd
-from sklearn.datasets import load_iris
-
-iris = load_iris()
-iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
-```
-|                                        |sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)|
-|----------------------------------------|-----------------|----------------|-----------------|----------------|
-|0                                       |5.1              |3.5             |1.4              |0.2             |
-|1                                       |4.9              |3.0             |1.4              |0.2             |
-|2                                       |4.7              |3.2             |1.3              |0.2             |
-|3                                       |4.6              |3.1             |1.5              |0.2             |
-|4                                       |5.0              |3.6             |1.4              |0.2             |
-
- **DataFrame.info**: 시작하기 앞서, `info()` 메서드를 사용하여 `DataFrame`에 있는 내용의 요약을 프린트합니다. 이 데이터셋을 살펴보고 우리가 가지고 있는 것이 무엇인지 살펴보겠습니다:
-
-```python
-iris_df.info()
-```
-```
-RangeIndex: 150 entries, 0 to 149
-Data columns (total 4 columns):
- #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
- 0   sepal length (cm)  150 non-null    float64
- 1   sepal width (cm)   150 non-null    float64
- 2   petal length (cm)  150 non-null    float64
- 3   petal width (cm)   150 non-null    float64
-dtypes: float64(4)
-memory usage: 4.8 KB
-```
-이를 통해 *Iris* 데이터셋에는 null 항목이 없는 4개의 열에 150개의 항목이 있음을 알 수 있습니다. 모든 데이터는 64비트 부동 소수점 숫자로 저장됩니다.
-
- **DataFrame.head()**: 다음으로, `DataFrame`의 실제 내용을 확인하기 위해 `head()` 메소드를 사용합니다. `iris_df`의 처음 몇 행이 어떻게 생겼는지 봅시다:
-```python
-iris_df.head()
-```
-```
-   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
-0                5.1               3.5                1.4               0.2
-1                4.9               3.0                1.4               0.2
-2                4.7               3.2                1.3               0.2
-3                4.6               3.1                1.5               0.2
-4                5.0               3.6                1.4               0.2
-```
- **DataFrame.tail()**: Conversely, to check the last few rows of the `DataFrame`, we use the `tail()` method:
-```python
-iris_df.tail()
-```
-```
-     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
-145                6.7               3.0                5.2               2.3
-146                6.3               2.5                5.0               1.9
-147                6.5               3.0                5.2               2.0
-148                6.2               3.4                5.4               2.3
-149                5.9               3.0                5.1               1.8
-```
-> **추가 팁:** DataFrame의 정보에 대한 메타데이터나 하나의 처음과 마지막 몇 개의 값을 보는 것만으로도 처리 중인 데이터의 크기, 모양 및 내용에 대한 즉각적인 아이디어를 얻을 수 있습니다.
-
-## 결측치 처리
-> **학습 목표:** 이 하위 섹션이 끝나면 DataFrame에서 null 값을 대체하거나 제거하는 방법을 배울 수 있습니다.
-
-대부분의 경우 사용하려는(사용해야 하는) 데이터셋은 누락된 값이 있습니다. 누락된 데이터를 처리하는 방법은 최종 분석 및 실제 결과에 영향을 줄 수 있는 미묘한 절충안을 수반합니다.
-
-Pandas는 두 가지 방법으로 결측치를 처리합니다. 이전 섹션에서 본 첫 번째 항목: `NaN` 또는 숫자 아님. 이것은 실제로 IEEE 부동 소수점 사양의 일부인 특수 값이며 누락된 부동 소수점 값을 나타내는 데만 사용됩니다.
-
-float를 제외한 누락된 값의 경우 pandas는 Python `None` 객체를 사용합니다. 본질적으로 같은 두 가지 다른 종류의 값을 만나는 것이 혼란스러울 수 있지만, 이는 합리적인 프로그램적 이유가 있으며 실제로 이 같은 로직을 따를시 Pandas가 대부분의 경우 좋은 절충안을 제공할 수 있습니다. 그럼에도 불구하고 `None`과 `NaN` 모두 사용 방법과 관련하여 유의할 필요가 있습니다.
-
-[Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb)에서 'NaN' 및 'None'에 대해 자세히 알아보자!
-
- **null 값 감지**: `pandas`에서 `isnull()` 및 `notnull()` 메서드는 null 데이터를 감지하는 기본 메서드입니다. 둘 다 데이터에 부울(bool) 마스크를 반환합니다. `NaN` 값을 받기 위해 `numpy`를 사용할 것입니다:
-```python
-import numpy as np
-
-example1 = pd.Series([0, np.nan, '', None])
-example1.isnull()
-```
-```
-0    False
-1     True
-2    False
-3     True
-dtype: bool
-```
-출력값을 자세히 살펴보세요. 놀랐나요? `0`은 산술 null이지만 그럼에도 불구하고 완벽하게 좋은 정수이고 pandas는 이를 그대로 취급합니다. `''`는 조금 더 미묘합니다. 섹션 1에서 빈 문자열 값을 나타내기 위해 사용했지만 pandas에 관한 한 문자열 개체이며 null 표현이 아닙니다.
-
-이제 이것을 바꿔서 실제로 사용하는 것과 같은 방식으로 이러한 방법을 사용하겠습니다. 부울 마스크를 ``Series`` 또는 ``DataFrame`` 인덱스로 직접 사용할 수 있으며, 이는 분리된 결측(또는 현재)치로 작업하려고 할 때 유용할 수 있습니다.
-
-> **추가 팁**: `isnull()` 및 `notnull()` 메서드는 모두 `DataFrame`에서 사용할 때 유사한 결과를 생성합니다. 결과와 해당 결과의 인덱스를 보여주므로 데이터와 씨름할 때 엄청난 도움이 됩니다.
-
- **null 값 삭제**: 누락된 값을 식별하는 것 외에도 pandas는 `Series` 및 `DataFrame`에서 null 값을 제거하는 편리한 수단을 제공합니다. (특히 대용량 데이터 세트의 경우 다른 방법으로 처리하는 것보다 분석에서 누락된 [NA] 값을 제거하는 것이 종종 더 좋습니다.) 실제 사례를 보기위해 `example1`로 돌아가겠습니다:
-```python
-example1 = example1.dropna()
-example1
-```
-```
-0    0
-2     
-dtype: object
-```
-주목할 점은 `example3[example3.notnull()]`의 출력과 같아야 합니다. 여기서 차이점은 마스킹된 값에 대한 인덱싱뿐만 아니라 `dropna`가 `Series` `example1`에서 누락된 값을 제거했다는 것입니다.
-
-위의 `DataFrame`은 2차원이기 때문에 데이터 삭제를 위한 더 많은 옵션을 제공합니다.
-
-```python
-example2 = pd.DataFrame([[1,      np.nan, 7], 
-                         [2,      5,      8], 
-                         [np.nan, 6,      9]])
-example2
-```
-|      | 0 | 1 | 2 |
-|------|---|---|---|
-|0     |1.0|NaN|7  |
-|1     |2.0|5.0|8  |
-|2     |NaN|6.0|9  |
-
-(Pandas가 `NaN`을 받기 위해 두 개의 열을 float로 업캐스팅한 것을 눈치채셨나요?)
-
-`DataFrame`에서 단일 값을 삭제할 수 없으므로 전체 행이나 열을 삭제해야 합니다. 하고 있는 일에 따라 둘 중 하나를 수행하고 싶을 수 있으므로 pandas는 둘 모두에 대한 옵션을 제공합니다. 데이터 과학에서 열은 일반적으로 변수를 나타내고 행은 관찰을 나타내므로 데이터 행을 삭제할 가능성이 더 큽니다. 'dropna()'의 기본 설정은 null 값을 포함하는 모든 행을 삭제하는 것입니다:
-
-```python
-example2.dropna()
-```
-```
-	0	1	2
-1	2.0	5.0	8
-```
-필요한 경우 열에서 NA 값을 삭제할 수 있습니다. 이렇게 하려면 `axis=1`을 사용하세요:
-```python
-example2.dropna(axis='columns')
-```
-```
-	2
-0	7
-1	8
-2	9
-```
-이 경우 특히 소규모 데이터셋에서 보관하고자 하는 많은 데이터가 삭제될 수 있습니다. null 값이 여러 개 또는 모두 포함된 행이나 열을 삭제하려는 경우 어떻게 해야 할까요? `how` 및 `thresh` 매개변수를 사용하여 `dropna`에서 이러한 설정을 지정합니다.
-
-기본적으로 `how='any'`(자신을 확인하거나 메소드에 어떤 다른 매개변수가 있는지 확인하려면 코드 셀에서 `example4.dropna?`를 실행하세요). 또는 모든 null 값을 포함하는 행이나 열만 삭제하도록 `how='all'`을 지정할 수 있습니다. 예제 `DataFrame`을 확장하여 이것이 실제로 작동하는지 살펴보겠습니다.
-
-```python
-example2[3] = np.nan
-example2
-```
-|      |0  |1  |2  |3  |
-|------|---|---|---|---|
-|0     |1.0|NaN|7  |NaN|
-|1     |2.0|5.0|8  |NaN|
-|2     |NaN|6.0|9  |NaN|
-
-`thresh` 매개변수는 더 세분화된 컨트롤을 제공합니다. 행 또는 열이 유지하기 위해 가져야 하는 *null이 아닌* 값의 수를 설정합니다:
-```python
-example2.dropna(axis='rows', thresh=3)
-```
-```
-	0	1	2	3
-1	2.0	5.0	8	NaN
-```
-여기에서 첫 번째 행과 마지막 행은 null이 아닌 값이 두 개만 포함되어 있기 때문에 삭제되었습니다.
-
- **null 값 채우기**: 데이터셋에 따라 null 값을 삭제하는 대신 유효한 값으로 채우는 것이 더 합리적일 수 있습니다. `isnull`을 사용하여 이 작업을 수행할 수 있지만 특히 채울 값이 많은 경우 힘들 수 있습니다. 이것은 데이터 과학에서 일반화된 작업입니다. pandas는 누락된 값이 선택한 값으로 대체된 'Series' 또는 'DataFrame'의 복사본을 반환하는 'fillna'를 제공합니다. 이것이 실제로 어떻게 작동하는지 보기 위해 또 다른 예제 `Series`를 만들어 보겠습니다.
-```python
-example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
-example3
-```
-```
-a    1.0
-b    NaN
-c    2.0
-d    NaN
-e    3.0
-dtype: float64
-```
-`0`과 같은 단일 값으로 모든 null 항목을 채울 수 있습니다:
-```python
-example3.fillna(0)
-```
-```
-a    1.0
-b    0.0
-c    2.0
-d    0.0
-e    3.0
-dtype: float64
-```
-결측치를 **정방향 채우기**로 null 값을 채워나갈 수 있습니다. 즉, 마지막 유효 값을 사용하여 null을 채웁니다.
-
-```python
-example3.fillna(method='ffill')
-```
-```
-a    1.0
-b    1.0
-c    2.0
-d    2.0
-e    3.0
-dtype: float64
-```
-또한 **역방향 채우기**로 null을 채울 수도 있습니다: 
-
-```python
-example3.fillna(method='bfill')
-```
-```
-a    1.0
-b    2.0
-c    2.0
-d    3.0
-e    3.0
-dtype: float64
-```
-짐작할 수 있듯이 이것은 `DataFrame`과 동일하게 작동하지만 null 값을 채울 `axis(축)`을 지정할 수도 있습니다. 이전에 사용한 `example2`를 다시 가져오겠습니다:
-```python
-example2.fillna(method='ffill', axis=1)
-```
-```
-	0	1	2	3
-0	1.0	1.0	7.0	7.0
-1	2.0	5.0	8.0	8.0
-2	NaN	6.0	9.0	9.0
-```
-정방향 채우기에 이전 값을 사용할 수 없는 경우 null 값이 유지됩니다.
-
-> **추가 팁:** 데이터셋의 결측값을 처리하는 방법에는 여러 가지가 있습니다. 사용하는 특정 전략(제거, 교체 또는 교체 방법)은 해당 데이터의 세부 사항에 따라 결정되어야 합니다. 데이터셋을 처리하고 상호 작용하면 할수록 누락된 값을 처리하는 방법에 대한 더 나은 감각을 개발할 수 있습니다.
-
-## 중복 데이터 제거
-
-> **학습 목표:** 해당 섹션이 끝나고, DataFrames에서 중복 값을 식별하고 제거하는 데 익숙해집니다.
-
-누락된 데이터 외에도 실제 데이터 세트에서 중복 데이터를 자주 접하게 됩니다. 다행히 `pandas`는 중복 항목을 쉽게 감지하고 제거할 수 있는 수단을 제공합니다.
-
- **중복 식별: `duplicated`**: pandas의 `duplicated` 메서드를 사용하여 중복 값을 쉽게 찾을 수 있습니다. 이 메서드는 `DataFrame`의 항목이 이전 항목의 중복 항목인지 여부를 나타내는 부울 마스크를 반환합니다. 이 동작을 보기 위해 또 다른 예제 `DataFrame`을 만들어 보겠습니다.
-```python
-example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
-                         'numbers': [1, 2, 1, 3, 3]})
-example4
-```
-|      |letters|numbers|
-|------|-------|-------|
-|0     |A      |1      |
-|1     |B      |2      |
-|2     |A      |1      |
-|3     |B      |3      |
-|4     |B      |3      |
-
-```python
-example4.duplicated()
-```
-```
-0    False
-1    False
-2     True
-3    False
-4     True
-dtype: bool
-```
- **중복 삭제: `drop_duplicates`:** 모든 `중복된(duplicated)` 값이 `False`인 데이터의 복사본을 반환합니다:
-```python
-example4.drop_duplicates()
-```
-```
-	letters	numbers
-0	A	1
-1	B	2
-3	B	3
-```
-`duplicated` 및 `drop_duplicates`는 기본적으로 모든 열을 고려하지만 `DataFrame`에서 열의 하위 집합만 검사하도록 지정할 수 있습니다.:
-```python
-example4.drop_duplicates(['letters'])
-```
-```
-letters	numbers
-0	A	1
-1	B	2
-```
-
-> **추가 팁:** 중복 데이터를 제거하는 것은 거의 모든 데이터 과학 프로젝트에서 필수적인 부분입니다. 중복 데이터는 분석 결과를 변경하고 부정확한 결과를 제공할 수 있습니다!
-
-
-## 🚀 도전과제
-
-논의된 모든 자료는 [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb)으로 제공됩니다. 또한, 각 섹션 후에 연습 문제가 있으므로 시도해 보세요!
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/15)
-
-
-
-## 리뷰 & 복습
-
-분석 및 모델링을 위해 데이터를 준비하고 접근하는 방법에는 여러 가지가 있으며, 데이터 정리는 "실제" 경험인 중요한 단계입니다. 이 강의에서 다루지 않은 기술을 살펴보기 위해 Kaggle의 관련 챌린지를 시도하세요!.
-
- [데이터 정제 과제: 날짜 구문 분석](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
-
- [데이터 정제 과제: 데이터 확장 및 정규화](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
-
-
-## 과제
-
-[특정 양식에서의 데이터 평가](../assignment.md)
--- a/2-Working-With-Data/08-data-preparation/translations/README.md
+++ b/2-Working-With-Data/08-data-preparation/translations/README.md
@ -1 +0,0 @@
-<!--add translations to this folder-->
--- a/2-Working-With-Data/08-data-preparation/translations/README.tr.md
+++ b/2-Working-With-Data/08-data-preparation/translations/README.tr.md
@ -1,335 +0,0 @@
-# Veri Üzerinde Çalışmak: Verinin Hazırlanması
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/08-DataPreparation.png)|
-|:---:|
-|Veriyi Hazırlamak - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## [Ders Öncesi Kısa Sınavı](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/14)
-
-
-
-Veriye bağlı olarak ham veriler, analiz ve modellemede zorluk çıkarabilecek bazı tutarsızlıklar içerebilir. Başka bir deyişle bu veriler "kirli" olarak sınıflandırılabilir ve temizlenmeleri gerekir. Bu derste kayıp, tutarsız ve eksik verilerle ilgili zorlukların üstesinden gelmek için verileri temizleme ve dönüştürne tekniklerine odaklanacağız. Bu derste işlenen konular Python programlama dili ve Pandas kitaplığını kullanacak ve [bu dizindeki](../notebook.ipynb) not defterinde gösterilecektir.
-
-## Veriyi temizlemenin önemi
-
- **Kullanım kolaylığı ve yeniden kullanılabilirlik**: Veriler düzgün bir şekilde düzenlendiğinde ve normalize edildiğinde, veri içinde arama yapmak, veriyi kullanmak ve başkalarıyla paylaşmak daha kolaydır.
-
- **Tutarlılık**: Veri bilimi genellikle, farklı kaynaklardan gelen veri setlerinin bir araya getirilmesinin gerektiği birden fazla veri setiyle çalışmayı gerektirir. Her bir veri setinin ortak standardizasyona sahip olduğundan emin olmak, verilerin tümü tek bir veri kümesinde birleştirildiğinde dahi veri setlerinin hala işe yarar olmasını sağlayacaktır. 
-
- **Model doğruluğu**: Temiz veriler, üzerinde kullanıldıkları modellerin doğruluğunu arttırır. 
-
-## Veriyi temizlemede genel hedef ve stratejiler
-
- **Veri setini araştırmak**: Daha [sonraki derslerde](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing) ele alacağımız veri araştırması, temizlenmesi gereken verilerin tespitinde yardımcı olabilir. Bir veri setindeki değerleri görsel olarak gözlemlemek, geri kalanının nasıl görüneceğine dair beklentileri belirleyebilir veya çözülebilecek sorunlar hakkında bir fikir verebilir. Veri setini araştırmak, temel sorgulamayı, görselleştirmeleri ve örneklemeyi içerebilir.
-
-  **Biçimlendirme**: Kaynağa bağlı olarak, verilerin sunulma biçiminde tutarsızlıklar olabilir. Bu tutarsızlık veri setinde görülebilir fakat görselleştirme ve arama sonuçlarında düzgün bir şekilde gözükmeyebilir ayrıca tutarsızlık veriyi aramada ve verinin gösterilmesinde problemlere yol açabilir. Yaygın biçimlendirme sorunları, boşlukları, tarihleri ve veri türlerini düzenlemeyi içerir. Biçimlendirme sorunlarını çözmek genellikle veriyi kullanan kişilere bağlıdır. Örneğin, tarihlerin ve sayıların nasıl sunulduğuna ilişkin standartlar ülkeye göre farklılık gösterebilir.
-
-  **Kopya veriler**: Veri setinde birden fazla kez kullanılan veriler yanlış sonuçlar verebilir ve genellikle kaldırılmalıdır. Birden fazla kullanılan veriler genellikle iki veya daha fazla veri setinin birleştirilmesi sırasında ortaya çıkar. Ancak, bazı birleştirilmiş veri setlerinde ortaya çıkan kopya veriler önemli detaylar içerebilir ve korunması gerekir.
-
- **Kayıp veri**: Eksik veriler, yanlışlıkların yanı sıra zayıf veya yanlı sonuçlara neden olabilir. Bazen bunlar verinin "yeniden yüklenmesi", yani eksik değerlerin Python koduyla işlenip doldurulması veya yalnızca değer ve ilgili verinin silinmesiyle çözülebilir. Verilerin neden eksik olabileceğiyle ilgili birçok neden vardır ve bu eksik veriyi düzeltmek için alınan önlemler, ilk etapta nasıl ve neden kaybolduklarına bağlı olabilir.
-
-## Veri Setiyle İlgili Bilgileri Araştırma
-> **Öğrenme hedefi:** Bu alt başlığın sonunda, pandas veri setlerinin içinde depolanan veriyle ilgili genel bilgilere ulaşmakta sorun yaşamıyor olacaksınız. 
-
-Verilerinizi pandas'a yükledikten sonra, büyük ihtimalle veriler bir veri çerçevesinin(DataFrame) içerisinde değilmiş gibi hissettirecektir.(ayrıntılı genel bakış için önceki [derse](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/07-python#dataframe) bakın). Ancak, veri çerçevenizdeki(DataFrame) veri setinde 60.000 satır ve 400 sütun varsa, neyle çalıştığınıza dair bir fikir edinmeye nasıl başlarsınız? Neyse ki, [pandas](https://pandas.pydata.org/) ilk birkaç ve son birkaç satıra ek olarak bir veri çerçevesiyle ilgili genel bilgilere hızlı bir şekilde bakmak için bazı kullanışlı araçlar sağlar.
-
-Bu işlevselliği keşfetmek için Python scikit-learn kitaplığını içe aktaracağız ve ikonik bir veri seti kullanacağız: **Iris veri seti**.
-
-```python
-import pandas as pd
-from sklearn.datasets import load_iris
-
-iris = load_iris()
-iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])
-```
-|                                        |sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)|
-|----------------------------------------|-----------------|----------------|-----------------|----------------|
-|0                                       |5.1              |3.5             |1.4              |0.2             |
-|1                                       |4.9              |3.0             |1.4              |0.2             |
-|2                                       |4.7              |3.2             |1.3              |0.2             |
-|3                                       |4.6              |3.1             |1.5              |0.2             |
-|4                                       |5.0              |3.6             |1.4              |0.2             |
-
- **DataFrame.info**: Başlangıç olarak, bir `DataFrame`de bulunan içeriğin bir özetini yazdırmak için `info()` metodu kullanılır. Elimizde ne olduğunu görmek için bu veri kümesine bir göz atalım:
-
-```python
-iris_df.info()
-```
-```
-RangeIndex: 150 entries, 0 to 149
-Data columns (total 4 columns):
- #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
- 0   sepal length (cm)  150 non-null    float64
- 1   sepal width (cm)   150 non-null    float64
- 2   petal length (cm)  150 non-null    float64
- 3   petal width (cm)   150 non-null    float64
-dtypes: float64(4)
-memory usage: 4.8 KB
-```
-Buradan itibaren, *Iris* veri setinin dört sütunda boş(null) girdi içermeyen 150 girdiye sahip olduğunu biliyoruz. Tüm veriler 64 bit kayan noktalı sayılar olarak saklanıyor.
-
- **DataFrame.head()**: Ardından, `DataFrame'in` gerçek içeriğini kontrol etmek için `head()` metodunu kullanıyoruz. `iris_df`'nin ilk birkaç satırının neye benzediğini görelim:
-```python
-iris_df.head()
-```
-```
-   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
-0                5.1               3.5                1.4               0.2
-1                4.9               3.0                1.4               0.2
-2                4.7               3.2                1.3               0.2
-3                4.6               3.1                1.5               0.2
-4                5.0               3.6                1.4               0.2
-```
- **DataFrame.tail()**: Tersine, `Veri çerçevesinin` son birkaç satırını kontrol etmek için `tail ()` yöntemini kullanırız:
-```python
-iris_df.tail()
-```
-```
-     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
-145                6.7               3.0                5.2               2.3
-146                6.3               2.5                5.0               1.9
-147                6.5               3.0                5.2               2.0
-148                6.2               3.4                5.4               2.3
-149                5.9               3.0                5.1               1.8
-```
-> **Bilgi:** Yalnızca bir DataFrame'deki bilgilerle ilgili metadata'ya(diğer bilgileri tanımlamak veya kullanmanıza yardımcı olmak için verilen bilgiler) veya birindeki ilk ve son birkaç değere bakarak bile, uğraştığınız verilerin boyutu, şekli ve içeriği hakkında anında bir fikir edinebilirsiniz.
-
-## Kayıp Verinin Üstesinden Gelmek
-> **Öğrenme hedefi:** Bu alt başlığın sonunda, null(boş) verileri nasıl doldurabileceğinizi veya silebileceğinizi öğrenmiş olacaksınız.
-
-Çoğu zaman, kullanmak istediğiniz veri kümelerinin (kullanmak zorunda olduğunuz) içinde eksik değerler bulunur. Eksik verilerin nasıl ele alındığı, nihai analizinizi ve gerçek dünyadaki sonuçlarınızı etkileyebilecek ince uzlaşmaları beraberinde getirir. 
-
-Pandas eksik verileri iki şekilde ele alır. İlki önceki bölümlerde gördüğünüz şekildedir: `NaN`, başka bir deyişle Bir sayı Değil (Not a Number). Bu aslında IEEE kayan nokta tanımlamasının bir parçası olan ve yalnızca eksik kayan nokta verilerini belirtmek için kullanılan özel bir değerdir.
-
-Float(kayan noktalı sayı/ondalıklı sayı) dışındaki eksik değerler için pandas, Python `None` nesnesini kullanır. Aslında aynı şeyi söyleyen iki farklı değer türüyle karşılaşmanız kafa karıştırıcı görünse de, bu tasarım seçiminin sağlam programatik nedenleri vardır ve pratikte bu seçim birçok durumda pandas'ın düzgün çalışmasını sağlar. Buna rağmen, hem `None` hem de `NaN`, bunların nasıl kullanılabileceği konusunda dikkat etmeniz gereken kısıtlamalar taşır.
-
-[Buradan](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) `NaN` ve `None` hakkında daha fazla bilgi edinin!
-
- **Null değerleri tespit etme**: Pandas'ta `isnull()` ve `notnull()` metodları null verileri tespit etmek için birincil metodlardır. İkisi de veri için Boolean maskesi döndürür. `NaN` değerler için `numpy` kullanacağız:
-```python
-import numpy as np
-
-example1 = pd.Series([0, np.nan, '', None])
-example1.isnull()
-```
-```
-0    False
-1     True
-2    False
-3     True
-dtype: bool
-```
-Çıktıya dikkatlice bakın. `0` aritmetik olarak null olsa da, yine de mükemmel bir tam sayıdır ve pandas buna göre davranır. `''` biraz daha farklıdır. Bölüm 1'de boş bir string değerini temsil etmek için kullanmış olsak da, yine de bir string nesnesidir ve pandas söz konusu olduğunda null değer değildir.
-
-Şimdi bu metotları pratikte kullanacağınız şekilde kullanalım. Boole maskelerini doğrudan ``Seri`` veya ``DataFrame`` dizini olarak kullanabilirsiniz; bu, soyutlanmış eksik değerlerle çalışmaya çalışırken yararlı olabilir.
-
-> **Bilgi**: `isnull()` ve `notnull()` metodlarının ikiside `DataFrame`'lerin içinde kullanıldığında benzer sonuçlar verir: sonuçları ve bu sonuçların indeksini gösterirler ki bu, verilerinizle boğuşurken size çok yardımcı olacaktır.
-
- **Null değerlerin silinmesi**: Kayıp verileri belirlemenin ötesinde, pandas `Seriler` ve `DataFrame`'lerden boş verileri silmek için uygun bir yol sunar. (Büyük veri setlerinde [NA] verileri silmek bunlarla uğraşmaktan daha çok önerilir.) Bunu görebilmek için `example1`'e geri dönelim:
-```python
-example1 = example1.dropna()
-example1
-```
-```
-0    0
-2     
-dtype: object
-```
-Bunun `example3[example3.notnull()]` çıktısı gibi görünmesi gerketiğini not edelim. Buradaki fark, yalnızca maskelenmiş değerleri indekslemek yerine, `dropna`'nın bu eksik değerleri `Seriler` `example1`'den silmesidir.
-
-`DataFrame`'lerin iki boyutu olduğundan verileri silmek için daha fazla seçenek sunarlar.
-```python
-example2 = pd.DataFrame([[1,      np.nan, 7], 
-                         [2,      5,      8], 
-                         [np.nan, 6,      9]])
-example2
-```
-|      | 0 | 1 | 2 |
-|------|---|---|---|
-|0     |1.0|NaN|7  |
-|1     |2.0|5.0|8  |
-|2     |NaN|6.0|9  |
-
-(Pandas'ın, NaN'leri yerleştirmek için sütunlardan ikisini float'a çevirdiğini fark ettiniz mi?)
-
-`DataFrame`'den tek bir değeri silemezsiniz, bu yüzden tüm bir satırı yada sütunu silmeniz gerekir. Ne yaptığınıza bağlı olarak, birini veya diğerini yapmak isteyebilirsiniz ve bu nedenle pandas size her ikisi için de seçenekler sunar. Veri biliminde sütunlar genellikle değişkenleri ve satırlar değişken gruplarının isimlerini(okul numaraları, köpek sayısı vb) temsil ettiğinden, satırları silme olasılığınız daha yüksektir; "dropna()" için varsayılan ayar, herhangi bir boş değer içeren tüm satırları silmektir:
-
-```python
-example2.dropna()
-```
-```
-	0	1	2
-1	2.0	5.0	8
-```
-Eğer gerekliyse, NA değerleri sütunlar için silmek mümkündür. Bunu yapmak için `axis=1` kullanılır:
-```python
-example2.dropna(axis='columns')
-```
-```
-	2
-0	7
-1	8
-2	9
-```
-Bunun, özellikle daha küçük veri setlerinde saklamak isteyebileceğiniz çok sayıda veriyi silebileceğine dikkat edin. Birkaç veya hatta tüm boş değerleri içeren satırları veya sütunları silmek isterseniz ne olur? Bu ayarı, `how` ve `thresh` parametreleriyle `dropna`'da belirtirsiniz.
-
-Varsayılan olarak, `how='any'` (kendiniz kontrol etmek veya yöntemin diğer parametrelerinin neler olduğunu görmek isterseniz, bir kod hücresinde `example4.dropna?` komutunu çalıştırın). Alternatif olarak, yalnızca tüm boş değerleri içeren satırları veya sütunları silmek için `how='all'` olarak belirtebilirsiniz. Bunu çalışırken görmek için `DataFrame` örneğimizi genişletelim.
-
-```python
-example2[3] = np.nan
-example2
-```
-|      |0  |1  |2  |3  |
-|------|---|---|---|---|
-|0     |1.0|NaN|7  |NaN|
-|1     |2.0|5.0|8  |NaN|
-|2     |NaN|6.0|9  |NaN|
-
-`thresh` parametresi size daha ayrıntılı kontrol sağlar: bir satır veya sütunun silinmemesi için sahip olması gereken *boş olmayan(non-null)* değerlerin sayısını ayarlarsınız:
-```python
-example2.dropna(axis='rows', thresh=3)
-```
-```
-	0	1	2	3
-1	2.0	5.0	8	NaN
-```
-Burada, yalnızca iki boş olmayan değer içerdiğinden, ilk ve son satır silinmiştir.
-
- **Null değerleri doldurmak**: Veri setine bağlı olarak bazen null değerleri doldurmak onları silmekten daha mantıklıdır. Bunu yapmak için `isnull`'u kullanabilirsiniz, ancak bu, özellikle doldurmanız gereken çok fazla değer varsa, zahmetli olabilir. Bu, veri biliminde çok yaygın bir durum olduğundan, pandas, eksik değerlerin seçtiğiniz bir değerle değiştirildiği `Series` veya `DataFrame`'in bir kopyasını döndüren `fillna`'yı sağlar. Bunun pratikte nasıl çalıştığını görmek için başka bir `Series` örneği yapalım.
-```python
-example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
-example3
-```
-```
-a    1.0
-b    NaN
-c    2.0
-d    NaN
-e    3.0
-dtype: float64
-```
-Tüm boş girdileri `0` gibi tek bir değerle doldurabilirsiniz:
-```python
-example3.fillna(0)
-```
-```
-a    1.0
-b    0.0
-c    2.0
-d    0.0
-e    3.0
-dtype: float64
-```
-Bir boş değeri doldurmak için son geçerli değeri kullanmak üzere boş değerleri **ileri doldurabilirsiniz(forward-fill)**:
-```python
-example3.fillna(method='ffill')
-```
-```
-a    1.0
-b    1.0
-c    2.0
-d    2.0
-e    3.0
-dtype: float64
-```
-Bir boş değeri doldurmak için bir sonraki geçerli değeri geriye doğru atamak için **geri doldur(back-fill)** da yapabilirsiniz:
-```python
-example3.fillna(method='bfill')
-```
-```
-a    1.0
-b    2.0
-c    2.0
-d    3.0
-e    3.0
-dtype: float64
-```
-Tahmin edebileceğiniz gibi, bu `DataFrame`'lerle de aynı şekilde çalışır, ayrıca boş değerlerin doldurulacağı bir `eksen(axis)` de belirtebilirsiniz. daha önce kullanılan `example2`'yi tekrar kullanarak:
-```python
-example2.fillna(method='ffill', axis=1)
-```
-```
-	0	1	2	3
-0	1.0	1.0	7.0	7.0
-1	2.0	5.0	8.0	8.0
-2	NaN	6.0	9.0	9.0
-```
-İleriye doğru doldurma için önceki bir değer mevcut olmadığında, boş değerin aynı kaldığına dikkat edin.
-
-> **Bilgi:** Veri setlerinizdeki kayıp değerlerle başa çıkmanın birden çok yolu vardır. Kullandığınız strateji (bunları kaldırmak, değiştirmek veya hatta nasıl değiştireceğiniz) bu verilerin ayrıntılarına göre belirlenmelidir. Veri kümelerini ne kadar çok ele alır ve etkileşime girerseniz, eksik değerlerle nasıl başa çıkacağınız konusunda o kadar başarılı olursunuz.
-
-## Yinelenen verileri silme
-
-> **Öğrenme hedefi:** Bu alt başlığın sonunda DataFrame'lerin içindeki yinelenen verileri bulma ve silme konusunda bilgi sahibi olacaksınız.
-
-Eksik verilere ek olarak, gerçek dünyadaki veri setlerinde sıklıkla yinelenen verilerle karşılaşacaksınız. Neyse ki, `pandas` yinelenen girdileri tespit etmek ve kaldırmak için kolay yollar sağlar.
-
- **Yinelenen verilerin saptanması: `duplicated`**: Pandas'da `duplicated` metodunu kullanarak yinelenen değerleri kolayca tespit edebilirsiniz; bu, `DataFrame`'deki bir girdinin daha önceki bir girdinin kopyası olup olmadığını gösteren bir Boole maskesi döndürür. Bunu çalışırken görmek için başka bir `DataFrame` örneği oluşturalım.
-```python
-example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
-                         'numbers': [1, 2, 1, 3, 3]})
-example4
-```
-|      |letters|numbers|
-|------|-------|-------|
-|0     |A      |1      |
-|1     |B      |2      |
-|2     |A      |1      |
-|3     |B      |3      |
-|4     |B      |3      |
-
-```python
-example4.duplicated()
-```
-```
-0    False
-1    False
-2     True
-3    False
-4     True
-dtype: bool
-```
- **Yinelenen verilerin silinmesi**: `drop_duplicates`: `drop_duplicates`, tüm `yinelenen` değerlerin `False` olduğu verilerin bir kopyasını döndürür:
-```python
-example4.drop_duplicates()
-```
-```
-	letters	numbers
-0	A	1
-1	B	2
-3	B	3
-```
-Hem `duplicated` hem de `drop_duplicates` varsayılan olarak tüm sütunları dikkate alır, ancak bunların `DataFrame`'inizdeki yalnızca bir sütunun alt kümesini incelemelerini sağlayabilirsiniz:
-```python
-example6.drop_duplicates(['letters'])
-```
-```
-letters	numbers
-0	A	1
-1	B	2
-```
-
-> **Bilgi:** Yinelenen verileri kaldırmak, hemen hemen her veri bilimi projesinin önemli bir parçasıdır. Yinelenen veriler, analizlerinizin sonuçlarını değiştirebilir ve size yanlış sonuçlar verebilir!
-
-
-## 🚀 Challenge
-
-Konuştuğumuz bütün materyaller burada sağlanıyor [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb). Ek olarak, her bölümden sonra alıştırmalar var, bunları yapmayı deneyin!
-
-## [Ders Sonu Kısa Sınavı](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/15)
-
-
-
-## İnceleme & Bireysel Çalışma
-
-Veriyi analiz ve modelleme için hazırlamanın ve veriyi temizlemenin "uygulamalı" bir deneyim olan önemli bir adım olduğunu keşfetmenin birçok yolu vardır. Bu dersin kapsamadığı teknikleri keşfetmek için Kaggle'dan bu challengeları deneyin.
-
- [Data Cleaning Challenge: Parsing Dates](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/)
-
- [Data Cleaning Challenge: Scale and Normalize Data](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data)
-
-
-## Ödev
-
-[Bir Formdaki Verilerin Değerlendirilmesi](../assignment.md)
--- a/3-Data-Visualization/09-visualization-quantities/translations/README.es.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/README.es.md
@ -1,206 +0,0 @@
-# Visualización de Cantidades
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/09-Visualizing-Quantities.png)|
-|:---:|
-| Visualización de cantidades - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-En esta lección explorarás cómo utilizar una de las muchas librerías de Python disponibles para aprender a crear interesantes visualizaciones relacionadas al concepto de cantidad. Utilizando un conjunto de datos limpios sobre las aves de Minnesota, podrás aprender muchos datos interesantes sobre la vida silvestre local.
-## [Cuestionario previo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16)
-
-## Observar la envergadura con Matplotlib
-
-Una excelente librería para crear gráficos tanto simples como sofisticados de varios tipos es [Matplotlib](https://matplotlib.org/stable/index.html). En términos generales, el proceso de ploteamiento de datos utilizando estas librerías incluye la identificación de las partes del dataframe que desea enfocar, la realización de cualquier transformación en los datos necesarios, la asignación de los valores de los ejes x e y, la decisión de qué tipo de gráfico mostrar, y luego mostrar el gráfico. Matplotlib ofrece una gran variedad de visualizaciones, pero para esta lección, vamos a concentrarnos en las más apropiadas para visualizar cantidad: gráficos de líneas, gráficos de dispersión y gráficos de barras.
-
-> ✅ Usa el gráfico que mejor se adapte a la estructura de tus datos y a la historia que quieres contar. 
-> - Para analizar tendencias a lo largo del tiempo: línea
-> - Para comparar valores: barra, columna, pastel, diagrama de dispersión
-> - Para mostrar cómo se relacionan las partes con un todo: pastel
-> - Para mostrar la distribución de los datos: gráfico de dispersión, barra
-> - Para mostrar tendencias: línea, columna
-> - Para mostrar relaciones entre valores: línea, gráfico de dispersión, burbuja
-
-Si tienes un conjunto de datos y necesitas descubrir qué cantidad de un elemento determinado está incluido, una de las primeras tareas que tienes que hacer será inspeccionar sus valores. 
-
-✅ Hay muy buenas "hojas de trucos" disponibles para Matplotlib [aquí](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
-
-## Construir un gráfico de líneas sobre los valores de la envergadura de las aves
-
-Abre el archivo `notebook.ipynb` en la raíz de la carpeta de esta lección y añada una celda.
-
-> Nota: los datos están almacenados en la raíz de este repositorio en la carpeta `/data`.
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-Estos datos son una mezcla de texto y números:
-
-
-|      | Name                         | ScientificName         | Category              | Order        | Family   | Genus       | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
-| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
-|    0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        47 |        56 |         652 |        1020 |          76 |          94 |
-|    1 | Fulvous whistling-duck       | Dendrocygna bicolor    | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        45 |        53 |         712 |        1050 |          85 |          93 |
-|    2 | Snow goose                   | Anser caerulescens     | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        79 |        2050 |        4050 |         135 |         165 |
-|    3 | Ross's goose                 | Anser rossii           | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |      57.3 |        64 |        1066 |        1567 |         113 |         116 |
-|    4 | Greater white-fronted goose  | Anser albifrons        | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        81 |        1930 |        3310 |         130 |         165 |
-
-Empecemos por graficar algunos de los datos numéricos utilizando un gráfico de líneas básico. Supongamos que queremos ver la envergadura máxima de estas interesantes aves.
-
-```python
-wingspan = birds['MaxWingspan'] 
-wingspan.plot()
-```
-![Envergadura máxima](../images/max-wingspan.png)
-
-¿Qué nota inmediatamente? Parece que hay al menos un valor atípico: ¡esa es una gran envergadura! Una envergadura de 2.300 centímetros equivale a 23 metros: ¿hay pterodáctilos vagando por Minnesota? Vamos a investigar.
-
-Aunque podrías hacer una ordenación rápida en Excel para encontrar esos valores atípicos, que probablemente sean errores tipográficos, continúa el proceso de visualización trabajando desde el gráfico.
-
-Añade etiquetas al eje x para mostrar qué tipo de aves hay en cuestión:
-
-```
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.xticks(rotation=45)
-x = birds['Name'] 
-y = birds['MaxWingspan']
-
-plt.plot(x, y)
-
-plt.show()
-```
-![envergadura con etiquetas](../images/max-wingspan-labels.png)
-
-Incluso con la rotación de las etiquetas ajustada a 45 grados, hay demasiado para leer. Vamos a probar una estrategia diferente: etiquetar sólo los valores atípicos y poner las etiquetas dentro del gráfico. Puedes utilizar un gráfico de dispersión para tener más espacio para el etiquetado:
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    plt.plot(x, y, 'bo')
-    if birds['MaxWingspan'][i] > 500:
-        plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
-    
-plt.show()
-```
-
-¿Qué está pasando aquí? Has utilizado `tick_params` para ocultar las etiquetas inferiores y luego has creado un bucle sobre tu conjunto de datos de aves. Al trazar el gráfico con pequeños puntos azules redondos utilizando `bo`, has comprobado si hay algún pájaro con una envergadura máxima superior a 500 y has mostrado su etiqueta junto al punto si es así. Desplazaste las etiquetas un poco en el eje Y (`y * (1 - 0.05)`) y utilizaste el nombre del ave como etiqueta.
-
-¿Qué descubrimos?
-
-![valores atípicos](../images/labeled-wingspan.png)
-## Filtra tus datos
-
-Tanto el águila calva como el halcón de las praderas, aunque probablemente sean aves muy grandes, parecen estar mal etiquetadas, con un "0" adicional a su envergadura máxima. Es poco probable que te encuentres con un águila calva de 25 metros de envergadura, pero si es así, ¡háznoslo saber! Vamos a crear un nuevo marco de datos sin esos dos valores atípicos:
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
-        plt.plot(x, y, 'bo')
-plt.show()
-```
-
-Al filtrar los valores atípicos, sus datos son ahora más coherentes y comprensibles.
-
-![gráfico de dispersión de la envergadura](../images/scatterplot-wingspan.png)
-
-Ahora que tenemos un conjunto de datos más limpio, al menos en lo que respecta a la envergadura, vamos a descubrir más cosas sobre estas aves.
-
-Aunque los gráficos de líneas y de dispersión pueden mostrar información sobre los valores de los datos y sus distribuciones, queremos pensar en los valores inherentes a este conjunto de datos. Podrías crear visualizaciones para responder a las siguientes preguntas sobre la cantidad:
-
-> ¿Cuántas categorías de aves hay y cuál es su número?
-> ¿Cuántas aves están extinguidas, en peligro de extinción, son raras o comunes?
-> ¿Cuántos hay de los distintos géneros y tipos en la terminología de Linneo?
-## Explorar los gráficos de barras
-
-Los gráficos de barras son prácticos cuando se necesita mostrar agrupaciones de datos. Exploremos las categorías de aves que existen en este conjunto de datos para ver cuál es la más común por número.
-
-En el archivo del cuaderno, crea un gráfico de barras básico
-
-✅ Nota, puedes filtrar las dos aves atípicas que identificamos en la sección anterior, editar la errata de su envergadura, o déjalas para estos ejercicios que no dependen de los valores de envergadura.
-
-Si desea crear un gráfico de barras, puede seleccionar los datos en los que desea centrarse. Los gráficos de barras se pueden crear a partir de datos sin procesar:
-
-```python
-birds.plot(x='Category',
-        kind='bar',
-        stacked=True,
-        title='Birds of Minnesota')
-
-```
-![datos completos en forma de gráfico de barras](../images/full-data-bar.png)
-
-Este gráfico de barras, sin embargo, es ilegible porque hay demasiados datos no agrupados. Necesitas seleccionar sólo los datos que quieres graficar, así que veamos la longitud de las aves según su categoría. 
-
-Filtra tus datos para incluir sólo la categoría del pájaro. 
-
-✅ Observa que usas Pandas para manejar los datos, y luego dejas que Matplotlib haga el gráfico.
-
-Como hay muchas categorías, puedes mostrar este gráfico verticalmente y ajustar su altura para tener en cuenta todos los datos:
-
-```python
-category_count = birds.value_counts(birds['Category'].values, sort=True)
-plt.rcParams['figure.figsize'] = [6, 12]
-category_count.plot.barh()
-```
-![categoría y altura](../images/category-counts.png)
-
-Este gráfico de barras muestra una buena visión del número de aves en cada categoría. En un abrir y cerrar de ojos, se ve que el mayor número de aves de esta región se encuentra en la categoría de patos/gatos/aves acuáticas. Minnesota es el "país de los 10.000 lagos", así que no es de extrañar.
-
-✅ Prueba otros conteos en este conjunto de datos. ¿Le sorprende algo?
-
-## Comparación de datos
-
-Puedes probar diferentes comparaciones de datos agrupados creando nuevos ejes. Intenta una comparación de la longitud máxima de un pájaro, basada en su categoría:
-
-```python
-maxlength = birds['MaxLength']
-plt.barh(y=birds['Category'], width=maxlength)
-plt.rcParams['figure.figsize'] = [6, 12]
-plt.show()
-```
-![comparación de datos](../images/category-length.png)
-
-Aquí no hay nada sorprendente: los colibríes tienen la menor longitud máxima en comparación con los pelícanos o los gansos. ¡Es bueno cuando los datos tienen un sentido lógico!
-
-Puede crear visualizaciones más interesantes de los gráficos de barras superponiendo los datos. Superpongamos la longitud mínima y máxima en una categoría de aves determinada:
-
-```python
-minLength = birds['MinLength']
-maxLength = birds['MaxLength']
-category = birds['Category']
-
-plt.barh(category, maxLength)
-plt.barh(category, minLength)
-
-plt.show()
-```
-En este gráfico, puedes ver el rango por categoría de ave de la longitud mínima y la longitud máxima. Se puede decir con seguridad que, dados estos datos, cuanto más grande es el ave, mayor es su rango de longitud. ¡Fascinante!
-
-![valores superpuestos](../images/superimposed.png)
-
-## 🚀 Desafío
-
-Este conjunto de datos sobre aves ofrece una gran cantidad de información sobre diferentes tipos de aves dentro de un ecosistema concreto. Busca en Internet y comprueba si puedes encontrar otros conjuntos de datos orientados a las aves. Practica la construcción de tablas y gráficos en torno a estas aves para descubrir datos que no conocías.
-
-## [Cuestionario posterior a la clase](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17)
-
-## Repaso y Autoestudio
-
-Esta primera lección has recibido alguna información sobre cómo utilizar Matplotlib para visualizar cantidades. Investiga sobre otras formas de trabajar con conjuntos de datos para su visualización. [Plotly](https://github.com/plotly/plotly.py) es otra forma que no cubriremos en estas lecciones, así que echa un vistazo a lo que puede ofrecer.
-## Asignación
-
-[Líneas, dispersiones y barras](assignment.es.md)
--- a/3-Data-Visualization/09-visualization-quantities/translations/README.hi.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/README.hi.md
@ -1,204 +0,0 @@
-# विज़ुअलाइज़िंग मात्रा
-
-|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/09-Visualizing-Quantities.png)|
-|:---:|
-| विज़ुअलाइज़िंग मात्रा - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
-
-इस पाठ में आप यह पता लगाएंगे कि मात्रा की अवधारणा के चारों ओर दिलचस्प विज़ुअलाइज़ेशन कैसे बनाएं, यह जानने के लिए कई उपलब्ध पायथन पुस्तकालयों में से एक का उपयोग कैसे करें। मिनेसोटा के पक्षियों के बारे में साफ किए गए डेटासेट का उपयोग करके, आप स्थानीय वन्यजीवों के बारे में कई रोचक तथ्य जान सकते हैं। 
-## [प्री-रीडिंग क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16)
-
-## माटप्लोटलिब के साथ पंखों का निरीक्षण करें
-
-सरल और परिष्कृत दोनों प्रकार के प्लॉट और विभिन्न प्रकार के चार्ट बनाने के लिए एक उत्कृष्ट पुस्तकालय है [माटप्लोटलिब](https://matplotlib.org/stable/index.html)। सामान्य शब्दों में, इन पुस्तकालयों का उपयोग करके डेटा को प्लॉट करने की प्रक्रिया में आपके डेटाफ़्रेम के उन हिस्सों की पहचान करना शामिल है जिन्हें आप लक्षित करना चाहते हैं, उस डेटा पर कोई भी आवश्यक परिवर्तन करना, इसके x और y अक्ष मान निर्दिष्ट करना, यह तय करना कि किस प्रकार का प्लॉट दिखाना है, और फिर साजिश दिखा रहा है। माटप्लोटलिब विज़ुअलाइज़ेशन की एक विशाल विविधता प्रदान करता है, लेकिन इस पाठ के लिए, आइए उन पर ध्यान केंद्रित करें जो मात्रा को देखने के लिए सबसे उपयुक्त हैं: लाइन चार्ट, स्कैटरप्लॉट और बार प्लॉट।
-
-> ✅ अपने डेटा की संरचना और जो कहानी आप बताना चाहते हैं, उसके अनुरूप सर्वोत्तम चार्ट का उपयोग करें। 
-> - समय के साथ रुझानों का विश्लेषण करने के लिए: लाइन
-> - मानों की तुलना करने के लिए: बार, कॉलम, पाई, स्कैटरप्लॉट
-> - यह दिखाने के लिए कि भाग किस प्रकार संपूर्ण से संबंधित हैं: पाई
-> - डेटा का वितरण दिखाने के लिए: स्कैटरप्लॉट, बार
-> - रुझान दिखाने के लिए: लाइन, कॉलम
-> - मानों के बीच संबंध दिखाने के लिए: लाइन, स्कैटरप्लॉट, बबल
-
-यदि आपके पास एक डेटासेट है और यह पता लगाने की आवश्यकता है कि किसी दिए गए आइटम में से कितना शामिल है, तो आपके पास सबसे पहले कार्यों में से एक इसके मूल्यों का निरीक्षण करना होगा। 
-
-✅ माटप्लोटलिब के लिए बहुत अच्छी 'चीट शीट' उपलब्ध हैं [here](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
-
-## बर्ड विंगस्पैन मूल्यों के बारे में एक लाइन प्लॉट बनाएं
-
-इस पाठ फ़ोल्डर के मूल में `नोटबुक.आईपीएनबी` फ़ाइल खोलें और एक सेल जोड़ें।
-
-> नोट: डेटा इस रेपो की जड़ में `/आंकड़े` फ़ोल्डर में संग्रहीत है।
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-यह डेटा टेक्स्ट और संख्याओं का मिश्रण है:
-
-
-|      | नाम                         | वैज्ञानिक नाम        | श्रेणी              | आदेश        | परिवार   | जाति       | संरक्षण की स्थिति | न्यूनतम लंबाई | अधिकतम लंबाई | मिनबॉडीमास | मैक्सबॉडीमास | मिनविंगस्पैन | मैक्सविंगस्पैन |
-| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
-|    0 | ब्लैक-बेल्ड सीटी-बतख | डेंड्रोसाइग्ना ऑटमलिस | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | डेंड्रोसाइग्ना | एल सी                 |        47 |        56 |         652 |        1020 |          76 |          94 |
-|    1 | फुल्वस सीटी-बतख       | डेंड्रोसाइग्ना बाइकलर    | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | डेंड्रोसाइग्ना | एल सी                 |        45 |        53 |         712 |        1050 |          85 |          93 |
-|    2 | हिम हंस                   | Anser caerulescens     | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser       | एल सी                 |        64 |        79 |        2050 |        4050 |         135 |         165 |
-|    3 | रॉस हंस                 | Anser rossii           | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser       | एल सी                 |      57.3 |        64 |        1066 |        1567 |         113 |         116 |
-|    4 | ग्रेटर व्हाइट-फ्रंटेड गूज  | Anser albifrons        | बतख / गीज़ / जलपक्षी | अंसेरी फॉर्म्स | अनाटिडे | Anser       | एल सी                 |        64 |        81 |        1930 |        3310 |         130 |         165 |
-
-आइए बुनियादी लाइन प्लॉट का उपयोग करके कुछ संख्यात्मक डेटा को प्लॉट करके शुरू करें। मान लीजिए आप इन दिलचस्प पक्षियों के लिए अधिकतम पंखों का दृश्य चाहते हैं।
-
-```python
-wingspan = birds['MaxWingspan'] 
-wingspan.plot()
-```
-![मैक्स विंगस्पैन](images/max-wingspan.png)
-
-आप तुरंत क्या नोटिस करते हैं? ऐसा लगता है कि कम से कम एक बाहरी है - वह काफी पंख है! एक २३०० सेंटीमीटर पंखों का फैलाव २३ मीटर के बराबर होता है - क्या मिनेसोटा में पटरोडैक्टाइल घूम रहे हैं? आइए जांच करते हैं।
-
-जबकि आप उन आउटलेर्स को खोजने के लिए एक्सेल में एक त्वरित सॉर्ट कर सकते हैं, जो शायद टाइपो हैं, प्लॉट के भीतर से काम करके विज़ुअलाइज़ेशन प्रक्रिया जारी रखें।
-
-प्रश्न में किस प्रकार के पक्षी हैं, यह दिखाने के लिए x-अक्ष में लेबल जोड़ें:
-
-```
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.xticks(rotation=45)
-x = birds['Name'] 
-y = birds['MaxWingspan']
-
-plt.plot(x, y)
-
-plt.show()
-```
-![लेबल के साथ विंगस्पैन](images/max-wingspan-labels.png)
-
-यहां तक कि लेबल के रोटेशन को 45 डिग्री पर सेट करने के बाद भी, पढ़ने के लिए बहुत कुछ है। आइए एक अलग रणनीति का प्रयास करें: केवल उन आउटलेर्स को लेबल करें और चार्ट के भीतर लेबल सेट करें। लेबलिंग के लिए अधिक जगह बनाने के लिए आप स्कैटर चार्ट का उपयोग कर सकते हैं:
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    plt.plot(x, y, 'bo')
-    if birds['MaxWingspan'][i] > 500:
-        plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
-    
-plt.show()
-```
-यहाँ क्या चल रहा है? आपने निचले लेबल को छिपाने के लिए `tick_params` का उपयोग किया और फिर अपने पक्षियों के डेटासेट पर एक लूप बनाया। 'बो' का उपयोग करके छोटे गोल नीले डॉट्स वाले चार्ट को प्लॉट करते हुए, आपने 500 से अधिक पंखों वाले किसी भी पक्षी की जाँच की और यदि ऐसा है तो डॉट के बगल में उनका लेबल प्रदर्शित किया। आप y अक्ष (`वाई * (1 - 0.05)`) पर लेबल को थोड़ा सा ऑफसेट करते हैं और एक लेबल के रूप में पक्षी के नाम का उपयोग करते हैं।
-
-आपने क्या खोजा?
-
-![बाहरी कारकों के कारण](images/labeled-wingspan.png)
-## अपना डेटा फ़िल्टर करें
-
-बाल्ड ईगल और प्रेयरी फाल्कन दोनों, जबकि शायद बहुत बड़े पक्षी, गलत लेबल वाले प्रतीत होते हैं, उनके अधिकतम पंखों में अतिरिक्त `0` जोड़ा जाता है। यह संभावना नहीं है कि आप 25 मीटर पंखों वाले बाल्ड ईगल से मिलेंगे, लेकिन यदि ऐसा है, तो कृपया हमें बताएं! आइए उन दो आउटलेर्स के बिना एक नया डेटाफ़्रेम बनाएं:
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
-        plt.plot(x, y, 'bo')
-plt.show()
-```
-
-आउटलेर्स को फ़िल्टर करके, आपका डेटा अब अधिक सुसंगत और समझने योग्य है।
-
-![पंखों का बिखराव](images/scatterplot-wingspan.png)
-
-अब जबकि हमारे पास कम से कम पंखों के मामले में एक क्लीनर डेटासेट है, तो आइए इन पक्षियों के बारे में और जानें।
-
-जबकि लाइन और स्कैटर प्लॉट डेटा मानों और उनके वितरण के बारे में जानकारी प्रदर्शित कर सकते हैं, हम इस डेटासेट में निहित मूल्यों के बारे में सोचना चाहते हैं। आप मात्रा के बारे में निम्नलिखित प्रश्नों के उत्तर देने के लिए विज़ुअलाइज़ेशन बना सकते हैं:
-
-> पक्षियों की कितनी श्रेणियां हैं और उनकी संख्या क्या है?
-> कितने पक्षी विलुप्त, संकटग्रस्त, दुर्लभ या सामान्य हैं?
-> लिनिअस की शब्दावली में विभिन्न जीनस और आदेश कितने हैं?
-## बार चार्ट का अन्वेषण करें
-
-बार चार्ट व्यावहारिक होते हैं जब आपको डेटा के समूह दिखाने की आवश्यकता होती है। आइए इस डेटासेट में मौजूद पक्षियों की श्रेणियों का पता लगाएं, यह देखने के लिए कि संख्या के हिसाब से कौन सा सबसे आम है।
-
-नोटबुक फ़ाइल में, एक मूल बार चार्ट बनाएं
-
-✅ ध्यान दें, आप या तो पिछले अनुभाग में पहचाने गए दो बाहरी पक्षियों को फ़िल्टर कर सकते हैं, उनके पंखों में टाइपो को संपादित कर सकते हैं, या उन्हें इन अभ्यासों के लिए छोड़ सकते हैं जो पंखों के मूल्यों पर निर्भर नहीं करते हैं।
-
-यदि आप एक बार चार्ट बनाना चाहते हैं, तो आप उस डेटा का चयन कर सकते हैं जिस पर आप ध्यान केंद्रित करना चाहते हैं। कच्चे डेटा से बार चार्ट बनाए जा सकते हैं:
-
-```python
-birds.plot(x='Category',
-        kind='bar',
-        stacked=True,
-        title='Birds of Minnesota')
-
-```
-![बार चार्ट के रूप में पूर्ण डेटा](images/full-data-bar.png)
-
-हालांकि, यह बार चार्ट अपठनीय है क्योंकि इसमें बहुत अधिक गैर-समूहीकृत डेटा है। आपको केवल उस डेटा का चयन करने की आवश्यकता है जिसे आप प्लॉट करना चाहते हैं, तो आइए उनकी श्रेणी के आधार पर पक्षियों की लंबाई देखें।
-
-केवल पक्षी की श्रेणी को शामिल करने के लिए अपना डेटा फ़िल्टर करें।
-
-✅ ध्यान दें कि आप डेटा को प्रबंधित करने के लिए पंडों का उपयोग करते हैं, और फिर माटप्लोटलिब को चार्टिंग करने दें।
-
-चूंकि कई श्रेणियां हैं, आप इस चार्ट को लंबवत रूप से प्रदर्शित कर सकते हैं और सभी डेटा के हिसाब से इसकी ऊंचाई को बदल सकते हैं:
-
-```python
-category_count = birds.value_counts(birds['Category'].values, sort=True)
-plt.rcParams['figure.figsize'] = [6, 12]
-category_count.plot.barh()
-```
-![श्रेणी और लंबाई](images/category-counts.png)
-
-यह बार चार्ट प्रत्येक श्रेणी में पक्षियों की संख्या का एक अच्छा दृश्य दिखाता है। पलक झपकते ही, आप देखते हैं कि इस क्षेत्र में पक्षियों की सबसे बड़ी संख्या बतख/गीज़/जलपक्षी श्रेणी में है। मिनेसोटा '10,000 झीलों की भूमि' है इसलिए यह आश्चर्य की बात नहीं है!
-
-✅ इस डेटासेट पर कुछ और मायने रखने की कोशिश करें। क्या आपको कुछ आश्चर्य होता है?
-
-## डेटा की तुलना करना
-
-आप नए अक्ष बनाकर समूहीकृत डेटा की विभिन्न तुलनाओं को आज़मा सकते हैं। किसी पक्षी की श्रेणी के आधार पर उसकी अधिकतम लंबाई की तुलना करने का प्रयास करें:
-
-```python
-maxlength = birds['MaxLength']
-plt.barh(y=birds['Category'], width=maxlength)
-plt.rcParams['figure.figsize'] = [6, 12]
-plt.show()
-```
-![डेटा की तुलना करना](images/category-length.png)
-
-यहां कुछ भी आश्चर्य की बात नहीं है: हमिंगबर्ड में पेलिकन या गीज़ की तुलना में कम से कम अधिकतम लंबाई होती है। यह अच्छा है जब डेटा तार्किक समझ में आता है!
-
-आप डेटा को सुपरइम्पोज़ करके बार चार्ट के अधिक दिलचस्प विज़ुअलाइज़ेशन बना सकते हैं। आइए किसी दी गई पक्षी श्रेणी पर न्यूनतम और अधिकतम लंबाई को सुपरइम्पोज़ करें:
-
-```python
-minLength = birds['MinLength']
-maxLength = birds['MaxLength']
-category = birds['Category']
-
-plt.barh(category, maxLength)
-plt.barh(category, minLength)
-
-plt.show()
-```
-इस प्लॉट में आप न्यूनतम लंबाई और अधिकतम लंबाई की प्रति पक्षी श्रेणी की सीमा देख सकते हैं। आप सुरक्षित रूप से कह सकते हैं कि, इस डेटा को देखते हुए, पक्षी जितना बड़ा होगा, उसकी लंबाई सीमा उतनी ही बड़ी होगी। चित्ताकर्षक!
-
-![superimposed values](images/superimposed.png)
-
-## 🚀 चुनौती
-
-यह पक्षी डेटासेट एक विशेष पारिस्थितिकी तंत्र के भीतर विभिन्न प्रकार के पक्षियों के बारे में जानकारी का खजाना प्रदान करता है। इंटरनेट के चारों ओर खोजें और देखें कि क्या आप अन्य पक्षी-उन्मुख डेटासेट पा सकते हैं। उन तथ्यों की खोज करने के लिए इन पक्षियों के चारों ओर चार्ट और ग्राफ़ बनाने का अभ्यास करें जिन्हें आपने महसूस नहीं किया है।
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17)
-
-## समीक्षा और स्व अध्ययन
-
-इस पहले पाठ ने आपको मात्राओं की कल्पना करने के लिए Matplotlib का उपयोग करने के तरीके के बारे में कुछ जानकारी दी है। विज़ुअलाइज़ेशन के लिए डेटासेट के साथ काम करने के अन्य तरीकों के बारे में कुछ शोध करें। [प्लॉटली](https://github.com/plotly/plotly.py) प्वह है जिसे हम इन पाठों में शामिल नहीं करेंगे, इसलिए देखें कि यह क्या पेशकश कर सकता है।
-## कार्यभार
-
-[लाइन्स, स्कैटर, और बार्स](assignment.md)
--- a/3-Data-Visualization/09-visualization-quantities/translations/README.ko.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/README.ko.md
@ -1,203 +0,0 @@
-# 수량 시각화
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/09-Visualizing-Quantities.png)|
-|:---:|
-| 수량 시각화 - _제작자 : [@nitya](https://twitter.com/nitya)_ |
-
-이 강의에서는 사용할 수 있는 많은 파이썬 라이브러리 중에 하나를 사용하여 수량 개념과 관련된 흥미로운 시각화를 만드는 방법을 알아봅니다. 여러분은 미네소타의 새들에 대한 정리된 데이터 세트를 사용하여, 지역 야생동물에 대한 많은 흥미로운 사실들을 배울 수 있습니다.
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16)
-
-## Matplotlib으로 날개 길이 관찰하기
-
-다양한 종류의 간단하고 정교한 플롯과 차트를 모두 생성할 수 있는 훌륭한 라이브러리는 [Matplotlib](https://matplotlib.org/stable/index.html) 입니다. 일반적으로 이러한 라이브러리를 사용하여 데이터를 그리는 프로세스에는 대상으로 지정하려는 데이터 프레임 부분 식별, 필요한 해당 데이터에 대한 변환 수행, x 및 y축 값 할당, 표시할 플롯 종류를 결정한 다음 그림을 표시하는 작업이 포함됩니다. Matplotlib은 다양한 시각화를 제공하지만, 이 강의에서는 수량 시각화에 가장 적합한 선형 차트, 산점도 및 막대그래프에 중점을 두겠습니다.
-
-> ✅ 데이터 구조와 전달하려는 내용에 가장 적합한 차트를 사용하세요.
-> - 시간 경과에 따른 추세 분석: 선
-> - 값을 비교하기: 막대, 세로 막대형, 파이, 산점도
-> - 부분이 전체와 어떻게 관련되어 있는지 보여주기: 파이
-> - 데이터 분포 표시: 산점도, 막대
-> - 추세 표시: 선, 세로 막대형
-> - 값 사이의 관계 표시: 선, 산점도, 버블
-
-데이터 세트가 있고 주어진 항목이 얼마나 포함되어 있는지 확인해야 하는 경우에, 가장 먼저 처리해야 하는 작업 중 하나는 해당 값을 검사하는 것입니다.
-
-✅ Matplotlib에 사용할 수 있는 매우 좋은 '치트 시트'가 있습니다. [here](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
-
-## 새 날개 길이 값에 대한 선 그래프 작성하기
-
-이 강의 폴더의 루트에 있는 `notebook.ipynb` 파일을 열고 셀을 추가합니다.
-
-> 참고: 데이터는 '/데이터'폴더의 이 repo 루트에 저장됩니다.
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-이 데이터는 텍스트와 숫자의 혼합으로 이루어져있습니다:
-
-
-|      | Name                         | ScientificName         | Category              | Order        | Family   | Genus       | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
-| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
-|    0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        47 |        56 |         652 |        1020 |          76 |          94 |
-|    1 | Fulvous whistling-duck       | Dendrocygna bicolor    | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        45 |        53 |         712 |        1050 |          85 |          93 |
-|    2 | Snow goose                   | Anser caerulescens     | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        79 |        2050 |        4050 |         135 |         165 |
-|    3 | Ross's goose                 | Anser rossii           | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |      57.3 |        64 |        1066 |        1567 |         113 |         116 |
-|    4 | Greater white-fronted goose  | Anser albifrons        | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        81 |        1930 |        3310 |         130 |         165 |
-
-먼저 기본 선 그래프을 사용하여 숫자 데이터 중 일부를 표시해 보겠습니다. 여러분이 이 흥미로운 새들의 최대 날개 길이를 보고싶다고 가정해 보겠습니다.
-
-```python
-wingspan = birds['MaxWingspan'] 
-wingspan.plot()
-```
-![Max Wingspan](../images/max-wingspan.png)
-
-여러분은 바로 무언가를 알아차리셨나요? 적어도 하나의 이상값이 있는 것 같은데, 날개 폭이 꽤 넓군요! 2300센티미터의 날개 폭은 23미터와 같습니다. 미네소타를 배회하는 익룡이 있는 걸까요? 조사해 봅시다.
-
-Excel에서 빠른 정렬을 수행하여 오타일 가능성이 있는 이상값을 찾을 수 있지만, 플롯 내에서 작업하여 시각화 프로세스를 계속합니다.
-
-x축에 label을 추가하여 문제의 새 종류를 표시합니다.
-
-```
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.xticks(rotation=45)
-x = birds['Name'] 
-y = birds['MaxWingspan']
-
-plt.plot(x, y)
-
-plt.show()
-```
-![wingspan with labels](../images/max-wingspan-labels.png)
-
-label의 회전을 45도로 설정해도 읽기에는 너무 많습니다. 다른 전략을 시도해 보겠습니다. 해당 이상값에만 label을 지정하고 차트 내에 label을 설정합니다. 분산형 차트를 사용하여 labeling을 위한 더 많은 공간을 만들 수 있습니다.
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    plt.plot(x, y, 'bo')
-    if birds['MaxWingspan'][i] > 500:
-        plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
-    
-plt.show()
-```
-무슨 일이 일어나고 있는 거죠? `tick_params`를 사용하여 하단 레이블을 숨긴 다음 새 데이터(bird data) 에 루프를 만들었습니다. 'bo'를 이용해 작고 동그란 파란 점으로 차트를 표시하면 최대 날개 길이가 500을 초과하는 새가 있는지 확인하고 점 옆에 label을 표시했습니다. label을 y축에서 약간 오프셋(`y * (1 - 0.05)`)하고 새 이름을 레이블로 사용했습니다.
-What did you discover?
-
-![outliers](../images/labeled-wingspan.png)
-## 데이터 필터링
-
-대머리 독수리(Bald eagle)와 대머리 매(Prairie falcon)은 아마도 매우 큰 새일 것이지만, 이들의 최대 날개 길이에 '0'이 추가되어 잘못 표기된 것으로 보입니다. 여러분이 25미터의 날개폭을 가진 흰머리 독수리를 만날 것 같지는 않지만, 만약 만난다면 우리에게 알려주세요! 이제 이 두 가지 이상치를 제외하고 새 데이터 프레임을 생성해 보겠습니다.
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
-        plt.plot(x, y, 'bo')
-plt.show()
-```
-
-이상치를 필터링함으로써 이제 데이터의 응집력이 높아지고 이해하기 쉬워졌습니다.
-
-![scatterplot of wingspans](../images/scatterplot-wingspan.png)
-
-이제 우리는 적어도 날개 길이 측면에서 더 깨끗한 데이터 셋를 얻었으므로 이 새들에 대해 더 자세히 알아보겠습니다.
-
-선 그래프 및 산점도 그래프는 데이터 값과 그 분포에 대한 정보를 표시할 수 있지만, 이 데이터 셋에 내재된 값에 대해 고려하려고 합니다. 수량에 대한 다음 질문에 답하기 위해 시각화를 만들 수 있습니다.
-
-> 새의 종류는 몇 가지이며 그 수는 얼마인가요?
-> 얼마나 많은 새들이 멸종했고, 멸종위기에 처해있고, 희귀하거나 흔할까요?
-> Linnaeus의 용어에는 얼마나 많은 다양한 속과 목들이 있나요?
-## 막대 차트 탐색
-
-막대형 차트는 데이터 그룹화를 보여줘야 할 때 유용합니다. 이 데이터셋에 있는 새들의 를 탐색하여 숫자로 가장 흔한 새가 무엇인지 알아보겠습니다.
-
-노트북 파일에서 기본 막대 차트를 만듭니다.
-
-✅ 참고, 앞 섹션에서 식별한 두 개의 이상값 새를 필터링하거나, 날개 폭의 오타를 편집하거나, 날개 폭 값에 의존하지 않는 연습에 사용할 수 있습니다.
-
-막대 차트를 만들고 싶다면 초점을 맞출 데이터를 선택하면 됩니다. 원시 데이터로 막대 차트를 만들 수 있습니다.
-
-```python
-birds.plot(x='Category',
-        kind='bar',
-        stacked=True,
-        title='Birds of Minnesota')
-
-```
-![full data as a bar chart](../images/full-data-bar.png)
-
-그러나 그룹화되지 않은 데이터가 너무 많기 때문에 이 막대 차트를 읽을 수 없습니다. 표시할 데이터만 선택해야 하므로 카테고리를 기준으로 새의 길이를 살펴보겠습니다.
-
-새 카테고리만 포함하도록 데이터를 필터링합니다.
-
-✅ Pandas를 사용하여 데이터를 관리한 다음 Matplotlib으로 차트 작성을 합니다.
-
-카테고리가 많으므로 이 차트를 세로로 표시하고 모든 데이터를 설명하도록 높이를 조정할 수 있습니다.
-
-```python
-category_count = birds.value_counts(birds['Category'].values, sort=True)
-plt.rcParams['figure.figsize'] = [6, 12]
-category_count.plot.barh()
-```
-![category and length](../images/category-counts.png)
-
-이 막대 차트는 각 카테고리의 새의 수를 잘 보여줍니다. 눈 깜짝할 사이에 이 지역에서 가장 많은 수의 새가 오리(Ducks)/거위(Geese)/물새(Waterfowl) 카테고리에 있음을 알 수 있습니다. 미네소타는 '10,000개의 호수의 땅'이므로 이것은 놀라운 일이 아닙니다!
-
-✅ 이 데이터 세트에서 다른 수를 시도하세요. 여러분을 놀라게 하는 것이 있나요?
-
-## 데이터 비교
-
-새로운 축을 만들어 그룹화된 데이터의 다양한 비교를 시도할 수 있습니다. 카테고리에 따라 새의 MaxLength를 비교하세요.
-
-```python
-maxlength = birds['MaxLength']
-plt.barh(y=birds['Category'], width=maxlength)
-plt.rcParams['figure.figsize'] = [6, 12]
-plt.show()
-```
-![comparing data](../images/category-length.png)
-
-여기서 놀라운 것은 없습니다. 벌새(hummingbirds)는 펠리컨(Pelicans)이나 기러기(Geese)에 비해 MaxLength가 가장 짧습니다. 데이터가 논리적으로 타당할 때 좋습니다!
-
-데이터를 중첩하여 막대 차트에 대한 더 흥미로운 시각화를 만들 수 있습니다. 주어진 새 카테고리에 최소 및 최대 길이를 중첩해 보겠습니다.
-
-```python
-minLength = birds['MinLength']
-maxLength = birds['MaxLength']
-category = birds['Category']
-
-plt.barh(category, maxLength)
-plt.barh(category, minLength)
-
-plt.show()
-```
-이 플롯에서는 최소 길이 및 최대 길이의 새 카테고리당 범위를 볼 수 있습니다. 이 데이터를 고려할 때, 새의 몸길이가 클수록 새의 몸길이는 더 넓어진다고 해도 무방할 것입니다. 신기하지 않나요!
-
-![superimposed values](../images/superimposed.png)
-
-## 🚀 도전
-
-이 새 데이터 셋은 특정 생태계 내의 다양한 종류의 새에 대한 풍부한 정보를 제공합니다. 인터넷을 검색하여 다른 조류 지향 데이터 셋을 찾을 수 있는지 확인해 보세요. 여러분이 깨닫지 못한 사실을 발견하기 위해 이 새들에 대한 차트와 그래프를 만드는 연습을 하세요.
-## [이전 강의 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17)
-
-## 복습 & 자기주도학습
-
-이번 첫번째 강의에서는 Matplotlib을 사용하여 수량을 시각화하는 방법에 대한 몇 가지 정보를 배웠습니다. 시각화를 위해 데이터셋으로 작업할 수 있는 다른 방법에 대해 알아보세요. [Plotly](https://github.com/plotly/plotly.py) 는 이 강의에서 다루지 않을 내용입니다. 어떤 기능을 제공하는지 살펴보세요.
-## 과제
-
-[선, 산점도, 막대 그래프](assignment.md)
--- a/3-Data-Visualization/09-visualization-quantities/translations/README.pt-br.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/README.pt-br.md
@ -1,212 +0,0 @@
-# Visualizando Quantidades
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/09-Visualizing-Quantities.png)|
-|:---:|
-| Visualizando quantidades - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
-Nesta aula você irá explorar como usar uma das muitas bibliotecas disponíveis no Python para aprender a criar visualizações interessantes relacionadas ao conceito de quantidade. Usando um dataset já limpo sobre aves de Minnesota, você pode aprender muitos fatos interessantes sobre a fauna selvagem local.
-## [Quiz pré-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16)
-
-## Observando envergadura da asa com Matplotlib
-
-Uma biblioteca excelente para criar tanto gráficos simples como sofisticados e de diversos tipos é o [Matplotlib](https://matplotlib.org/stable/index.html). Em geral, o processo de plotar dados com esta biblioteca inclui identificar as partes do seu dataframe que você quer focar, utilizando quaisquer transformações necessárias nestes dados, atribuindo parâmetros dos eixos x e y, decidindo qual tipo de gráfico usar, e então mostrando o gráfico. O Matplotlib oferece uma grande variedade de visualizações, mas, nesta aula, iremos focar nos mais apropriados para visualizar quantidade: gráfico de linha, gráfico de dispersão e gráfico de barra.
-
-> ✅ Use o melhor gráfico para se adaptar a estrutura dos dados e a história que você quer contar.
-> - Para analisar tendências temporais: linha
-> - Para comparar valores: barra, coluna, pizza, dispersão
-> - Para mostrar como as partes se relacionam com o todo: pizza
-> - Para mostrar a distribuição dos dados: dispersão, barra
-> - Para mostrar tendências: linha, coluna
-> - Para mostrar relações entre valores: linha, dispersão, bolha
-
-Se você tem um dataset e precisa descobrir quanto de um dado elemento está presente, uma das primeiras coisas que você precisará fazer é examinar seus valores.
-
-✅ Existem dicas ('cheat sheets') ótimas disponíveis para o Matplotlib [aqui](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
-
-## Construindo um gráfico de linhas sobre os valores de envergadura de aves
-
-Abra o arquivo `notebook.ipynb` na raiz da pasta desta aula e adicione uma célula.
-
-> Nota: os dados estão armazenados na raiz deste repositório na pasta `/data`.
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-
-Estes dados são uma mistura de texto e números:
-
-
-|      | Name                         | ScientificName         | Category              | Order        | Family   | Genus       | ConservationStatus | MinLength | MaxLength | MinBodyMass | MaxBodyMass | MinWingspan | MaxWingspan |
-| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: |
-|    0 | Black-bellied whistling-duck | Dendrocygna autumnalis | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        47 |        56 |         652 |        1020 |          76 |          94 |
-|    1 | Fulvous whistling-duck       | Dendrocygna bicolor    | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Dendrocygna | LC                 |        45 |        53 |         712 |        1050 |          85 |          93 |
-|    2 | Snow goose                   | Anser caerulescens     | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        79 |        2050 |        4050 |         135 |         165 |
-|    3 | Ross's goose                 | Anser rossii           | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |      57.3 |        64 |        1066 |        1567 |         113 |         116 |
-|    4 | Greater white-fronted goose  | Anser albifrons        | Ducks/Geese/Waterfowl | Anseriformes | Anatidae | Anser       | LC                 |        64 |        81 |        1930 |        3310 |         130 |         165 |
-
-Vamos começar plotando alguns dados numéricos com um simples gráfico de linhas. Suponha que você quer uma visualização da envergadura máxima (MaxWingspan) dessas aves interessantes.
-
-```python
-wingspan = birds['MaxWingspan'] 
-wingspan.plot()
-```
-![Envergadura máxima](../images/max-wingspan.png)
-
-O que é possível perceber imediatamente? Aparentemente existe pelo menos um outlier - e que envergadura! Uma envergadura de 2300 centímetros equivale a 23 metros - existem pterodáctilos voando em Minnesota? Vamos investigar.
-
-Você poderia fazer uma ordenação rápida no Excel para encontrar estes outliers, que provavelmente são erros de digitação. No entanto, vamos continuar o processo de visualização trabalhando no gráfico.
-
-Adicione identificadores (labels) no eixo x para mostrar os nomes das aves que estão sendo analisadas:
-
-```
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.xticks(rotation=45)
-x = birds['Name'] 
-y = birds['MaxWingspan']
-
-plt.plot(x, y)
-
-plt.show()
-```
-![Envergadura com labels (identificadores)](../images/max-wingspan-labels.png)
-
-Mesmo com a rotação das labels em 45 graus, existem muitas para ler. Vamos tentar outra estratégia: identificar os outliers e somente colocar as labels deles dentro do gráfico. Você pode usar um gráfico de dispersão para abrir mais espaço para labels (identificadores):
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    plt.plot(x, y, 'bo')
-    if birds['MaxWingspan'][i] > 500:
-        plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12)
-    
-plt.show()
-```
-
-O que aconteceu aqui? Você usou `tick_params` para esconder as labels do eixo x e então criou um loop sobre o dataset das aves. Depois, plotou o gráfico com pequenos círculos azuis usando `bo` e procurou por aves com envergadura maior que 500 e, em caso positivo, exibiu a label ao lado do círculo. Você ajustou as labels no eixo y (`y * (1 - 0.05)`) e usou o nome da ave como label.
-
-O que você descobriu?
-
-![outliers](../images/labeled-wingspan.png)
-
-## Filtrando seus dados
-
-Apesar de grandes, tanto a Bald Eagle (águia-de-cabeça-branca) como o Prairie Falcon (Falcão-da-pradaria) parecem ter valores errados, com um `0` a mais na envergadura máxima (MaxWingspan). É improvável que você encontre uma águia-de-cabeça-branca com envergadura de 25 metros, mas, se encontrar, por favor nos diga! Agora, vamos criar um dataframe sem estes dois outliers:
-
-```python
-plt.title('Max Wingspan in Centimeters')
-plt.ylabel('Wingspan (CM)')
-plt.xlabel('Birds')
-plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False)
-for i in range(len(birds)):
-    x = birds['Name'][i]
-    y = birds['MaxWingspan'][i]
-    if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']:
-        plt.plot(x, y, 'bo')
-plt.show()
-```
-
-Agora que estes outliers foram removidos, seus dados estão mais coesos e compreensíveis.
-
-![Dispersão das envergaduras](../images/scatterplot-wingspan.png)
-
-Agora que temos um dataset mais limpo ao menos em termos de envergadura, vamos aprender mais sobre estas aves.
-
-Enquanto gráficos de linha e dispersão conseguem mostrar informações sobre valores e suas distribuições, nós queremos pensar sobre os valores inerentes a este dataset. Você poderia criar visualizações para responder as seguintes perguntas sobre quantidade:
-
-> Quantas categorias de aves existem, e quais são seus valores?
-> Quantas aves estão extintas, em risco de extinção, raras ou comuns?
-> Quantos gêneros e ordens da taxonomia de Lineu (nome científico) existem no dataset?
-
-## Explorando gráfico de barras
-
-Gráfico de barras são úteis quando precisamos mostrar agrupamentos de dados. Vamos explorar as categorias de aves que existem neste dataset para observar qual é o mais comum em quantidade.
-
-No arquivo notebook, crie um gráfico de barras simples.
-
-✅ Note que você pode remover as duas aves outliers que foram identificados anteriormente, editar o erro de digitação na envergadura ou deixá-los nestes exercícios que não dependem dos valores da envergadura.
-
-Ao criar um gráfico de barras, você pode selecionar os dados que quer focar. Gráficos de barras podem ser criados a partir de dados brutos:
-
-```python
-birds.plot(x='Category',
-        kind='bar',
-        stacked=True,
-        title='Birds of Minnesota')
-
-```
-
-![todos os dados em um gráfico de barras](../images/full-data-bar.png)
-
-No entanto, este gráfico de barras é ilegível, porque existem muitos dados não agrupados. Você precisa selecionar somente os dados que quer plotar, então vamos olhar o comprimento das aves usando sua categoria como referência.
-
-Filtre os dados para incluir somente a categoria da ave.
-
-✅ Note que você usa o Pandas para lidar com os dados, e deixa a criação de gráficos para o Matplotlib.
-
-Já que existem muitas categorias, você pode mostrar este gráfico verticalmente e ajustar sua altura para acomodar todos os dados:
-
-```python
-category_count = birds.value_counts(birds['Category'].values, sort=True)
-plt.rcParams['figure.figsize'] = [6, 12]
-category_count.plot.barh()
-```
-![categoria e comprimento](../images/category-counts.png)
-
-Este gráfico de barras mostra uma boa visão do número de aves em cada categoria. Em um piscar de olhos, você vê que a maior quantidade de aves nesta região pertence à categoria de Ducks/Geese/Waterfowl (patos/gansos/cisnes). Minnesota é 'a terra de 10.000 lagos', então isto não é surpreendente!
-
-✅ Tente contabilizar outras quantidades deste dataset. Algo te surpreende?
-
-## Comparando dados
-
-Você pode tentar diferentes comparações de dados agrupados criando novos eixos. Tente comparar o comprimento máximo de uma ave, com base na sua categoria:
-
-```python
-maxlength = birds['MaxLength']
-plt.barh(y=birds['Category'], width=maxlength)
-plt.rcParams['figure.figsize'] = [6, 12]
-plt.show()
-```
-![comparando dados](../images/category-length.png)
-
-Nada é surpreendente aqui: hummingbirds (beija-flores) têm o menor comprimento enquanto pelicans (pelicanos) e geese (gansos) têm os maiores valores. É muito bom quando os dados fazem sentido!
-
-Você pode criar visualizações mais interessantes de gráficos de barras ao sobrepor dados. Vamos sobrepor o comprimento mínimo e máximo de uma dada categoria de ave:
-
-```python
-minLength = birds['MinLength']
-maxLength = birds['MaxLength']
-category = birds['Category']
-
-plt.barh(category, maxLength)
-plt.barh(category, minLength)
-
-plt.show()
-```
-
-Neste gráfico, você pode ver o intervalo de comprimento mínimo e máximo por categoria de ave. Você pode seguramente dizer, a partir destes dados, que quanto maior a ave, maior o seu intervalo de comprimento. Fascinante!
-
-![valores sobrepostos](../images/superimposed.png)
-
-## 🚀 Desafio
-
-Este dataset de aves oferece uma riqueza de informações sobre os diferentes tipos de aves de um ecossistema particular. Tente achar na internet outros datasets com dados sobre aves. Pratique construir gráficos com eles e tente descobrir fatos que você ainda não havia percebido.
-
-## [Quiz pós-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17)
-
-## Revisão e autoestudo
-
-Esta primeira aula lhe deu informações sobre como usar o Matplotlib para visualizar quantidades. Procure por outras formas de trabalhar com dataset para visualização. [Plotly](https://github.com/plotly/plotly.py) é uma biblioteca que não será abordada nas aulas, então dê uma olhada no que ela pode oferecer.
-
-## Tarefa
-
-[Linhas, dispersão e barras](assignment.pt-br.md)
--- a/3-Data-Visualization/09-visualization-quantities/translations/assignment.es.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/assignment.es.md
@ -1,11 +0,0 @@
-# Líneas, Dispersiones y Barras
-
-## Instrucciones
-
-En esta lección, has trabajado con gráficos de líneas, gráficos de dispersión y gráficos de barras para mostrar hechos interesantes sobre este conjunto de datos. En esta asignación, profundiza en el conjunto de datos para descubrir un hecho sobre un tipo de ave determinado. Por ejemplo, crea un cuaderno que visualice todos los datos interesantes que puedas descubrir sobre los gansos de nieve. Utiliza los tres gráficos mencionados anteriormente para contar una historia en tu cuaderno.
-
-## Rúbrica
-
-Ejemplar | Adecuado | Necesita mejorar
--- | --- | -- |
-El cuaderno se presenta con buenas anotaciones, una narración sólida y gráficos atractivos | Al cuaderno le falta uno de estos elementos | Al cuaderno le faltan dos de estos elementos
--- a/3-Data-Visualization/09-visualization-quantities/translations/assignment.ko.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/assignment.ko.md
@ -1,11 +0,0 @@
-# 선, 산점도, 막대 그래프
-
-## 지침
-
-이 강의에서는 선형 차트, 산점도 및 막대형 차트를 사용하여 이 데이터 셋에 대한 흥미로운 사실을 보여 주었습니다. 이 과제에서는 데이터셋을 자세히 조사하여 특정 유형의 새에 대한 사실을 발견하는 과정을 진행합니다. 예를 들어, 흰기러기(Snow Geese) 에 대한 모든 흥미로운 데이터를 시각화하는 노트북을 만드는 것이 있습니다. 위에서 언급한 세 가지의 플롯을 사용하여 여러분의 노트북을 만들어보세요.
-
-## 기준표
-
-모범적인 | 적당한 | 개선 필요
--- | --- | -- |
-좋은 주석처리, 탄탄한 내용, 매력적인 그래프로 노트북 작성 | 노트북에 다음 요소 중 하나가 없습니다. | 노트북에 요소 중에 두 가지가 없습니다.
--- a/3-Data-Visualization/09-visualization-quantities/translations/assignment.ne.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/assignment.ne.md
@ -1,11 +0,0 @@
-# रेखाहरू, स्क्याटरहरू र बारहरू
-
-## निर्देशनहरू
-
-यस पाठमा, तपाईंले यस डेटा सेटको बारेमा रोचक तथ्यहरू देखाउन लाइन चार्टहरू, स्क्याटर चार्टहरू, र बार चार्टहरूसँग काम गर्नुभएको छ। यस असाइनमेन्टमा, तपाइँ एक विशेष प्रकारको चराको बारेमा तथ्य पत्ता लगाउन आफ्नो डेटा सेटमा ड्रिल डाउन गर्नुहुन्छ। उदाहरणका लागि, एउटा नोटबुक सिर्जना गर्नुहोस् जुन तपाईंले स्नो गिजको बारेमा पत्ता लगाउन सक्ने सबै रोचक तथ्यहरू प्रदर्शन गर्दछ। तपाईंको नोटबुकमा कथा बताउन माथि उल्लेखित तीनवटा चार्टहरू प्रयोग गर्नुहोस्।
-
-## रुब्रिक
-
-अनुकरणीय | पर्याप्त | सुधार चाहिन्छ
--- | --- | - |
-नोटबुक राम्रो एनोटेसन, बलियो कथन र आकर्षक ग्राफिक्स संग प्रस्तुत गरिएको छ | नोटबुकमा यी वस्तुहरू मध्ये एउटा हराइरहेको छ | नोटबुकमा यी दुई वस्तुहरू हराइरहेका छन् |
--- a/3-Data-Visualization/09-visualization-quantities/translations/assignment.pt-br.md
+++ b/3-Data-Visualization/09-visualization-quantities/translations/assignment.pt-br.md
@ -1,11 +0,0 @@
-# Linhas, dispersão e barras
-
-## Instruções
-
-Nesta aula, você trabalhou com gráficos de linhas, dispersão e barras para mostrar fatos interessantes sobre este dataset. Nesta tarefa, explore o mesmo dataset mais a fundo para descobrir algo sobre um dado tipo de ave. Por exemplo, crie um notebook que mostre visualizações de todos os fatos interessantes que encontrar sobre os Snow Geese (gansos-das-neves). Use os três tipos de gráficos mencionados anteriormente para contar uma história em seu notebook.
-
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-O notebook foi apresentado com boas anotações, contação de histórias (storytelling) sólida e gráficos cativantes | O notebook não tem um desses elementos | O notebook não tem dois desses elementos
--- a/3-Data-Visualization/10-visualization-distributions/translations/README.es.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/README.es.md
@ -1,193 +0,0 @@
-# Visualización de Distribuciones
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/10-Visualizing-Distributions.png)|
-|:---:|
-| Visualización de Distribuciones - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-En la lección anterior, aprendiste algunos datos interesantes sobre un conjunto de datos acerca de las aves de Minnesota. Encontraste algunos datos erróneos visualizando los valores atípicos y observaste las diferencias entre las categorías de aves según su longitud máxima.
-
-## [Cuestionario previo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18)
-## Explora el conjunto de datos sobre aves
-
-Otra forma de profundizar en los datos es observar su distribución, o cómo se organizan los datos a lo largo de un eje. Quizás, por ejemplo, te gustaría conocer la distribución general para este conjunto de datos, de la envergadura máxima o la masa corporal máxima de las aves de Minnesota. 
-
-Descubramos algunos hechos sobre las distribuciones de los datos en este conjunto de datos. En el archivo _notebook.ipynb_ en la raíz de la carpeta de esta lección, importa Pandas, Matplotlib, y tus datos:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-En general, puedes ver rápidamente la forma en que se distribuyen los datos usando un gráfico de dispersión como hicimos en la lección anterior:
-
-```python
-birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
-
-plt.title('Max Length per Order')
-plt.ylabel('Order')
-plt.xlabel('Max Length')
-
-plt.show()
-```
-
-Esto da una visión general de la distribución de la longitud del cuerpo por orden de las aves, pero no es la forma óptima de mostrar las verdaderas distribuciones. Esa tarea se suele realizar creando un Histograma.
-
-## Trabajando con histogramas
-
-Matplotlib ofrece muy buenas formas de visualizar la distribución de los datos utilizando Histogramas. Este tipo de gráfico es como un gráfico de barras en el que la distribución se puede ver a través de la subida y bajada de las barras. Para construir un histograma, necesitas datos numéricos. Para construir un Histograma, puedes trazar un gráfico definiendo el tipo como 'hist' para Histograma. Este gráfico muestra la distribución de MaxBodyMass para todo el rango de datos numéricos del conjunto de datos. Al dividir el conjunto de datos que se le da en intervalos más pequeños, puede mostrar la distribución de los valores de los datos:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
-plt.show()
-```
-![distribución en todo el conjunto de datos](../images/dist1.png)
-
-Como puedes ver, la mayoría de los más de 400 pájaros de este conjunto de datos se encuentran en el rango de menos de 2000 para su masa corporal máxima. Puedes obtener más información sobre los datos cambiando el parámetro `bins` a un número mayor, algo así como 30:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
-plt.show()
-```
-![distribución en todo el conjunto de datos con un parámetro de bins más grande](../images/dist2.png)
-
-Este gráfico muestra la distribución de forma un poco más granular. Se podría crear un gráfico menos sesgado hacia la izquierda asegurándose de que sólo se seleccionan datos dentro de un rango determinado:
-
-Filtra tus datos para obtener sólo las aves cuya masa corporal es inferior a 60, y mostrar 40 `bins`:
-
-```python
-filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]      
-filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
-plt.show()     
-```
-![histograma filtrado](../images/dist3.png)
-
-✅ Prueba otros filtros y puntos de datos. Para ver la distribución completa de los datos, elimina el filtro `['MaxBodyMass']` para mostrar las distribuciones etiquetadas.
-
-El histograma ofrece algunas mejoras de color y etiquetado para probar también:
-
-Crea un histograma 2D para comparar la relación entre dos distribuciones. Comparemos `MaxBodyMass` vs. `MaxLength`. Matplotlib ofrece una forma integrada de mostrar la convergencia utilizando colores más brillantes:
-
-```python
-x = filteredBirds['MaxBodyMass']
-y = filteredBirds['MaxLength']
-
-fig, ax = plt.subplots(tight_layout=True)
-hist = ax.hist2d(x, y)
-```
-Parece haber una correlación esperada entre estos dos elementos a lo largo de un eje esperado, con un punto de convergencia particularmente fuerte:
-
-![diagrama 2D](../images/2D.png)
-
-Los histogramas funcionan bien por defecto para los datos numéricos. ¿Y si necesita ver las distribuciones según los datos de texto? 
-## Explorar el conjunto de datos para ver las distribuciones según los datos de texto 
-
-Este conjunto de datos también incluye buena información sobre la categoría de ave, su género, especie y familia, así como su estado de conservación. Exploremos esta información sobre la conservación. Cuál es la distribución de las aves según su estado de conservación?
-
-> ✅ En el conjunto de datos, se utilizan varios acrónimos para describir el estado de conservación. Estas siglas proceden de la [Lista Roja de Categorías de la UICN](https://www.iucnredlist.org/), una organización que cataloga el estado de las especies.
-> 
-> - CR: En peligro crítico
-> - EN: En peligro de extinción
-> - EX: Extinta
-> - LC: Preocupación Menor
-> - NT: Casi amenazada
-> - VU: Vulnerable
-
-Estos son valores basados en texto, por lo que tendrás que hacer una transformación para crear un histograma. Utilizando el dataframe de FilteredBirds, muestra su estado de conservación junto con su envergadura mínima. ¿Qué es lo que ves? 
-
-```python
-x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
-x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
-x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
-x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
-x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
-x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
-
-kwargs = dict(alpha=0.5, bins=20)
-
-plt.hist(x1, **kwargs, color='red', label='Extinct')
-plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
-plt.hist(x3, **kwargs, color='yellow', label='Endangered')
-plt.hist(x4, **kwargs, color='green', label='Near Threatened')
-plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
-plt.hist(x6, **kwargs, color='gray', label='Least Concern')
-
-plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
-plt.legend();
-```
-
-![colación de la envergadura y la conservación](../images/histogram-conservation.png)
-
-No parece haber una buena correlación entre la envergadura mínima y el estado de conservación. Prueba otros elementos del conjunto de datos utilizando este método. También puedes probar diferentes filtros. ¿Encuentras alguna correlación?
-
-## Gráficos de densidad
-
-Habrás notado que los histogramas que hemos visto hasta ahora están "escalonados" y no fluyen suavemente en un arco. Para mostrar un gráfico de densidad más suave, puedes probar con un gráfico de densidad.
-
-Para trabajar con gráficos de densidad, familiarízate con una nueva biblioteca de trazado, [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html). 
-
-Cargando Seaborn, intenta un gráfico de densidad básico:
-
-```python
-import seaborn as sns
-import matplotlib.pyplot as plt
-sns.kdeplot(filteredBirds['MinWingspan'])
-plt.show()
-```
-![gráfico de densidad](../images/density1.png)
-
-Puedes ver cómo el gráfico se asemeja al anterior para los datos de envergadura mínima; sólo que es un poco más suave. De acuerdo con la documentación de Seaborn, "En relación con un histograma, KDE puede producir un gráfico que es menos desordenado y más interpretable, especialmente cuando se dibujan múltiples distribuciones. Pero tiene el potencial de introducir distorsiones si la distribución subyacente está acotada o no es suave. Al igual que un histograma, la calidad de la representación también depende de la selección de buenos parámetros de suavización." [fuente](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) En otras palabras, los valores atípicos, como siempre, harán que tus gráficos se comporten mal.
-
-Si quieres volver a ver esa línea dentada de MaxBodyMass en el segundo gráfico que construiste, podrías suavizarla muy bien recreándola con este método:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'])
-plt.show()
-```
-![línea de masa corporal lisa ](../images/density2.png)
-
-Si quieres una línea suave, pero no demasiado suave, edita el parámetro `bw_adjust`: 
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
-plt.show()
-```
-![línea de masa corporal menos suave](../images/density3.png)
-
-✅ Lee acerca de los parámetros disponibles para este tipo de gráfico y experimenta.
-
-Este tipo de gráfico ofrece bonitas visualizaciones explicativas. Con unas pocas líneas de código, por ejemplo, se puede mostrar la densidad de masa corporal máxima por orden de aves:
-
-```python
-sns.kdeplot(
-   data=filteredBirds, x="MaxBodyMass", hue="Order",
-   fill=True, common_norm=False, palette="crest",
-   alpha=.5, linewidth=0,
-)
-```
-
-![masa corporal por orden](../images/density4.png)
-
-También puedes mapear la densidad de varias variables en un gráfico. Observa la longitud máxima y mínima de un ave en comparación con su estado de conservación:
-
-```python
-sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
-```
-
-![densidades múltiples, superpuestas](../images/multi.png)
-
-Tal vez valga la pena investigar si la agrupación de aves "Vulnerables" según su longitud tiene sentido o no.
-
-## 🚀 Desafío
-
-Los histogramas son un tipo de gráfico más sofisticado que los gráficos de dispersión básicos, los gráficos de barras o los gráficos de líneas. Haz una búsqueda en internet para encontrar buenos ejemplos del uso de histogramas. ¿Cómo se utilizan, qué demuestran y en qué campos o áreas de investigación suelen utilizarse?
-
-## [Cuestionario posterior a la clase](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19)
-
-## Repaso y Autoestudio
-
-En esta lección, has utilizado Matplotlib y empezado a trabajar con Seaborn para mostrar gráficos más sofisticados. Investiga un poco sobre `kdeplot` en Seaborn, una "curva de densidad de probabilidad continua en una o más dimensiones". Lee [la documentación](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) para entender cómo funciona.
-
-## Asignación
-
-[Aplica tus habilidades](assignment.es.md)
--- a/3-Data-Visualization/10-visualization-distributions/translations/README.hi.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/README.hi.md
@ -1,191 +0,0 @@
-# विज़ुअलाइज़िंग वितरण
-
-|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/10-Visualizing-Distributions.png)|
-|:---:|
-| विज़ुअलाइज़िंग वितरण - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
-
-In the previous lesson, you learned some interesting facts about a dataset about the birds of Minnesota. You found some erroneous data by visualizing outliers and looked at the differences between bird categories by their maximum length.
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18)
-## पक्षियों के डेटासेट का अन्वेषण करें
-
-डेटा में खुदाई करने का दूसरा तरीका इसके वितरण को देखना है, या डेटा को एक अक्ष के साथ कैसे व्यवस्थित किया जाता है। शायद, उदाहरण के लिए, आप इस डेटासेट के सामान्य वितरण के बारे में जानना चाहेंगे, मिनेसोटा के पक्षियों के लिए अधिकतम पंख या अधिकतम शरीर द्रव्यमान।
-
-आइए इस डेटासेट में डेटा के वितरण के बारे में कुछ तथ्यों की खोज करें। इस पाठ फ़ोल्डर के मूल में _नोटबुक.आईपीएनबी_ फ़ाइल में, पांडा, मैटप्लोटलिब और अपना डेटा आयात करें:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-
-सामान्य तौर पर, आप देख सकते हैं कि स्कैटर प्लॉट का उपयोग करके डेटा कैसे वितरित किया जाता है, जैसा कि हमने पिछले पाठ में किया था:
-
-```python
-birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
-
-plt.title('Max Length per Order')
-plt.ylabel('Order')
-plt.xlabel('Max Length')
-
-plt.show()
-```
-यह प्रति पक्षी क्रम में शरीर की लंबाई के सामान्य वितरण का एक सिंहावलोकन देता है, लेकिन यह सही वितरण प्रदर्शित करने का सबसे अच्छा तरीका नहीं है। उस कार्य को आमतौर पर हिस्टोग्राम बनाकर नियंत्रित किया जाता है।
-## हिस्टोग्राम के साथ काम करना
-
-माटप्लोटलिब हिस्टोग्राम का उपयोग करके डेटा वितरण की कल्पना करने के लिए बहुत अच्छे तरीके प्रदान करता है। इस प्रकार का चार्ट एक बार चार्ट की तरह होता है जहां वितरण को बार के ऊपर और नीचे के माध्यम से देखा जा सकता है। हिस्टोग्राम बनाने के लिए, आपको संख्यात्मक डेटा की आवश्यकता होती है। हिस्टोग्राम बनाने के लिए, आप हिस्टोग्राम के लिए 'इतिहास' के रूप में परिभाषित एक चार्ट तैयार कर सकते हैं। यह चार्ट संख्यात्मक डेटा की संपूर्ण डेटासेट की श्रेणी के लिए MaxBodyMass के वितरण को दर्शाता है। डेटा की सरणी को विभाजित करके इसे छोटे डिब्बे में दिया जाता है, यह डेटा के मूल्यों के वितरण को प्रदर्शित कर सकता है:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
-plt.show()
-```
-![संपूर्ण डेटासेट पर वितरण](images/dist1.png)
-
-जैसा कि आप देख सकते हैं, इस डेटासेट में 400+ पक्षी अपने मैक्स बॉडी मास के लिए 2000 से कम की सीमा में आते हैं। `बिन्स` पैरामीटर को अधिक संख्या में बदलकर डेटा में अधिक जानकारी प्राप्त करें, जैसे कुछ 30:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
-plt.show()
-```
-![बड़े डिब्बे परम के साथ संपूर्ण डेटासेट पर वितरण](images/dist2.png)
-
-यह चार्ट वितरण को कुछ अधिक बारीक तरीके से दिखाता है। यह सुनिश्चित करके कि आप केवल एक दी गई सीमा के भीतर डेटा का चयन करते हैं, बाईं ओर कम तिरछा एक चार्ट बनाया जा सकता है:
-
-केवल उन पक्षियों को प्राप्त करने के लिए अपना डेटा फ़िल्टर करें जिनके शरीर का द्रव्यमान 60 से कम है, और 40 `डिब्बे` दिखाएं:
-
-```python
-filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]      
-filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
-plt.show()     
-```
-![फ़िल्टर्ड हिस्टोग्राम](images/dist3.png)
-
-✅ कुछ अन्य फ़िल्टर और डेटा बिंदु आज़माएं। डेटा का पूरा वितरण देखने के लिए, लेबल किए गए वितरण दिखाने के लिए `['मैक्सबॉडीमास']` फ़िल्टर को हटा दें।
-
-हिस्टोग्राम भी कोशिश करने के लिए कुछ अच्छे रंग और लेबलिंग संवर्द्धन प्रदान करता है:
-
-दो वितरणों के बीच संबंध की तुलना करने के लिए एक 2डी हिस्टोग्राम बनाएं। आइए `मैक्सबॉडीमास` बनाम `अधिकतम लंबाई` की तुलना करें। माटप्लोटलिब चमकीले रंगों का उपयोग करके अभिसरण दिखाने के लिए एक अंतर्निहित तरीका प्रदान करता है:
-
-```python
-x = filteredBirds['MaxBodyMass']
-y = filteredBirds['MaxLength']
-
-fig, ax = plt.subplots(tight_layout=True)
-hist = ax.hist2d(x, y)
-```
-एक विशेष रूप से मजबूत अभिसरण बिंदु के साथ, एक अपेक्षित अक्ष के साथ इन दो तत्वों के बीच एक अपेक्षित सहसंबंध प्रतीत होता है:
-
-![2डी प्लॉट](images/2D.png)
-
-संख्यात्मक डेटा के लिए हिस्टोग्राम डिफ़ॉल्ट रूप से अच्छी तरह से काम करते हैं। क्या होगा यदि आपको टेक्स्ट डेटा के अनुसार वितरण देखने की आवश्यकता है?
-## टेक्स्ट डेटा का उपयोग करके वितरण के लिए डेटासेट का अन्वेषण करें
-
-इस डेटासेट में पक्षी श्रेणी और उसके जीनस, प्रजातियों और परिवार के साथ-साथ इसके संरक्षण की स्थिति के बारे में अच्छी जानकारी भी शामिल है। आइए इस संरक्षण जानकारी में खुदाई करें। पक्षियों का वितरण उनकी संरक्षण स्थिति के अनुसार क्या है?
-
-> ✅ डेटासेट में, संरक्षण की स्थिति का वर्णन करने के लिए कई समरूपों का उपयोग किया जाता है। ये एक्रोनिम्स [IUCN रेड लिस्ट कैटेगरी](https://www.iucnredlist.org/) से आते हैं, जो एक संगठन है जो प्रजातियों की स्थिति को सूचीबद्ध करता है।
-> 
-> - सीआर: गंभीर रूप से संकटग्रस्त
-> - एन: लुप्तप्राय
-> - पूर्व: विलुप्त
-> - एलसी: कम से कम चिंता
-> - एनटी: खतरे के पास
-> - वीयू: कमजोर
-
-ये टेक्स्ट-आधारित मान हैं इसलिए आपको हिस्टोग्राम बनाने के लिए एक ट्रांसफ़ॉर्म करना होगा। फ़िल्टर्ड बर्ड्स डेटाफ़्रेम का उपयोग करते हुए, इसके न्यूनतम विंगस्पैन के साथ-साथ इसकी संरक्षण स्थिति प्रदर्शित करें। क्या देखती है?
-
-```python
-x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
-x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
-x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
-x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
-x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
-x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
-
-kwargs = dict(alpha=0.5, bins=20)
-
-plt.hist(x1, **kwargs, color='red', label='Extinct')
-plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
-plt.hist(x3, **kwargs, color='yellow', label='Endangered')
-plt.hist(x4, **kwargs, color='green', label='Near Threatened')
-plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
-plt.hist(x6, **kwargs, color='gray', label='Least Concern')
-
-plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
-plt.legend();
-```
-
-![विंगस्पैन और संरक्षण संयोजन](images/histogram-conservation.png)
-
-न्यूनतम पंखों की अवधि और संरक्षण की स्थिति के बीच कोई अच्छा संबंध प्रतीत नहीं होता है। इस पद्धति का उपयोग करके डेटासेट के अन्य तत्वों का परीक्षण करें। आप अलग-अलग फ़िल्टर भी आज़मा सकते हैं। क्या आप कोई सहसंबंध पाते हैं?
-## घनत्व भूखंड
-
-आपने देखा होगा कि अब तक हमने जिन आयतचित्रों को देखा है वे 'चरणबद्ध' हैं और एक चाप में सुचारू रूप से प्रवाहित नहीं होते हैं। एक आसान घनत्व चार्ट दिखाने के लिए, आप एक घनत्व प्लॉट आज़मा सकते हैं।
-
-घनत्व वाले भूखंडों के साथ काम करने के लिए, अपने आप को एक नई प्लॉटिंग लाइब्रेरी से परिचित कराएं, [सीबॉर्न](https://seaborn.pydata.org/generated/seaborn.kdeplot.html). 
-
-सीबॉर्न लोड हो रहा है, एक बुनियादी घनत्व प्लॉट आज़माएं:
-
-```python
-import seaborn as sns
-import matplotlib.pyplot as plt
-sns.kdeplot(filteredBirds['MinWingspan'])
-plt.show()
-```
-![घनत्व प्लॉट](images/density1.png)
-
-आप देख सकते हैं कि न्यूनतम विंगस्पैन डेटा के लिए प्लॉट पिछले वाले को कैसे गूँजता है; यह थोड़ा चिकना है। सीबॉर्न के दस्तावेज़ीकरण के अनुसार, "हिस्टोग्राम के सापेक्ष, केडीई एक ऐसे प्लॉट का निर्माण कर सकता है जो कम अव्यवस्थित और अधिक व्याख्या योग्य हो, विशेष रूप से कई वितरणों को चित्रित करते समय। लेकिन इसमें विकृतियों को पेश करने की क्षमता होती है यदि अंतर्निहित वितरण बाध्य है या सुचारू नहीं है। जैसे हिस्टोग्राम, प्रतिनिधित्व की गुणवत्ता भी अच्छे चौरसाई मापदंडों के चयन पर निर्भर करती है।" [स्रोत](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) दूसरे शब्दों में, आउटलेयर हमेशा की तरह आपके चार्ट को खराब व्यवहार करेंगे।
-
-यदि आप अपने द्वारा बनाए गए दूसरे चार्ट में उस दांतेदार मैक्सबॉडीमास लाइन को फिर से देखना चाहते हैं, तो आप इस पद्धति का उपयोग करके इसे फिर से बनाकर इसे बहुत अच्छी तरह से सुचारू कर सकते हैं:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'])
-plt.show()
-```
-![चिकनी बॉडीमास लाइन](images/density2.png)
-
-यदि आप एक चिकनी, लेकिन बहुत चिकनी रेखा नहीं चाहते हैं, तो `bw_adjust` पैरामीटर संपादित करें:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
-plt.show()
-```
-![कम चिकनी बॉडीमास लाइन](images/density3.png)
-
-✅ इस प्रकार के प्लॉट और प्रयोग के लिए उपलब्ध मापदंडों के बारे में पढ़ें!
-
-इस प्रकार का चार्ट खूबसूरती से व्याख्यात्मक दृश्य प्रस्तुत करता है। कोड की कुछ पंक्तियों के साथ, उदाहरण के लिए, आप प्रति पक्षी अधिकतम शरीर द्रव्यमान घनत्व दिखा सकते हैं:
-
-```python
-sns.kdeplot(
-   data=filteredBirds, x="MaxBodyMass", hue="Order",
-   fill=True, common_norm=False, palette="crest",
-   alpha=.5, linewidth=0,
-)
-```
-
-![प्रति आदेश बॉडीमास](images/density4.png)
-
-आप एक चार्ट में कई चरों के घनत्व को भी मैप कर सकते हैं। किसी पक्षी की संरक्षण स्थिति की तुलना में उसकी अधिकतम लंबाई और न्यूनतम लंबाई को टेक्स्ट करें:
-
-```python
-sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
-```
-
-![एकाधिक घनत्व, आरोपित](images/multi.png)
-
-शायद यह शोध करने लायक है कि 'कमजोर' पक्षियों का समूह उनकी लंबाई के अनुसार सार्थक है या नहीं।
-
-## 🚀 चुनौती
-
-हिस्टोग्राम बुनियादी स्कैटरप्लॉट, बार चार्ट या लाइन चार्ट की तुलना में अधिक परिष्कृत प्रकार के चार्ट हैं। हिस्टोग्राम के उपयोग के अच्छे उदाहरण खोजने के लिए इंटरनेट पर खोज करें। उनका उपयोग कैसे किया जाता है, वे क्या प्रदर्शित करते हैं, और किन क्षेत्रों या पूछताछ के क्षेत्रों में उनका उपयोग किया जाता है?
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19)
-
-## समीक्षा और स्व अध्ययन
-
-इस पाठ में, आपने Matplotlib का उपयोग किया और अधिक परिष्कृत चार्ट दिखाने के लिए Seaborn के साथ काम करना शुरू किया। सीबॉर्न में `केडीप्लॉट` पर कुछ शोध करें, "एक या अधिक आयामों में निरंतर संभाव्यता घनत्व वक्र"। यह कैसे काम करता है, यह समझने के लिए [दस्तावेज](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) पढ़ें।
-
-## कार्यभार
-
-[अपने कौशल को लागू करें](assignment.md)
--- a/3-Data-Visualization/10-visualization-distributions/translations/README.ko.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/README.ko.md
@ -1,193 +0,0 @@
-# 분포 시각화하기
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/10-Visualizing-Distributions.png)|
-|:---:|
-| 분포 시각화 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-이전 수업에서, 미네소타의 새에 대한 데이터셋에 대해서 몇몇 흥미로운 사실들을 배웠습니다. 이상치를 시각화하면서 잘못된 데이터들을 발견하고 새들의 최대 길이에 따라 새 카테고리들의 차이를 살펴보았습니다.
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18)
-## 새 데이터셋 탐색하기
-
-데이터를 자세히 조사하는 또 다른 방법은 데이터의 분포, 또는 데이터가 축에 따라 구성되는 방식을 살펴보는 것입니다. 예를 들어, 미네소타 새들의 최대 날개 길이나 최대 체중의 일반적인 분포에 대해 알고 싶을 수도 있습니다.
-
-이 데이터셋의 데이터 분포에 대한 몇 가지 사실들을 알아보겠습니다. 이 수업 폴더의 루트에 있는 _notebook.ipynb_파일에서 Pandas, Matplotlib 및 데이터를 import합니다:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-
-일반적으로, 이전 수업에서와 같이 산점도를 사용하면 데이터가 분포되는 방식을 빠르게 확인할 수 있습니다:
-
-```python
-birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
-
-plt.title('Max Length per Order')
-plt.ylabel('Order')
-plt.xlabel('Max Length')
-
-plt.show()
-```
-이렇게 하면 새 한 마리당 몸길이의 일반적인 분포에 대한 개요를 제공하지만 실제 분포를 표시하는 최적의 방법은 아닙니다. 이 작업은 보통 히스토그램을 생성하여 처리됩니다.
-## 히스토그램으로 작업하기
-
-Matplotlib는 히스토그램을 사용하여 데이터 분포를 시각화하는 매우 좋은 방법을 제공합니다. 이 유형의 차트는 막대의 상승 및 하락을 통해 분포를 확인할 수 있는 막대 차트와 같습니다. 히스토그램을 작성하려면 숫자 데이터가 필요합니다. 히스토그램을 작성하기 위해, 히스토그램의 종류를 'hist'로 정의하는 차트를 표시할 수 있습니다. 이 차트는 전체 데이터셋의 숫자 데이터 범위에 대한 MaxBodyMass 분포를 보여 줍니다. 주어진 데이터의 배열을 더 작은 폭(bins)으로 나누어 데이터 값의 분포를 표시할 수 있습니다:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
-plt.show()
-```
-![distribution over the entire dataset](images/dist1.png)
-
-보시다시피, 이 데이터셋에 있는 400마리 이상의 새들의 대부분은 최대 체질량에서 2000 미만의 범위에 속합니다. 매개 변수 `bins`를 30과 같이 더 높은 숫자로 변경하여 데이터에 대한 더 깊이 이해하세요:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
-plt.show()
-```
-![distribution over the entire dataset with larger bins param](images/dist2.png)
-
-이 차트는 좀 더 세분화된 방식으로 분포를 보여줍니다. 주어진 범위 내에서만 데이터를 선택하여 왼쪽으로 치우치지 않은 차트를 만들 수 있습니다:
-
-데이터를 필터링하여 체중이 60 미만인 새들만 골라서 40개의 `bins`을 표시합니다:
-
-```python
-filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]      
-filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
-plt.show()     
-```
-![filtered histogram](images/dist3.png)
-
-✅ 다른 필터와 데이터 포인트를 사용해보세요. 데이터의 전체 분포를 보려면, 라벨링된 분포를 표시하도록 `['MaxBodyMass']` 필터를 제거하세요.
-
-히스토그램에서는 다음과 같은 몇 가지 색상 및 레이블 향상 기능도 제공합니다:
-
-2D 히스토그램을 생성하여 두 분포 간의 관계를 비교합니다. `MaxBodyMass`와 `MaxLength`를 비교해보겠습니다. Matplotlib은 더 밝은 색상을 사용하여 수렴을 보여주는 기본 제공 방법을 제공합니다:
-
-```python
-x = filteredBirds['MaxBodyMass']
-y = filteredBirds['MaxLength']
-
-fig, ax = plt.subplots(tight_layout=True)
-hist = ax.hist2d(x, y)
-```
-예상되는 축을 따라 이 두 요소 사이에는 다음과 같은 특별한 수렴이 있는 것으로 보입니다:
-
-![2D plot](images/2D.png)
-
-히스토그램은 숫자 데이터에 대해 기본적으로 잘 작동합니다. 텍스트 데이터에 따라 분포를 확인하려면 어떻게 해야 합니까?
-
-## 텍스트 데이터를 사용하여 분포에 대한 데이터셋 탐색하기
-
-이 데이터셋에는 새 카테고리와 속, 종, 과에 대한 좋은 정보와 보존 상태도 포함되어 있습니다. 이 보존 정보를 자세히 살펴봅시다. 새들의 보존 상태에 따라 분포는 어떻게 되나요?
-
-> ✅ 데이터셋에서 보존 상태를 설명하기 위해 여러 약어가 사용됩니다. 이 약어는 종의 상태를 분류하는 기관인 [세계자연보전연맹 멸종위기생물목록 카테고리](https://www.iucnredlist.org/)에서 가져왔습니다.
-> 
-> - CR: 심각한 멸종 위기
-> - EN: 멸종 위기에 처한
-> - EX: 멸종
-> - LC: 관심대상
-> - NT: 거의 위협
-> - VU: 취약
-
-텍스트 기반 값이므로 히스토그램을 생성하려면 변환을 수행해야 합니다. filteredBirds 데이터프레임을 사용하여 최소 날개 길이과 함께 보존 상태를 표시합니다. 무엇을 볼 수 있습니까? 
-
-```python
-x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
-x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
-x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
-x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
-x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
-x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
-
-kwargs = dict(alpha=0.5, bins=20)
-
-plt.hist(x1, **kwargs, color='red', label='Extinct')
-plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
-plt.hist(x3, **kwargs, color='yellow', label='Endangered')
-plt.hist(x4, **kwargs, color='green', label='Near Threatened')
-plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
-plt.hist(x6, **kwargs, color='gray', label='Least Concern')
-
-plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
-plt.legend();
-```
-
-![wingspan and conservation collation](images/histogram-conservation.png)
-
-최소 날개 길이와 보존 상태 사이에는 좋은 상관 관계가 없어 보입니다. 이 방법을 사용하여 데이터셋의 다른 요소를 테스트합니다. 다른 필터를 시도해 볼 수도 있습니다. 상관관계가 있습니까?
-
-## 밀도분포 그래프
-
-지금까지 살펴본 히스토그램이 '계단형'이며 호를 따라 부드럽게 흐르지 않는다는 것을 눈치채셨을 수도 있습니다. 더 부드러운 밀도 차트를 표시하려면 밀도분포 그래프를 시도할 수 있습니다.
-
-밀도분포 그래프를 사용하려면 새로운 플롯 라이브러리 [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html)에 익숙해지세요. 
-
-Seaborn을 로드하고 기본 밀도분포 그래프를 시도하기:
-
-```python
-import seaborn as sns
-import matplotlib.pyplot as plt
-sns.kdeplot(filteredBirds['MinWingspan'])
-plt.show()
-```
-![Density plot](images/density1.png)
-
-최소 날개 길이 데이터에 대해 이전 그림이 어떻게 반영되는지 확인할 수 있습니다; 조금 더 부드워졌습니다. Seaborn의 문서에 따르면 "히스토그램에 비해 KDE는 특히 다중 분포를 그릴 때 덜 복잡하고 더 해석하기 쉬운 플롯을 생성할 수 있습니다. 그러나 기본 분포가 한정되어 있거나 매끄럽지 않은 경우 왜곡이 있을 가능성이 있습니다. 히스토그램과 마찬가지로 표현의 품질도 좋은 평활화 매개변수(smoothing parameters)의 선택에 따라 달라집니다." [출처](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) 다시 말해, 이상치는 차트를 잘못 작동하게 만듭니다.
-
-두 번째 차트에서 들쭉날쭉한 MaxBodyMass 선을 다시 보고 싶다면, 다음 방법을 사용하여 다시 만들면 매우 부드럽게 만들 수 있습니다:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'])
-plt.show()
-```
-![smooth bodymass line](images/density2.png)
-
-부드럽지만 너무 부드럽지 않은 선을 원하는 경우 `bw_adjust` 매개변수를 편집하세요: 
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
-plt.show()
-```
-![less smooth bodymass line](images/density3.png)
-
-✅ 이러한 유형의 그림 및 실험에 사용할 수 있는 매개변수에 대해 읽어보세요!
-
-이러한 유형의 차트는 아름답게 설명되는 시각화를 제공합니다. 예를 들어 코드 몇 줄을 사용하여 새 한마리당 최대 체질량 밀도를 표시할 수 있습니다:
-
-```python
-sns.kdeplot(
-   data=filteredBirds, x="MaxBodyMass", hue="Order",
-   fill=True, common_norm=False, palette="crest",
-   alpha=.5, linewidth=0,
-)
-```
-
-![bodymass per order](images/density4.png)
-
-여러 변수의 밀도를 하나의 차트에서 보여줄 수도 있습니다. 새의 보존 상태와 비교하여 새의 MaxLength 및 MinLength 텍스트 입력하세요:
-
-```python
-sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
-```
-
-![multiple densities, superimposed](images/multi.png)
-
-아마도 이러한 길이에 따른 '취약한' 새들의 무리가 의미가 있는지 없는지 연구해볼 가치가 있을 것입니다.
-
-## 🚀 도전
-
-히스토그램은 기본 산점도, 막대 차트 또는 꺾은선형 차트보다 더 정교한 유형의 차트입니다. 히스토그램 사용의 좋은 예를 찾으려면 인터넷에서 검색해보세요. 어떻게 사용되고, 무엇을 입증하며, 어떤 분야나 조사 분야에서 사용되는 경향이 있습니까?
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19)
-
-## 복습 & 자기주도학습
-
-이 수업에서는 Matplotlib를 사용하고 보다 정교한 차트를 보여주기 위해 Seaborn으로 작업을 시작했습니다. "하나 이상의 차원에서 연속 확률 밀도 곡선"인 Seaborn의 `kdeplot`에 대한 연구를 수행하세요. 작동 방식을 이해하려면 [문서](https://seaborn.pydata.org/generated/seaborn.kdeplot.html)를 읽어보세요.
-
-## 과제
-
-[기술 적용해보기](assignment.md)
--- a/3-Data-Visualization/10-visualization-distributions/translations/README.pt-br.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/README.pt-br.md
@ -1,198 +0,0 @@
-# Visualizando distribuições
-
-|![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/10-Visualizing-Distributions.png)|
-|:---:|
-| Visualizando distribuições - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
-
-Na aula anterior, você aprendeu fatos interessantes sobre um dataset de aves de Minnesota. Você encontrou dados incorretos ao visualizar outliers e olhou as diferenças entre categorias de aves com base no seu comprimento máximo.
-
-## [Quiz pré-aula](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18)
-## Explorando o dataset de aves
-
-Outra forma de explorar os dados é olhar para sua distribuição, ou como os dados estão organizados ao longo do eixo. Por exemplo, talvez você gostaria de aprender sobre a distribuição geral, neste dataset, do máximo de envergadura (wingspan) ou máximo de massa corporal (body mass) das aves de Minnesota.
-
-Vamos descobrir alguns fatos sobre as distribuições de dados neste dataset. No arquivo  _notebook.ipynb_, na raiz do diretório desta aula, importe Pandas, Matplotlib, e os dados:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-birds = pd.read_csv('../../data/birds.csv')
-birds.head()
-```
-
-Geralmente, você pode olhar para a forma como os dados estão distribuídos usando um gráfico de dispersão (scatter plot) como fizemos na aula anterior:
-
-```python
-birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8))
-
-plt.title('Max Length per Order')
-plt.ylabel('Order')
-plt.xlabel('Max Length')
-
-plt.show()
-```
-
-Isso nos dá uma visão geral da distribuição de comprimento do corpo por Ordem da ave, mas não é a melhor forma de mostrar a distribuição real. Esta tarefa geralmente é realizada usando um histograma.
-
-## Trabalhando com histogramas
-
-O Matplotlib oferece formas muito boas de visualizar distribuição dos dados usando histogramas. Este tipo de gráfico é parecido com um gráfico de barras onde a distribuição pode ser vista por meio da subida e descida das barras. Para construir um histograma, você precisa de dados numéricos e você pode plotar um gráfico definindo o tipo (kind) como 'hist' para histograma. Este gráfico mostra a distribuição de massa corporal máxima (MaxBodyMass) para todo o intervalo numérico dos dados. Ao dividir um certo vetor de dados em intervalos (bins) menores, vemos a distribuição dos valores:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12))
-plt.show()
-```
-
-![Distribuição de todo o dataset](../images/dist1.png)
-
-Como você pode ver, a maior parte das mais de 400 aves cai no intervalo de menos de 2000 para a massa corporal máxima. Obtenha mais conhecimento dos dados mudando o parâmetro de intervalo (`bins`) para um número maior, como 30:
-
-```python
-birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12))
-plt.show()
-```
-
-![Distribuição de todo o dataset com valores maiores de intervalo](../images/dist2.png)
-
-Este gráfico mostra a distribuição de forma mais detalhada. Um gráfico menos concentrado na esquerda pode ser criado garantindo que você só selecione os dados dentro de um certo intervalo:
-
-Filtre seus dados para obter somente as aves que possuem menos de 60 de massa corporal, e mostre 40 intervalos (`bins`):
-
-```python
-filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)]      
-filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12))
-plt.show()     
-```
-![Histograma filtrado](../images/dist3.png)
-
-✅ Tente outros filtros e pontos de dados (data points). Para ver a distribuição completa dos dados, remova o filtro `['MaxBodyMass']` para mostrar as distribuições com labels (identificadores).
-
-O histograma também oferece algumas cores legais e labels (identificares) melhorados:
-
-Crie um histograma 2D para comparar a relação entre duas distribuições. Vamos comparar massa corporal máxima vs. comprimento máximo (`MaxBodyMass` vs. `MaxLength`). O Matplotlib possui uma forma integrada de mostrar convergência usando cores mais vivas:
-
-```python
-x = filteredBirds['MaxBodyMass']
-y = filteredBirds['MaxLength']
-
-fig, ax = plt.subplots(tight_layout=True)
-hist = ax.hist2d(x, y)
-```
-
-Aparentemente, existe uma suposta correlação entre estes dois elementos ao longo de um eixo esperado, com um forte ponto de convergência:
-
-![Histograma 2D](../images/2D.png)
-
-Por definição, os histogramas funcionam para dados numéricos. Mas, e se você precisar ver distribuições de dados textuais?
-
-## Explore o dataset e busque por distribuições usando dados textuais
-
-Este dataset também inclui informações relevantes sobre a categoria de ave e seu gênero, espécie e família, assim como seu status de conservação. Vamos explorar mais a fundo esta informação sobre conservação. Qual é a distribuição das aves de acordo com seu status de conservação?
-
-> ✅ No dataset, são utilizados vários acrônimos para descrever o status de conservação. Estes acrônimos vêm da [IUCN Red List Categories](https://www.iucnredlist.org/), uma organização que cataloga os status das espécies.
-> 
-> - CR: Critically Endangered (Criticamente em perigo)
-> - EN: Endangered (Em perigo)
-> - EX: Extinct (Extinto)
-> - LC: Least Concern (Pouco preocupante)
-> - NT: Near Threatened (Quase ameaçada)
-> - VU: Vulnerable (Vulnerável)
-
-Estes são valores textuais, então será preciso transformá-los para criar um histograma. Usando o dataframe filteredBirds, mostre seu status de conservação com sua envergadura mínima (MinWingspan). O que você vê? 
-
-```python
-x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan']
-x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan']
-x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan']
-x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan']
-x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan']
-x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan']
-
-kwargs = dict(alpha=0.5, bins=20)
-
-plt.hist(x1, **kwargs, color='red', label='Extinct')
-plt.hist(x2, **kwargs, color='orange', label='Critically Endangered')
-plt.hist(x3, **kwargs, color='yellow', label='Endangered')
-plt.hist(x4, **kwargs, color='green', label='Near Threatened')
-plt.hist(x5, **kwargs, color='blue', label='Vulnerable')
-plt.hist(x6, **kwargs, color='gray', label='Least Concern')
-
-plt.gca().set(title='Conservation Status', ylabel='Max Body Mass')
-plt.legend();
-```
-
-![Compilação envergadura e conservação](../images/histogram-conservation.png)
-
-Aparentemente não existe uma correlação forte entre a envergadura mínima e o status de conservação. Teste outros elementos do dataset usando este método. Você também pode tentar outros filtros. Você encontrou alguma correlação?
-
-## Gráfico de densidade (Estimativa de densidade kernel)
-
-Você pode ter percebido que até agora os histogramas são quebrados em degraus e não fluem de forma suave em uma curva. Para mostrar um gráfico de densidade mais 'fluido', você pode tentar usar a estimativa de densidade kernel (kde).
-
-Para trabalhar com gráficos de densidade, acostume-se com uma nova biblioteca de gráficos, o [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html). 
-
-Após carregar o Seaborn, tente um gráfico de densidade básico:
-
-```python
-import seaborn as sns
-import matplotlib.pyplot as plt
-sns.kdeplot(filteredBirds['MinWingspan'])
-plt.show()
-```
-![Gráfico de densidade](../images/density1.png)
-
-Você consegue ver como o gráfico reflete o anterior (de envergadura mínima); só é mais fluido/suave. De acordo com a documentação do Seaborn, "Em comparação com o histograma, o KDE pode produzir um gráfico que é menos confuso e mais legível, especialmente quando plotamos múltiplas distribuições. Mas pode potencialmente introduzir distorções se a distribuição usada é limitada ou não suave. Como um histograma, a qualidade da representação também depende na escolha de bons parâmetros suavizadores (smoothing parameters)." [créditos](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Em outras palavras, dados discrepantes (outliers) vão fazer seus gráficos se comportarem mal, como sempre.
-
-Se você quer revisitar a linha irregular/dentada MaxBodyMass (massa corporal máxima) no segundo gráfico construído, você pode suavizá-la muito bem recriando o seguinte método:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'])
-plt.show()
-```
-![Linha suave massa corporal](../images/density2.png)
-
-Se você quer uma linha suave, mas não tão suave, mude o parâmetro `bw_adjust`:
-
-```python
-sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2)
-plt.show()
-```
-![Linha menos suave massa corporal](../images/density3.png)
-
-✅ Leia sobre os parâmetros disponíveis para este tipo de gráfico e experimente!
-
-Este tipo de gráfico oferece visualizações bonitas e esclarecedoras. Com algumas linhas de código, por exemplo, você pode mostrar a densidade de massa corporal máxima por ave por Ordem:
-
-```python
-sns.kdeplot(
-   data=filteredBirds, x="MaxBodyMass", hue="Order",
-   fill=True, common_norm=False, palette="crest",
-   alpha=.5, linewidth=0,
-)
-```
-
-![Massa corporal por Ordem](../images/density4.png)
-
-Você também pode mapear a densidade de várias variáveis em um só gráfico. Teste usar o comprimento máximo (MaxLength) e mínimo (MinLength) de uma ave comparado com seu status de conservação:
-
-```python
-sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus")
-```
-
-![Múltiplas densidades sobrepostas](../images/multi.png)
-
-Talvez valha a pena pesquisar mais a fundo se o cluster de aves vulneráveis ('Vulnerable') de acordo com seus comprimentos têm significado ou não.
-
-## 🚀 Desafio
-
-Histogramas são um tipo mais sofisticado de gráfico em relação a simples gráficos de dispersão, barras ou linhas. Pesquise na internet bons exemplos de uso de histogramas. Como eles são usados, o que eles demonstram e em quais áreas ou campos de pesquisa eles são usados.
-
-## [Post-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19)
-
-## Revisão e autoestudo
-
-Nesta aula, você usou o Matplotlib e começou a trabalhar com o Seaborn para mostrar gráficos mais avançados. Pesquise sobre o `kdeplot` no Seaborn, uma "curva  de densidade de probabilidade contínua em uma ou mais dimensões". Leia a [documentação](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) para entender como funciona.
-
-## Tarefa
-
-[Aplique seus conhecimentos](assignment.pt-br.md)
--- a/3-Data-Visualization/10-visualization-distributions/translations/assignment.es.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/assignment.es.md
@ -1,10 +0,0 @@
-# Aplica tus habilidades
-
-## Instrucciones
-
-Hasta ahora, has trabajado con el conjunto de datos de aves de Minnesota para descubrir información sobre las cantidades de aves y la densidad de población. Practica tu aplicación de estas técnicas probando un conjunto de datos diferente, quizás procedente de [Kaggle](https://www.kaggle.com/). Construye un cuaderno para contar una historia sobre este conjunto de datos, y asegúrate de utilizar histogramas al hablar de él.
-## Rúbrica
-
-Ejemplar | Adecuado | Necesita mejorar
--- | --- | -- |
-Un cuaderno se presenta con anotaciones sobre este conjunto de datos, incluyendo su fuente, y utiliza al menos 5 histogramas para descubrir hechos sobre los datos. | Un cuaderno se presenta con anotaciones incompletas o con errores. | Un cuaderno se presenta sin anotaciones e incluye errores.
--- a/3-Data-Visualization/10-visualization-distributions/translations/assignment.ko.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/assignment.ko.md
@ -1,10 +0,0 @@
-# 기술 적용해보기
-
-## 지시사항
-
-지금까지 새의 양과 개체 밀도에 대한 정보를 찾기 위해서 미네소타 새 데이터셋으로 작업하였습니다. [Kaggle](https://www.kaggle.com/)에서 제공하는 다른 데이터셋을 사용하여 이러한 기술 적용을 연습해보세요. 이 데이터셋에 대해서 알려줄 수 있는 노트북을 만들고, 논의할 때 히스토그램을 사용하세요.
-## 채점기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-노트북은 출처를 포함하여 이 데이터셋에 대한 주석이 제공되며, 데이터에 대한 사실을 발견하기 위해서 최소 5개의 히스토그램을 사용합니다. | 노트북은 불완전한 주석이나 버그가 표시됩니다. | 노트북은 주석 없이 표시되며 버그가 포함되어 있습니다.
--- a/3-Data-Visualization/10-visualization-distributions/translations/assignment.pt-br.md
+++ b/3-Data-Visualization/10-visualization-distributions/translations/assignment.pt-br.md
@ -1,11 +0,0 @@
-# Aplique seus conhecimentos
-
-## Instruções
-
-Até agora, você trabalhou com o dataset de aves de Minnesota para descobrir informação sobre quantidades de aves e densidade populacional. Pratique essas técnicas usando outro dataset, talvez do [Kaggle](https://www.kaggle.com/). Faça um notebook que conta uma história sobre esse dataset, e lembre-se de usar histogramas para isso.
-
-## Rubrica
-
-Exemplar | Adequado | Precisa melhorar
--- | --- | -- |
-O notebook tem anotações sobre o dataset, incluindo sua origem, e usa pelo menos 5 histogramas para descobrir fatos sobre os dados. | O notebook tem anotações incompletas ou bugs | O notebook não possui nenhuma anotação e contṕem bugs.
--- a/3-Data-Visualization/11-visualization-proportions/translations/README.es.md
+++ b/3-Data-Visualization/11-visualization-proportions/translations/README.es.md
@ -1,183 +0,0 @@
-# Visualización de Proporciones
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/11-Visualizing-Proportions.png)|
-|:---:|
-|Visualización de Proporciones - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-En esta lección, utilizarás un conjunto de datos diferente centrado en la naturaleza para visualizar proporciones, como por ejemplo cuántos tipos diferentes de hongos pueblan un determinado conjunto de datos sobre setas. Vamos a explorar estos fascinantes hongos utilizando un conjunto de datos procedente de Audubon que enumera detalles sobre 23 especies de hongos con branquias de las familias Agaricus y Lepiota. Experimentarás con sabrosas visualizaciones como:
-
- Gráficos de tarta 🥧
- Gráficos de donuts 🍩
- Gráficos de waffles 🧇
-
-> 💡 Un proyecto muy interesante llamado [Charticulator](https://charticulator.com) de Microsoft Research ofrece una interfaz gratuita de arrastrar y soltar para las visualizaciones de datos. ¡En uno de sus tutoriales también utilizan este conjunto de datos de hongos! Así que puedes explorar los datos y aprender la biblioteca al mismo tiempo: [Tutorial de Charticulator](https://charticulator.com/tutorials/tutorial4.html).
-
-## [Cuestionario previo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/20)
-
-## Conoce tus hongos 🍄
-
-Los hongos son muy interesantes. Vamos a importar un conjunto de datos para estudiarlos:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-mushrooms = pd.read_csv('../../data/mushrooms.csv')
-mushrooms.head()
-```
-Una tabla con grandes datos para su análisis se imprime:
-
-
-| class     | cap-shape | cap-surface | cap-color | bruises | odor    | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | stalk-root | stalk-surface-above-ring | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
-| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
-| Poisonous | Convex    | Smooth      | Brown     | Bruises | Pungent | Free            | Close        | Narrow    | Black      | Enlarging   | Equal      | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Black             | Scattered  | Urban   |
-| Edible    | Convex    | Smooth      | Yellow    | Bruises | Almond  | Free            | Close        | Broad     | Black      | Enlarging   | Club       | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Brown             | Numerous   | Grasses |
-| Edible    | Bell      | Smooth      | White     | Bruises | Anise   | Free            | Close        | Broad     | Brown      | Enlarging   | Club       | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Brown             | Numerous   | Meadows |
-| Poisonous | Convex    | Scaly       | White     | Bruises | Pungent | Free            | Close        | Narrow    | Brown      | Enlarging   | Equal      | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Black             | Scattered  | Urban   |
-
-Enseguida se nota que todos los datos son textuales. Tendrás que convertir estos datos para poder utilizarlos en un gráfico. La mayoría de los datos, de hecho, se representan como un objeto:
-
-```python
-print(mushrooms.select_dtypes(["object"]).columns)
-```
-
-La salida es:
-
-```output
-Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor',
-       'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color',
-       'stalk-shape', 'stalk-root', 'stalk-surface-above-ring',
-       'stalk-surface-below-ring', 'stalk-color-above-ring',
-       'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number',
-       'ring-type', 'spore-print-color', 'population', 'habitat'],
-      dtype='object')
-```
-Toma estos datos y convierte la columna "class" en una categoría:
-
-```python
-cols = mushrooms.select_dtypes(["object"]).columns
-mushrooms[cols] = mushrooms[cols].astype('category')
-```
-Ahora, si imprimes los datos de las setas, puedes ver que se han agrupado en categorías según la clase poisonous/edible (venenosa/comestible):
-
-|           | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | ... | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
-| --------- | --------- | ----------- | --------- | ------- | ---- | --------------- | ------------ | --------- | ---------- | ----------- | --- | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
-| class     |           |             |           |         |      |                 |              |           |            |             |     |                          |                        |                        |           |            |             |           |                   |            |         |
-| Edible    | 4208      | 4208        | 4208      | 4208    | 4208 | 4208            | 4208         | 4208      | 4208       | 4208        | ... | 4208                     | 4208                   | 4208                   | 4208      | 4208       | 4208        | 4208      | 4208              | 4208       | 4208    |
-| Poisonous | 3916      | 3916        | 3916      | 3916    | 3916 | 3916            | 3916         | 3916      | 3916       | 3916        | ... | 3916                     | 3916                   | 3916                   | 3916      | 3916       | 3916        | 3916      | 3916              | 3916       | 3916    |
-
-Si sigues el orden presentado en esta tabla para crear tus etiquetas de categoría de clase, puedes construir un gráfico circular:
-
-## ¡Pastel!
-
-```python
-labels=['Edible','Poisonous']
-plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%')
-plt.title('Edible?')
-plt.show()
-```
-Voilá, un gráfico circular que muestra las proporciones de estos datos según estas dos clases de hongos. ¡Es bastante importante conseguir el orden de las etiquetas correcto, especialmente aquí, así que asegúrate de verificar el orden con el que se construye la matriz de etiquetas!
-
-![gráfico de pastel](../images/pie1.png)
-
-## ¡Donas!
-
-Algo más interesante desde el punto de vista visual que el gráfico de pastel es el gráfico de donas, que es un gráfico circular con un agujero en el centro. Veamos nuestros datos con este método.
-
-Observa los distintos hábitats donde crecen las setas:
-
-```python
-habitat=mushrooms.groupby(['habitat']).count()
-habitat
-```
-Aquí, estás agrupando tus datos por hábitat. Hay 7 listados, así que úsalos como etiquetas para tu gráfico de donas:
-
-```python
-labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood']
-
-plt.pie(habitat['class'], labels=labels,
-        autopct='%1.1f%%', pctdistance=0.85)
-  
-center_circle = plt.Circle((0, 0), 0.40, fc='white')
-fig = plt.gcf()
-
-fig.gca().add_artist(center_circle)
-  
-plt.title('Mushroom Habitats')
-  
-plt.show()
-```
-
-![gráfico de donas](../images/donut.png)
-
-Este código dibuja un gráfico y un círculo central, luego añade ese círculo central en el gráfico. Edite el ancho del círculo central cambiando `0.40` por otro valor.
-
-Los gráficos de donas pueden ser modificados de varias maneras para cambiar las etiquetas. Las etiquetas, en particular, pueden ser resaltadas para facilitar su lectura. Obtenga más información en los [docs](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut).
-
-Ahora que sabes cómo agrupar tus datos y mostrarlos como un pastel o una dona, puedes explorar otros tipos de gráficos. Prueba con un gráfico waffle, que es una forma diferente de explorar la cantidad.
-## ¡Waffles!
-
-Un gráfico de tipo "waffle" es una forma diferente de visualizar las cantidades como una matriz 2D de cuadrados. Intenta visualizar las diferentes cantidades de colores de los sombreros de los champiñones en este conjunto de datos. Para hacer esto, necesitas instalar una biblioteca de ayuda llamada [PyWaffle](https://pypi.org/project/pywaffle/) y usar Matplotlib:
-
-```python
-pip install pywaffle
-```
-
-Seleccione un segmento de sus datos para agrupar:
-
-```python
-capcolor=mushrooms.groupby(['cap-color']).count()
-capcolor
-```
-
-Crea un gráfico de waffles creando etiquetas y luego agrupando los datos:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-from pywaffle import Waffle
-  
-data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'],
-    'amount': capcolor['class']
-     }
-  
-df = pd.DataFrame(data)
-  
-fig = plt.figure(
-    FigureClass = Waffle,
-    rows = 100,
-    values = df.amount,
-    labels = list(df.color),
-    figsize = (30,30),
-    colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"],
-)
-```
-
-Utilizando un gráfico de waffles, se pueden ver claramente las proporciones de los colores de los sombreros de este conjunto de datos de hongos. Curiosamente, ¡hay muchas hongos con el sombrero verde!
-
-![gráfico de waffles](../images/waffle.png)
-
-✅ Pywaffle soporta iconos dentro de los gráficos que utilizan cualquier icono disponible en [Font Awesome](https://fontawesome.com/). Haz algunos experimentos para crear un gráfico waffle aún más interesante usando iconos en lugar de cuadrados.
-
-En esta lección, aprendiste tres maneras de visualizar proporciones. En primer lugar, tienes que agrupar tus datos en categorías y luego decidir cuál es la mejor manera de mostrar los datos: pastel, dona o waffle. Todas son deliciosas y gratifican al usuario con una instantánea de un conjunto de datos.
-
-## 🚀 Desafío
-
-Intenta recrear estos sabrosos gráficos en [Charticulator](https://charticulator.com).
-## [Cuestionario posterior a la clase](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21)
-
-## Repaso y autoestudio
-
-A veces no es obvio cuándo utilizar un gráfico de pastel, de dona o de waffle. Aquí hay algunos artículos para leer sobre este tema:
-
-https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
-
-https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
-
-https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
-
-https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
-
-Investiga un poco para encontrar más información sobre esta decisión pegajosa.
-## Asignación
-
-[Pruébalo en Excel](assignment.es.md)
--- a/3-Data-Visualization/11-visualization-proportions/translations/README.hi.md
+++ b/3-Data-Visualization/11-visualization-proportions/translations/README.hi.md
@ -1,184 +0,0 @@
-# विज़ुअलाइज़िंग अनुपात
-
-|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/11-Visualizing-Proportions.png)|
-|:---:|
-|विज़ुअलाइज़िंग अनुपात - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
-
-इस पाठ में, आप अनुपात की कल्पना करने के लिए एक अलग प्रकृति-केंद्रित डेटासेट का उपयोग करेंगे, जैसे कि मशरूम के बारे में दिए गए डेटासेट में कितने अलग-अलग प्रकार के कवक आते हैं। आइए ऑडबोन सूची से प्राप्त डेटासेट का उपयोग करके इन आकर्षक कवक का पता लगाएं, एग्रिकस और लेपियोटा परिवारों में ग्रील्ड मशरूम की 23 प्रजातियों के बारे में विवरण। आप स्वादिष्ट विज़ुअलाइज़ेशन के साथ प्रयोग करेंगे जैसे:
-
- पाई चार्ट 🥧
- डोनट चार्ट 🍩
- वफ़ल चार्ट 🧇
-
-
-> 💡 माइक्रोसॉफ्ट अनुसंधान द्वारा [चार्टिकुलेटर](https://charticulator.com) नामक एक बहुत ही रोचक परियोजना डेटा विज़ुअलाइज़ेशन के लिए एक निःशुल्क ड्रैग एंड ड्रॉप इंटरफ़ेस प्रदान करती है। अपने एक ट्यूटोरियल में वे इस मशरूम डेटासेट का भी उपयोग करते हैं! तो आप एक ही समय में डेटा का पता लगा सकते हैं और पुस्तकालय सीख सकते हैं: [चार्टिकुलेटर ट्यूटोरियल](https://charticulator.com/tutorials/tutorial4.html)।
-
-## [प्री-लेक्चर क्विज](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/20)
-
-## अपने मशरूम को जानें 🍄
-
-मशरूम बहुत दिलचस्प हैं। आइए उनका अध्ययन करने के लिए एक डेटासेट आयात करें:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-mushrooms = pd.read_csv('../../data/mushrooms.csv')
-mushrooms.head()
-```
-विश्लेषण के लिए कुछ महान डेटा के साथ एक तालिका मुद्रित की जाती है:
-
-
-| class     | cap-shape | cap-surface | cap-color | bruises | odor    | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | stalk-root | stalk-surface-above-ring | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
-| --------- | --------- | ----------- | --------- | ------- | ------- | --------------- | ------------ | --------- | ---------- | ----------- | ---------- | ------------------------ | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
-| Poisonous | Convex    | Smooth      | Brown     | Bruises | Pungent | Free            | Close        | Narrow    | Black      | Enlarging   | Equal      | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Black             | Scattered  | Urban   |
-| Edible    | Convex    | Smooth      | Yellow    | Bruises | Almond  | Free            | Close        | Broad     | Black      | Enlarging   | Club       | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Brown             | Numerous   | Grasses |
-| Edible    | Bell      | Smooth      | White     | Bruises | Anise   | Free            | Close        | Broad     | Brown      | Enlarging   | Club       | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Brown             | Numerous   | Meadows |
-| Poisonous | Convex    | Scaly       | White     | Bruises | Pungent | Free            | Close        | Narrow    | Brown      | Enlarging   | Equal      | Smooth                   | Smooth                   | White                  | White                  | Partial   | White      | One         | Pendant   | Black             | Scattered  | Urban   |
-
-तुरंत, आप देखते हैं कि सभी डेटा टेक्स्टुअल है। चार्ट में इसका उपयोग करने में सक्षम होने के लिए आपको इस डेटा को परिवर्तित करना होगा। अधिकांश डेटा, वास्तव में, एक वस्तु के रूप में दर्शाया जाता है:
-
-```python
-print(mushrooms.select_dtypes(["object"]).columns)
-```
-
-आउटपुट है:
-
-```output
-Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor',
-       'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color',
-       'stalk-shape', 'stalk-root', 'stalk-surface-above-ring',
-       'stalk-surface-below-ring', 'stalk-color-above-ring',
-       'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number',
-       'ring-type', 'spore-print-color', 'population', 'habitat'],
-      dtype='object')
-```
-यह डेटा लें और 'वर्ग' कॉलम को एक श्रेणी में बदलें:
-
-```python
-cols = mushrooms.select_dtypes(["object"]).columns
-mushrooms[cols] = mushrooms[cols].astype('category')
-```
-अब, यदि आप मशरूम डेटा का प्रिंट आउट लेते हैं, तो आप देख सकते हैं कि इसे जहरीले/खाद्य वर्ग के अनुसार श्रेणियों में बांटा गया है:
-
-
-|           | cap-shape | cap-surface | cap-color | bruises | odor | gill-attachment | gill-spacing | gill-size | gill-color | stalk-shape | ... | stalk-surface-below-ring | stalk-color-above-ring | stalk-color-below-ring | veil-type | veil-color | ring-number | ring-type | spore-print-color | population | habitat |
-| --------- | --------- | ----------- | --------- | ------- | ---- | --------------- | ------------ | --------- | ---------- | ----------- | --- | ------------------------ | ---------------------- | ---------------------- | --------- | ---------- | ----------- | --------- | ----------------- | ---------- | ------- |
-| class     |           |             |           |         |      |                 |              |           |            |             |     |                          |                        |                        |           |            |             |           |                   |            |         |
-| Edible    | 4208      | 4208        | 4208      | 4208    | 4208 | 4208            | 4208         | 4208      | 4208       | 4208        | ... | 4208                     | 4208                   | 4208                   | 4208      | 4208       | 4208        | 4208      | 4208              | 4208       | 4208    |
-| Poisonous | 3916      | 3916        | 3916      | 3916    | 3916 | 3916            | 3916         | 3916      | 3916       | 3916        | ... | 3916                     | 3916                   | 3916                   | 3916      | 3916       | 3916        | 3916      | 3916              | 3916       | 3916    |
-
-यदि आप अपने वर्ग श्रेणी लेबल बनाने के लिए इस तालिका में प्रस्तुत क्रम का पालन करते हैं, तो आप एक पाई चार्ट बना सकते हैं:
-
-## Pie!
-
-```python
-labels=['Edible','Poisonous']
-plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%')
-plt.title('Edible?')
-plt.show()
-```
-वोइला, मशरूम के इन दो वर्गों के अनुसार इस डेटा के अनुपात को दर्शाने वाला एक पाई चार्ट। लेबल के क्रम को सही करना बहुत महत्वपूर्ण है, विशेष रूप से यहां, इसलिए उस क्रम को सत्यापित करना सुनिश्चित करें जिसके साथ लेबल सरणी बनाई गई है!
-
-![पाई चार्ट](images/pie1.png)
-
-## डोनट्स!
-
-कुछ अधिक नेत्रहीन दिलचस्प पाई चार्ट एक डोनट चार्ट है, जो बीच में एक छेद के साथ एक पाई चार्ट है। आइए इस पद्धति का उपयोग करके हमारे डेटा को देखें।
-
-विभिन्न आवासों पर एक नज़र डालें जहाँ मशरूम उगते हैं:
-
-```python
-habitat=mushrooms.groupby(['habitat']).count()
-habitat
-```
-यहां, आप अपने डेटा को आवास के आधार पर समूहित कर रहे हैं। 7 सूचीबद्ध हैं, इसलिए उन्हें अपने डोनट चार्ट के लिए लेबल के रूप में उपयोग करें:
-
-```python
-labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood']
-
-plt.pie(habitat['class'], labels=labels,
-        autopct='%1.1f%%', pctdistance=0.85)
-  
-center_circle = plt.Circle((0, 0), 0.40, fc='white')
-fig = plt.gcf()
-
-fig.gca().add_artist(center_circle)
-  
-plt.title('Mushroom Habitats')
-  
-plt.show()
-```
-
-![डोनट चार्ट](images/donut.png)
-
-यह कोड एक चार्ट और एक केंद्र वृत्त बनाता है, फिर उस केंद्र वृत्त को चार्ट में जोड़ता है। `0.40` को दूसरे मान में बदलकर केंद्र वृत्त की चौड़ाई संपादित करें।
-
-डोनट चार्ट को लेबल बदलने के लिए कई तरह से ट्वीक किया जा सकता है। विशेष रूप से लेबल को पठनीयता के लिए हाइलाइट किया जा सकता है। [दस्तावेज़] (https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut) में और जानें।
-
-अब जबकि आप जानते हैं कि अपने डेटा को कैसे समूहबद्ध करना है और फिर उसे पाई या डोनट के रूप में प्रदर्शित करना है, तो आप अन्य प्रकार के चार्टों को एक्सप्लोर कर सकते हैं। एक वफ़ल चार्ट आज़माएं, जो मात्रा की खोज का एक अलग तरीका है।
-## Waffles!
-
-एक 'वफ़ल' प्रकार का चार्ट मात्राओं को वर्गों के 2डी सरणी के रूप में देखने का एक अलग तरीका है। इस डेटासेट में मशरूम कैप रंगों की विभिन्न मात्राओं को देखने का प्रयास करें। ऐसा करने के लिए, आपको [PyWaffle](https://pypi.org/project/pywaffle/) नामक एक सहायक पुस्तकालय स्थापित करने और Matplotlib का उपयोग करने की आवश्यकता है:
-
-```python
-pip install pywaffle
-```
-
-समूह के लिए अपने डेटा का एक खंड चुनें:
-
-```python
-capcolor=mushrooms.groupby(['cap-color']).count()
-capcolor
-```
-
-लेबल बनाकर और फिर अपने डेटा को समूहीकृत करके एक वफ़ल चार्ट बनाएं:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-from pywaffle import Waffle
-  
-data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'],
-    'amount': capcolor['class']
-     }
-  
-df = pd.DataFrame(data)
-  
-fig = plt.figure(
-    FigureClass = Waffle,
-    rows = 100,
-    values = df.amount,
-    labels = list(df.color),
-    figsize = (30,30),
-    colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"],
-)
-```
-
-वफ़ल चार्ट का उपयोग करके, आप स्पष्ट रूप से इस मशरूम डेटासेट के कैप रंगों के अनुपात को देख सकते हैं। दिलचस्प बात यह है कि कई हरे-छिपे हुए मशरूम हैं!
-
-![वफ़ल चार्ट](images/waffle.png)
-
-✅ Pywaffle उन चार्ट के भीतर आइकन का समर्थन करता है जो [Font Awesome](https://fontawesome.com/) में उपलब्ध किसी भी आइकन का उपयोग करते हैं। वर्गों के बजाय आइकन का उपयोग करके और भी अधिक रोचक वफ़ल चार्ट बनाने के लिए कुछ प्रयोग करें।
-
-इस पाठ में, आपने अनुपातों की कल्पना करने के तीन तरीके सीखे। सबसे पहले, आपको अपने डेटा को श्रेणियों में समूहित करना होगा और फिर यह तय करना होगा कि डेटा प्रदर्शित करने का सबसे अच्छा तरीका कौन सा है - पाई, डोनट, या वफ़ल। सभी स्वादिष्ट हैं और डेटासेट के तत्काल स्नैपशॉट के साथ उपयोगकर्ता को संतुष्ट करते हैं।
-## 🚀 चुनौती
-
-इन स्वादिष्ट चार्ट को फिर से बनाने का प्रयास करें [चार्टिकुलेटर](https://charticulator.com).
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21)
-
-## समीक्षा और आत्म अध्ययन
-
-कभी-कभी यह स्पष्ट नहीं होता कि पाई, डोनट, या वफ़ल चार्ट का उपयोग कब करना है। इस विषय पर पढ़ने के लिए यहां कुछ लेख दिए गए हैं:
-
-https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart
-
-https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce
-
-https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm
-
-https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402
-
-इस चिपचिपे निर्णय के बारे में अधिक जानकारी प्राप्त करने के लिए कुछ शोध करें।
-## कार्यभार
-
-[इसे एक्सेल में आज़माएं](assignment.md)
--- a/3-Data-Visualization/11-visualization-proportions/translations/assignment.es.md
+++ b/3-Data-Visualization/11-visualization-proportions/translations/assignment.es.md
@ -1,11 +0,0 @@
-## Pruébalo en Excel
-
-## Instrucciones
-
-¿Sabías que puedes crear gráficos de donas, pastel y waffle en Excel? Utilizando un conjunto de datos de su elección, crea estos tres gráficos directamente en una hoja de cálculo de Excel.
-
-## Rúbrica
-
-| Ejemplar | Adecuado | Necesita mejorar
-| ------------------------------------------------------- | ------------------------------------------------- | ------------------------------------------------------ |
-| Una hoja de cálculo de Excel se presenta con los tres gráficos | Una hoja de cálculo de Excel se presenta con dos gráficos | Una hoja de cálculo de Excel se presenta con un solo gráfico |
--- a/3-Data-Visualization/11-visualization-proportions/translations/assignment.zh-cn.md
+++ b/3-Data-Visualization/11-visualization-proportions/translations/assignment.zh-cn.md
@ -1,11 +0,0 @@
-# 在 Excel 中试试
-
-## 指示
-
-你知道在 Excel 中可以创建圆环图、饼图和华夫饼图吗？使用你选择的数据集，直接在 Excel 电子表格中创建这三种图表。
-
-## 评分表
-
-| 优秀                     | 一般                    | 需要改进               |
-| ----------------------- | ------------------------ | ---------------------- |
-| 在 Excel 中制作了三种图表 | 在 Excel 中制作了两种图表 | 在 Excel 中只制作了一种图表 |
--- a/3-Data-Visualization/12-visualization-relationships/translations/README.es.md
+++ b/3-Data-Visualization/12-visualization-relationships/translations/README.es.md
@ -1,173 +0,0 @@
-# Visualización de Relaciones: Todo sobre la miel 🍯
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/12-Visualizing-Relationships.png)|
-|:---:|
-|Visualización de Relaciones - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-Siguiendo con el enfoque de la naturaleza de nuestra investigación, vamos a descubrir interesantes visualizaciones para mostrar las relaciones entre los distintos tipos de miel, según un conjunto de datos procedentes del [Departamento de Agricultura de Estados Unidos](https://www.nass.usda.gov/About_NASS/index.php). 
-
-Este conjunto de datos, compuesto por unos 600 elementos, muestra la producción de miel en muchos estados de Estados Unidos. Así, por ejemplo, se puede ver el número de colonias, el rendimiento por colonia, la producción total, las existencias, el precio por libra y el valor de la miel producida en un determinado estado entre 1998 y 2012, con una fila por año para cada estado. 
-
-Será interesante visualizar la relación entre la producción de un estado determinado por año y, por ejemplo, el precio de la miel en ese estado. También se podría visualizar la relación entre la producción de miel por colonia de los estados. Este intervalo de años abarca el devastador "CCD" o "Colony Collapse Disorder" que se observó por primera vez en 2006 (http://npic.orst.edu/envir/ccd.html), por lo que es un conjunto de datos conmovedor para estudiar. 🐝
-
-## [Cuestionario previo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22)
-
-En esta lección, puedes utilizar Seaborn, que ya has utilizado anteriormente, como una buena librería para visualizar las relaciones entre las variables. Es especialmente interesante el uso de la función `relplot` de Seaborn, que permite realizar gráficos de dispersión y de líneas para visualizar rápidamente las '[relaciones estadísticas](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)', que permiten al científico de datos comprender mejor cómo se relacionan las variables entre sí.
-
-## Gráficos de dispersión
-
-Utiliza un gráfico de dispersión para mostrar cómo ha evolucionado el precio de la miel, año tras año, por estado. Seaborn, utilizando `relplot`, agrupa convenientemente los datos de los estados y muestra puntos de datos tanto categóricos como numéricos. 
-
-Empecemos por importar los datos y Seaborn:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-import seaborn as sns
-honey = pd.read_csv('../../data/honey.csv')
-honey.head()
-```
-Observará que los datos de la miel tienen varias columnas interesantes, como el año y el precio por libra. Exploremos estos datos, agrupados por estados de Estados Unidos:
-
-| state | numcol | yieldpercol | totalprod | stocks   | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
-| AL    | 16000  | 71          | 1136000   | 159000   | 0.72       | 818000    | 1998 |
-| AZ    | 55000  | 60          | 3300000   | 1485000  | 0.64       | 2112000   | 1998 |
-| AR    | 53000  | 65          | 3445000   | 1688000  | 0.59       | 2033000   | 1998 |
-| CA    | 450000 | 83          | 37350000  | 12326000 | 0.62       | 23157000  | 1998 |
-| CO    | 27000  | 72          | 1944000   | 1594000  | 0.7        | 1361000   | 1998 |
-
-
-Crea un gráfico de dispersión básico para mostrar la relación entre el precio por libra de miel y su estado de origen en EE.UU. Haz que el eje `y` sea lo suficientemente alto como para mostrar todos los estados:
-
-```python
-sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
-```
-![gráfico de dispersión 1](../images/scatter1.png)
-
-Ahora, muestra los mismos datos con un esquema de color miel para exponer cómo evoluciona el precio a lo largo de los años. Puedes hacerlo añadiendo un parámetro 'hue' para visualizar el cambio, año tras año:
-
-> ✅ Aprende más sobre las [paletas de colores que puedes usar en Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html) - ¡prueba una hermosa combinación de colores del arco iris!
-
-```python
-sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
-```
-![gráfico de dispersión 2](../images/scatter2.png)
-
-Con este cambio de color, se puede ver que obviamente hay una fuerte progresión a lo largo de los años en cuanto al precio de la miel por libra. De hecho, si se observa un conjunto de muestras en los datos para comprobarlo (elige un estado determinado, Arizona por ejemplo) se puede ver un patrón de aumento de precios año tras año, con pocas excepciones:
-
-| state | numcol | yieldpercol | totalprod | stocks  | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
-| AZ    | 55000  | 60          | 3300000   | 1485000 | 0.64       | 2112000   | 1998 |
-| AZ    | 52000  | 62          | 3224000   | 1548000 | 0.62       | 1999000   | 1999 |
-| AZ    | 40000  | 59          | 2360000   | 1322000 | 0.73       | 1723000   | 2000 |
-| AZ    | 43000  | 59          | 2537000   | 1142000 | 0.72       | 1827000   | 2001 |
-| AZ    | 38000  | 63          | 2394000   | 1197000 | 1.08       | 2586000   | 2002 |
-| AZ    | 35000  | 72          | 2520000   | 983000  | 1.34       | 3377000   | 2003 |
-| AZ    | 32000  | 55          | 1760000   | 774000  | 1.11       | 1954000   | 2004 |
-| AZ    | 36000  | 50          | 1800000   | 720000  | 1.04       | 1872000   | 2005 |
-| AZ    | 30000  | 65          | 1950000   | 839000  | 0.91       | 1775000   | 2006 |
-| AZ    | 30000  | 64          | 1920000   | 902000  | 1.26       | 2419000   | 2007 |
-| AZ    | 25000  | 64          | 1600000   | 336000  | 1.26       | 2016000   | 2008 |
-| AZ    | 20000  | 52          | 1040000   | 562000  | 1.45       | 1508000   | 2009 |
-| AZ    | 24000  | 77          | 1848000   | 665000  | 1.52       | 2809000   | 2010 |
-| AZ    | 23000  | 53          | 1219000   | 427000  | 1.55       | 1889000   | 2011 |
-| AZ    | 22000  | 46          | 1012000   | 253000  | 1.79       | 1811000   | 2012 |
-
-Otra forma de visualizar esta progresión es utilizar el tamaño, en lugar del color. Para los usuarios daltónicos, ésta podría ser una mejor opción. Edita tu visualización para mostrar un aumento de precio por un aumento de la circunferencia del punto:
-
-```python
-sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
-```
-Puedes ver que el tamaño de los puntos aumenta gradualmente.
-
-![gráfico de dispersión 3](../images/scatter3.png)
-
-¿Se trata de un simple caso de oferta y demanda? Debido a factores como el cambio climático y el colapso de las colonias, ¿hay menos miel disponible para la compra año tras año y, por tanto, el precio aumenta?
-
-Para descubrir una correlación entre algunas de las variables de este conjunto de datos, exploremos algunos gráficos de líneas.
-
-## Gráficos de líneas
-
-Pregunta: ¿Existe un claro aumento del precio de la miel por libra año tras año? Lo más fácil es descubrirlo creando un gráfico de líneas:
-
-```python
-sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
-```
-Answer: Yes, with some exceptions around the year 2003:
-
-![gráfico de líneas 1](../images/line1.png)
-
-✅ Como Seaborn está agregando datos en torno a una línea, muestra "las múltiples mediciones en cada valor de x trazando la media y el intervalo de confianza del 95% en torno a la media". [Fuente](https://seaborn.pydata.org/tutorial/relational.html). Este comportamiento, que consume mucho tiempo, puede desactivarse añadiendo `ci=None`.
-
-Pregunta: En 2003, ¿también podemos ver un pico en la oferta de miel? ¿Y si se observa la producción total año tras año?
-
-```python
-sns.relplot(x="year", y="totalprod", kind="line", data=honey);
-```
-
-![gráfico de líneas 2](../images/line2.png)
-
-Respuesta: La verdad es que no. Si se observa la producción total, parece haber aumentado en ese año concreto, aunque en general la cantidad de miel que se produce disminuye en esos años.
-
-Pregunta: En ese caso, ¿qué pudo causar ese repunte del precio de la miel en torno a 2003? 
-
-Para descubrirlo, puedes explorar una cuadrícula de facetas.
-
-## Cuadrículas de facetas
-
-Las cuadrículas de facetas toman una faceta de su conjunto de datos (en nuestro caso, puede elegir "año" para evitar que se produzcan demasiadas facetas). Seaborn puede entonces hacer un gráfico para cada una de esas facetas de sus coordenadas x e y elegidas para una comparación visual más fácil. ¿Destaca el año 2003 en este tipo de comparación?
-
-Cree una cuadrícula de facetas continuando con el uso de `relplot` como recomienda [la documentación de Seaborn](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid). 
-
-```python
-sns.relplot(
-    data=honey, 
-    x="yieldpercol", y="numcol",
-    col="year", 
-    col_wrap=3,
-    kind="line"
-```
-En esta visualización, se puede comparar el rendimiento por colonia y el número de colonias año tras año, uno al lado del otro con un ajuste de 3 para las columnas:
-
-[cuadrícula de facetas](../images/facet.png)
-
-Para este conjunto de datos, no hay nada que destaque especialmente en cuanto al número de colonias y su rendimiento, año tras año y estado tras estado. ¿Hay alguna forma diferente de buscar una correlación entre estas dos variables?
-
-## Gráficos de dos líneas
-
-Prueba con un gráfico multilínea superponiendo dos gráficos de líneas uno encima del otro, utilizando el 'despine' de Seaborn para eliminar sus espinas superiores y derechas, y utilizando `ax.twinx` [derivado de Matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx permite que un gráfico comparta el eje x y muestre dos ejes y. Así, mostrar el rendimiento por colonia y el número de colonias, superpuestos:
-
-```python
-fig, ax = plt.subplots(figsize=(12,6))
-lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey, 
-                        label = 'Number of bee colonies', legend=False)
-sns.despine()
-plt.ylabel('# colonies')
-plt.title('Honey Production Year over Year');
-
-ax2 = ax.twinx()
-lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r", 
-                         label ='Yield per colony', legend=False) 
-sns.despine(right=False)
-plt.ylabel('colony yield')
-ax.figure.legend();
-```
-![parcelas superpuestas](../images/dual-line.png)
-
-Aunque no hay nada que salte a la vista en torno al año 2003, nos permite terminar esta lección con una nota un poco más alegre: aunque en general hay un número de colonias en descenso, el número de colonias se está estabilizando aunque su rendimiento por colonia esté disminuyendo.
-
-¡Vamos, abejas, vamos!
-
-🐝❤️
-## 🚀 Desafío
-
-En esta lección, has aprendido un poco más sobre otros usos de los gráficos de dispersión y las cuadrículas de líneas, incluyendo las cuadrículas de facetas. Desafíate a crear una cuadrícula de facetas utilizando un conjunto de datos diferente, tal vez uno que hayas utilizado antes de estas lecciones. Fíjate en el tiempo que se tarda en crearlas y en la necesidad de tener cuidado con el número de cuadrículas que necesitas dibujar utilizando estas técnicas.
-## [Cuestionario posterior a la clase](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23)
-
-## Repaso y autoestudio
-
-Los gráficos de líneas pueden ser simples o bastante complejos. Lee un poco en la [documentación de Seaborn](https://seaborn.pydata.org/generated/seaborn.lineplot.html) sobre las diversas formas en que puedes construirlos. Intenta mejorar los gráficos de líneas que construiste en esta lección con otros métodos listados en la documentación.
-## Asignación
-
-[Sumérgete en la colmena](assignment.es.md)
--- a/3-Data-Visualization/12-visualization-relationships/translations/README.hi.md
+++ b/3-Data-Visualization/12-visualization-relationships/translations/README.hi.md
@ -1,173 +0,0 @@
-# रिश्तों की कल्पना: शहद के बारे में सब कुछ
-
-|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/12-Visualizing-Relationships.png)|
-|:---:|
-|रिश्तों की कल्पना - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
-
-[यूनाइटेड स्टेट्स डिपार्टमेंट ऑफ़ एग्रीकल्चर](https://www.nass.usda.gov/) से प्राप्त एक डेटासेट के अनुसार, अपने शोध के प्रकृति फ़ोकस को जारी रखते हुए, आइए विभिन्न प्रकार के शहद के बीच संबंधों को दिखाने के लिए दिलचस्प विज़ुअलाइज़ेशन खोजें। लगभग_NASS/index.php)।
-
-लगभग ६०० वस्तुओं का यह डेटासेट कई यू.एस. राज्यों में शहद उत्पादन को प्रदर्शित करता है। इसलिए, उदाहरण के लिए, आप प्रत्येक राज्य के लिए प्रति वर्ष एक पंक्ति के साथ, 1998-2012 से किसी दिए गए राज्य में उत्पादित कॉलोनियों की संख्या, प्रति कॉलोनी उपज, कुल उत्पादन, स्टॉक, मूल्य प्रति पाउंड और शहद का मूल्य देख सकते हैं। .
-
-किसी दिए गए राज्य के प्रति वर्ष उत्पादन और, उदाहरण के लिए, उस राज्य में शहद की कीमत के बीच संबंधों की कल्पना करना दिलचस्प होगा। वैकल्पिक रूप से, आप प्रति कॉलोनी राज्यों की शहद उपज के बीच संबंधों की कल्पना कर सकते हैं। इस वर्ष की अवधि में विनाशकारी 'सीसीडी' या 'कॉलोनी पतन विकार' शामिल है जिसे पहली बार 2006 में देखा गया था (http://npic.orst.edu/envir/ccd.html), इसलिए यह अध्ययन करने के लिए एक मार्मिक डेटासेट है।🐝
-
-## [व्याख्यान पूर्व प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22)
-
-इस पाठ में, आप सीबॉर्न का उपयोग कर सकते हैं, जिसका उपयोग आपने पहले किया है, चरों के बीच संबंधों की कल्पना करने के लिए एक अच्छे पुस्तकालय के रूप में। सीबॉर्न के `रिलप्लॉट` फ़ंक्शन का उपयोग विशेष रूप से दिलचस्प है जो स्कैटर प्लॉट्स और लाइन प्लॉट्स को जल्दी से '[सांख्यिकीय संबंध](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)' की कल्पना करने की अनुमति देता है, जो डेटा वैज्ञानिक को बेहतर ढंग से समझने की अनुमति दें कि चर एक दूसरे से कैसे संबंधित हैं।
-
-## तितर बितर भूखंडों
-
-यह दिखाने के लिए स्कैटरप्लॉट का उपयोग करें कि प्रति राज्य शहद की कीमत साल दर साल कैसे विकसित हुई है। सीबॉर्न, `रिलप्लॉट` का उपयोग करते हुए, राज्य डेटा को आसानी से समूहित करता है और श्रेणीबद्ध और संख्यात्मक डेटा दोनों के लिए डेटा बिंदु प्रदर्शित करता है।
-
-आइए डेटा और सीबोर्न आयात करके शुरू करें:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-import seaborn as sns
-honey = pd.read_csv('../../data/honey.csv')
-honey.head()
-```
-आपने देखा कि शहद के आंकड़ों में कई दिलचस्प कॉलम हैं, जिनमें साल और कीमत प्रति पाउंड शामिल हैं। आइए इस डेटा को यू.एस. राज्य द्वारा समूहीकृत करें:
-
-| state | numcol | yieldpercol | totalprod | stocks   | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
-| AL    | 16000  | 71          | 1136000   | 159000   | 0.72       | 818000    | 1998 |
-| AZ    | 55000  | 60          | 3300000   | 1485000  | 0.64       | 2112000   | 1998 |
-| AR    | 53000  | 65          | 3445000   | 1688000  | 0.59       | 2033000   | 1998 |
-| CA    | 450000 | 83          | 37350000  | 12326000 | 0.62       | 23157000  | 1998 |
-| CO    | 27000  | 72          | 1944000   | 1594000  | 0.7        | 1361000   | 1998 |
-
-
-प्रति पाउंड शहद की कीमत और इसकी यू.एस. मूल स्थिति के बीच संबंध दिखाने के लिए एक बुनियादी स्कैटरप्लॉट बनाएं। सभी राज्यों को प्रदर्शित करने के लिए `y` अक्ष को पर्याप्त लंबा बनाएं:
-
-```python
-sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
-```
-![scatterplot 1](images/scatter1.png)
-
-अब, शहद रंग योजना के साथ समान डेटा दिखाएं ताकि यह दिखाया जा सके कि मूल्य वर्षों में कैसे विकसित होता है। साल दर साल बदलाव दिखाने के लिए आप 'ह्यू' पैरामीटर जोड़कर ऐसा कर सकते हैं:
-
-> ✅ [सीबॉर्न में आपके द्वारा उपयोग किए जा सकने वाले रंग पैलेट](https://seaborn.pydata.org/tutorial/color_palettes.html) के बारे में अधिक जानें - एक सुंदर इंद्रधनुष रंग योजना आज़माएं!
-
-```python
-sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
-```
-![स्कैटरप्लॉट 2](images/scatter2.png)
-
-इस रंग योजना में बदलाव के साथ, आप देख सकते हैं कि शहद की कीमत प्रति पाउंड के मामले में पिछले कुछ वर्षों में स्पष्ट रूप से एक मजबूत प्रगति हुई है। वास्तव में, यदि आप सत्यापित करने के लिए डेटा में सेट किए गए नमूने को देखते हैं (उदाहरण के लिए किसी दिए गए राज्य, एरिज़ोना को चुनें) तो आप कुछ अपवादों के साथ, साल दर साल मूल्य वृद्धि का एक पैटर्न देख सकते हैं:
-
-| state | numcol | yieldpercol | totalprod | stocks  | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
-| AZ    | 55000  | 60          | 3300000   | 1485000 | 0.64       | 2112000   | 1998 |
-| AZ    | 52000  | 62          | 3224000   | 1548000 | 0.62       | 1999000   | 1999 |
-| AZ    | 40000  | 59          | 2360000   | 1322000 | 0.73       | 1723000   | 2000 |
-| AZ    | 43000  | 59          | 2537000   | 1142000 | 0.72       | 1827000   | 2001 |
-| AZ    | 38000  | 63          | 2394000   | 1197000 | 1.08       | 2586000   | 2002 |
-| AZ    | 35000  | 72          | 2520000   | 983000  | 1.34       | 3377000   | 2003 |
-| AZ    | 32000  | 55          | 1760000   | 774000  | 1.11       | 1954000   | 2004 |
-| AZ    | 36000  | 50          | 1800000   | 720000  | 1.04       | 1872000   | 2005 |
-| AZ    | 30000  | 65          | 1950000   | 839000  | 0.91       | 1775000   | 2006 |
-| AZ    | 30000  | 64          | 1920000   | 902000  | 1.26       | 2419000   | 2007 |
-| AZ    | 25000  | 64          | 1600000   | 336000  | 1.26       | 2016000   | 2008 |
-| AZ    | 20000  | 52          | 1040000   | 562000  | 1.45       | 1508000   | 2009 |
-| AZ    | 24000  | 77          | 1848000   | 665000  | 1.52       | 2809000   | 2010 |
-| AZ    | 23000  | 53          | 1219000   | 427000  | 1.55       | 1889000   | 2011 |
-| AZ    | 22000  | 46          | 1012000   | 253000  | 1.79       | 1811000   | 2012 |
-
-
-इस प्रगति की कल्पना करने का दूसरा तरीका रंग के बजाय आकार का उपयोग करना है। कलरब्लाइंड यूजर्स के लिए यह एक बेहतर विकल्प हो सकता है। डॉट परिधि में वृद्धि करके मूल्य में वृद्धि दिखाने के लिए अपना विज़ुअलाइज़ेशन संपादित करें:
-
-```python
-sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
-```
-आप डॉट्स के आकार को धीरे-धीरे बढ़ते हुए देख सकते हैं।
-
-![स्कैटरप्लॉट 3](images/scatter3.png)
-
-क्या यह आपूर्ति और मांग का एक साधारण मामला है? जलवायु परिवर्तन और कॉलोनी के ढहने जैसे कारकों के कारण, क्या साल दर साल खरीद के लिए कम शहद उपलब्ध है, और इस तरह कीमत बढ़ जाती है?
-
-इस डेटासेट में कुछ चरों के बीच संबंध खोजने के लिए, आइए कुछ लाइन चार्ट देखें।
-
-## लाइन चार्ट
-
-प्रश्‍न : क्‍या शहद की कीमत में प्रति पौंड वर्ष दर वर्ष स्पष्ट वृद्धि हुई है? सिंगल लाइन चार्ट बनाकर आप इसे आसानी से खोज सकते हैं:
-
-```python
-sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
-```
-Aउत्तर: हाँ, वर्ष २००३ के आसपास कुछ अपवादों को छोड़कर:
-
-![लाइन चार्ट 1](इमेज/लाइन1.पीएनजी)
-
-क्योंकि सीबॉर्न एक पंक्ति के आसपास डेटा एकत्र कर रहा है, यह "माध्य की साजिश रचकर प्रत्येक x मान पर कई माप और माध्य के आसपास 95% विश्वास अंतराल" प्रदर्शित करता है। [स्रोत](https://seaborn.pydata.org/tutorial/relational.html)। इस समय लेने वाले व्यवहार को `ci=none` जोड़कर अक्षम किया जा सकता है।
-
-प्रश्न: क्या २००३ में हम शहद की आपूर्ति में भी वृद्धि देख सकते हैं? अगर आप साल दर साल कुल उत्पादन को देखें तो क्या होगा?
-
-```python
-sns.relplot(x="year", y="totalprod", kind="line", data=honey);
-```
-
-![लाइन चार्ट 2](इमेज/लाइन2.पीएनजी)
-
-उत्तर: वास्तव में नहीं। यदि आप कुल उत्पादन को देखें, तो वास्तव में उस विशेष वर्ष में वृद्धि हुई प्रतीत होती है, भले ही आम तौर पर इन वर्षों के दौरान उत्पादित होने वाले शहद की मात्रा में गिरावट आई हो।
-
-प्रश्न: उस मामले में, 2003 के आसपास शहद की कीमत में उस उछाल का क्या कारण हो सकता है?
-
-इसे खोजने के लिए, आप एक पहलू ग्रिड का पता लगा सकते हैं।
-
-## पहलू ग्रिड
-
-फ़ैसिट ग्रिड आपके डेटासेट का एक पहलू लेते हैं (हमारे मामले में, आप 'वर्ष' चुन सकते हैं ताकि बहुत अधिक फ़ैसिट उत्पन्न न हों)। सीबॉर्न तब आपके चुने हुए x और y निर्देशांकों में से प्रत्येक के लिए अधिक आसान दृश्य तुलना के लिए एक प्लॉट बना सकता है। क्या 2003 इस प्रकार की तुलना में अलग है?
-
-[सीबॉर्न का दस्तावेज़ीकरण](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid) द्वारा सुझाए गए अनुसार `relplot` का उपयोग जारी रखते हुए एक पहलू ग्रिड बनाएं।
-```python
-sns.relplot(
-    data=honey, 
-    x="yieldpercol", y="numcol",
-    col="year", 
-    col_wrap=3,
-    kind="line"
-```
-इस विज़ुअलाइज़ेशन में, आप प्रति कॉलोनी उपज और साल दर साल कॉलोनियों की संख्या की तुलना कॉलम के लिए 3 पर सेट रैप के साथ कर सकते हैं:
-
-![पहलू ग्रिड](छवियां/पहलू.पीएनजी)
-
-इस डेटासेट के लिए, विशेष रूप से कॉलोनियों की संख्या और उनकी उपज, साल दर साल और राज्य दर राज्य के संबंध में कुछ भी नहीं है। क्या इन दो चरों के बीच संबंध खोजने का कोई अलग तरीका है?
-
-## ड्यूल-लाइन प्लॉट्स
-
-एक दूसरे के ऊपर दो लाइनप्लॉट्स को सुपरइम्पोज़ करके, सीबॉर्न की 'डेस्पाइन' का उपयोग करके उनके शीर्ष और दाएं स्पाइन को हटाने के लिए, और उपयोग करके एक मल्टीलाइन प्लॉट आज़माएं`ax.twinx` [Matplotlib . से व्युत्पन्न](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx चार्ट को x अक्ष साझा करने और दो y अक्ष प्रदर्शित करने की अनुमति देता है। तो, प्रति कॉलोनी उपज और कॉलोनियों की संख्या प्रदर्शित करें, जो आरोपित हैं:
-
-```python
-fig, ax = plt.subplots(figsize=(12,6))
-lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey, 
-                        label = 'Number of bee colonies', legend=False)
-sns.despine()
-plt.ylabel('# colonies')
-plt.title('Honey Production Year over Year');
-
-ax2 = ax.twinx()
-lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r", 
-                         label ='Yield per colony', legend=False) 
-sns.despine(right=False)
-plt.ylabel('colony yield')
-ax.figure.legend();
-```
-![सुपरइम्पोज्ड प्लॉट्स](images/dual-line.png)
-
-हालांकि वर्ष 2003 के आस-पास कुछ भी सामने नहीं आया, यह हमें इस पाठ को एक छोटे से सुखद नोट पर समाप्त करने की अनुमति देता है: जबकि कुल मिलाकर कॉलोनियों की संख्या घट रही है, कॉलोनियों की संख्या स्थिर हो रही है, भले ही प्रति कॉलोनी उनकी उपज घट रही हो .
-
-जाओ, मधुमक्खियों, जाओ!
-
-❤️
-## चुनौती
-
-इस पाठ में, आपने फैसेट ग्रिड सहित स्कैटरप्लॉट और लाइन ग्रिड के अन्य उपयोगों के बारे में कुछ और सीखा। किसी भिन्न डेटासेट का उपयोग करके फ़ैसिट ग्रिड बनाने के लिए स्वयं को चुनौती दें, शायद एक जिसे आपने इन पाठों से पहले उपयोग किया था। ध्यान दें कि उन्हें बनाने में कितना समय लगता है और इन तकनीकों का उपयोग करके आपको कितने ग्रिड बनाने की आवश्यकता है, इस बारे में आपको सावधान रहने की आवश्यकता है।
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23)
-
-## समीक्षा और आत्म अध्ययन
-
-रेखा भूखंड सरल या काफी जटिल हो सकते हैं। [सीबॉर्न डॉक्युमेंटेशन](https://seaborn.pydata.org/generated/seaborn.lineplot.html) को विभिन्न तरीकों से पढ़कर आप उन्हें बना सकते हैं। डॉक्स में सूचीबद्ध अन्य विधियों के साथ इस पाठ में आपके द्वारा बनाए गए लाइन चार्ट को बढ़ाने का प्रयास करें।
-## कार्यभार
-
-[मधुमक्खी के छत्ते में गोता लगाएँ] (असाइनमेंट.एमडी)
--- a/3-Data-Visualization/12-visualization-relationships/translations/README.ko.md
+++ b/3-Data-Visualization/12-visualization-relationships/translations/README.ko.md
@ -1,174 +0,0 @@
-# 관계 시각화: 꿀의 모든 것 🍯
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/12-Visualizing-Relationships.png)|
-|:---:|
-|관계 시각화 - _제작자 : [@nitya](https://twitter.com/nitya)_ |
-
-계속해서 우리 연구의 본질에 초점을 맞춰 [미국 농무부](https://www.nass.usda.gov/About_NASS/index.php)에서 도출된 데이터 셋에 따라 다양한 꿀 유형 간의 관계를 보여주는 흥미로운 시각화를 발견해 보겠습니다.
-
-약 600개 항목으로 구성된 이 데이터셋은 미국의 여러 주에서의 꿀 생산량을 보여줍니다. 예를 들어, 1998년부터 2012년까지 각 주에 대해 연간 한 행씩 군집의 수, 군집 당 수확량, 총 생산량, 재고, 파운드당 가격 및 특정 주에서 생산된 꿀의 가치를 볼 수 있습니다.
-
-예를 들어 해당 주의 연간 생산량과 해당 주의 꿀 가격 간의 관계를 시각화하는 것은 흥미로울 것입니다. 또는 각 주의 군집 당 꿀 생산량 간의 관계를 시각화할 수 있습니다. 올해에는 2006년(http://npic.orst.edu/envir/ccd.html)에 처음 발견된 파괴적인 'CCD' 또는 '봉군붕괴증후군'을 다루는데, 이것은 연구하기에 가슴 아픈 데이터 셋입니다. 🐝
-
-## [이전 강의 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22)
-
-이 강의에서는 변수 간의 관계를 시각화하는 좋은 라이브러리로, 전에 사용했던 Seaborn을 사용할 수 있습니다. 특히 흥미로운 점은 산점도와 선 플롯이 '[통계적 관계](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)'를 빠르게 시각화할 수 있도록 해주는 Seaborn의 'relplot' 기능입니다. 'replot'은 데이터 과학자가 변수들이 서로 어떻게 관련되어 있는지 더 잘 이해할 수 있도록 합니다. 
-
-## 산점도
-
-산점도를 사용하여 해마다 주별로 꿀 가격이 어떻게 변해왔는지 확인할 수 있습니다. Seaborn은 'replot'을 사용하여 상태 데이터를 편리하게 그룹화하고 범주형 데이터와 수치형 데이터 모두에 대한 데이터를 점으로 표시합니다.
-
-먼저 데이터와 Seaborn을 가져오는 것으로 시작하겠습니다:
-
-```python
-import pandas as pd
-import matplotlib.pyplot as plt
-import seaborn as sns
-honey = pd.read_csv('../../data/honey.csv')
-honey.head()
-```
-꿀 데이터에는 연도 및 파운드 당 가격을 포함하여 몇가지 흥미로운 열들이 있습니다. 미국 주별로 분류된 이 데이터를 살펴보겠습니다:
-
-| state | numcol | yieldpercol | totalprod | stocks   | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
-| AL    | 16000  | 71          | 1136000   | 159000   | 0.72       | 818000    | 1998 |
-| AZ    | 55000  | 60          | 3300000   | 1485000  | 0.64       | 2112000   | 1998 |
-| AR    | 53000  | 65          | 3445000   | 1688000  | 0.59       | 2033000   | 1998 |
-| CA    | 450000 | 83          | 37350000  | 12326000 | 0.62       | 23157000  | 1998 |
-| CO    | 27000  | 72          | 1944000   | 1594000  | 0.7        | 1361000   | 1998 |
-
-
-꿀 1파운드 당 가격과 미국 원산지 간의 관계를 보여주는 기본 산점도를 생성합니다. 'y'축을 모든 상태를 표시할 수 있을 만큼 높게 만듭니다:
-
-```python
-sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
-```
-![scatterplot 1](../images/scatter1.png)
-
-이제 동일한 데이터를 꿀 색상 구성표로 표시하여 몇 년 동안 가격이 어떻게 변하는지 보여줍니다. 매년 변경 사항을 표시하기 위해 'hue' 매개 변수를 추가하여 이를 수행할 수 있습니다:
-
-> ✅ [Seaborn에서 사용할 수 있는 색상 팔레트](https://seaborn.pydata.org/tutorial/color_palettes.html) 에 대해 자세히 알아보기 - 아름다운 무지개 색 구성표를 시도하세요!
-
-```python
-sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
-```
-![scatterplot 2](../images/scatter2.png)
-
-이 색상 구성표 변경을 통해, 여러분은 파운드당 꿀의 가격 측면에서 몇 년 동안 분명히 강력한 발전이 있음을 알 수 있습니다. 실제로 검증할 데이터의 표본 셋(예: 아리조나 주를 선택)을 보면 몇 가지 예외를 제외하고 매년 가격이 상승하는 패턴을 볼 수 있습니다:
-
-| state | numcol | yieldpercol | totalprod | stocks  | priceperlb | prodvalue | year |
-| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
-| AZ    | 55000  | 60          | 3300000   | 1485000 | 0.64       | 2112000   | 1998 |
-| AZ    | 52000  | 62          | 3224000   | 1548000 | 0.62       | 1999000   | 1999 |
-| AZ    | 40000  | 59          | 2360000   | 1322000 | 0.73       | 1723000   | 2000 |
-| AZ    | 43000  | 59          | 2537000   | 1142000 | 0.72       | 1827000   | 2001 |
-| AZ    | 38000  | 63          | 2394000   | 1197000 | 1.08       | 2586000   | 2002 |
-| AZ    | 35000  | 72          | 2520000   | 983000  | 1.34       | 3377000   | 2003 |
-| AZ    | 32000  | 55          | 1760000   | 774000  | 1.11       | 1954000   | 2004 |
-| AZ    | 36000  | 50          | 1800000   | 720000  | 1.04       | 1872000   | 2005 |
-| AZ    | 30000  | 65          | 1950000   | 839000  | 0.91       | 1775000   | 2006 |
-| AZ    | 30000  | 64          | 1920000   | 902000  | 1.26       | 2419000   | 2007 |
-| AZ    | 25000  | 64          | 1600000   | 336000  | 1.26       | 2016000   | 2008 |
-| AZ    | 20000  | 52          | 1040000   | 562000  | 1.45       | 1508000   | 2009 |
-| AZ    | 24000  | 77          | 1848000   | 665000  | 1.52       | 2809000   | 2010 |
-| AZ    | 23000  | 53          | 1219000   | 427000  | 1.55       | 1889000   | 2011 |
-| AZ    | 22000  | 46          | 1012000   | 253000  | 1.79       | 1811000   | 2012 |
-
-
-이 진행 상황을 시각화하는 또 다른 방법은 색상이 아닌 크기를 사용하는 것입니다. 색맹 사용자의 경우 이것이 더 나은 옵션일 수 있습니다. 점 둘레의 증가에 따른 가격 인상을 표시하도록 시각화를 편집합니다:
-
-```python
-sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
-```
-점들의 크기가 점점 커지는 것을 볼 수 있습니다.
-
-![scatterplot 3](../images/scatter3.png)
-
-이것은 단순한 수요와 공급의 경우인가요? 기후 변화 및 봉군 붕괴와 같은 요인으로 인해, 매년 구매할 수 있는 꿀이 줄어들어 가격이 상승하나요?
-
-이 데이터 셋의 일부 변수 간의 상관 관계를 발견하기 위해 몇 가지 꺾은선 그래프를 살펴보겠습니다.
-
-## 꺾은선 그래프
-
-질문: 매년 파운드 당 꿀값이 상승하고 있습니까? 여러분은 단일 꺾은선 그래프를 만들어 가장 쉽게 확인할 수 있습니다:
-
-```python
-sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
-```
-답변: 네, 2003년 경의 일부 예외를 제외하고 그렇습니다:
-
-![line chart 1](../images/line1.png)
-
-✅ Seaborn은 한 선으로 데이터를 집계하기 때문에 "평균을 중심으로 95% 신뢰 구간과 평균을 표시하여 각 x 값에 대한 다중 측정"을 표시합니다. [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
-
-질문: 2003년에도 꿀 공급이 급증하는 것을 볼 수 있습니까? 연간 총 생산량을 보면 어떨까요?
-
-```python
-sns.relplot(x="year", y="totalprod", kind="line", data=honey);
-```
-
-![line chart 2](../images/line2.png)
-
-답변: 그렇지 않습니다. 총 생산량을 보면 그 해에 실제로 증가한 것으로 보이지만 일반적으로 이 기간 동안 생산되는 꿀의 양은 감소하고 있습니다.
-
-질문: 그렇다면 2003년경 꿀 가격이 급등하게 된 원인은 무엇이었습니까? 
-
-이를 발견하기 위해 facet grid를 탐색할 수 있습니다.
-
-## Facet grids
-
-Facet grid는 데이터셋의 한 면을 차지합니다(우리의 경우 너무 많은 면을 생산하지 않도록 '연도'를 선택할 수 있습니다). 그런 다음 Seaborn은 보다 쉬운 시각적 비교를 위해 선택한 x 좌표와 y 좌표의 각 면에 대한 플롯을 만들 수 있습니다. 2003년은 이런 유형의 비교에서 두드러집니까?
-
-[Seaborn의 문서](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid)에서 권장하는 대로 'relplot'을 계속 사용하여 facet grid를 만듭니다. 
-
-```python
-sns.relplot(
-    data=honey, 
-    x="yieldpercol", y="numcol",
-    col="year", 
-    col_wrap=3,
-    kind="line"
-```
-이 시각화에서는 군집 당 수확량과 연간 군집 수를 3개로 감싸진 열로 나란히 비교할 수 있습니다:
-
-![facet grid](../images/facet.png)
-
-이 데이터셋의 경우, 매년 주별로 군집 수와 수확량과 관련하여 특별히 눈에 띄는 것은 없습니다. 이 두 변수 사이의 상관 관계를 찾는 다른 방법이 있습니까?
-
-## 이중 꺾은선 그래프 
-
-Seaborn의 'despine'을 사용하여 상단 및 오른쪽 가시를 제거하고, `ax.twinx` [Matplotlib에서 파생된](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html)을 사용하여 두 개의 꺾은 선 그래프를 서로 겹쳐서 여러 개의 꺾은 선 그래프를 시도합니다. Twinx를 사용하면 차트가 x축을 공유하고 두 개의 y축을 표시할 수 있습니다. 따라서 군집 당 수확량과 군집 수를 겹쳐서 표시합니다:
-
-```python
-fig, ax = plt.subplots(figsize=(12,6))
-lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey, 
-                        label = 'Number of bee colonies', legend=False)
-sns.despine()
-plt.ylabel('# colonies')
-plt.title('Honey Production Year over Year');
-
-ax2 = ax.twinx()
-lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r", 
-                         label ='Yield per colony', legend=False) 
-sns.despine(right=False)
-plt.ylabel('colony yield')
-ax.figure.legend();
-```
-![superimposed plots](../images/dual-line.png)
-
-2003년경에 눈에 띄는 것은 아무것도 없지만, 이것은 우리에게 이 강의을 조금 더 행복하게 마무리 할 수 있게 합니다. 전반적으로 군집의 수는 감소하는 반면, 군집당 수확량은 감소하고 있다고 해도 군집의 수는 안정되고 있습니다.
-
-벌들아, 고고!
-
-🐝❤️
-## 🚀 도전
-
-이번 강의에서는 facet grid를 비롯한 산점도 및 꺾은선 그래프의 다른 용도에 대해 조금 더 알아봤습니다. 다른 데이터 셋(이 교육 전에 사용했을 수도 있습니다.)을 사용하여 facet grid를 만드는 데 도전해보세요. 이러한 기술을 사용하여 그리드를 만드는 데 걸리는 시간과 그리드를 몇 개 그려야 하는지 주의할 필요가 있습니다.
-## [이전 강의 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23)
-
-## 복습 & 자기 주도 학습
-
-꺾은선 그래프는 단순하거나 매우 복잡할 수 있습니다. [Seaborn 문서](https://seaborn.pydata.org/generated/seaborn.lineplot.html)에서 빌드할 수 있는 다양한 방법을 읽어 보세요. 문서에 나열된 다른 방법을 사용하여 이 강의에서 만든 꺾은선그래프를 향상시키세요.
-## 과제
-
-[벌집 속으로 뛰어들어라](assignment.md)
--- a/3-Data-Visualization/12-visualization-relationships/translations/assignment.es.md
+++ b/3-Data-Visualization/12-visualization-relationships/translations/assignment.es.md
@ -1,11 +0,0 @@
-# Sumérgete en la colmena
-
-## Instrucciones
-
-En esta lección has empezado a estudiar un conjunto de datos sobre las abejas y su producción de miel durante un periodo de tiempo en el que se han producido pérdidas en la población de colonias de abejas en general. Profundiza en este conjunto de datos y construye un cuaderno que pueda contar la historia de la salud de la población de abejas, estado por estado y año por año. ¿Descubres algo interesante en este conjunto de datos?
-
-## Rúbrica
-
-| Ejemplar | Adecuado | Necesita mejorar
-| ------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------- | ---------------------------------------- |
-| El cuaderno se presenta con una historia anotada con al menos tres gráficos diferentes que muestran aspectos del conjunto de datos, estado sobre estado y año sobre año | El cuaderno carece de uno de estos elementos | El cuaderno carece de dos de estos elementos
--- a/3-Data-Visualization/12-visualization-relationships/translations/assignment.ko.md
+++ b/3-Data-Visualization/12-visualization-relationships/translations/assignment.ko.md
@ -1,11 +0,0 @@
-# 벌집 탐구하기
-
-## 지시사항
-
-이 수업에서는 벌 군집 개체수가 전반적으로 감소한 기간 동안의 벌과 벌들의 꿀 생산량에 대한 데이터셋을 살펴보기 시작했습니다. 이 데이터셋을 자세히 살펴보고 주별, 연도별 벌 개체군의 건강에 대해서 알려줄 수 있는 노트북을 만드세요.
-
-## 채점기준표
-
-| 모범                                                                                                                                               | 충분                                 | 개선 필요                        |
-| ------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------- | ---------------------------------------- |
-| 노트북은 데이터셋의 양상, 주별 상태 및 연도별을 보여주는 최소 3개의 다른 차트로 주석이 달린 프로그램을 제공됩니다. | 노트북에는 이러한 요소 중 하나가 없습니다. | 노트북에는 이러한 요소 중 두 가지가 없습니다. |
--- a/3-Data-Visualization/13-meaningful-visualizations/translations/README.es.md
+++ b/3-Data-Visualization/13-meaningful-visualizations/translations/README.es.md
@ -1,167 +0,0 @@
-# Haciendo visualizaciones significativas
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/13-MeaningfulViz.png)|
-|:---:|
-| Visualizaciones Significativas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-> "Si se torturan los datos el tiempo suficiente, confesarán cualquier cosa" -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
-
-Una de las habilidades básicas de un científico de datos es la capacidad de crear una visualización de datos significativa que ayude a responder a las preguntas que pueda tener. Antes de visualizar tus datos, tienes que asegurarte de que han sido limpiados y preparados, como hiciste en las lecciones anteriores. Después de eso, puedes empezar a decidir la mejor manera de presentar los datos.
-
-En esta lección, revisarás:
-
-1. Cómo elegir el tipo de gráfico adecuado
-2. Cómo evitar los gráficos engañosos
-3. Cómo trabajar con el color
-4. Cómo estilizar los gráficos para que sean legibles
-5. Cómo construir soluciones de gráficos animados o en 3D
-6. Cómo construir una visualización creativa
-
-## [Cuestionario previo](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24)
-
-## Elegir el tipo de gráfico adecuado
-
-En las lecciones anteriores, has experimentado con la construcción de todo tipo de visualizaciones de datos interesantes utilizando Matplotlib y Seaborn para la elaboración de gráficos. En general, puedes seleccionar el [tipo de gráfico correcto](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) para la pregunta que estás haciendo usando esta tabla:
-
-| Debes:                     | Debes usar:                     |
-| -------------------------- | ------------------------------- |
-| Mostrar las tendencias de los datos a lo largo del tiempo | Lineal |
-| Comparar categorías        | Barras, Pastel                        |
-| Comparar totales           | Pastel, Barra apilada            |
-| Mostrar relaciones         | Dispersión, Línea, Faceta, Línea doble |
-| Mostrar distribuciones     | Dispersión, Histograma, Caja         |
-| Mostrar proporciones       | Patel, Dona, Waffle              |
-
-> ✅ Dependiendo de la composición de tus datos, es posible que tenga que convertirlos de texto a numéricos para conseguir un gráfico determinado que los soporte.
-
-## Evitar el engaño
-
-Incluso si un científico de datos tiene cuidado de elegir el gráfico adecuado para los datos correctos, hay muchas maneras en que los datos pueden ser mostrados de una manera para demostrar un punto, a menudo a costa de socavar los propios datos. Hay muchos ejemplos de gráficos e infografías engañosos.
-
-[![Cómo mienten los gráficos por Alberto Cairo](.././images/tornado.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
-
-> 🎥 Haz clic en la imagen de arriba para ver una conferencia sobre los gráficos engañosos
-
-Este gráfico invierte el eje X para mostrar lo contrario de la verdad, según la fecha:
-
-![gráfico malo 1](../images/bad-chart-1.png)
-
-[Este gráfico](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) es aún más engañoso, ya que la mirada se dirige hacia la derecha para concluir que, con el tiempo, los casos de COVID han disminuido en los distintos condados. De hecho, si se observan detenidamente las fechas, se descubre que han sido reordenadas para dar esa engañosa tendencia a la baja.
-
-![gráfico malo 2](../images/bad-chart-2.jpg)
-
-Este ejemplo notorio utiliza el color Y un eje Y invertido para engañar: en lugar de concluir que las muertes por armas de fuego se dispararon después de la aprobación de la legislación favorable a las armas, en realidad se engaña al ojo para que piense lo contrario:
-
-![gráfico malo 3](../images/bad-chart-3.jpg)
-
-Este extraño gráfico muestra cómo se puede manipular la proporción, con un efecto hilarante:
-
-![bad chart 4](../images/bad-chart-4.jpg)
-
-Comparar lo incomparable es otro truco turbio. Hay un [maravilloso sitio web](https://tylervigen.com/spurious-correlations) que trata sobre "correlaciones falsas" y muestra "hechos" que correlacionan cosas como la tasa de divorcios en Maine y el consumo de margarina. Un grupo de Reddit también recoge los [usos feos](https://www.reddit.com/r/dataisugly/top/?t=all) de los datos.
-
-Es importante entender lo fácil que es engañar al ojo con gráficos engañosos. Incluso si la intención del científico de datos es buena, la elección de un mal tipo de gráfico, como un gráfico circular que muestre demasiadas categorías, puede ser engañosa.
-
-## Color
-
-En el gráfico sobre la violencia con armas de fuego en Florida, ya has visto cómo el color puede proporcionar un nivel adicional de significado a los gráficos, especialmente a los que no están diseñados con bibliotecas como Matplotlib y Seaborn, que vienen con varias bibliotecas y paletas de colores. Si estás haciendo un gráfico a mano, haz un pequeño estudio de la [teoría del color](https://colormatters.com/color-and-design/basic-color-theory)
-
-> ✅ Al diseñar los gráficos, ten en cuenta que la accesibilidad es un aspecto importante de la visualización. Algunos de sus usuarios pueden ser daltónicos: ¿su gráfico se visualiza bien para los usuarios con problemas de visión?
-
-Tenga cuidado al elegir los colores de su gráfico, ya que el color puede transmitir un significado que quizá no sea el deseado. Las "damas rosas" del gráfico de "altura" de arriba transmiten un significado claramente "femenino" que se suma a la extrañeza del propio gráfico.
-
-Mientras que [el significado del color](https://colormatters.com/color-symbolism/the-meanings-of-colors) puede ser diferente en distintas partes del mundo, y tiende a cambiar de significado según su tonalidad. En general, los significados de los colores incluyen:
-
-| Color | significado  |
-| ------ | ------------------- |
-| rojo | poder
-| azul | confianza, lealtad
-| amarillo | felicidad, precaución
-| verde | ecología, suerte, envidia |
-| púrpura | felicidad |
-| naranja | vitalidad |
-
-Si tienes que construir un gráfico con colores personalizados, asegúrese de que tus gráficos sean accesibles y de que el color que elijas coincida con el significado que intentas transmitir.
-
-## Estilizar los gráficos para que sean legibles
-
-Los gráficos no tienen sentido si no son legibles. Tómate un momento para considerar el estilo de la anchura y la altura de tu gráfico para que se ajuste a tus datos. Si es necesario mostrar una variable (como los 50 estados), muéstrela verticalmente en el eje Y si es posible, para evitar un gráfico que se desplace horizontalmente.
-
-Etiqueta tus ejes, proporciona una leyenda si es necesario y ofrece información sobre herramientas para una mejor comprensión de los datos.
-
-Si tus datos son textuales y verbales en el eje X, puedes inclinar el texto para una mejor legibilidad. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) ofrece gráficos en 3D, si tus datos lo permiten. Se pueden producir sofisticadas visualizaciones de datos utilizando `mpl_toolkits.mplot3d`.
-
-![gráficos 3D](../images/3d.png)
-
-## Animación y visualización de gráficos en 3D
-
-Algunas de las mejores visualizaciones de datos actuales son animadas. Shirley Wu tiene unas increíbles realizadas con D3, como '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', donde cada flor es una visualización de una película. Otro ejemplo de The Guardian es 'bussed out', una experiencia interactiva que combina visualizaciones con Greensock y D3 más un formato de artículo de scrollytelling para mostrar cómo la ciudad de Nueva York maneja su problema de los sin techo sacando a la gente de la ciudad en autobús.
-
-![autobuses](../images/busing.png)
-
-> "Bussed Out: How America Moves its Homeless" de [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizaciones de Nadieh Bremer y Shirley Wu
-
-Aunque esta lección no es suficiente para profundizar en la enseñanza de estas potentes librerías de visualización, prueba a usar D3 en una aplicación Vue.js utilizando una librería para mostrar una visualización del libro "Dangerous Liaisons" como una red social animada.
-
-> "Les Liaisons Dangereuses" es una novela epistolar, o una novela presentada como una serie de cartas. Escrita en 1782 por Choderlos de Laclos, narra las viciosas maniobras sociales de dos protagonistas del duelo de la aristocracia francesa de finales del siglo XVIII, el Vizconde de Valmont y la Marquesa de Merteuil. Ambos acaban muriendo, pero no sin causar un gran daño social. La novela se desarrolla como una serie de cartas escritas a varias personas de sus círculos, tramando una venganza o simplemente creando problemas. Crea una visualización de estas cartas para descubrir los principales protagonistas de la narración, de forma visual.
-
-Completarás una aplicación web que mostrará una vista animada de esta red social. Utiliza una biblioteca construida para crear una [visualización de una red](https://github.com/emiliorizzo/vue-d3-network) utilizando Vue.js y D3. Cuando la aplicación se está ejecutando, se puede tirar de los nodos alrededor de la pantalla para barajar los datos.
-
-![vinculoa](../images/liaisons.png)
-
-## Proyecto: Construir un gráfico para mostrar una red usando D3.js
-
-> Esta carpeta de la lección incluye una carpeta `solution` donde puedes encontrar el proyecto completado, para tu referencia.
-
-1. Sigue las instrucciones del archivo README.md en la raíz de la carpeta de inicio. Asegúrate de que tienes NPM y Node.js funcionando en tu máquina antes de instalar las dependencias del proyecto.
-
-2. Abre la carpeta `starter/src`. Descubrirás una carpeta `assets` donde encontrarás un archivo .json con todas las letras de la novela, numeradas, con una anotación 'to' y 'from'.
-
-3. Completa el código en `components/Nodes.vue` para habilitar la visualización. Busca el método llamado `createLinks()` y añade el siguiente bucle anidado.
-
-Recorre el objeto .json para capturar los datos "to" y "from" de las letras y construye el objeto `links` para que la librería de visualización pueda consumirlo:
-
-```javascript
-//loop through letters
-      let f = 0;
-      let t = 0;
-      for (var i = 0; i < letters.length; i++) {
-          for (var j = 0; j < characters.length; j++) {
-              
-            if (characters[j] == letters[i].from) {
-              f = j;
-            }
-            if (characters[j] == letters[i].to) {
-              t = j;
-            }
-        }
-        this.links.push({ sid: f, tid: t });
-      }
-  ```
-¡Ejecuta tu app desde la terminal (npm run serve) y disfruta de la visualización!
-
-## 🚀 Reto
-
-Date una vuelta por internet para descubrir visualizaciones engañosas. ¿Cómo engaña el autor al usuario, y, si es intencionado? Intenta corregir las visualizaciones para mostrar cómo deberían ser.
-
-## [Cuestionario posterior a la clase](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25)
-
-## Revisión y Autoestudio
-
-Aquí hay algunos artículos para leer sobre la visualización de datos engañosa:
-
-https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
-
-http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
-
-Eche un vistazo a estas interesantes visualizaciones de activos y artefactos históricos:
-
-https://handbook.pubpub.org/
-
-Mira este artículo sobre cómo la animación puedes mejorar tus visualizaciones:
-
-https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
-
-## Asignación
-
-[Construye tu propia visualización personalizada](assignment.es.md)
--- a/3-Data-Visualization/13-meaningful-visualizations/translations/README.hi.md
+++ b/3-Data-Visualization/13-meaningful-visualizations/translations/README.hi.md
@ -1,168 +0,0 @@
-# सार्थक विज़ुअलाइज़ेशन बनाना
-
-|![ सकेटच्नोते करने वाला [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/13-MeaningfulViz.png)|
-|:---:|
-| सार्थक विज़ुअलाइज़ेशन - _सकेटच्नोते करने वाला [@nitya](https://twitter.com/nitya)_ |
-
-> "यदि आप डेटा को काफी देर तक प्रताड़ित करते हैं, तो यह कुछ भी कबूल कर लेगा" - [रोनाल्ड कोसे](https://en.wikiquote.org/wiki/Ronald_Coase)
-
-एक डेटा वैज्ञानिक के बुनियादी कौशल में से एक सार्थक डेटा विज़ुअलाइज़ेशन बनाने की क्षमता है जो आपके सवालों के जवाब देने में मदद करता है। अपने डेटा की कल्पना करने से पहले, आपको यह सुनिश्चित करने की आवश्यकता है कि इसे साफ और तैयार किया गया है, जैसा कि आपने पिछले पाठों में किया था। उसके बाद, आप यह तय करना शुरू कर सकते हैं कि डेटा को सर्वोत्तम तरीके से कैसे प्रस्तुत किया जाए।
-
-इस पाठ में, आप समीक्षा करेंगे:
-
-1. सही चार्ट प्रकार कैसे चुनें
-2. भ्रामक चार्टिंग से कैसे बचें
-3. रंग के साथ कैसे काम करें
-4. पठनीयता के लिए अपने चार्ट को कैसे स्टाइल करें
-5. एनिमेटेड या 3डी चार्टिंग समाधान कैसे तैयार करें
-6. क्रिएटिव विज़ुअलाइज़ेशन कैसे बनाएं
-
-## [व्याख्यान पूर्व प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24)
-
-## सही चार्ट प्रकार चुनें
-
-पिछले पाठों में, आपने चार्टिंग के लिए Matplotlib और Seaborn का उपयोग करके सभी प्रकार के दिलचस्प डेटा विज़ुअलाइज़ेशन बनाने का प्रयोग किया था। सामान्य तौर पर, आप इस तालिका का उपयोग करके पूछे जाने वाले प्रश्न के लिए [सही प्रकार का चार्ट](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) चुन सकते हैं:
-
-
-| आपको चाहिए: | आपको उपयोग करना चाहिए: |
-| -------------------------- | ----------------------------- |
-| समय के साथ डेटा रुझान दिखाएं | रेखा |
-| श्रेणियों की तुलना करें | बार, पाई |
-| योग की तुलना करें | पाई, स्टैक्ड बार |
-| रिश्ते दिखाएँ | तितर बितर, रेखा, पहलू, दोहरी रेखा |
-| वितरण दिखाएं | तितर बितर, हिस्टोग्राम, बॉक्स |
-| अनुपात दिखाएँ | पाई, डोनट, वफ़ल |
-
-> ✅ आपके डेटा की बनावट के आधार पर, आपको इसका समर्थन करने के लिए दिए गए चार्ट को प्राप्त करने के लिए इसे टेक्स्ट से न्यूमेरिक में बदलने की आवश्यकता हो सकती है।
-
-## धोखे से बचें
-
-यहां तक कि अगर एक डेटा वैज्ञानिक सही डेटा के लिए सही चार्ट चुनने के लिए सावधान है, तो ऐसे कई तरीके हैं जिनसे डेटा को एक बिंदु साबित करने के लिए प्रदर्शित किया जा सकता है, अक्सर डेटा को कम करने की कीमत पर। भ्रामक चार्ट और इन्फोग्राफिक्स के कई उदाहरण हैं!
-
-[![हाउ चार्ट्स लाइ बाय अल्बर्टो काहिरा](./images/tornado.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How चार्ट्स झूठ")
-
-> भ्रामक चार्ट के बारे में एक सम्मेलन वार्ता के लिए ऊपर की छवि पर क्लिक करें
-
-यह चार्ट दिनांक के आधार पर सत्य के विपरीत दिखाने के लिए X अक्ष को उलट देता है:
-
-![खराब चार्ट 1](images/bad-chart-1.png)
-
-[यह चार्ट](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) और भी भ्रामक है, क्योंकि यह निष्कर्ष निकालने के लिए सही है कि, समय के साथ, विभिन्न काउंटियों में COVID मामलों में गिरावट आई है। वास्तव में, यदि आप तिथियों को करीब से देखते हैं, तो आप पाते हैं कि उन्हें उस भ्रामक गिरावट की प्रवृत्ति देने के लिए पुनर्व्यवस्थित किया गया है।
-
-![खराब चार्ट 2](images/bad-chart-2.jpg)
-
-यह कुख्यात उदाहरण धोखा देने के लिए रंग और एक फ़्लिप वाई अक्ष का उपयोग करता है: यह निष्कर्ष निकालने के बजाय कि बंदूक के अनुकूल कानून के पारित होने के बाद बंदूक की मौत बढ़ गई, वास्तव में आंख को यह सोचने के लिए मूर्ख बनाया जाता है कि विपरीत सच है:
-
-![खराब चार्ट 3](images/bad-chart-3.jpg)
-
-यह अजीब चार्ट दिखाता है कि कैसे अनुपात में हेरफेर किया जा सकता है, उल्लसित प्रभाव के लिए:
-
-![खराब चार्ट 4](images/bad-chart-4.jpg)
-
-अतुलनीय की तुलना करना अभी तक एक और छायादार चाल है। एक [अद्भुत वेब साइट](https://tylervigen.com/spurious-correlations) सभी 'नकली सहसंबंध' के बारे में है जो मेन में तलाक की दर और मार्जरीन की खपत जैसी 'तथ्यों' से संबंधित चीजों को प्रदर्शित करती है। एक Reddit समूह डेटा का [बदसूरत उपयोग](https://www.reddit.com/r/dataisugly/top/?t=all) भी एकत्र करता है।
-
-यह समझना महत्वपूर्ण है कि भ्रामक चार्ट द्वारा आंख को कितनी आसानी से मूर्ख बनाया जा सकता है। भले ही डेटा वैज्ञानिक की मंशा अच्छी हो, लेकिन खराब प्रकार के चार्ट का चुनाव, जैसे कि बहुत अधिक श्रेणियां दिखाने वाला पाई चार्ट, भ्रामक हो सकता है।
-
-## रंग
-
-आपने ऊपर 'फ्लोरिडा गन हिंसा' चार्ट में देखा कि कैसे रंग चार्ट को अर्थ की एक अतिरिक्त परत प्रदान कर सकते हैं, विशेष रूप से वे जो मैटप्लोटलिब और सीबॉर्न जैसे पुस्तकालयों का उपयोग करके डिज़ाइन नहीं किए गए हैं जो विभिन्न सत्यापित रंग पुस्तकालयों और पट्टियों के साथ आते हैं। अगर आप हाथ से चार्ट बना रहे हैं, तो [रंग सिद्धांत](https://colormatters.com/color-and-design/basic-color-theory) का थोड़ा अध्ययन करें
-
-> ✅ चार्ट डिजाइन करते समय सावधान रहें, कि एक्सेसिबिलिटी विज़ुअलाइज़ेशन का एक महत्वपूर्ण पहलू है। आपके कुछ उपयोगकर्ता कलर ब्लाइंड हो सकते हैं - क्या आपका चार्ट दृष्टिबाधित उपयोगकर्ताओं के लिए अच्छा प्रदर्शन करता है?
-
-अपने चार्ट के लिए रंग चुनते समय सावधान रहें, क्योंकि रंग वह अर्थ बता सकता है जिसका आप इरादा नहीं कर सकते। ऊपर 'ऊंचाई' चार्ट में 'गुलाबी महिलाएं' एक विशिष्ट 'स्त्री' अर्थ व्यक्त करती हैं जो चार्ट की विचित्रता को जोड़ती है।
-
-जबकि [रंग अर्थ](https://colormatters.com/color-symbolism/the-meanings-of-colors) दुनिया के अलग-अलग हिस्सों में अलग-अलग हो सकते हैं, और उनकी छाया के अनुसार अर्थ में परिवर्तन होता है। सामान्यतया, रंग अर्थों में शामिल हैं:
-
-| रंग | अर्थ |
-| ------ | ------------------- |
-| लाल | शक्ति |
-| नीला | भरोसा, वफादारी |
-| पीला | खुशी, सावधानी |
-| हरा | पारिस्थितिकी, भाग्य, ईर्ष्या |
-| बैंगनी | खुशी |
-| नारंगी | कंपन |
-
-यदि आपको कस्टम रंगों के साथ चार्ट बनाने का काम सौंपा गया है, तो सुनिश्चित करें कि आपके चार्ट दोनों पहुंच योग्य हैं और आपके द्वारा चुना गया रंग उस अर्थ से मेल खाता है जिसे आप व्यक्त करने का प्रयास कर रहे हैं।
-
-## पठनीयता के लिए अपने चार्ट को स्टाइल करना
-
-यदि चार्ट पढ़ने योग्य नहीं हैं तो वे अर्थपूर्ण नहीं हैं! अपने डेटा के साथ अच्छी तरह से स्केल करने के लिए अपने चार्ट की चौड़ाई और ऊंचाई को स्टाइल करने पर विचार करने के लिए कुछ समय निकालें। यदि एक चर (जैसे सभी ५० राज्यों) को प्रदर्शित करने की आवश्यकता है, तो यदि संभव हो तो उन्हें Y अक्ष पर लंबवत रूप से दिखाएं ताकि क्षैतिज-स्क्रॉलिंग चार्ट से बचा जा सके।
-
-अपनी कुल्हाड़ियों को लेबल करें, यदि आवश्यक हो तो एक किंवदंती प्रदान करें, और डेटा की बेहतर समझ के लिए टूलटिप्स प्रदान करें।
-
-यदि आपका डेटा X अक्ष पर टेक्स्टुअल और वर्बोज़ है, तो आप बेहतर पठनीयता के लिए टेक्स्ट को एंगल कर सकते हैं। [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) ३डी प्लॉटिंग की पेशकश करता है, अगर आप डेटा इसका समर्थन करते हैं। परिष्कृत डेटा विज़ुअलाइज़ेशन `mpl_toolkits.mplot3d` का उपयोग करके तैयार किया जा सकता है।
-
-![3d plots](images/3d.png)
-
-## एनिमेशन और 3डी चार्ट डिस्प्ले
-
-आज कुछ बेहतरीन डेटा विज़ुअलाइज़ेशन एनिमेटेड हैं। शर्ली वू ने डी3 के साथ अद्भुत काम किए हैं, जैसे '[फिल्म फूल](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', जहां प्रत्येक फूल एक फिल्म का एक दृश्य है। गार्जियन के लिए एक और उदाहरण 'बस्स्ड आउट' है, ग्रीन्सॉक और डी3 के साथ विज़ुअलाइज़ेशन के संयोजन के साथ एक इंटरैक्टिव अनुभव और एक स्क्रॉलीटेलिंग आलेख प्रारूप यह दिखाने के लिए कि एनवाईसी लोगों को शहर से बाहर निकालकर अपनी बेघर समस्या को कैसे संभालता है।
-
-![busing](images/busing.png)
-
-> "बस्स्ड आउट: हाउ अमेरिका मूव्स इट्स बेघर" से [अभिभावक](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). नादिह ब्रेमर और शर्ली वू द्वारा विज़ुअलाइज़ेशन
-
-हालांकि यह पाठ इन शक्तिशाली विज़ुअलाइज़ेशन लाइब्रेरी को सिखाने के लिए पर्याप्त नहीं है, फिर भी एक एनिमेटेड सोशल नेटवर्क के रूप में "डेंजरस लाइजन्स" पुस्तक के विज़ुअलाइज़ेशन को प्रदर्शित करने के लिए लाइब्रेरी का उपयोग करके Vue.js ऐप में D3 पर अपना हाथ आज़माएं।
-
-> "लेस लिआइसन्स डेंजरियस" एक पत्र-पत्रिका उपन्यास है, या पत्रों की एक श्रृंखला के रूप में प्रस्तुत उपन्यास है। 1782 में चोडरलोस डी लैक्लोस द्वारा लिखित, यह 18 वीं शताब्दी के अंत में फ्रांसीसी अभिजात वर्ग के दो द्वंद्वयुद्ध नायक, विकोमेट डी वालमोंट और मार्क्विस डी मेर्टुइल के शातिर, नैतिक रूप से दिवालिया सामाजिक युद्धाभ्यास की कहानी कहता है। दोनों अंत में अपने निधन से मिलते हैं लेकिन सामाजिक क्षति का एक बड़ा सौदा किए बिना नहीं। उपन्यास उनके मंडलियों में विभिन्न लोगों को लिखे गए पत्रों की एक श्रृंखला के रूप में सामने आता है, जो बदला लेने की साजिश रच रहा है या बस परेशानी पैदा कर रहा है। कथा के प्रमुख सरगनाओं को नेत्रहीन रूप से खोजने के लिए इन पत्रों का एक विज़ुअलाइज़ेशन बनाएं।
-
-आप एक वेब ऐप पूरा करेंगे जो इस सोशल नेटवर्क का एक एनिमेटेड दृश्य प्रदर्शित करेगा। यह एक पुस्तकालय का उपयोग करता है जिसे Vue.js और D3 का उपयोग करके [एक नेटवर्क का दृश्य](https://github.com/emiliorizzo/vue-d3-network) बनाने के लिए बनाया गया था। जब ऐप चल रहा हो, तो आप डेटा को इधर-उधर करने के लिए स्क्रीन पर चारों ओर नोड्स खींच सकते हैं।
-![liaisons](images/liaisons.png)
-
-## प्रोजेक्ट: D3.js का उपयोग करके नेटवर्क दिखाने के लिए एक चार्ट बनाएं
-
-> इस पाठ फ़ोल्डर में एक `solution` फ़ोल्डर शामिल है जहां आप अपने संदर्भ के लिए पूर्ण परियोजना ढूंढ सकते हैं।
-
-1. स्टार्टर फोल्डर के रूट में README.md फाइल में दिए गए निर्देशों का पालन करें। सुनिश्चित करें कि आपके प्रोजेक्ट की निर्भरता स्थापित करने से पहले आपके मशीन पर NPM और Node.js चल रहे हैं।
-
-2. `starter/src` फ़ोल्डर खोलें। आपको एक `assets` फ़ोल्डर मिलेगा जहां आप उपन्यास के सभी अक्षरों वाली एक .json फ़ाइल ढूंढ सकते हैं, जिसमें 'से' और 'प्रेषक' लिखावट हो।
-
-3. विज़ुअलाइज़ेशन को सक्षम करने के लिए कोड को `components/Nodes.vue` में पूरा करें। `createLinks()` नामक विधि की तलाश करें और निम्नलिखित नेस्टेड लूप जोड़ें।
-
-अक्षरों के लिए 'से' और 'से' डेटा कैप्चर करने के लिए .json ऑब्जेक्ट के माध्यम से लूप करें और `links` ऑब्जेक्ट का निर्माण करें ताकि विज़ुअलाइज़ेशन लाइब्रेरी इसका उपभोग कर सके:
-
-```javascript
-// अक्षरों के माध्यम से लूप
-      let f = 0;
-      let t = 0;
-      for (var i = 0; i < letters.length; i++) {
-          for (var j = 0; j < characters.length; j++) {
-              
-            if (characters[j] == letters[i].from) {
-              f = j;
-            }
-            if (characters[j] == letters[i].to) {
-              t = j;
-            }
-        }
-        this.links.push({ sid: f, tid: t });
-      }
-  ```
-
-टर्मिनल से अपना ऐप चलाएं (एनपीएम रन सर्व करें) और विज़ुअलाइज़ेशन का आनंद लें!
-
-## चुनौती
-
-भ्रामक विज़ुअलाइज़ेशन खोजने के लिए इंटरनेट का भ्रमण करें. लेखक उपयोगकर्ता को कैसे मूर्ख बनाता है, और क्या यह जानबूझकर किया गया है? विज़ुअलाइज़ेशन को यह दिखाने के लिए सही करने का प्रयास करें कि उन्हें कैसा दिखना चाहिए।
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25)
-
-## समीक्षा और आत्म अध्ययन
-
-भ्रामक डेटा विज़ुअलाइज़ेशन के बारे में पढ़ने के लिए यहां कुछ लेख दिए गए हैं:
-
-https://gizmodo.com/how-to-lie-with-data-visualization-1563576606
-
-http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/
-
-ऐतिहासिक संपत्तियों और कलाकृतियों के लिए इन रुचि विज़ुअलाइज़ेशन पर एक नज़र डालें:
-
-https://handbook.pubpub.org/
-
-इस लेख को देखें कि एनीमेशन आपके विज़ुअलाइज़ेशन को कैसे बढ़ा सकता है:
-
-https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4
-
-## कार्यभार
-
-[अपना खुद का कस्टम विज़ुअलाइज़ेशन बनाएं](assignment.hi.md)
--- a/3-Data-Visualization/13-meaningful-visualizations/translations/assignment.es.md
+++ b/3-Data-Visualization/13-meaningful-visualizations/translations/assignment.es.md
@ -1,10 +0,0 @@
-# Construye tu propio vis a medida
-
-## Instrucciones
-
-Utilizando el ejemplo de código de este proyecto para crear una red social, maqueta los datos de tus propias interacciones sociales. Podrías mapear tu uso de las redes sociales o hacer un diagrama de los miembros de tu familia. Crea una aplicación web interesante que muestre una visualización única de una red social.
-## Rúbrica
-
-Ejemplar | Adecuado | Necesita mejorar
--- | --- | -- |
-Un repo de GitHub se presenta con código que se ejecuta correctamente (intenta desplegarlo como una aplicación web estática) y tiene un README anotado que explica el proyecto | El repo no se ejecuta correctamente o no está bien documentado | El repo no se ejecuta correctamente y no está bien documentado
--- a/3-Data-Visualization/13-meaningful-visualizations/translations/assignment.hi.md
+++ b/3-Data-Visualization/13-meaningful-visualizations/translations/assignment.hi.md
@ -1,10 +0,0 @@
-# अपना खुद का कस्टम दृश्य बनाएं
-
-## निर्देश
-
-एक सामाजिक नेटवर्क बनाने के लिए इस परियोजना में कोड नमूने का उपयोग करते हुए, अपने स्वयं के सामाजिक इंटरैक्शन के डेटा का मजाक उड़ाएं। आप सोशल मीडिया के अपने उपयोग को मैप कर सकते हैं या अपने परिवार के सदस्यों का आरेख बना सकते हैं। एक दिलचस्प वेब ऐप बनाएं जो सोशल नेटवर्क का एक अनूठा विज़ुअलाइज़ेशन दिखाता है।
-## रूब्रिक
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
-एक गिटहब रेपो कोड के साथ प्रस्तुत किया जाता है जो ठीक से चलता है (इसे एक स्थिर वेब ऐप के रूप में तैनात करने का प्रयास करें) और परियोजना को समझाते हुए एक एनोटेट रीडमे है | रेपो ठीक से नहीं चलता है या अच्छी तरह से प्रलेखित नहीं है | रेपो ठीक से नहीं चलता है और अच्छी तरह से प्रलेखित नहीं है
--- a/4-Data-Science-Lifecycle/14-Introduction/translations/assignment.ko.md
+++ b/4-Data-Science-Lifecycle/14-Introduction/translations/assignment.ko.md
@ -1,23 +0,0 @@
-# 데이터셋 평가
-
-한 고객이 뉴욕에서 택시 고객의 계절별 소비 습관을 조사하는 데 도움을 청하기 위해 귀하의 팀에 연락했습니다. 
-
-그들은 알고 싶어한다: **뉴욕의 노란 택시 승객들은 겨울이나 여름에 기사들에게 팁을 더 많이 주는가?**
-
-귀하의 팀은 데이터과학 라이프사이클 [캡처링](Readme.md#Capturing) 단계에 있으며, 귀하는 데이터 셋을 처리하는 임무를 맡고 있습니다. 노트북과 가공할 [데이터](../../data/taxi.csv)를 제공받으셨습니다.
-
-이 디렉토리에서는 파이썬을 사용하여 [NYC택시 & 리무진 위원회](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets)로부터 노란색 택시 트립 데이터를 로드하는 [노트북](notebook.ipynb)이 있습니다. 
-엑셀과 같은 텍스트 편집기나 스프레드시트 소프트웨어에서 택시 데이터 파일을 열 수도 있습니다.
-
-## 지시사항
-
- 이 데이터 세트의 데이터가 질문에 대답하는 데 도움이 될 수 있는지 여부를 평가합니다.
- [NYC Open Data 카탈로그](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93)를 살펴보십시오. 고객의 질문에 대답하는 데 잠재적으로 도움이 될 수 있는 추가 데이터 세트를 식별합니다.
- 고객에게 문제에 대한 보다 명확한 설명과 이해를 위해 물어볼 질문 3개를 작성합니다.
-
-데이터에 대한 자세한 내용은 [정보 사전](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) 및 [사용자 가이드](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)을 참조하십시오.
-
-## 표제
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
--- a/4-Data-Science-Lifecycle/14-Introduction/translations/assignment.zh-cn.md
+++ b/4-Data-Science-Lifecycle/14-Introduction/translations/assignment.zh-cn.md
@ -1,23 +0,0 @@
-# 获得一组数据集
-
-一位客户向你的团队寻求帮助，调查一位出租车乘客在纽约市的季节性消费习惯。
-
-他们想知道：**纽约市黄色出租车乘客在冬夏两季是否会给司机更多小费？**
-
-你的团队正处于数据科学生命周期的[捕获](../Readme.md#Capturing)阶段,而你正在处理数据集。有笔记本和[数据](../../../data/taxi.csv)可供你探索。
-
-在这个目录中, [笔记本](../notebook.ipynb)利用Python加载来自[纽约市出租车和豪华轿车委员会](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets)的黄色出租车出行数据。
-你也可以用文本编辑器或电子表格软件，如Excel来打开出租车数据文件。
-
-## 指示
-
- 评估数据集中的数据是否能帮助回答问题。
- 探索[纽约市开放数据目录](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93)。确定一个可以帮助回答客户问题的额外数据集。
- 写下三个你会问客户的问题，以更清晰、更好理解客户的问题。
-
-查询[数据字典](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf)和[用户指南](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)以获得更多关于数据的信息。
-
-## 评分表
-
-优秀|一般|需要改进
---|---|--|
--- a/4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md
+++ b/4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md
@ -1,46 +0,0 @@
-# 데이터 과학의 라이프 사이클: 분석하기
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/15-Analyzing.png)|
-|:---:|
-| 데이터 과학의 라이프 사이클: 분석하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## 강의 전 퀴즈
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)
-
-데이터의 라이프사이클을 분석하면 데이터가 제안된 질문에 답하거나 특정 문제를 해결할 수 있음을 확인할 수 있습니다. 또한 이 단계는 모델이 이러한 질문과 문제를 올바르게 해결하는지 확인하는 데 초점을 맞출 수 있습니다. 이 과정에서는 데이터 내의 특징과 관계를 정의하는 기술이며 모델링을 위한 데이터를 준비하는 데 사용할 수 있는 탐색 데이터 분석(Exploratory Data Analysis) 또는 EDA에 초점을 맞춥니다.
-
- [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1)의 예제 데이터셋을 사용하여 파이썬 및 Pandas 라이브러리에 어떻게 적용할 수 있는지 보여드리겠습니다. 이 데이터셋에는 이메일에서 발견되는 몇 가지 일반적인 단어가 포함되어 있으며 이러한 이메일의 출처는 익명입니다. 이전 디렉터리에 있는 [노트북](../notebook.ipynb)을 사용하여 계속 진행하십시오.
-
-## 탐색 데이터 분석
-
-라이프사이클의 캡처 단계는 데이터를 획득하는 단계이며 당면한 문제와 질문입니다. 하지만 데이터가 최종 결과를 지원하는 데 도움이 될 수 있는지 어떻게 알 수 있을까요?
-데이터 과학자는 데이터를 획득할 때 다음과 같은 질문을 할 수 있습니다.
- 이 문제를 해결할 데이터가 충분한가요?
- 이 문제에 적합한 품질의 데이터입니까?
- 이 데이터를 통해 추가 정보를 발견하게 되면 목표를 바꾸거나 재정의하는 것을 고려해야 하나요?
-탐색적 데이터 분석은 데이터를 파악하는 프로세스이며, 이러한 질문에 답하는 데 사용할 수 있을 뿐만 아니라 데이터셋으로 작업하는 데 따른 당면 과제를 파악할 수 있습니다. 이를 달성하기 위해 사용되는 몇 가지 기술에 초점을 맞춰보겠습니다.
-
-## 데이터 프로파일링, 기술 통계 및 Pandas
-이 문제를 해결하기에 충분한 데이터가 있는지 어떻게 평가합니까? 데이터 프로파일링은 기술 통계 기법을 통해 데이터셋에 대한 일반적인 전체 정보를 요약하고 수집할 수 있습니다. 데이터 프로파일링은 우리가 사용할 수 있는 것을 이해하는 데 도움이 되며 기술 통계는 우리가 사용할 수 있는 것이 얼마나 많은지 이해하는 데 도움이 됩니다.
-
-이전 강의에서 우리는 Pandas를 사용하여 [`describe()` 함수]와 함께 기술 통계를 제공했습니다. 숫자 데이터에 대한 카운트, 최대값 및 최소값, 평균, 표준 편차 및 분위수를 제공합니다. `describe()` 함수와 같은 기술 통계를 사용하면 얼마나 가지고 있고 더 필요한지를 평가하는 데 도움이 될 수 있습니다.
-
-## 샘플링 및 쿼리
-대규모 데이터셋의 모든 것을 탐색하는 것은 매우 많은 시간이 걸릴 수 있으며 일반적으로 컴퓨터가 수행해야 하는 작업입니다. 그러나 샘플링은 데이터를 이해하는 데 유용한 도구이며 데이터 집합에 무엇이 있고 무엇을 나타내는지를 더 잘 이해할 수 있도록 해줍니다. 표본을 사용하여 확률과 통계량을 적용하여 데이터에 대한 일반적인 결론을 내릴 수 있습니다. 표본 추출하는 데이터의 양에 대한 규칙은 정의되어 있지 않지만, 표본 추출하는 데이터의 양이 많을수록 데이터에 대한 일반화의 정확성을 높일 수 있다는 점에 유의해야 합니다.
-Pandas에는 받거나 사용하려는 임의의 샘플 수에 대한 아규먼트를 전달할 수 있는 [라이브러리 속 함수`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)이 있습니다.
-
-데이터에 대한 일반적인 쿼리는 몇 가지 일반적인 질문과 이론에 답하는 데 도움이 될 수 있습니다. 샘플링과 달리 쿼리를 사용하면 질문이 있는 데이터의 특정 부분을 제어하고 집중할 수 있습니다.
-Pandas 라이브러리의 [`query()` 함수](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html)를 사용하면 열을 선택하고 간단한 검색된 행을 통해 데이터에 대한 답변을 제공받을 수 있습니다.
-
-## 시각화를 통한 탐색
-시각화 생성을 시작하기 위해 데이터가 완전히 정리되고 분석될 때까지 기다릴 필요가 없습니다. 실제로 탐색하는 동안 시각적 표현이 있으면 데이터의 패턴, 관계 및 문제를 식별하는 데 도움이 될 수 있습니다. 또한, 시각화는 데이터 관리에 관여하지 않는 사람들과 의사 소통하는 수단을 제공하고 캡처 단계에서 해결되지 않은 추가 질문을 공유하고 명확히 할 수 있는 기회가 될 수 있습니다. 시각적으로 탐색하는 몇 가지 인기 있는 방법에 대해 자세히 알아보려면 [section on Visualizations](3-Data-Visualization/README.md)을 참조하세요.
-
-## 불일치 식별을 위한 탐색
-이 강의의 모든 주제는 누락되거나 일치하지 않는 값을 식별하는 데 도움이 될 수 있지만 Pandas는 이러한 값 중 일부를 확인하는 기능을 제공합니다. [isna() 또는 isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html)에서 결측값을 확인할 수 있습니다. 데이터 내에서 이러한 값을 탐구할 때 중요한 한 가지 요소는 처음에 이러한 값이 왜 이렇게 되었는지 이유를 탐구하는 것입니다. 이는 [문제 해결을 위해 취해야 할 조치](2-Working-With-Data\08-data-preparation/notebook.ipynb)를 결정하는 데 도움이 될 수 있습니다.
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)
-
-## 과제
-
-[Exploring for answers](assignment.ko.md)
--- a/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.hi.md
+++ b/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.hi.md
@ -1,24 +0,0 @@
-# जवाब की तलाश
-
-यह पिछले पाठ के [असाइनमेंट](..\14-Introduction\assignment.md) की निरंतरता है, जहां हमने संक्षेप में डेटा सेट पर एक नज़र डाली। अब हम आंकड़ों पर गहराई से विचार करेंगे।
-
-फिर से, वह प्रश्न जो ग्राहक जानना चाहता है: **क्या न्यूयॉर्क शहर में पीली टैक्सी के यात्री सर्दियों या गर्मियों में ड्राइवरों को अधिक टिप देते हैं?**
-
-आपकी टीम डेटा विज्ञान जीवनचक्र के [विश्लेषण] (Readme.md) चरण में है, जहां आप डेटासेट पर खोजपूर्ण डेटा विश्लेषण करने के लिए जिम्मेदार हैं। आपको एक नोटबुक और डेटासेट प्रदान किया गया है जिसमें जनवरी और जुलाई 2019 से 200 टैक्सी लेनदेन शामिल हैं।
-
-## निर्देश
-
-इस निर्देशिका में एक [नोटबुक](असाइनमेंट.आईपीएनबी) और [टैक्सी और लिमोसिन कमीशन] का डेटा है(https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi- Yellow? tabs=azureml-opendatasets)। [डेटासेट डिक्शनरी] (https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_ Yellow.pdf) और [उपयोगकर्ता गाइड](https://www1.nyc.gov/assets/tlc/) का संदर्भ लें। डाउनलोड/पीडीएफ/trip_record_user_guide.pdf) डेटा के बारे में अधिक जानकारी के लिए।
-
-
-इस पाठ की कुछ तकनीकों का उपयोग नोटबुक में अपना स्वयं का EDA करने के लिए करें (यदि आप चाहें तो सेल जोड़ें) और निम्नलिखित प्रश्नों के उत्तर दें:
-
- डेटा में अन्य कौन से प्रभाव टिप राशि को प्रभावित कर सकते हैं?
- क्लाइंट के सवालों के जवाब देने के लिए किन कॉलमों की सबसे ज्यादा जरूरत नहीं होगी?
- अब तक जो प्रदान किया गया है, उसके आधार पर, क्या डेटा मौसमी टिपिंग व्यवहार का कोई सबूत प्रदान करता है?
-
-
-## रूब्रिक
-
-अनुकरणीय | पर्याप्त | सुधार की जरूरत
--- | --- | -- |
--- a/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md
+++ b/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md
@ -1,22 +0,0 @@
-# 정답 찾기
-
-이는 지난 강의의 [assignment](..\14-Introduction\assignment.md)와 이어지며, 우리는 잠시 데이터셋을 살펴보았습니다. 이제 데이터를 더욱 자세히 살펴보겠습니다.
-
-다시 한번, 고객이 알고싶어하는 질문: **뉴욕의 노란 택시 승객들은 겨울이나 여름에 기사들에게 팁을 더 많이 주나요?**
-
-당신의 팀은 Data Science Lifecycle의 [Analyzing](README.ko.md)단계에 있으며, 이 곳에서 데이터셋에 대한 탐색적 데이터분석을 수행해야합니다. 당신은 2019년 1월부터 7월까지 200건의 택시 거래가 포함된 노트북과 데이터셋을 제공받았습니다.
-
-## 지시사항
-
-이 디렉토리에는 [notebook](../assignment.ipynb)와 [Taxi & Limousine Commission](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets)의 데이터가 있습니다. 데이터에 대한 자세한 내용은 [dataset's dictionary](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) 및 [user guide](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)를 참조하세요.
-
-이번 강의에서 배운 몇 가지 기술을 사용하여 노트북에 있는 EDA를 직접 수행하고(원하는 경우 셀 추가) 다음 질문에 답하십시오.
-
- 데이터의 어떤 다른 영향이 팁 금액에 영향을 미칠 수 있습니까?
- 클라이언트의 질문에 답하는 데 가장 필요없는 열은 무엇입니까?
- 지금까지 제공된 자료에 따르면, 데이터가 계절별 팁에대한 증거를 제공하는 것 같습니까?
-
-## Rubric
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
--- a/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ne.md
+++ b/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ne.md
@ -1,21 +0,0 @@
-# उत्तरको खोज
-
-यो पहिलेको पाठको [असाइनमेंट](..\14-Introduction\assignment.md) निरंतरता हो, जहां हामीले संक्षेपमा डेटा सेटमा एक नज़र लगाएका थियौ। अब हामी आंकडालाई गहिराईवाट विचार गर्नेछौ।
-
-फेरि, उही प्रश्न ग्राहक के जान्न चाहन्छ: **के न्यु योर्क शहरका पहेंलो ट्याक्सी यात्रुहरूले जाडो वा गर्मीमा चालकहरूलाई बढी टिप दिन्छन्?**
-
-तपाईंको टोली डेटा विज्ञान जीवनचक्रको [विश्लेषण] (Readme.md) चरणमा छ, जहाँ तपाईं डेटासेटहरूमा अन्वेषण डेटा विश्लेषण गर्न जिम्मेवार हुनुहुन्छ। तपाईलाई एउटा नोटबुक र डाटासेट प्रदान गरिएको छ जसमा जनवरी र जुलाई २०१९ सम्मका २०० ट्याक्सी लेनदेनहरू समावेश छन्।
-## निर्देश
-
-यस डाइरेक्टरीमा [नोटबुक](assignment.ipnb) र [ट्याक्सी र लिमोसिन कमिसन](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi- Yellow? tabs= azureml-opendatasets)। [डेटासेट शब्दकोश] (https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_ Yellow.pdf) र [प्रयोगकर्ता गाइड](https://www1.nyc.gov/assets/tlc/) सन्दर्भ को। डाउनलोड/pdf/trip_record_user_guide.pdf) डाटा बारे थप जानकारीको लागि।
-
-नोटबुकमा तपाईंको आफ्नै EDA बनाउनका लागि यस पाठका केही प्रविधिहरू प्रयोग गर्नुहोस् (यदि तपाईं चाहनुहुन्छ भने कक्षहरू थप्नुहोस्) र निम्न प्रश्नहरूको जवाफ दिनुहोस्:
-
- डेटामा अन्य कुन प्रभावहरूले टिप रकमलाई असर गर्न सक्छ?
- ग्राहकका प्रश्नहरूको जवाफ दिन कुन स्तम्भहरू प्रायः आवश्यक पर्दैन?
- अहिलेसम्म प्रदान गरिएको कुराको आधारमा, डेटाले मौसमी टिपिङ व्यवहारको कुनै प्रमाण दिन्छ?
-
-## रूब्रिक
-
-अनुकरणीय | पर्याप्त | सुधारको जरूरत
--- | --- | -- |
--- a/4-Data-Science-Lifecycle/16-communication/translations/README.hi.md
+++ b/4-Data-Science-Lifecycle/16-communication/translations/README.hi.md
@ -1,211 +0,0 @@
-# डेटा विज्ञान के जीवनचक्र: संचार
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](../..//sketchnotes/16-Communicating.png)|
-|:---:|
-| डेटा विज्ञान के जीवनचक्र: संचार - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_|
-
-## [प्री-लेक्चर क्विज ](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/30)
-ऊपर दिए गए प्री-लेक्चर क्विज़ के साथ क्या करना है, इसके बारे में अपने ज्ञान का परीक्षण करें! 
-### संचार क्या है?
-आइए इस पाठ की शुरुआत यह परिभाषित करते हुए करें कि संचार के साधन क्या हैं। **संचार करना सूचनाओं को संप्रेषित करना या उनका आदान-प्रदान करना है।** सूचना विचार, विचार, भावनाएं, संदेश, गुप्त संकेत, डेटा हो सकती है - कुछ भी जो एक **_प्रेषक_** (सूचना भेजने वाला) एक **_रिसीवर_** चाहता है ( जानकारी प्राप्त करने वाला कोई व्यक्ति) समझने के लिए। इस पाठ में, हम प्रेषकों को संचारक के रूप में और रिसीवर को श्रोता के रूप में संदर्भित करेंगे।
-
-### डेटा संचार और कहानी सुनाना
-हम समझते हैं कि संचार करते समय, उद्देश्य सूचना देना या आदान-प्रदान करना है। लेकिन डेटा का संचार करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो - प्रभावी डेटा संचार और कहानी सुनाना साथ-साथ चलते हैं। आपके दर्शकों को आपके द्वारा दी गई संख्या की तुलना में आपके द्वारा बताई गई कहानी को याद रखने की अधिक संभावना है। इस पाठ में बाद में, हम कुछ ऐसे तरीकों के बारे में जानेंगे जिनसे आप अपने डेटा को अधिक प्रभावी ढंग से संप्रेषित करने के लिए कहानी कहने का उपयोग कर सकते हैं।
-
-### संचार के प्रकार
-इस पूरे पाठ में दो अलग-अलग प्रकार के संचार पर चर्चा की जाएगी, वन-वे कम्युनिकेशन और टू-वे कम्युनिकेशन।
-
-**एक तरफा संचार** तब होता है जब कोई प्रेषक बिना किसी प्रतिक्रिया या प्रतिक्रिया के किसी प्राप्तकर्ता को सूचना भेजता है। हम हर दिन एक-तरफ़ा संचार के उदाहरण देखते हैं - बल्क/मास ईमेल में, जब समाचार सबसे हाल की कहानियाँ देता है, या यहाँ तक कि जब कोई टेलीविज़न विज्ञापन आता है और आपको सूचित करता है कि उनका उत्पाद बढ़िया क्यों है। इनमें से प्रत्येक उदाहरण में, प्रेषक सूचनाओं के आदान-प्रदान की मांग नहीं कर रहा है। वे केवल सूचना देना या देना चाहते हैं।
-
-**दोतरफा संचार** तब होता है जब सभी शामिल पक्ष प्रेषक और प्राप्तकर्ता दोनों के रूप में कार्य करते हैं। एक प्रेषक एक रिसीवर से संचार करके शुरू करेगा, और रिसीवर प्रतिक्रिया या प्रतिक्रिया प्रदान करेगा। जब हम संचार के बारे में बात करते हैं तो हम परंपरागत रूप से दोतरफा संचार के बारे में सोचते हैं। हम आम तौर पर बातचीत में लगे लोगों के बारे में सोचते हैं - या तो व्यक्तिगत रूप से, या फोन कॉल, सोशल मीडिया या टेक्स्ट संदेश पर।
-
-डेटा संचार करते समय, ऐसे मामले होंगे जहां आप एकतरफा संचार का उपयोग कर रहे होंगे (एक सम्मेलन में प्रस्तुत करने के बारे में सोचें, या एक बड़े समूह के लिए जहां सीधे प्रश्न नहीं पूछे जाएंगे) और ऐसे मामले होंगे जहां आप दो का उपयोग करेंगे -वे संचार (खरीद-इन के लिए कुछ हितधारकों को मनाने के लिए डेटा का उपयोग करने के बारे में सोचें, या किसी टीम के साथी को यह समझाने के लिए कि कुछ नया बनाने में समय और प्रयास खर्च किया जाना चाहिए)।
-
-# प्रभावी संचार
-
-### एक संचारक के रूप में आपकी जिम्मेदारियां
-संचार करते समय, यह सुनिश्चित करना आपका काम है कि आपका रिसीवर वह जानकारी ले रहा है जिसे आप चाहते हैं कि वह ले जाए। जब आप डेटा का संचार कर रहे होते हैं, तो आप नहीं चाहते कि आपके रिसीवर नंबर ले लें, आप चाहते हैं कि आपके रिसीवर आपके डेटा द्वारा सूचित एक कहानी ले लें। एक अच्छा डेटा कम्युनिकेटर एक अच्छा कहानीकार होता है।
-
-आप डेटा के साथ कहानी कैसे सुनाते हैं? अनंत तरीके हैं - लेकिन नीचे 6 हैं जिनके बारे में हम इस पाठ में बात करेंगे।
-1. अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
-2. मन में अंत के साथ शुरू करें
-3. इसे एक वास्तविक कहानी की तरह देखें
-4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
-5. भावना का प्रयोग करें
-
-इनमें से प्रत्येक रणनीति को नीचे अधिक विस्तार से समझाया गया है।
-
-### 1. अपने दर्शकों, अपने चैनल और अपनी संचार पद्धति को समझें
-जिस तरह से आप परिवार के सदस्यों के साथ संवाद करते हैं, वह आपके दोस्तों के साथ संवाद करने के तरीके से अलग होने की संभावना है। आप शायद अलग-अलग शब्दों और वाक्यांशों का उपयोग करते हैं जिन्हें आप जिन लोगों से बात कर रहे हैं, उनके समझने की अधिक संभावना है। डेटा संचार करते समय आपको वही दृष्टिकोण अपनाना चाहिए। इस बारे में सोचें कि आप किससे संवाद कर रहे हैं। उनके लक्ष्यों और उस संदर्भ के बारे में सोचें जो उनके पास उस स्थिति के आसपास है जो आप उन्हें समझा रहे हैं।
-
-आप संभावित रूप से अपने अधिकांश दर्शकों को एक श्रेणी में समूहित कर सकते हैं। एक _Harvard Business Review_ लेख में, “[डेटा के साथ कहानी कैसे बताएं](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/),” डेल कार्यकारी रणनीतिकार जिम स्टिकलेदर दर्शकों की पांच श्रेणियों की पहचान करता है।
-
- - **नौसिखिया**: विषय के लिए पहला प्रदर्शन, लेकिन नहीं चाहता
-   अति सरलीकरण
- - **सामान्यवादी**: विषय से अवगत हैं, लेकिन एक सिंहावलोकन की तलाश में हैं
-   समझ और प्रमुख विषय
- - **प्रबंधकीय**: पेचीदगियों की गहन, कार्रवाई योग्य समझ और
-   विस्तार तक पहुंच के साथ अंतर्संबंध
- - **विशेषज्ञ**: अधिक अन्वेषण और खोज और कम कहानी कहने के साथ
-   बहुत अच्छी जानकारी
- - **कार्यकारी**: के पास केवल के महत्व और निष्कर्ष निकालने का समय है
-   भारित संभावनाएं
-
-ये श्रेणियां आपके दर्शकों को डेटा प्रस्तुत करने के तरीके की जानकारी दे सकती हैं।
-
-अपने दर्शकों की श्रेणी के बारे में सोचने के अलावा, आपको उस चैनल पर भी विचार करना चाहिए जिसका उपयोग आप अपने दर्शकों के साथ संवाद करने के लिए कर रहे हैं। यदि आप एक मेमो या ईमेल लिख रहे हैं या एक बैठक कर रहे हैं या एक सम्मेलन में प्रस्तुत कर रहे हैं तो आपका दृष्टिकोण थोड़ा अलग होना चाहिए।
-
-अपने दर्शकों को समझने के शीर्ष पर, यह जानना कि आप उनके साथ कैसे संवाद करेंगे (वन-वे कम्युनिकेशन या टू-वे का उपयोग करना) भी महत्वपूर्ण है।
-
-यदि आप अधिकांश नौसिखिए दर्शकों के साथ संवाद कर रहे हैं और आप एकतरफा संचार का उपयोग कर रहे हैं, तो आपको पहले दर्शकों को शिक्षित करना होगा और उन्हें उचित संदर्भ देना होगा। फिर आपको अपना डेटा उनके सामने पेश करना चाहिए और उन्हें बताना चाहिए कि आपके डेटा का क्या मतलब है और आपका डेटा क्यों मायने रखता है। इस उदाहरण में, आप स्पष्टता ड्राइविंग पर केंद्रित लेजर होना चाह सकते हैं, क्योंकि आपके दर्शक आपसे कोई सीधा प्रश्न नहीं पूछ पाएंगे।
-
-यदि आप बहुसंख्यक प्रबंधकीय दर्शकों के साथ संवाद कर रहे हैं और आप दो-तरफ़ा संचार का उपयोग कर रहे हैं, तो संभवतः आपको अपने दर्शकों को शिक्षित करने या उन्हें अधिक संदर्भ प्रदान करने की आवश्यकता नहीं होगी। आप सीधे उस डेटा पर चर्चा करने में सक्षम हो सकते हैं जिसे आपने एकत्र किया है और यह क्यों मायने रखता है। हालांकि इस परिदृश्य में, आपको समय और अपनी प्रस्तुति को नियंत्रित करने पर ध्यान केंद्रित करना चाहिए। दो-तरफा संचार का उपयोग करते समय (विशेषकर एक प्रबंधकीय दर्शकों के साथ जो "विस्तार तक पहुंच के साथ पेचीदगियों और अंतर्संबंधों की कार्रवाई योग्य समझ" की तलाश कर रहे हैं) प्रश्न आपकी बातचीत के दौरान पॉप अप हो सकते हैं जो चर्चा को उस दिशा में ले जा सकते हैं जो संबंधित नहीं है वह कहानी जिसे आप बताने की कोशिश कर रहे हैं। जब ऐसा होता है, तो आप कार्रवाई कर सकते हैं और अपनी कहानी के साथ चर्चा को वापस ट्रैक पर ले जा सकते हैं।
-
-
-### 2. अंत को ध्यान में रखकर शुरू करें
-अंत को ध्यान में रखकर शुरू करने का मतलब है कि आप अपने दर्शकों के साथ संवाद शुरू करने से पहले अपने इच्छित टेकअवे को समझना। आप अपने दर्शकों को समय से पहले क्या लेना चाहते हैं, इस बारे में विचारशील होने से आपको एक ऐसी कहानी तैयार करने में मदद मिल सकती है जिसका आपके दर्शक अनुसरण कर सकें। अंत को ध्यान में रखकर शुरू करना एकतरफा संचार और दोतरफा संचार दोनों के लिए उपयुक्त है।
-
-आप अंत को ध्यान में रखकर कैसे शुरू करते हैं? अपने डेटा को संप्रेषित करने से पहले, अपने मुख्य निष्कर्ष लिख लें। फिर, जिस तरह से आप कहानी तैयार कर रहे हैं, जिस तरह से आप अपने डेटा के साथ बताना चाहते हैं, अपने आप से पूछें, "यह मेरे द्वारा बताई जा रही कहानी में कैसे एकीकृत होता है?"
-
-सावधान रहें - अंत को ध्यान में रखते हुए शुरुआत करना आदर्श है, आप केवल उस डेटा को संप्रेषित नहीं करना चाहते जो आपके इच्छित टेकअवे का समर्थन करता है। ऐसा करने को चेरी-पिकिंग कहा जाता है, जो तब होता है जब एक संचारक केवल उस डेटा का संचार करता है जो उस बिंदु का समर्थन करता है जिसे वे बनाने के लिए बांध रहे हैं और अन्य सभी डेटा को अनदेखा करते हैं।
-
-यदि आपके द्वारा एकत्र किया गया सभी डेटा स्पष्ट रूप से आपके इच्छित टेकअवे का समर्थन करता है, तो बढ़िया। लेकिन अगर आपके द्वारा एकत्र किया गया डेटा है जो आपके टेकअवे का समर्थन नहीं करता है, या यहां तक कि आपके प्रमुख टेकअवे के खिलाफ तर्क का समर्थन करता है, तो आपको उस डेटा को भी संप्रेषित करना चाहिए। अगर ऐसा होता है, तो अपने दर्शकों के साथ खुलकर बात करें और उन्हें बताएं कि आप अपनी कहानी के साथ बने रहने का विकल्प क्यों चुन रहे हैं, भले ही सभी डेटा इसका समर्थन न करें।
-
-
-### 3. इसे एक वास्तविक कहानी की तरह देखें
-एक पारंपरिक कहानी 5 चरणों में होती है। आपने इन चरणों को एक्सपोज़िशन, राइज़िंग एक्शन, क्लाइमेक्स, फॉलिंग एक्शन और डिनाउंसमेंट के रूप में व्यक्त किया होगा। या संदर्भ, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष को याद रखना आसान है। अपने डेटा और अपनी कहानी को संप्रेषित करते समय, आप एक समान दृष्टिकोण अपना सकते हैं।
-
-आप संदर्भ के साथ शुरू कर सकते हैं, मंच सेट कर सकते हैं और सुनिश्चित कर सकते हैं कि आपके दर्शक एक ही पृष्ठ पर हैं। फिर संघर्ष का परिचय दें। आपको यह डेटा एकत्र करने की आवश्यकता क्यों पड़ी? आप किन समस्याओं को हल करना चाह रहे थे? इसके बाद क्लाइमेक्स. डेटा क्या है? डेटा का क्या मतलब है? डेटा हमें कौन से समाधान बताता है जिसकी हमें आवश्यकता है? फिर आप समापन पर पहुंच जाते हैं, जहां आप समस्या को दोहरा सकते हैं, और प्रस्तावित समाधान। अंत में, हम इस निष्कर्ष पर पहुँचते हैं, जहाँ आप अपने मुख्य निष्कर्षों को संक्षेप में बता सकते हैं और अगले कदम जो आप टीम को सुझाते हैं।
-
-### 4. सार्थक शब्दों और वाक्यांशों का प्रयोग करें
-यदि आप और मैं किसी उत्पाद पर एक साथ काम कर रहे थे, और मैंने आपसे कहा "हमारे उपयोगकर्ता हमारे प्लेटफ़ॉर्म पर आने में लंबा समय लेते हैं," तो आप कब तक उस "लंबे समय" का अनुमान लगाएंगे? एक घंटा? एक सप्ताह? यह जानना कठिन है। क्या होगा अगर मैंने इसे पूरे दर्शकों से कहा? दर्शकों में हर कोई इस बारे में एक अलग विचार के साथ समाप्त हो सकता है कि उपयोगकर्ता हमारे प्लेटफॉर्म पर कितना समय लेते हैं।
-
-इसके बजाय, क्या होगा अगर मैंने कहा "बाहर के उपयोगकर्ताओं को साइन अप करने और हमारे प्लेटफॉर्म पर ऑनबोर्ड होने में औसतन 3 मिनट लगते हैं।"
-
-वह संदेश अधिक स्पष्ट है। डेटा संचार करते समय, यह सोचना आसान हो सकता है कि आपके दर्शकों में हर कोई आपकी तरह ही सोच रहा है। लेकिन हमेशा ऐसा ही नहीं होता है। अपने डेटा के बारे में स्पष्टता लाना और इसका क्या अर्थ है, एक संचारक के रूप में आपकी जिम्मेदारियों में से एक है। यदि डेटा या आपकी कहानी स्पष्ट नहीं है, तो आपके दर्शकों के लिए कठिन समय होगा, और इस बात की संभावना कम है कि वे आपकी मुख्य बातों को समझेंगे।
-
-जब आप अस्पष्ट शब्दों के बजाय अर्थपूर्ण शब्दों और वाक्यांशों का उपयोग करते हैं तो आप डेटा को अधिक स्पष्ट रूप से संप्रेषित कर सकते हैं। नीचे कुछ उदाहरण दिए गए हैं।
-
- - हमारे पास एक *प्रभावशाली* वर्ष था!
- एक व्यक्ति सोच सकता है कि एक प्रभावशाली मतलब राजस्व में 2% - 3% की वृद्धि है, और एक व्यक्ति सोच सकता है कि इसका मतलब 50% - 60% की वृद्धि है।
- - हमारे उपयोगकर्ताओं की सफलता दर *नाटकीय रूप से* बढ़ी।
- नाटकीय वृद्धि कितनी बड़ी है?
- - इस उपक्रम के लिए *महत्वपूर्ण* प्रयास की आवश्यकता होगी।
- कितना प्रयास महत्वपूर्ण है?
-
-अस्पष्ट शब्दों का उपयोग आने वाले अधिक डेटा के परिचय के रूप में या आपके द्वारा अभी-अभी बताई गई कहानी के सारांश के रूप में उपयोगी हो सकता है। लेकिन यह सुनिश्चित करने पर विचार करें कि आपकी प्रस्तुति का प्रत्येक भाग आपके दर्शकों के लिए स्पष्ट है।
- 
-
-### 5. भावना का प्रयोग करें
-कहानी कहने में भावना महत्वपूर्ण है। जब आप डेटा के साथ कहानी सुना रहे हों तो यह और भी महत्वपूर्ण हो जाता है। जब आप डेटा का संचार कर रहे होते हैं, तो सब कुछ उन टेकअवे पर केंद्रित होता है जो आप चाहते हैं कि आपके दर्शक हों। जब आप दर्शकों के लिए एक भावना पैदा करते हैं तो यह उन्हें सहानुभूति रखने में मदद करता है, और उन्हें कार्रवाई करने की अधिक संभावना बनाता है। भावना इस संभावना को भी बढ़ाती है कि एक दर्शक आपके संदेश को याद रखेगा।
-
-इसका सामना आपने टीवी विज्ञापनों के साथ पहले भी किया होगा। कुछ विज्ञापन बहुत उदास होते हैं, और अपने दर्शकों से जुड़ने के लिए एक दुखद भावना का उपयोग करते हैं और जो डेटा वे प्रस्तुत कर रहे हैं उसे वास्तव में अलग बनाते हैं। या, कुछ विज्ञापन बहुत उत्साहित हैं और खुश हैं कि आप उनके डेटा को एक सुखद एहसास के साथ जोड़ सकते हैं।
-
-डेटा संचार करते समय आप भावनाओं का उपयोग कैसे करते हैं? नीचे कुछ तरीके दिए गए हैं।
-
- - प्रशंसापत्र और व्यक्तिगत कहानियों का प्रयोग करें
- डेटा एकत्र करते समय, मात्रात्मक और गुणात्मक दोनों डेटा एकत्र करने का प्रयास करें, और संचार करते समय दोनों प्रकार के डेटा को एकीकृत करें। यदि आपका डेटा मुख्य रूप से मात्रात्मक है, तो आपका डेटा आपको जो कुछ भी बता रहा है, उसके अनुभव के बारे में अधिक जानने के लिए व्यक्तियों से कहानियों की तलाश करें।
- - इमेजरी का प्रयोग करें
- छवियां दर्शकों को खुद को एक स्थिति में देखने में मदद करती हैं। जब आप उपयोग करते हैं
-छवियों, आप दर्शकों को उस भावना की ओर धकेल सकते हैं जो आप महसूस करते हैं
-उनके पास आपके डेटा के बारे में होना चाहिए।
- - रंग का प्रयोग करें
- अलग-अलग रंग अलग-अलग भावनाएं पैदा करते हैं। लोकप्रिय रंग और उनमें जो भावनाएँ पैदा होती हैं, वे नीचे हैं। ध्यान रखें कि विभिन्न संस्कृतियों में रंगों के अलग-अलग अर्थ हो सकते हैं।
- नीला आमतौर पर शांति और विश्वास की भावना पैदा करता है
- हरा आमतौर पर प्रकृति और पर्यावरण से संबंधित होता है
- लाल आमतौर पर जुनून और उत्साह होता है
- पीला आमतौर पर आशावाद और खुशी है
-
-# संचार केस स्टडी
-एमर्सन एक मोबाइल ऐप के लिए एक उत्पाद प्रबंधक है। एमर्सन ने देखा है कि ग्राहक सप्ताहांत में 42% अधिक शिकायतें और बग रिपोर्ट प्रस्तुत करते हैं। एमर्सन ने यह भी देखा कि जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में ऐप को 1 या 2 की रेटिंग देने की संभावना 32% अधिक होती है।
-
-शोध करने के बाद, इमर्सन के पास कुछ समाधान हैं जो इस मुद्दे का समाधान करेंगे। एमर्सन डेटा और प्रस्तावित समाधानों को संप्रेषित करने के लिए ३ कंपनी के साथ ३० मिनट की बैठक स्थापित करता है।
-
-इस बैठक के दौरान, एमर्सन का लक्ष्य कंपनी के प्रमुखों को यह समझाना है कि नीचे दिए गए 2 समाधान ऐप की रेटिंग में सुधार कर सकते हैं, जो संभवतः उच्च राजस्व में तब्दील हो जाएगा।
-
-**समाधान 1.** सप्ताहांत पर काम करने के लिए ग्राहक सेवा प्रतिनिधि को किराए पर लें
-
-**समाधान 2.** एक नई ग्राहक सेवा टिकटिंग प्रणाली खरीदें जहां ग्राहक सेवा प्रतिनिधि आसानी से पहचान सकें कि कौन सी शिकायतें कतार में सबसे लंबी रही हैं - ताकि वे बता सकें कि किसको तुरंत संबोधित करना है।
-
-मीटिंग में, एमर्सन 5 मिनट यह बताते हुए बिताते हैं कि ऐप स्टोर पर कम रेटिंग क्यों खराब है, 10 मिनट शोध प्रक्रिया की व्याख्या करते हैं और रुझानों की पहचान कैसे की जाती है, 10 मिनट हाल की कुछ ग्राहकों की शिकायतों के बारे में बताते हुए, और अंतिम 5 मिनट 2 संभावित समाधानों पर प्रकाश डालते हुए।
-
-क्या यह इमर्सन के लिए इस बैठक के दौरान संवाद करने का एक प्रभावी तरीका था?
-
-बैठक के दौरान, एक कंपनी लीड ने ग्राहकों की 10 मिनट की शिकायतों को ठीक किया, जिनसे इमर्सन गुजरा। बैठक के बाद, केवल यही शिकायतें इस टीम के नेतृत्व को याद रहीं। एक अन्य कंपनी लीड ने मुख्य रूप से एमर्सन पर शोध प्रक्रिया का वर्णन करने पर ध्यान केंद्रित किया। तीसरी कंपनी के नेतृत्व ने इमर्सन द्वारा प्रस्तावित समाधानों को याद किया लेकिन यह सुनिश्चित नहीं था कि उन समाधानों को कैसे लागू किया जा सकता है।
-
-ऊपर की स्थिति में, आप देख सकते हैं कि इमर्सन जो चाहता था कि टीम लीड ले ले, और बैठक से दूर ले जाने के बीच एक महत्वपूर्ण अंतर था। नीचे एक और तरीका है जिस पर इमर्सन विचार कर सकता है।
-
-इमर्सन इस दृष्टिकोण को कैसे सुधार सकता है?
-प्रसंग, संघर्ष, चरमोत्कर्ष, समापन, निष्कर्ष
-**संदर्भ** - इमर्सन पहले 5 मिनट पूरी स्थिति का परिचय देने और यह सुनिश्चित करने में बिता सकता है कि टीम लीड यह समझती है कि समस्याएं कंपनी के लिए महत्वपूर्ण मीट्रिक को कैसे प्रभावित करती हैं, जैसे राजस्व।
-
-इसे इस तरह से रखा जा सकता है: "वर्तमान में, ऐप स्टोर में हमारे ऐप की रेटिंग 2.5 है। ऐप स्टोर में रेटिंग ऐप स्टोर ऑप्टिमाइज़ेशन के लिए महत्वपूर्ण हैं, जो यह प्रभावित करती है कि कितने उपयोगकर्ता हमारे ऐप को खोज में देखते हैं,  xxxxx डी हमारे ऐप को परिप्रेक्ष्य उपयोगकर्ताओं के लिए कैसे देखा जाता है। और निश्चित रूप से, हमारे पास जितने उपयोगकर्ता हैं, वे सीधे राजस्व से जुड़े हैं।"
-
-**संघर्ष** तब इमर्सन अगले 5 मिनट तक या संघर्ष के बारे में बात करने के लिए आगे बढ़ सकता है।
-
-यह इस प्रकार हो सकता है: "उपयोगकर्ता सप्ताहांत पर 42% अधिक शिकायतें और बग रिपोर्ट जमा करते हैं। जो ग्राहक 48 घंटों के बाद अनुत्तरित शिकायत सबमिट करते हैं, उनके ऐप स्टोर में हमारे ऐप को 2 से अधिक रेटिंग देने की संभावना 32% कम होती है। ऐप स्टोर में हमारे ऐप की रेटिंग को 4 तक बढ़ाने से हमारी दृश्यता में 20-30% की वृद्धि होगी, जिसका मेरा अनुमान है कि राजस्व में 10% की वृद्धि होगी।" बेशक, इमर्सन को इन नंबरों को सही ठहराने के लिए तैयार रहना चाहिए।
-
-**क्लाइमेक्स** आधार तैयार करने के बाद, इमर्सन 5 या इतने मिनट के लिए चरमोत्कर्ष पर जा सकता था।
-
-इमर्सन प्रस्तावित समाधानों को पेश कर सकता है, यह बता सकता है कि वे समाधान कैसे उल्लिखित मुद्दों को संबोधित करेंगे, उन समाधानों को मौजूदा वर्कफ़्लो में कैसे लागू किया जा सकता है, समाधानों की लागत कितनी है, समाधानों का आरओआई क्या होगा, और शायद कुछ स्क्रीनशॉट भी दिखा सकते हैं या लागू होने पर समाधान कैसे दिखेंगे, इसके वायरफ्रेम। एमर्सन उन उपयोगकर्ताओं के प्रशंसापत्र भी साझा कर सकते हैं, जिन्होंने अपनी शिकायत को संबोधित करने में 48 घंटे से अधिक समय लिया, और यहां तक कि कंपनी के भीतर एक मौजूदा ग्राहक सेवा प्रतिनिधि से एक प्रशंसापत्र भी, जिसने वर्तमान टिकट प्रणाली पर टिप्पणी की है।
-
-**क्लोजर** अब इमर्सन कंपनी के सामने आने वाली समस्याओं को दूर करने में 5 मिनट बिता सकता है, प्रस्तावित समाधानों पर फिर से विचार कर सकता है और समीक्षा कर सकता है कि वे समाधान सही क्यों हैं।
-
-**निष्कर्ष** क्योंकि यह कुछ हितधारकों के साथ एक बैठक है जहां दो-तरफा संचार का उपयोग किया जाएगा, इमर्सन तब प्रश्नों के लिए 10 मिनट छोड़ने की योजना बना सकता है, यह सुनिश्चित करने के लिए कि जो कुछ भी टीम लीड को भ्रमित कर रहा था उसे पहले स्पष्ट किया जा सकता है बैठक समाप्त हो गई है।
-
-यदि एमर्सन ने #2 दृष्टिकोण अपनाया, तो इस बात की बहुत अधिक संभावना है कि टीम लीड मीटिंग से ठीक उसी तरह दूर ले जाएगी, जिसे एमर्सन ने उनसे दूर करने का इरादा किया था - कि जिस तरह से शिकायतों और बगों को संभाला जा सकता है, उसमें सुधार किया जा सकता है, और 2 समाधान हैं। उस सुधार को लाने के लिए स्थापित किया जा सकता है। यह दृष्टिकोण डेटा और कहानी को संप्रेषित करने के लिए एक अधिक प्रभावी दृष्टिकोण होगा, जिसे इमर्सन संवाद करना चाहता है।  
-# निष्कर्ष
-### मुख्य बिंदुओं का सारांश
- - संचार करने के लिए सूचना देना या आदान-प्रदान करना है।
- - डेटा संप्रेषित करते समय, आपका उद्देश्य केवल अपने दर्शकों तक संख्या पहुँचाना नहीं होना चाहिए। आपका उद्देश्य एक ऐसी कहानी को संप्रेषित करना होना चाहिए जो आपके डेटा द्वारा सूचित हो।
- - संचार 2 प्रकार के होते हैं, वन-वे कम्युनिकेशन (सूचना बिना किसी प्रतिक्रिया के संप्रेषित की जाती है) और टू-वे कम्युनिकेशन (सूचना को आगे और पीछे संप्रेषित किया जाता है।)
- - ऐसी कई रणनीतियाँ हैं जिनका उपयोग आप अपने डेटा के साथ कहानी कहने के लिए कर सकते हैं, 5 रणनीतियाँ जिनका हमने अध्ययन किया है:
- अपने दर्शकों, अपने माध्यम और अपनी संचार पद्धति को समझें
- मन में कार्य समाप्ति का विचार लेकर कार्य प्रारंभ करना
- इसे एक वास्तविक कहानी की तरह देखें
- सार्थक शब्दों और वाक्यांशों का प्रयोग करें
- भावना का प्रयोग करें
-
-## [व्याख्यान के बाद प्रश्नोत्तरी](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/31)
-
-### स्व अध्ययन के लिए अनुशंसित संसाधन
-[द फाइव सी ऑफ़ स्टोरीटेलिंग - आर्टिक्यूलेट पर्सुएशन](http://articulatepersuasion.com/the-five-cs-of-storytelling/)
-
-[१.४ एक संचारक के रूप में आपकी जिम्मेदारियां - सफलता के लिए व्यावसायिक संचार (umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/)
-[डेटा के साथ कहानी कैसे सुनाएं (hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data)
-
-[टू-वे कम्युनिकेशन: अधिक व्यस्त कार्यस्थल के लिए 4 टिप्स (yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication)
-
-[महान डेटा स्टोरीटेलिंग के लिए 6 संक्षिप्त चरण - बार्नराइज़र, एलएलसी (barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/)
-
-[डेटा के साथ कहानी कैसे सुनाएं | ल्यूसिडचार्ट ब्लॉग](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data)
-
-[6 Cs ऑफ़ इफेक्टिव स्टोरीटेलिंग ऑन सोशल मीडिया | कूलर इनसाइट्स](https://coolerinsights.com/2018/06/effective-storytelling-social-media/)
-
-[प्रस्तुतिकरण में भावनाओं का महत्व | Ethos3 - एक प्रस्तुति प्रशिक्षण और डिजाइन एजेंसी](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/)
-
-[डेटा स्टोरीटेलिंग: भावनाओं और तर्कसंगत निर्णयों को जोड़ना (toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz)
-
-[भावनात्मक विज्ञापन: कैसे ब्रांड लोगों को खरीदने के लिए भावनाओं का उपयोग करते हैं (hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples)
-
-[अपनी प्रस्तुति स्लाइड के लिए रंग चुनना | स्लाइड के बाहर सोचें](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/)
-
-[डेटा कैसे प्रस्तुत करें [१० विशेषज्ञ युक्तियाँ] | ऑब्जर्वप्वाइंट](https://resources.observepoint.com/blog/10-tips-for-presenting-data)
-
-[Microsoft Word - Persuasive Instructions.doc (tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf)
-
-[द पावर ऑफ स्टोरी फॉर योर डेटा (थिंकहडी.कॉम)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx)
-
-[डेटा प्रस्तुति में सामान्य गलतियाँ (perceptualedge.com)](https://www.perceptualedge.com/articles/ie/data_presentation.pdf)
-
-[इन्फोग्राफिक: यहां से बचने के लिए 15 सामान्य डेटा गलतियाँ हैं (visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/)
-
-[चेरी पिकिंग: जब लोग उन सबूतों को नज़रअंदाज़ करते हैं जो वे नापसंद करते हैं - प्रभाव विज्ञान](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking)
-
-[डेटा के साथ कहानियां सुनाएं: डेटा साइंस में संचार | द्वारा सोनाली वर्गीज | टूवर्ड्स डेटा साइंस](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7)
-
-[१. संचार डेटा - झांकी के साथ संचार डेटा [पुस्तक] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
-
-## कार्यभार
-
-[एक कहानी बताओ](../assignment.md)
--- a/4-Data-Science-Lifecycle/16-communication/translations/README.ko.md
+++ b/4-Data-Science-Lifecycle/16-communication/translations/README.ko.md
@ -1,211 +0,0 @@
-# 데이터 사이언스 생활주기(life cycle) : 소통(communication)
-
-|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/16-Communicating.png)|
-|:---:|
-| 데이터 사이언스 생활주기 : 소통 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
-
-## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/30)
-
-위의 사전 강의 퀴즈와 함께 제공되는 내용을 테스트해 보십시오!
-
-# 개요
-
-### 소통이란 무엇인가?
-의사소통의 의미를 정의하는 것으로 이 수업을 시작하겠습니다. **소통하는 것은 정보를 전달하거나 교환하는 것입니다.** 정보는 아이디어, 생각, 느낌, 메시지, 은밀한 신호, 데이터 등 **_송신자_** (정보를 보내는 사람)가  **_수신자_** (정보를 받는 사람)에게 이해하길 원하는 모든 것이 될 수 있습니다. 이 과정에서는 송신자를 전달자로, 수신자를 청중으로 언급할 것입니다.
-
-### 데이터 통신 & 스토리텔링
-우리는 의사소통의 목적이 정보를 전달하거나 교환하는 것이라는 것을 이해합니다. 하지만 데이터를 전달할 때, 여러분의 목표는 단순히 청중들에게 숫자를 전달하는 것이 아니어야 합니다. 여러분의 목표는 데이터를 통해 정보를 전달하는 것이어야 합니다 - 효과적인 데이터 커뮤니케이션과 스토리텔링이 함께 진행됩니다. 청중들은 여러분이 들려주는 숫자보다 여러분이 들려주는 이야기를 더 잘 기억할 것입니다. 이 레슨의 후반부에서 스토리텔링을 사용하여 데이터를 보다 효과적으로 전달할 수 있는 몇 가지 방법에 대해 살펴보겠습니다.
-
-### 통신의 종류
-이 레슨 내내 단방향 통신과 양방향 통신이라는 두 가지 유형의 통신에 대해 논의합니다.
-
-**일방향 통신**은 송신자가 피드백이나 응답 없이 수신자에게 정보를 보낼 때 발생합니다. 우리는 매일 단방향 커뮤니케이션의 예를 볼 수 있습니다  - 크고/많은 이메일, 뉴스가 가장 최신 이야기를 전달할 때, 또는 TV 광고에서 제품이 좋은 이유를 알려줄 때 등. 이러한 각각의 경우, 송신자는 정보의 교환을 추구하지 않습니다. 그들은 단지 정보를 전달하거나 전달하려고 할 뿐이다.
-
-**양방향 커뮤니케이션**은 모든 관련 당사자가 송신자와 수신자 역할을 할 때 발생합니다. 송신자는 수신자와 통신하는 것으로 시작하고 수신자는 피드백 또는 응답을 제공합니다. 쌍방향 커뮤니케이션은 우리가 소통에 대해 이야기할 때 전통적으로 생각하는 것입니다. 우리는 보통 직접 대화하거나 전화 통화, 소셜 미디어 또는 문자 메시지와 같은 방식으로 사람들의 소통 한다고 생각합니다.
-
-데이터를 전달할 때 단방향 커뮤니케이션(직후에 질문이 들어오지 않는 컨퍼런스에서 발표하거나 대규모 그룹을 대상으로 발표할 때)을 사용하는 경우와 양방향 커뮤니케이션(데이터를 사용하여 소수의 이해 관계자를 설득하거나, 팀 동료에게 새로운 것을 구축하는 데 시간과 노력을 투자해야 한다고 설득할 때)을 사용하는 경우가 있습니다.
-
-# 효과적인 커뮤니케이션
-
-### 전달자로서 여러분의 책임
-통신을 할 때 수신자가 당신이 원하는 정보를 가져 가는지 확인하는 것이 여러분의 일입니다. 데이터를 주고받을 때 수신자가 번호만 가져가는 것이 아니라 그 데이터를 통해 스토리를 얻을 수 있는 데이터를 수신자가 가져가는 것을 원할 것입니다. 훌륭한 데이터 전달자는 훌륭한 스토리텔러입니다.
-
-데이터를 가지고 어떻게 이야기를 할 수 있을까요? 방법은 무궁무진하지만 아래 6가지에 대해 이 수업에서 설명하겠습니다.
-1. 당신의 청중, 매체 및 커뮤니케이션 방법을 이해하십시오.
-2. 끝을 염두에 두고 시작하라
-3. 실제 이야기처럼 접근하라
-4. 의미 있는 단어와 구문을 사용하라
-5. 감정을 사용하라
-
-이러한 각 전략은 아래에 자세히 설명되어 있습니다.
-
-### 1. 청중, 채널 및 커뮤니케이션 방법을 이해하십시오.
-여러분이 가족과 소통하는 방법은 여러분이 친구들과 소통하는 방법과 다를 수 있습니다. 여러분은 아마도 듣고 있는 사람들이 더 이해하기 쉬운 다른 단어와 구절을 사용할 것입니다. 데이터 통신 시에도 동일한 방법을 사용해야 합니다. 누구와 소통하고 있는지 생각해 보세요. 당신이 설명하려는 상황에 대하여 그들이 가지고 있는 그들의 목표와 전후사정에 대해 생각해보세요.
-
-대부분의 청중을 한 범주 내에 그룹화할 수 있습니다. 'Harvard Business Review' 기사에서 "[데이터로 스토리를 전하는 방법]"(http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/),) Dell의 총괄 전략가인 Jim Stikeleather는 5가지 범주의 고객을 파악합니다.
-
- - **초보자(Novice)**: 주제에 대한 첫 노출이지만 지나치게 단순화하는 것을 원치 않습니다.
- - **일반인(Generalist)**: 주제를 알고 있지만 개요 이해 및 주요 주제를 찾습니다.
- - **관리자(Managerial)**: 세부사항 접근과의 복잡성과 상호 관계에 대한 심층적이고 실행 가능한 이해
- - **전문가(Expert)**: 더 많은 탐색과 발견, 매우 상세하고 더 적은 스토리텔링
- - **임원(Executive)**: 가중 확률의 중요성과 결론을 얻을 시간만 있습니다.
-
-이러한 카테고리들은 청중에게 데이터를 보여주는 방법을 알려줄 수 있습니다. 
-
-청중의 카테고리에 대해 생각하는 것 외에도, 여러분은 청중을 소통하기 위해 사용하고 있는 채널도 고려해야 합니다. 메모나 이메일을 작성하는 경우, 회의나 컨퍼런스에서 발표하거나 하는 경우와는 약간 다르게 접근해야 합니다. 
-
-여러분의 청중을 이해하는 것 외에도, 여러분이 그들과 어떻게 의사소통할 것인지(단방향 또는 양방향) 아는 것 또한 중요합니다.
-
-대다수의 초보 청중과 대화하고 일방적인 대화를 사용하는 경우, 먼저 청중을 교육하고 적절한 맥락을 제공해야 합니다. 그런 다음 고객에게 데이터를 제시하고 데이터가 무엇을 의미하는지, 데이터가 중요한 이유를 설명해야 합니다. 이 경우, 청중들은 여러분에게 어떠한 직접적인 질문도 할 수 없기 때문에, 여러분은 명확성을 높이는 것에 초점을 맞추고 싶을지도 모릅니다.
-
-대다수의 관리 대상자와 대화하고 양방향 커뮤니케이션을 사용하는 경우, 청중을 교육하거나 많은 컨텍스트를 제공할 필요가 없습니다. 수집한 데이터와 데이터가 중요한 이유에 대해 바로 논의할 수 있습니다. 그러나 이 시나리오에서는 프레젠테이션 타이밍과 제어에 집중해야 합니다. 양방향 커뮤니케이션을 사용할 때(특히 "세부사항 접근과의 복잡성과 상호 관계에 대한 실행 가능한 이해"를 찾는 관리자와) 대화 중에 토론이 이야기와 관련이 없는 방향으로 진행될 수 있습니다. 이 경우, 조치를 취하여 토론 내용을 다시 본 궤도에 올릴 수 있습니다.
-
-### 2. 끝을 염두에 두고 시작하라
-끝에서부터 시작하는 것은 청중과 대화를 시작하기 전에 여러분이 의도한 바를 이해시키는 것을 의미합니다. 청중들이 가져가기를 원하는 것에 대해 미리 생각하는 것은 당신이 청중들이 따라올 수 있는 이야기를 만드는 것에 도움이 됩니다. 단방향 커뮤니케이션과 양방향 커뮤니케이션에 모두 끝부터 시작하는 것이 적절합니다.
-
-끝을 염두에 두고 어떻게 시작할까요? 데이터를 전달하기 전에 중요한 사항을 적어 두십시오. 그리고 나서, 여러분이 데이터를 가지고 하고 싶은 이야기를 준비할 때, 스스로에게 물어보세요. "어떻게 이것이 내가 말하고 있는 이야기와 통합될까?"
-
-주의 – 목표를 염두에 두고 시작하는 것이 이상적이지만, 의도한 결과를 뒷받침하는 데이터만 전달하고 싶지는 않을 것입니다. 이렇게 하는 것을 체리 픽킹이라고 하는데, 이것은 통신자가 그들이 만들고자 하는 지점을 지원하는 데이터만 주고받고 다른 모든 데이터를 무시할 때 발생합니다.
-
-수집한 모든 데이터가 의도한 결과를 명확하게 뒷받침한다면 매우 좋습니다. 그러나 수집한 데이터가 사용자의 핵심 정보를 지원하지 않거나 핵심 정보에 반대하는 주장을 뒷받침하는 경우 해당 데이터도 전달해야 합니다. 이러한 상황이 발생하면, 모든 데이터가 반드시 여러분의 이야기를 뒷받침하는 것은 아니지만 왜 여러분이 이야기를 고수하기로 선택했는지 청중에게 솔직하게 알리십시오.
-
-### 3. 실제 이야기처럼 접근하라
-전통적인 이야기는 5단계로 진행됩니다. 여러분은 Exposition, Rising Action, Clincise, Falling Action 및 Denounation으로 표현된 단계들을 들어본 적이 있을 것입니다. 또는 Context, Conflict, Climax, Closure, Conclusion으로 기억하기 쉽습니다. 데이터와 사례를 전달할 때도 비슷한 방법을 사용할 수 있습니다. 
-
-Context에서 시작하여 무대를 설정하고 청중이 모두 같은 페이지에 있는지 확인할 수 있습니다. 그런 다음 Conflict을 소개합니다. 왜 이 데이터를 수집해야 했습니까? 어떤 문제를 해결하려고 했습니까? 그 다음 Climax. 데이터가 무엇입니까? 이 데이터는 무엇을 의미합니까? 데이터에 따르면 우리에게 필요한 솔루션은 무엇입니까? 그런 다음 문제와 제안된 솔루션을 반복할 수 있는 Closure에 도달합니다. 마지막으로, 주요 요점과 팀에게 권장하는 다음 단계를 요약할 수 있는 Conclusion에 도달했습니다.
-
-### 4. 의미 있는 단어와 구문을 사용하라
-만약 여러분과 제가 함께 제품을 작업하다가 "우리 사용자들이 플랫폼에 접속하는 데 시간이 오래 걸린다"고 말했다면, 얼마나 걸릴 것 같습니까? 한 시간? 일주일? 잘 모르겠는데요. 만약 제가 모든 청중에게 그렇게 말한다면요? 모든 청중은 사용자가 당사 플랫폼에 탑승하는 데 걸리는 시간에 대해 각기 다른 생각을 하게 될 수 있습니다. 
-
-대신, "전체 사용자가 가입하고 플랫폼에 탑승하는 데 평균 3분이 소요됩니다."라고 말한다면 어떨까요? 
-
-이 메시지는 더 명확합니다. 데이터를 전달할 때, 청중 모두가 여러분과 같은 생각을 하고 있다고 생각하기 쉽습니다. 하지만 항상 그런 것은 아니다. 데이터와 데이터의 명확성을 높이는 것은 소통자로서 여러분의 책임 중 하나입니다.  만약 데이터나 여러분의 이야기가 명확하지 않다면, 여러분의 청중은 따라가는데 어려움을 겪을 것이고, 그들이 여러분의 주요 요점을 이해하게 될 가능성이 더 적습니다. 
-
-모호한 단어 대신 의미 있는 단어와 구문을 사용하면 데이터를 보다 명확하게 전달할 수 있습니다. 다음은 몇 가지 예입니다. 
-
- - 우리는 인상적인 한 해를 보냈어요! 
-	 - 한 사람은 2% - 3%의 매출증가를, 한 사람은 50% - 60%의 매출증가를 의미한다고 생각할 수 있습니다. 
- - 사용자의 성공률이 *극적으로* 증가했습니다.
-	 - 급격한 상승폭은 얼마나 큰가?
- - 이 사업은 *중대한* 노력이 필요합니다.
-	 - 얼마나 많은 노력이 중요한가?
-
-모호한 단어를 사용하면 앞으로 다가올 더 많은 데이터를 소개하거나 방금 말한 내용을 요약하는 데 유용할 수 있습니다. 하지만 청중들을 위해 프레젠테이션의 모든 부분이 명확하도록 하는 것을 고려하십시오.
- 
-
-### 5. 감정을 사용하라
-감정은 이야기를 하는 데 핵심입니다. 데이터를 사용하여 이야기를 할 때는 더욱 중요합니다. 데이터를 전달할 때는 모든 것이 요점에 집중됩니다. 청중을 위해 감정을 불러일으킬 때, 그것은 그들이 공감하도록 돕고, 그들이 행동을 취하도록 더 쉽게 만듭니다. 감정은 또한 청중이 당신의 메시지를 기억할 가능성을 증가시킵니다. 
-
-여러분은 이것을 전에 TV 광고에서 본 적이 있을 것입니다. 어떤 광고는 매우 침울하고 슬픈 감정을 사용하여 청중들과 소통하고 그들이 제시하는 데이터를 매우 두드러지게 만듭니다. 또는, 어떤 광고들은 매우 낙관적이고 여러분이 그들의 데이터를 행복한 느낌과 연관시키도록 만들 수도 있습니다. 
-
-데이터를 전달할 때 감정을 어떻게 사용합니까? 다음은 몇 가지 방법입니다. 
-
- - 사용후기 및 개인 이야기 사용 
-	- 데이터를 수집할 때는 양적 및 질적 데이터를 모두 수집하고, 커뮤니케이션 시에는 두 가지 유형의 데이터를 통합하도록 노력합니다. 데이터가 주로 양적인 경우, 데이터를 통해 얻은 경험에 대해 자세히 알아볼 수 있는 개인의 사례를 찾아보십시오.
- - 비유 사용
-	 - 비유는 청중들이 상황 속의 자신을 볼 수 있도록 도와줍니다. 비유를
-	   사용하면, 당신이 느끼는 감정을 청중도 느끼게 할 수 있습니다.
-	   그들이 여러분의 데이터에 대해 알아야 합니다.
- - 색상 사용
-	 - 색깔마다 다른 감정을 불러일으킵니다. 인기 있는 색깔과 그들이 불러일으키는 감정은 다음과 같습니다. 색깔이 다른 문화에서 다른 의미를 가질 수 있다는 것을 알아두세요. 
-		 - 파란색은 보통 평화와 신뢰의 감정을 불러일으킨다.
-		 - 녹색은 대개 자연 및 환경과 관련이 있다.
-		 - 빨간색은 대개 열정과 흥분이다.
-		 - 노란색은 보통 낙관적이고 행복하다.
-
-# 커뮤니케이션 사례 연구
-Emerson은 모바일 앱의 제품 관리자입니다. Emerson은 고객들이 주말에 42% 더 많은 불만사항과 버그 보고서를 제출한다는 것을 알게 되었습니다. 에머슨은 또한 48시간 후에 답변되지 않는 불만 사항을 제출하는 고객들이 앱스토어에서 1, 2점을 받을 가능성이 32% 더 높다는 것을 알아챘습니다.
-
-조사를 한 후, 에머슨은 이 문제를 해결할 몇 가지 해결책을 찾았습니다. Emerson은 데이터와 제안된 솔루션을 전달하기 위해 3사 리더들과 30분간 미팅을 갖습니다.
-
-이 미팅에서 에머슨의 목표는 아래 두 가지 솔루션이 앱의 등급을 향상시킬 수 있다는 점을 이해시켜 수익을 높일 수 있도록 하는 것입니다.
-
-**해상도 1.** 주말에 일할 고객 서비스 담당자 고용
-
-**솔루션 2.** 고객 서비스 담당자가 가장 오래 대기한 불만 사항을 쉽게 식별할 수 있는 새로운 고객 서비스 티켓팅 시스템을 구입하여 어떤 불만 사항을 가장 빨리 해결해야 하는지 알 수 있습니다.
-
-미팅에서 에머슨은 5분 동안 앱스토어에서 낮은 점수를 받는 것이 나쁜 이유에 대해 설명하고, 10분 동안 조사 과정과 동향을 파악한 방법에 대해 설명하고, 10분 동안 최근의 고객 불만 사항을 살펴보고, 마지막 5분 동안 2가지 잠재적인 해결책을 둘러댔습니다.
-
-이것이 에머슨에게 회의에서 의사소통을 하기 위한 효과적인 방법이었을까요?
-
-회의 중에 첫번째 회사의 책임자는 에머슨이 겪은 10분간의 고객 불만 사항에 대해 집중했습니다. 회의 후, 그가 기억하는 것은 불만 사항들뿐이었습니다. 두번째 회사의 책임자는 주로 에머슨이 연구 과정을 설명하는 데 초점을 맞췄고, 세 번째 회사 책임자는 에머슨이 제안한 솔루션을 기억했지만 이러한 솔루션이 어떻게 구현될 수 있을지는 확신하지 못했습니다. 
-
-위의 상황에서, 여러분은 에머슨이 책임자들에게 무엇을 알아차리길 원했는지와 그들이 회의에서 무엇을 얻어 갔는지 사이에 상당한 차이가 있다는 것을 알 수 있습니다. 다음은 에머슨이 고려할 수 있는 또 다른 접근법입니다.
-
-에머슨은 어떻게 이 접근법을 개선할 수 있었을까요? 
-Context(상황), Conflict(갈등), Climax(절정), Closure(종결), Conclusion(결론)
-**Context** - Emerson은 처음 5분 동안 전체 상황을 소개하고 해당 문제가 수익과 같이 회사에 중요한 지표에 어떤 영향을 미치는지 책임자들이 이해하도록 해야합니다. 
-
-"현재 앱스토어에서 우리 앱의 등급은 2.5점입니다. 앱 스토어의 등급은 앱 스토어 최적화에 매우 중요한데, 이는 검색에서 앱을 보는 사용자 수와 앱이 사용자를 바라보는 시각에 영향을 미칩니다. 또한, 우리가 가지고 있는 사용자 수는 수익과 직접적으로 관련이 있습니다."
-
-**Conflict** 에머슨은 앞으로 5분 정도 분쟁에 대해 이야기할 수 있습니다.
-
-"사용자들은 주말에 42% 더 많은 불만사항과 버그 보고서를 제출할 수 있습니다. 48시간 후에 답변이 없는 불만 사항을 제출한 고객은 앱스토어에서 2점 이상의 점수를 받을 가능성이 32% 이상 낮습니다. 앱스토어에서 앱의 등급을 4점으로 개선하면 가시성이 20-30% 향상될 것이며, 이를 통해 수익은 10% 증가할 것으로 예상됩니다." 물론 에머슨은 이 숫자들을 정당화할 준비를 해야 합니다. 
-
-**Climax** 기반을 다진 후, 에머슨은 클라이맥스를 5분 정도 진행할 수 있습니다.
-
-Emerson은 제안된 솔루션을 소개하고, 솔루션이 요약된 문제를 어떻게 해결할 것인지, 이러한 솔루션이 기존 워크플로우에 어떻게 구현될 수 있는지, 솔루션 비용, 솔루션의 ROI를 제시할 수 있으며, 구현될 경우 솔루션이 어떻게 보일지 스크린샷이나 와이어프레임을 보여줄 수도 있습니다. 에머슨은 또한 48시간 이상 걸려 불만을 해결한 사용자들의 후기와 현재 발권 시스템에 대한 의견을 가진 회사 내 고객 서비스 담당자의 후기를 공유할 수 있습니다.
-
-**Closure** 이제 Emerson은 회사가 직면한 문제를 5분 동안 재점검하고 제안된 솔루션을 다시 살펴보고 해당 솔루션이 적합한 이유를 검토할 수 있습니다. 
-
-**Conclusion** 이 회의는 쌍방향 커뮤니케이션이 사용되는 소수의 이해 관계자와의 회의이므로, 회의 종료 전에 팀 책임자들은 혼란스러운 사항을 명확히 하기 위해 10분간 Emerson에게 질문을 할 수 있습니다. 
-
-Emerson이 #2번 접근 방식을 택했다면, 팀 책임자는 Emerson이 의도했던 대로 미팅이 끝나고 불만사항과 버그를 처리하는 방식을 개선할 수 있으며, 이러한 개선을 실현하기 위해 두 가지 솔루션을 사용할 수 있습니다. 이 접근법은 에머슨이 전달하고자 하는 데이터와 이야기를 전달하는데 훨씬 더 효과적인 접근법이 될 것입니다.
-
-
-# 결론
-### 요점 요약
- - 의사소통이란 정보를 전달하거나 교환하는 것입니다.
- - 데이터를 전달할 때, 여러분의 목표는 단순히 청중들에게 숫자를 전달하는 것이 아니어야 합니다. 여러분의 목표는 데이터로 얻을 수 있는 이야기를 전달하는 것이어야 합니다. 
- - 단방향 통신(응답의사가 없는 정보 전달)과 양방향 통신(정보가 앞뒤로 전달된다) 두 가지가 있습니다.
- - 데이터를 사용하여 이야기를 들려주기 위해 사용할 수 있는 여러 가지 전략이 있습니다. 살펴본 5가지 전략은 다음과 같습니다.
-	 - 청중, 매체 및 커뮤니케이션 방법 이해
-	 - 끝을 염두에 두고 시작
-	 - 실제 이야기처럼 접근하기
-	 - 의미 있는 단어와 구문을 사용
-	 - 감정 사용
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/31)
-
-### 자습을 위한 추천 자료
-[스토리텔링의 5대 C - 분명한 설득](http://articulatepersuasion.com/the-five-cs-of-storytelling/)
-
-[1.4 커뮤니케이터로서의 책임 – 성공을 위한 비즈니스 커뮤니케이션(umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/))
-
-[데이터로 이야기를 하는 방법(hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data)
-
-[양방향 커뮤니케이션: 더 많은 업무를 위한 4가지 팁(yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication)
-
-[훌륭한 데이터 스토리텔링을 위한 6가지 간단한 단계 - BarnRaiser, LLC(barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/)
-
-[데이터로 이야기를 하는 방법 | 루시드차트 블로그](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data)
-
-[6C의 효과적인 소셜 미디어 스토리텔링 | 더 멋진 통찰력](https://coolerinsights.com/2018/06/effective-storytelling-social-media/)
-
-[프레젠테이션에서 감정의 중요성 | Ethos3 - 프리젠테이션 교육 및 디자인 기관](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/)
-
-[데이터 스토리텔링: 감정과 합리적인 의사 결정 연결(toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz)
-
-[감성 광고: 브랜드가 감정을 이용해 사람들을 매수하는 방법(hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples)
-
-[프레젠테이션 슬라이드의 색상 선택 | 슬라이드 밖에서 생각하십시오](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/)
-
-[데이터 제시 방법 [10가지 전문가 팁] | 관찰 포인트](https://resources.observepoint.com/blog/10-tips-for-presenting-data)
-
-[Microsoft Word - 설득 지침.doc(tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf)
-
-[데이터를 위한 스토리의 힘(thinkhdi.com)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx)
-
-[데이터 프레젠테이션(perceptualedge.com)의 일반적인 실수](https://www.perceptualedge.com/articles/ie/data_presentation.pdf)
-
-[인포그래픽: 다음은 피해야 할 15가지 일반적인 데이터 오류(visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/)
-
-[체리 피킹: 사람들이 싫어하는 증거를 무시할 때 – 효과학](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking)
-
-[데이터로 이야기를 하다: 데이터 과학에서의 소통 | Sonali Verghese | 데이터 과학을 향해서](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7)
-
-[1. 데이터 통신 - Tableau와 데이터 통신 [Book] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html))
-
-## 과제
-
-[이야기를 들려주세요](assignment.md)
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/README.hi.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/README.hi.md
@ -1,100 +0,0 @@
-# क्लाउड में डेटा साइंस का परिचय
-
-|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/17-DataScience-Cloud.png)|
-|:---:|
-| क्लाउड में डेटा साइंस: परिचय - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
-
-
-इस पाठ में, आप क्लाउड के मूलभूत सिद्धांतों को जानेंगे, फिर आप देखेंगे कि आपके डेटा साइंस परियोजनाओं को चलाने के लिए क्लाउड सेवाओं का उपयोग करना आपके लिए दिलचस्प क्यों हो सकता है और हम क्लाउड में चलने वाले डेटा साइंस प्रोजेक्ट के कुछ उदाहरण देखेंगे।
-
-
-## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32)
-
-
-## क्लाउड क्या है?
-
-क्लाउड, या क्लाउड कंप्यूटिंग, इंटरनेट पर एक बुनियादी ढांचे पर होस्ट की जाने वाली पे-एज़-यू-गो कंप्यूटिंग सेवाओं की एक विस्तृत श्रृंखला की डिलीवरी है। सेवाओं में स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ्टवेयर, एनालिटिक्स और इंटेलिजेंट सर्विसेज जैसे समाधान शामिल हैं।
-
-हम आम तौर पर पब्लिक, प्राइवेट और हाइब्रिड क्लाउड में ऐसे अंतर करते हैं:
-
-* पब्लिक क्लाउड: एक पब्लिक क्लाउड का स्वामित्व और संचालन तीसरे पक्ष के क्लाउड सेवा प्रदाता के पास होता है जो इंटरनेट पर अपने कंप्यूटिंग संसाधनों को जनता तक पहुंचाता है।
-* प्राइवेट क्लाउड: एक ही व्यवसाय या संगठन द्वारा विशेष रूप से उपयोग किए जाने वाले क्लाउड कंप्यूटिंग संसाधनों को संदर्भित करता है, जिसमें सेवाओं और निजी नेटवर्क पर बनाए रखा गया इंफ्रास्ट्रक्चर होता है।
-* हाइब्रिड क्लाउड: हाइब्रिड क्लाउड एक ऐसा सिस्टम है जो पब्लिक और प्राइवेट क्लाउड को जोड़ता है। उपयोगकर्ता ऑन-प्रिमाइसेस डेटासेंटर चुनते हैं, जिससे डेटा और एप्लिकेशन को एक या अधिक पब्लिक क्लाउड पर चला सकते हैं।
-
-अधिकांश क्लाउड कंप्यूटिंग सेवाएं तीन श्रेणियों में आती हैं: सर्विस के रूप में इंफ्रास्ट्रक्चर (IaaS), सर्विस के रूप में प्लेटफॉर्म (PaaS) और सर्विस के रूप में सॉफ्टवेयर (SaaS)।
-
-* सर्विस के रूप में इंफ्रास्ट्रक्चर (IaaS): उपयोगकर्ता आईटी इन्फ्रास्ट्रक्चर किराए पर लेते हैं जैसे सर्वर और वर्चुअल मशीन (VMs), स्टोरेज, नेटवर्क, ऑपरेटिंग सिस्टम।
-* सर्विस के रूप में प्लेटफॉर्म (PaaS): उपयोगकर्ता सॉफ्टवेयर ऍप्लिकेशन्स के विकास, परीक्षण, वितरण और मैनेज करने के लिए एक वातावरण किराए पर लेते हैं। उपयोगकर्ताओं को विकास के लिए आवश्यक सर्वर के इंफ्रास्ट्रक्चर, स्टोरेज, नेटवर्क और डेटाबेस को स्थापित करने या प्रबंधित करने के बारे में चिंता करने की आवश्यकता नहीं है।
-* सर्विस के रूप में सॉफ्टवेयर (SaaS): उपयोगकर्ताओं को आमतौर पर मांग और सदस्यता के आधार पर इंटरनेट पर सॉफ़्टवेयर एप्लिकेशन तक पहुंच प्राप्त होती है। उपयोगकर्ताओं को सॉफ़्टवेयर एप्लिकेशन की होस्टिंग और मैनेजिंग, बुनियादी इंफ्रास्ट्रक्चर या मेंटेनेंस, जैसे सॉफ़्टवेयर अपग्रेड और सुरक्षा पैचिंग के बारे में चिंता करने की आवश्यकता नहीं है।
-
-कुछ सबसे बड़े क्लाउड प्रदाता ऐमज़ॉन वेब सर्विसेस, गूगल क्लाउड प्लेटफॉर्म और माइक्रोसॉफ्ट अज़ूर हैं।
-## डेटा साइंस के लिए क्लाउड क्यों चुनें? 
-
-डेवलपर और आईटी पेशेवर कई कारणों से क्लाउड के साथ काम करना चुनते हैं, जिनमें निम्न शामिल हैं:
-
-* नवाचार: आप क्लाउड प्रदाताओं द्वारा बनाई गई नवीन सेवाओं को सीधे अपने ऐप्स में एकीकृत करके अपने एप्लिकेशन को सशक्त बना सकते हैं।
-* लचक: आप केवल उन सेवाओं के लिए भुगतान करते हैं जिनकी आपको आवश्यकता है और आप सेवाओं की एक विस्तृत श्रृंखला से चुन सकते हैं। आप आमतौर पर अपनी उभरती जरूरतों के अनुसार अपनी सेवाओं का भुगतान और अनुकूलन करते हैं। 
-* बजट: आपको हार्डवेयर और सॉफ़्टवेयर खरीदने, साइट पर डेटासेंटर स्थापित करने और चलाने के लिए प्रारंभिक निवेश करने की आवश्यकता नहीं है और आप केवल उसी के लिए भुगतान करते हैं जिसका आपने उपयोग किया है।
-* अनुमापकता: आपके संसाधन आपकी परियोजना की ज़रूरतों के अनुसार बड़े हो सकते हैं, जिसका अर्थ है कि आपके ऐप्स किसी भी समय बाहरी कारकों को अपनाकर, कम या ज्यादा कंप्यूटिंग शक्ति, स्टोरेज और बैंडविड्थ का उपयोग कर सकते हैं।
-* उत्पादकता: आप उन कार्यों पर समय बिताने के बजाय, जिन्हें कोई अन्य व्यक्ति प्रबंधित कर सकता है, जैसे डेटासेंटर प्रबंधित करना, अपने व्यवसाय पर ध्यान केंद्रित कर सकते हैं।
-* विश्वसनीयता: क्लाउड कम्प्यूटिंग आपके डेटा का लगातार बैकअप लेने के कई तरीके प्रदान करता है और आप संकट के समय में भी अपने व्यवसाय और सेवाओं को चालू रखने के लिए आपदा वसूली योजनाएँ स्थापित कर सकते हैं।
-* सुरक्षा: आप उन नीतियों, तकनीकों और नियंत्रणों से लाभ उठा सकते हैं जो आपकी प्रोजेक्ट की सुरक्षा को मजबूत करती हैं।
-
-ये कुछ सबसे सामान्य कारण हैं जिनकी वजह से लोग क्लाउड सेवाओं का उपयोग करना चुनते हैं। अब जब हमें इस बात की बेहतर समझ है कि क्लाउड क्या है और इसके मुख्य लाभ क्या हैं, तो आइए डेटा के साथ काम करने वाले डेटा वैज्ञानिकों और डेवलपर्स की नौकरियों पर और अधिक विशेष रूप से देखें, और क्लाउड उन्हें कई चुनौतियों का सामना करने में कैसे मदद कर सकता है:
-
-* बड़ी मात्रा में डेटा स्टोर करना: बड़े सर्वरों को खरीदने, प्रबंधित करने और उनकी सुरक्षा करने के बजाय, आप अज़ूर कॉसमॉस डीबी , अज़ूर एसक्यूएल डेटाबेस और अज़ूर डेटा लेक स्टोरेज जैसे समाधानों के साथ अपने डेटा को सीधे क्लाउड में स्टोर कर सकते हैं।
-* डेटा एकीकरण करना: डेटा एकीकरण डेटा साइंस का एक अनिवार्य हिस्सा है, जो आपको डेटा संग्रह से कार्रवाई करने के लिए संक्रमण करने देता है। क्लाउड में दी जाने वाली डेटा एकीकरण सेवाओं के साथ, आप डेटा फ़ैक्टरी के साथ विभिन्न स्रोतों से डेटा एकत्र, रूपांतरित और एकीकृत कर सकते हैं।
-* डेटा प्रोसेसिंग: बड़ी मात्रा में डेटा को संसाधित करने के लिए बहुत अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है, और हर किसी के पास इसके लिए पर्याप्त शक्तिशाली मशीनों तक पहुंच नहीं होती है, यही वजह है कि बहुत से लोग अपने समाधानों को चलाने और डिप्लॉय करने के लिए क्लाउड की विशाल कंप्यूटिंग शक्ति का सीधे उपयोग करना चुनते हैं।
-* डेटा एनालिटिक्स सेवाओं का उपयोग करना: अज़ूर सिनेप्स एनालिटिक्स, अज़ूर स्ट्रीम एनालिटिक्स और अज़ूर डेटाब्रिक्स जैसी क्लाउड सेवाएं आपके डेटा को कार्रवाई योग्य अंतर्दृष्टि में बदलने में आपकी सहायता करती हैं।
-* मशीन लर्निंग और डेटा इंटेलिजेंस सेवाओं का उपयोग करना: स्क्रैच से शुरू करने के बजाय, आप क्लाउड प्रदाता द्वारा पेश किए गए मशीन लर्निंग एल्गोरिदम का उपयोग अज़ूरएमएल जैसी सेवाओं के साथ कर सकते हैं। आप संज्ञानात्मक सेवाओं का भी उपयोग कर सकते हैं जैसे कि स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच, कंप्यूटर दृष्टि और बहुत कुछ।
-
-## क्लाउड में डेटा साइंस के उदाहरण
-
-आइए कुछ परिदृश्यों को देखकर इसे और अधिक मूर्त बनाते हैं।
- 
-### रीयल-टाइम सोशल मीडिया भावना विश्लेषण
-हम आमतौर पर मशीन लर्निंग से शुरू होने वाले लोगों द्वारा अध्ययन किए गए परिदृश्य से शुरू करेंगे: वास्तविक समय में सोशल मीडिया की भावना का विश्लेषण।
-
-मान लीजिए कि आप एक समाचार मीडिया वेबसाइट चलाते हैं और आप यह समझने के लिए लाइव डेटा का लाभ उठाना चाहते हैं कि आपके पाठकों की किस सामग्री में रुचि हो सकती है। इसके बारे में अधिक जानने के लिए, आप एक प्रोग्राम बना सकते हैं जो ट्विटर प्रकाशनों से डेटा का रीयल-टाइम भावना विश्लेषण करता है, उन विषयों पर जो आपके पाठकों के लिए प्रासंगिक हैं।
-
-आप जिन प्रमुख संकेतकों को देखेंगे, वे विशिष्ट विषयों (हैशटैग) और भावना पर ट्वीट्स की मात्रा है, जो विश्लेषिकी टूल का उपयोग करके स्थापित किया जाता है जो निर्दिष्ट विषयों के आसपास भावना विश्लेषण करते हैं।
-
-इस प्रोजेक्ट को बनाने के लिए आवश्यक स्टेप्स इस प्रकार हैं: 
-
-* स्ट्रीमिंग इनपुट के लिए एक इवेंट हब बनाएं, जो ट्विटर से डेटा एकत्र करेगा
-* ट्विटर क्लाइंट एप्लिकेशन को कॉन्फ़िगर करें और शुरू करें, जो ट्विटर स्ट्रीमिंग एपीआई को कॉल करेगा
-* एक स्ट्रीम एनालिटिक्स जॉब बनाएं
-* जॉब इनपुट और क्वेरी निर्दिष्ट करें
-* आउटपुट सिंक बनाएं और जॉब आउटपुट निर्दिष्ट करें
-* जॉब शुरू करें
-
-पूरी प्रक्रिया देखने के लिए [प्रलेखन](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099) देखें।
-
-### वैज्ञानिक कागजात विश्लेषण
-आइए इस पाठ्यक्रम के लेखकों में से एक, [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा बनाई गई परियोजना का एक और उदाहरण लें।
-
-दिमित्री ने एक टूल बनाया जो कोविड पेपर्स का विश्लेषण करता है। इस परियोजना की समीक्षा करके, आप देखेंगे कि आप एक उपकरण कैसे बना सकते हैं जो वैज्ञानिक पत्रों से ज्ञान प्राप्त करता है, अंतर्दृष्टि प्राप्त करता है और शोधकर्ताओं को एक कुशल तरीके से कागजात के बड़े संग्रह के माध्यम से नेविगेट करने में मदद करता है।
-
-आइए इसके लिए उपयोग किए जाने वाले विभिन्न चरणों को देखें:
-* [टेक्स्ट एनालिटिक्स फॉर हेल्थ](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) के साथ जानकारी निकालना और प्री-प्रोसेस करना
-* प्रसंस्करण को समानांतर रखने के लिए [अज़ूरएमएल](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) का उपयोग करना
-* [कॉसमॉस डीबी](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) के साथ जानकारी संग्रहीत करना और क्वेरी करना
-* पावर बीआई का उपयोग करके डेटा अन्वेषण और विज़ुअलाइज़ेशन के लिए एक इंटरैक्टिव डैशबोर्ड बनाना
-
-पूरी प्रक्रिया देखने के लिए [दिमित्री के ब्लॉग](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) पर जाएँ।
- 
-जैसा कि आप देख सकते हैं, हम डेटा साइंस का प्रदर्शन करने के लिए कई तरह से क्लाउड सेवाओं का लाभ उठा सकते हैं।
-## पादटिप्पणी
-
-स्त्रोत:
-* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109  
-* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109  
-* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/  
-
-## पोस्ट-लेक्चर क्विज़
-
-[पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33)
-
-## असाइनमेंट
-
-[मार्केट रिसर्च](./assignment.hi.md)
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/README.ko.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/README.ko.md
@ -1,99 +0,0 @@
-# 클라우드에서의 데이터 사이언스 소개
-
-|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/17-DataScience-Cloud.png)|
-|:---:|
-| 클라우드의 데이터 사이언스: 소개 - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
-
-
-이 강의에서는 클라우드의 기본 원칙을 배운 다음 클라우드 서비스를 사용하여 데이터 사이언스 프로젝트를 실행하는 것이 왜 흥미로운지 알게 되고, 클라우드에서 실행되는 데이터 사이언스 프로젝트들 중 몇가지 예시를 보게 될 것이다.
-
-
-## [강의전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32)
-
-
-## 클라우드란?
-
-클라우드 또는 클라우드 컴퓨팅은 인터넷을 통해 인프라에서 호스팅되는 다양한 종량제 컴퓨팅 서비스를 제공하는 것입니다. 서비스에는 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석 및 지능형 서비스와 같은 솔루션이 포함됩니다.
-
-일반적으로 다음과 같이 퍼블릭, 프라이빗 및 하이브리드 클라우드를 구분합니다.
-
-* 퍼블릭 클라우드: 퍼블릭 클라우드는 인터넷을 통해 대중에게 컴퓨팅 리소스를 제공하는 타사 클라우드 서비스 제공업체가 소유하고 운영합니다.
-* 프라이빗 클라우드: 단일 기업이나 조직에서 독점적으로 사용하는 클라우드 컴퓨팅 자원을 말하며, 사설망에서 서비스와 인프라를 유지 관리합니다.
-* 하이브리드 클라우드: 하이브리드 클라우드는 퍼블릭 클라우드와 프라이빗 클라우드를 결합한 시스템입니다. 사용자는 온프레미스 데이터 센터를 선택하는 동시에 데이터와 애플리케이션을 하나 이상의 퍼블릭 클라우드에서 실행할 수 있습니다.
-
-대부분의 클라우드 컴퓨팅 서비스는 IaaS(Infrastructure as a Service), PaaS(Platform as a Service) 및 SaaS(Software as a Service)의 세 가지 범주로 나뉩니다.
-
-* IaaS(Infrastructure as a Service): 사용자는 서버 및 가상 머신(VM), 스토리지, 네트워크, 운영 체제와 같은 IT 인프라를 임대합니다.
-* PaaS(Platform as a Service): 사용자는 소프트웨어 애플리케이션을 개발, 테스트, 제공 및 관리하기 위한 환경을 임대합니다. 사용자는 개발에 필요한 서버, 스토리지, 네트워크 및 데이터베이스의 기본 인프라를 설정하거나 관리하는 것에 대해 걱정할 필요가 없습니다.
-* SaaS(Software as a Service): 사용자는 주문형 및 일반적으로 구독 기반으로 인터넷을 통해 소프트웨어 응용 프로그램에 액세스할 수 있습니다. 사용자는 소프트웨어 업그레이드 및 보안 패치와 같은 유지 관리, 기본 인프라 또는 소프트웨어 애플리케이션의 호스팅 및 관리에 대해 걱정할 필요가 없습니다.
-
-가장 큰 클라우드 제공업체로는 Amazon Web Services, Google Cloud Platform 및 Microsoft Azure가 있습니다.
-## 데이터 사이언스을 위해 클라우드를 선택하는 이유는 무엇입니까?
-
-개발자와 IT 전문가는 다음을 비롯한 여러 가지 이유로 클라우드와 함께 작업하기로 결정했습니다.
-
-* 혁신: 클라우드 공급자가 만든 혁신적인 서비스를 앱에 직접 통합하여 애플리케이션을 강화할 수 있습니다.
-* 유연성: 필요한 서비스에 대해서만 비용을 지불하고 다양한 서비스 중에서 선택할 수 있습니다. 일반적으로 사용한 만큼 지불하고, 진화하는 요구 사항에 따라 서비스를 조정합니다.
-* 예산: 하드웨어 및 소프트웨어 구입, 현장 데이터 센터 설정 및 실행을 위해 초기 투자를 할 필요가 없으며 사용한 만큼만 비용을 지불하면 됩니다.
-* 확장성: 리소스는 프로젝트의 요구 사항에 따라 확장될 수 있습니다. 즉, 앱은 주어진 시간에 외부 요인에 적응하여 컴퓨팅 성능, 스토리지 및 대역폭을 어느 정도 사용할 수 있습니다.
-* 생산성: 데이터 센터 관리와 같이 다른 사람이 관리할 수 있는 작업에 시간을 할애하지 않고 비즈니스에 집중할 수 있습니다.
-* 안정성: 클라우드 컴퓨팅은 데이터를 지속적으로 백업할 수 있는 여러 가지 방법을 제공하며 위기 상황에서도 비즈니스와 서비스를 계속 운영할 수 있도록 재해 복구 계획을 세울 수 있습니다.
-* 보안: 프로젝트 보안을 강화하는 정책, 기술 및 제어의 이점을 누릴 수 있습니다.
-
- 사람들이 클라우드 서비스를 선택하는 가장 일반적인 이유 중 일부는 다음과 같습니다. 이제 클라우드가 무엇이고 주요 이점이 무엇인지 더 잘 이해했으므로 데이터를 다루는 데이터 과학자 및 개발자의 작업과, 그들이 직면할 수 있는 여러 문제를 클라우드가  어떻게 도울 수 있는지 자세히 살펴보겠습니다.
-
-* 대용량 데이터 저장: 대용량 서버를 구입, 관리 및 보호하는 대신 Azure Cosmos DB, Azure SQL Database 및 Azure Data Lake Storage와 같은 솔루션을 사용하여 클라우드에 직접 데이터를 저장할 수 있습니다.
-* 데이터 통합 수행: 데이터 통합은 데이터 수집에서 데이터 변환을 수행할 수 있도록 변환해주는 데이터 사이언스의 필수 부분입니다. 클라우드에서 제공되는 데이터 통합 서비스를 사용하면 Data Factory를 사용하여 다양한 소스의 데이터를 수집, 변환 및 단일 데이터 웨어하우스로 통합할 수 있습니다.
-* 데이터 처리: 방대한 양의 데이터를 처리하려면 많은 컴퓨팅 성능이 필요하며 모든 사람이 그에 적합한 강력한 시스템에 액세스할 수 있는 것은 아닙니다. 그래서 많은 사람들이 클라우드의 엄청난 컴퓨팅 성능을 직접 활용하여 솔루션을 실행하고 배포하는 방법을 선택합니다.
-* 데이터 분석 서비스 사용: 데이터를 실행 가능한 통찰력으로 전환하는 데 도움이 되는 Azure Synapse Analytics, Azure Stream Analytics 및 Azure Databricks와 같은 클라우드 서비스가 있습니다.
-* 기계 학습 및 데이터 인텔리전스(data intelligence) 서비스 사용: 처음부터 시작하는 대신 AzureML과 같은 서비스와 함께 클라우드 공급자가 제공하는 기계 학습 알고리즘을 사용할 수 있습니다. 또한 음성을 텍스트로 변환, 텍스트를 음성으로 변환, 컴퓨터 비전 등과 같은 인지 서비스를 사용할 수 있습니다.
-
-## 클라우드 데이터 사이언스의 예
-
-몇 가지 시나리오를 살펴봄으로 더 확실히 이해해봅시다.
- 
-### 실시간 소셜 미디어 감성 분석
-기계 학습을 시작하는 사람들이 일반적으로 연구하는 시나리오인 실시간 소셜 미디어 감정 분석부터 시작하겠습니다.
-
-뉴스 미디어 웹사이트를 운영 중이고 실시간 데이터를 활용하여 독자들이 어떤 콘텐츠에 관심을 가질 수 있는지 이해하고 싶다고 가정해 보겠습니다. 이에 대해 자세히 알아보기 위해, 독자와 관련된 주제에 대해, Twitter 출판물의 데이터에 대한 실시간 감정 분석을 수행하는 프로그램을 구축할 수 있습니다.
-
-주요 지표는 특정 주제(해시태그)에 대한 트윗의 양과 특정 주제에 대한 감정 분석을 수행하는 분석 도구를 사용하여 설정한 감정입니다.
-
-이 프로젝트를 만드는 데 필요한 단계는 다음과 같습니다.
-
-* Twitter에서 데이터를 수집할 스트리밍 입력을 위한 이벤트 허브 만들기
-* Twitter 스트리밍 API를 호출할 Twitter 클라이언트 애플리케이션 구성 및 시작
-* Stream Analytics 작업 만들기
-* 작업 입력 및 쿼리 지정
-* 출력 싱크 생성 및 작업 출력 지정
-* Job 실행
-
-전체 프로세스를 보려면 [문서](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid)를 확인하세요. =AID30411099).
-### 과학 논문 분석
-이 커리큘럼의 저자 중 한 명인 [Dmitry Soshnikov](http://soshnikov.com)가 만든 프로젝트의 또 다른 예를 들어보겠습니다.
-
-Dmitry는 COVID 논문을 분석하는 도구를 만들었습니다. 이 프로젝트를 검토하면 과학 논문에서 지식을 추출하고 통찰력을 얻으며 연구자가 효율적인 방식으로 방대한 논문 컬렉션을 탐색하는 데 도움이 되는 도구를 만드는 방법을 알 수 있습니다.
-
-이를 위해 사용된 다양한 단계를 살펴보겠습니다.
-* [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)로 정보 추출 및 전처리
-* [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)을 사용하여 처리 병렬화
-* [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)로 정보 저장 및 조회
-* Power BI를 사용하여 데이터 탐색 및 시각화를 위한 대화형 대시보드 만들기
-
-전체 과정을 보려면 [Dmitry의 블로그](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/)를 방문하세요.
- 
-보시다시피 클라우드 서비스를 다양한 방식으로 활용하여 데이터 사이언스을 수행할 수 있습니다.
-## 각주
-
-출처:
-* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
-* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
-* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
-
-## 강의 후 퀴즈
-
-[강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33)
-
-## 과제
-
-[시장조사](./assignment.ko.md)
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/README.ne.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/README.ne.md
@ -1,101 +0,0 @@
- क्लाउडमा डाटा साइंस को परिचय
-
-|![[(@sketchthedocs) द्वारा स्केचनोट](https://sketchthedocs.dev) ](../../../sketchnotes/17-DataScience-Cloud.png)|
-|:---:|
-| क्लाउड मा डाटा साइंस: परिचय - _[@nitya](https://twitter.com/nitya) द्वारा स्केचनोट_ |
-
-
-यो पाठमा ,तपाईले क्लाउडको मूलभूत सिद्धांत सिक्नहुनेछ,अनि देख्नुहुनेछ कि तपाईले डाटा साइंस परियोजना चलाउनका लागि क्लाउड सेवाको उपयोग कत दिलचस्प  हुन सक्छ । त्यसपछि हामी क्लाउडमा चल्ने वाला डाटा साइंस प्रोजेक्टको केही उदाहरण हेर्नेछौ।
-
-
-## [प्री-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32)
-
-
-## क्लाउड के हो?
-
-क्लाउड, या क्लाउड कंप्यूटिंग, इंटरनेटमा हुने एक बुनियादी ढांचामा होस्ट हुन  पे-एज़-यू-गो कंप्यूटिंग सेवाको  एक विस्तृत श्रृंखला को डिलीवरी हो। सेवाहरुमा स्टोरेज, डेटाबेस, नेटवर्किंग, सॉफ्टवेयर, एनालिटिक्स र इंटेलिजेंट सर्विसेज जस्तो उदहारनहरु शामिल छन्।
-
-हामी पब्लिक, प्राइवेट र हाइब्रिड क्लाउडमा यसरी अंतर ल्याउन सक्छौ :
-
-* पब्लिक क्लाउड: एउटा पब्लिक क्लाउड को स्वामित्व र संचालन तेस्रो पक्षको क्लाउड सेवा प्रदातासंग हुन्छ जुन इंटरनेटबाट कंप्यूटिंग साधनबाट जनतासंग
- पुग्छ।
-* प्राइवेट क्लाउड: एउटा नै व्यवसाय या संगठबाट विशेष रूपमा उपयोग हुने  क्लाउड कंप्यूटिंग साधनलाई संदर्भित गर्छ, जहा सेवा र निजी नेटवर्कमा बनाइएको इंफ्रास्ट्रक्चरहरु हुन्छ।
-* हाइब्रिड क्लाउड: हाइब्रिड क्लाउड एउटा यस्तो सिस्टम हो जसले पब्लिक र प्राइवेट क्लाउडलाइ जोड्छ । उपयोगकर्ताले ऑन-प्रिमाइसेस डेटासेंटर छान्छन्, जहा डाटा र एप्लिकेशनको एक या अधिक पब्लिक क्लाउडमा पनि चल्न सक्छन् ।
-
-अधिकांश क्लाउड कंप्यूटिंग सेवाए तीन श्रेणिमा  विभाजित छ: सर्विसको रूपमा इंफ्रास्ट्रक्चर (IaaS), सर्विसको रूपमा प्लेटफॉर्म (PaaS) र सर्विसको रूपमा  सॉफ्टवेयर (SaaS)।
-
-* सर्विसको रूपमा  इंफ्रास्ट्रक्चर (IaaS): उपयोगकर्ताले आईटी इन्फ्रास्ट्रक्चर किराएको रुपमा लिन्छन् ः सर्वर और वर्चुअल मशीन (VMs), स्टोरेज, नेटवर्क, ऑपरेटिंग सिस्टम।
-* सर्विसको रूपमा  प्लेटफॉर्म (PaaS): उपयोगकर्ताले सॉफ्टवेयर ऍप्लिकेशन्सको विकास, परीक्षण, वितरण र मैनेज गर्नका लागि एक वातावरण किराएमा लिन्छन् । उपयोगकर्ताको विकास को लागि आवश्यक सर्वरको इंफ्रास्ट्रक्चर, स्टोरेज, नेटवर्क र डाटाबेस को स्थापना गर्ने या प्रबन्ध गर्नको बारेमा चिंता गर्ने आवश्यकता हुन्न।
-* सर्विसको रूपमा  सॉफ्टवेयर (SaaS): उपयोगकर्ताहरुलाई प्रायजसो  माग र सदस्यता को आधारमा  इंटरनेटमा  सॉफ़्टवेयर एप्लिकेशनसम्म  पहुंच प्राप्त हुन्छ ह। उपयोगकर्ताहरुको सॉफ़्टवेयर एप्लिकेशन को होस्टिंग र मैनेजिंग, बुनियादी इंफ्रास्ट्रक्चर या मेंटेनेंस, जस्तै सॉफ़्टवेयर अपग्रेड र सुरक्षा पैचिंगको बारे मा चिंता  गर्ने आवश्यकता हुन्न।
-
-केही ठूलो क्लाउड प्रदाताको उदहारन ऐमज़ॉन वेब सर्विसेस, गूगल क्लाउड प्लेटफॉर्म और माइक्रोसॉफ्ट हो।
-## डाटा साइंसको लागि क्लाउडनै किन? 
-
-डेवलपर र आईटी पेशेवर निम्न कारणले क्लाउडमा काम गर्न छान्छन्:
-
-* नवाचार: क्लाउड प्रदाताद्वारा बनाएको  नवीन सेवाबाट सीधै आफ्नो ऐप्समा एकीकृत गरेर आफ्नो एप्लिकेशनलाई सशक्त बनाउन सकिन्छ।
-* लचक: तपाई केवल त्यो सेवाको लागि भुक्तान गर्नु हुन्छ जसको तपाईलाई आवश्यकता छ र त्यो सेवालाई  एक विस्तृत श्रृंखलाबाट छान्न्न  सक्नुहुनेछ । तपाई आफ्नो  जरूरतको अनुसार आफ्नो सेवाको भुक्तान गर्नसक्नुहुनेछ। 
-* बजेट: तपाईको हार्डवेयर र सॉफ़्टवेयर किन्ने, साइट र डेटासेंटर स्थापित गर्न र चलाउनका  लागि प्रारंभिक निवेश गर्ने  आवश्यकता छैन र तपाई केवल त्यसैको  भुक्तान गर्नेुहुनेछ हैं जसको उपयोग गर्नुहुनेछ ।
-* अनुमापकता: तपाई संसाधन तपाईको परियोजनाको ज़रूरतको अनुसार बडाउन सक्नुहुनेछ, जसको अर्थ यो हो कि तपाई ऐप्स कुनै पनि समयमा बाहरी कारकहरुलाई  अपनाएर, कम या धेरै कंप्यूटिंग शक्ति, स्टोरेज र बैंडविड्थको उपयोग गर्नसक्नुहुनेछ।
-* उत्पादकता: तपाई त्यो कार्यमा समय बिताउनको साटो , जसलाई कुनै अर्को व्यक्ति प्रबंधित गर्न सक्छ, जैसे डेटासेंटरको प्रबंध गर्नु , तपाई व्यवसायमा ध्यान केंद्रित गर्न सक्छ।
-* विश्वसनीयता: क्लाउड कम्प्यूटिंग तपाईको डाटाको लगातार बैकअप लिनलाई  धेरै तरीका प्रदान गर्न सक्छ र तपाई संकटको समयमा पनि  आफ्नो व्यवसाय र सेवालाई चालू राख्नका लागि आपदा वसूली योजना स्थापित गर्न सक्नुहुनेछ ।
-* सुरक्षा: तपाई त्यो नीति र नियंत्रणबाट लाभ उठाउन सक्नुहुनेछ जसले तपाईको प्रोजेक्टको सुरक्षालाई मजबूत बनाउछ।
-
-यिनिहरु केही सबैभन्दा सामान्य कारण हो जसले लोग क्लाउड सेवाको उपयोग गर्न छान्नुहुनेछ।हामीले यो कुराको राम्ररी बुझ्यौ ,आउनुहोस् डाटासँग  काम गर्ने डाटा वैज्ञानिकों र डेवलपर्सको कामलाई नजिकबाट र अधिक विशेष रूपबाट हेरौ,र क्लाउडले कई चुनौतियको सामना गर्न कसरी मदद गर्छ हेरौ :
-
-* ठूलो मात्रा में डाटा स्टोर गर्न: ठूलो सर्वरों किन्ने, प्रबंधित गर्ने र सुरक्षा गर्नेको साटो , तपाई अज़ूर कॉसमॉस डीबी , अज़ूर एसक्यूएल डेटाबेस और अज़ूर डेटा लेक स्टोरेज जस्तो समाधानको  साथ अपने डाटालाई सीधै क्लाउडमा स्टोर गर्न सक्नुहुनेछ।
-* डेटा एकीकरण गर्ने: डेटा एकीकरण डेटा साइंसको एक अनिवार्य हिस्सा हो, जो तपाईको डेटा संग्रहलाई कार्रवाई गर्नको लागि संक्रमण गर्न दिन्छ। क्लाउडमा दीनजाने वाला डाटा एकीकरण सेवाकोसाथ,तपाई डेटा फ़ैक्टरीको साथ विभिन्न स्रोतबाट डेटा एकत्र, रूपांतरित र एकीकृत गर्न सक्नुहुनेछ।
-* डेटा प्रोसेसिंग: ठूलो मात्रामा डाटाको संसाधित गर्नका लागि अधिक कंप्यूटिंग शक्तिको आवश्यकता हुन्छ ,र सबैसँग यसको पर्याप्त शक्तिशाली मशीनको सम्म पहुंच हुदैन, यही कारनले धेरैजसो मानिस आफ्नो समाधानलाई  चलाउने र डिप्लॉय गर्नका लागि क्लाउड को विशाल कंप्यूटिंग शक्ति सीधै उपयोग गर्न छान्नुहुनेछ।
-* डेटा एनालिटिक्स सेवाको उपयोग : अज़ूर सिनेप्स एनालिटिक्स, अज़ूर स्ट्रीम एनालिटिक्स र अज़ूर डेटाब्रिक्स जस्तो क्लाउड सेवा तपाईको डाटा को कार्रवाई योग्य अंतर्दृष्टिमा बदलन तपाईको सहायता गर्छ।
-* मशीन लर्निंग र डेटा इंटेलिजेंस सेवाको उपयोग गर्ने: स्क्रैचबाट शुरू गर्नुको बजाय, तपाई क्लाउड प्रदाताद्वारा पेश गरिएको क मशीन लर्निंग एल्गोरिदमको उपयोग अज़ूरएमएल जैसी सेवाको साथ गर्न सक्नुहुनेछ। तपाई संज्ञानात्मक सेवाको पनि उपयोग गर्न सक्नु हुनेछ जस्तै कि स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच, कंप्यूटर दृष्टि  आदि।
-
-## क्लाउडमा डाटा साइंसको उदाहरण
-
-आउनुहोस् केही परिदृश्यहरुलाई हेरेर यसलाई अधिक मूर्त बनाउ।
- 
-### रीयल-टाइम सोशल मीडिया भावना विश्लेषण
-हामी मशीन लर्निंगबाट शुरू हुनेवाला मानिसद्वारा अध्ययन गरिएको परिदृश्यबाट शुरू गर्नेछौ: वास्तविक समयमा सोशल मीडिया को भावनाको विश्लेषण।
-
-मान्नुहोस्  कि तपाई एउटा समाचार मीडिया वेबसाइट चलाउनु हुन्छ र तपाई यसलाई सम्झनका लागि लाइव डाटा को लाभ उठाउन चाहानु हुन्छ र  तपाईको पाठकहरुलाई कुन सामग्रीमा रुचि हुन सक्छ ,यसको बारेमा अधिक जान्नको लागि,तपाई एक प्रोग्राम बनाउन सक्नुहुनेछ जो ट्विटर प्रकाशनबाट  डेटाको रीयल-टाइम भावना विश्लेषण गर्नेछ ।
-
-तपाई जुन प्रमुख संकेतलाई देख्नुहुनेछ, त्यो विशिष्ट विषय (हैशटैग)र भावनाको ट्वीट्स को मात्रा हो, जुन विश्लेषिकी टूलको उपयोग गरेर स्थापित गर्न सकिन्छ र  निर्दिष्ट विषयको आसपासको भावना विश्लेषण गर्छ।
-
-यस प्रोजेक्टलाई बनाउनका लागि आवश्यक स्टेप्स यस प्रकारका छन् : 
-
-* स्ट्रीमिंग इनपुटका लागि एक इवेंट हब बनाउने, जुन ट्विटरबाट डेटा एकत्र गर्नेछ।
-* ट्विटर क्लाइंट एप्लिकेशनलाई कॉन्फ़िगर गर्ने र शुरू गर्ने, जसले ट्विटर स्ट्रीमिंग एपीआईलाई पुकार्नेछ ।
-* एउटा स्ट्रीम एनालिटिक्स जब बनाउने
-* जब इनपुट र क्वेरी निर्दिष्ट गर्ने
-* आउटपुट सिंक बनाउने र जॉब आउटपुट निर्दिष्ट गर्ने
-* जब शुरू गर्ने
-
-पूरा प्रक्रिया हेर्नको लागी [प्रलेखन](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099) ।
-
-### वैज्ञानिक कागजात विश्लेषण
-आउनुहोस् यस पाठ्यक्रमको लेखहरुमध्य एक, [दिमित्री सोशनिकोव](http://soshnikov.com) द्वारा बनाईएको परियोजनाको एउटा उदाहरण हेरौ।
-
-दिमित्रीले  एउटा टूल बनाउनुभयो जो कोविड पेपर्सलाई विश्लेषण गर्छ । यस परियोजनाको समीक्षा गरेेर, तपाई देख्नसक्नुहुनेछ कि तपाई एक उपकरण कसरी बनाउन सक्नुहुनेछ जसले वैज्ञानिक पत्रबाट ज्ञान प्राप्त गर्ने छ, अंतर्दृष्टि प्राप्त गर्छ र शोधकर्ताहरुलाई एक कुशल तरीकाबाट कागजातको संग्रहको माध्यमबाट नेविगेट गर्न मदत गर्छ।
-
-आउनुहोस् यसको लागि उपयोग गरिने विभिन्न चरणहरुलाई हेरौः
-* [टेक्स्ट एनालिटिक्स फॉर हेल्थ](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) को साथ जानकारी निकाल्न र प्री-प्रोसेस गर्न
-* प्रसंस्करणलाई समानांतर राख्नका लागि [अज़ूरएमएल](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) को उपयोग गर्ने
-* [कॉसमॉस डीबी](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) को साथ जानकारी संग्रहीत गर्न र क्वेरी गर्न
-* पावर बीआईको उपयोग गरेर डेटा अन्वेषण र विज़ुअलाइज़ेशनका लागि एक इंटरैक्टिव डैशबोर्ड बनाउन
-
-पूरा प्रक्रिया हेर्नका लागि [दिमित्री के ब्लॉग](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/)
- 
-तपाई देख्न सक्नुहुनेछ , हामी डाटा साइन्सको प्रदर्शन गर्नका लागि धेरै तरिकाबाट क्लाउड सेवाको लाभ उठाउन सक्नुहुनेछ।
-## पादटिप्पणी
-
-स्त्रोत:
-* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109  
-* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109  
-* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/  
-
-## पोस्ट-लेक्चर क्विज़
-
-[पोस्ट-लेक्चर क्विज़](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33)
-
-## असाइनमेंट
-
-[मार्केट रिसर्च](./assignment.hi.md)
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.hi.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.hi.md
@ -1,10 +0,0 @@
-# मार्केट रिसर्च
-
-## निर्देश
-
-इस पाठ में आपने सीखा कि कई महत्वपूर्ण क्लाउड प्रदाता हैं। डेटा साइंटिस्ट को प्रत्येक क्या पेशकश कर सकता है, यह जानने के लिए कुछ मार्केट रिसर्च करें। क्या उनके सब्स्क्रिप्शन्स तुलनीय हैं? इनमें से तीन या अधिक क्लाउड प्रदाताओं की पेशकशों का वर्णन करने के लिए एक पेपर लिखें।
-## स्कोर गाइड
-
-उदाहरणात्मक | पर्याप्त | सुधार की जरूरत है
--- | --- | -- |
-एक पृष्ठ का पेपर तीन क्लाउड प्रदाताओं के डेटा विज्ञान प्रसाद का वर्णन करता है और उनके बीच अंतर करता है। | एक छोटा पेपर प्रस्तुत किया गया है। | विश्लेषण पूरा किए बिना एक पेपर प्रस्तुत किया गया है।
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.ko.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.ko.md
@ -1,10 +0,0 @@
-# 시장 조사
-
-## 지침
-
-이 학습에서는 몇 가지 중요한 클라우드 제공자가 있다는 것을 배웠습니다. 시장 조사를 통해 각각이 데이터 과학자에게 무엇을 제공할 수 있는지 알아보세요. 제공하는 것들이 비교될 수 있습니까? 3개 이상의 클라우드 제공업체가 제공하는 서비스를 설명하는 문서를 작성하십시오.
-## 기준표
-
-모범 | 충분 | 개선 필요
--- | --- | -- |
-한 페이지짜리 문서에서는 세 가지 클라우드 제공업체의 데이터 과학 제품에 대해 설명하고 이를 구분합니다. | 더 짧은 논문이 제시됩니다 | 분석을 완료하지 않고 논문을 발표함
--- a/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.ne.md
+++ b/5-Data-Science-In-Cloud/17-Introduction/translations/assignment.ne.md
@ -1,10 +0,0 @@
-# मार्केट रिसर्च
-
-## निर्देश
-
- यस पाठमा  तपाईले धेरै महत्वपूर्ण क्लाउड प्रदाताहरु सिक्नभएको छ। डेटा साइंटिस्ट बारे केही खोज गर्नुहोस् र के सहायता पुर्याउन सक्नुहुन्छ सोच्नुहोस। के उनको सब्स्क्रिप्शन्स तुलनीय छ? यिनिहरु मध्यमा  तीन या अधिक क्लाउड प्रदाताको पेशकशको वर्णन गर्नका लागि एउटा पेपर लेख्नुहोस्।
-## स्कोर गाइड
-
-उदाहरणात्मक | पर्याप्त | सुधारको जरूरत हछ
--- | --- | -- |
-एक पृष्ठको पेपरमा तीन क्लाउड प्रदाताको डेटा विज्ञान, प्रसादको वर्णन गरोस् र उनीहरु बीचको अंतरको बारेमा होस् | एउटा छोटो पेपर प्रस्तुत गरिएको छ | विश्लेषण पूरा नगरी एक पेपर प्रस्तुत गरिएको छ ।
--- a/5-Data-Science-In-Cloud/19-Azure/translations/README.ko.md
+++ b/5-Data-Science-In-Cloud/19-Azure/translations/README.ko.md
@ -1,301 +0,0 @@
-# 클라우드의 데이터 사이언스: "Azure ML SDK" 방식
-
-|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/19-DataScience-Cloud.png)|
-|:---:|
-| 클라우드의 데이터 사이언스: Azure ML SDK - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
-
-목차:
-
- [클라우드의 데이터 사이언스: "Azure ML SDK" 방식](#data-science-in-the-cloud-the-azure-ml-sdk-way)
-  - [강의 전 퀴즈](#pre-lecture-quiz)
-  - [1. 서론](#1-서론)
-    - [1.1 Azure ML SDK란?](#11-what-is-azure-ml-sdk)
-    - [1.2 심부전예측 프로젝트 및 데이터셋 도입](#12-heart-failure-prediction-project-and-dataset-introduction)
-  - [2. Azure ML SDK로 모델 학습](#2-training-a-model-with-the-azure-ml-sdk)
-    - [2.1 Azure ML 작업 영역 만들기](#21-create-an-azure-ml-workspace)
-    - [2.2 컴퓨팅 인스턴스 생성](#22-create-a-compute-instance)
-    - [2.3 데이터셋 불러오기](#23-loading-the-dataset)
-    - [2.4 Notebook 만들기](#24-creating-notebooks)
-    - [2.5 모델 훈련](#25-training-a-model)
-      - [2.5.1 설정 작업 공간, 실험, 컴퓨팅 클러스터 및 데이터셋](#251-setup-workspace-experiment-compute-cluster-and-dataset)
-      - [2.5.2 AutoML 구성 및 교육](#252-automl-configuration-and-training)
-  - [삼. Azure ML SDK를 사용한 모델 배포 및 끝점 소비](#3-model-deployment-and-endpoint-consumption-with-the-azure-ml-sdk)
-    - [3.1 베스트 모델 저장](#31-saving-the-best-model)
-    - [3.2 모델 배포](#32-model-deployment)
-    - [3.3 엔드포인트 소비](#33-endpoint-consumption)
-  - [🚀챌린지](#-챌린지)
-  - [강의후퀴즈](#강의후퀴즈)
-  - [리뷰&자습](#리뷰--자습)
-  - [과제](#과제)
-
-## [강의전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/36)
-
-## 1. 소개
-
-### 1.1 Azure ML SDK란 무엇입니까?
-
-데이터 사이언스자와 AI 개발자는 Azure Machine Learning SDK를 사용하여 Azure Machine Learning 서비스로 기계 학습 워크플로를 빌드하고 실행합니다. Jupyter Notebook, Visual Studio Code 또는 선호하는 Python IDE를 비롯한 모든 Python 환경에서 서비스와 상호 작용할 수 있습니다.
-
-SDK의 주요 영역은 다음과 같습니다.
-
- 기계 학습 실험에 사용되는 데이터셋의 수명 주기를 탐색, 준비 및 관리합니다.
- 머신 러닝 실험을 모니터링, 로깅 및 구성하기 위한 클라우드 리소스를 관리합니다.
- GPU 가속 모델 교육을 포함하여 로컬에서 또는 클라우드 리소스를 사용하여 모델을 교육합니다.
- 구성 매개변수 및 교육 데이터를 허용하는 자동화된 기계 학습을 사용합니다. 알고리즘과 하이퍼파라미터 설정을 자동으로 반복하여 예측 실행에 가장 적합한 모델을 찾습니다.
- 웹 서비스를 배포하여 훈련된 모델을 모든 애플리케이션에서 사용할 수 있는 RESTful 서비스로 변환합니다.
-
-[Azure Machine Learning SDK에 대해 자세히 알아보기](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
-
-[이전 강의](../../18-Low-Code/translations/README.ko.md)에서 Low code/No code 방식으로 모델을 훈련, 배포 및 소비하는 방법을 살펴보았습니다. 심부전 데이터셋을 사용하여 심부전 예측 모델을 생성했습니다. 이 단원에서는 Azure Machine Learning SDK를 사용하여 똑같은 작업을 수행할 것입니다.
-
-![프로젝트 스키마](../images/project-schema.PNG)
-
-### 1.2 심부전 예측 프로젝트 및 데이터셋 소개
-
-[여기](../../18-Low-Code/translations/README.ko.md)에서 심부전예측 프로젝트 및 데이터셋 소개를 확인하세요.
-
-## 2. Azure ML SDK로 모델 학습
-### 2.1 Azure ML 작업 영역 만들기
-
-간단히 하기 위해 우리는 jupyter Notebook에서 작업할 것입니다. 이는 이미 작업 공간과 컴퓨팅 인스턴스가 있음을 의미합니다. 이미 작업 공간이 있는 경우 섹션 2.3 Notebook 생성으로 바로 이동할 수 있습니다.
-
-그렇지 않은 경우 [이전 강의](../../18-Low-Code/translations/README.ko.md)의 **2.1 Azure ML 워크스페이스 만들기** 섹션의 지침에 따라 워크스페이스을 만듭니다.
-
-### 2.2 컴퓨팅 인스턴스 생성
-
-앞서 만든 [Azure ML 워크스페이스](https://ml.azure.com/)에서 컴퓨팅 메뉴로 이동하면 사용 가능한 다양한 컴퓨팅 리소스가 표시됩니다.
-
-![compute-instance-1](../images/compute-instance-1.PNG)
-
-Jupyter Notebook을 프로비저닝할 컴퓨팅 인스턴스를 생성해 보겠습니다.
-1. + 새로 만들기 버튼을 클릭합니다.
-2. 컴퓨팅 인스턴스에 이름을 지정합니다.
-3. CPU 또는 GPU, VM 크기 및 코어 번호 중에서 옵션을 선택합니다.
-4. 만들기 버튼을 클릭합니다.
-
-축하합니다. 방금 컴퓨팅 인스턴스를 만들었습니다! 이 컴퓨팅 인스턴스를 사용하여 [Notebook 생성 섹션](#23-creating-notebooks)에서 Notebook을 생성합니다.
-
-### 2.3 데이터셋 로드
-아직 데이터셋을 업로드하지 않았다면 **2.3 데이터셋 로드하기** 섹션의 [이전 강의](../../18-Low-Code/translations/README.ko.md)를 참조하세요.
-
-### 2.4 Notebook 만들기
-
-> **_참고:_** 다음 단계에서는 처음부터 새 Notebook을 만들거나 Azure ML Studio에서 [우리가 만든 Notebook](../notebook.ipynb)을 업로드할 수 있습니다. 그것을 업로드하려면 "Notebook" 메뉴를 클릭하고 Notebook을 업로드하십시오.
-
-Notebook은 데이터 사이언스 프로세스에서 정말 중요한 부분입니다. 탐색적 데이터 분석(EDA)을 수행하고, 모델을 훈련하기 위해 컴퓨터 클러스터를 호출하고, 엔드포인트를 배포하기 위해 추론 클러스터를 호출하는 데 사용할 수 있습니다.
-
-Notebook을 생성하려면 jupyter Notebook 인스턴스를 제공하는 컴퓨팅 노드가 필요합니다. [Azure ML 작업 영역](https://ml.azure.com/)으로 돌아가서 Compute 인스턴스를 클릭합니다. 컴퓨팅 인스턴스 목록에서 [이전에 생성한 컴퓨팅 인스턴스](#22-create-a-compute-instance)가 표시되어야 합니다.
-
-1. 애플리케이션 섹션에서 Jupyter 옵션을 클릭합니다.
-2. "예, 이해합니다" 상자를 선택하고 계속 버튼을 클릭합니다.
-![notebook-1](../images/notebook-1.PNG)
-3. 그러면 다음과 같이 jupyter Notebook 인스턴스가 있는 새 브라우저 탭이 열립니다. "새로 만들기" 버튼을 클릭하여 Notebook을 만듭니다.
-
-![notebook-2](../images/notebook-2.PNG)
-
-이제 Notebook이 있으므로 Azure ML SDK를 사용하여 모델 학습을 시작할 수 있습니다.
-
-### 2.5 모델 학습
-
-먼저 궁금한 점이 있으시면 [Azure ML SDK 설명서](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)을 참고할 수 있습니다. 여기에는 이 단원에서 보게 될 모듈을 이해하는 데 필요한 모든 정보가 포함되어 있습니다.
-
-#### 2.5.1 작업 공간, 실험, 컴퓨팅 클러스터 및 데이터셋 설정
-
-다음 코드를 사용하여 구성 파일에서 '작업 공간'을 로드해야 합니다.
-
-```python
-from azureml.core import Workspace
-ws = Workspace.from_config()
-```
-
-이것은 작업 공간을 나타내는 '작업 공간' 유형의 개체를 반환합니다. 다음 코드를 사용하여 '실험'을 생성해야 합니다.
-
-```python
-from azureml.core import Experiment
-experiment_name = 'aml-experiment'
-experiment = Experiment(ws, experiment_name)
-```
-작업 공간에서 실험을 가져오거나 생성하려면 실험 이름을 사용하여 실험을 요청합니다. 실험 이름은 3-36자여야 하며 문자 또는 숫자로 시작해야 하며 문자, 숫자, 밑줄 및 대시만 포함할 수 있습니다. 작업 공간에 실험이 없으면 새 실험이 생성됩니다.
-
-이제 다음 코드를 사용하여 훈련을 위한 컴퓨팅 클러스터를 생성해야 합니다. 이 단계는 몇 분 정도 걸릴 수 있습니다.
-
-```python
-from azureml.core.compute import AmlCompute
-
-aml_name = "heart-f-cluster"
-try:
-    aml_compute = AmlCompute(ws, aml_name)
-    print('Found existing AML compute context.')
-except:
-    print('Creating new AML compute context.')
-    aml_config = AmlCompute.provisioning_configuration(vm_size = "Standard_D2_v2", min_nodes=1, max_nodes=3)
-    aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config)
-    aml_compute.wait_for_completion(show_output = True)
-
-cts = ws.compute_targets
-compute_target = cts[aml_name]
-```
-
-다음과 같은 방법으로 데이터셋 이름을 사용하여 작업 공간에서 데이터셋을 가져올 수 있습니다.
-
-```python
-dataset = ws.datasets['heart-failure-records']
-df = dataset.to_pandas_dataframe()
-df.describe()
-```
-#### 2.5.2 AutoML 구성 및 교육
-
-AutoML 구성을 설정하려면 [AutoMLConfig 클래스](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)를 사용하세요.
-
-문서에 설명된 대로 가지고 놀 수 있는 많은 매개변수가 있습니다. 이 프로젝트에서는 다음 매개변수를 사용합니다.
-
- `experiment_timeout_minutes`: 실험이 자동으로 중지되고 결과가 자동으로 제공되기 전에 실행할 수 있는 최대 시간(분)
- `max_concurrent_iterations`: 실험에 허용되는 최대 동시 학습 반복 횟수입니다.
- `primary_metric`: 실험 상태를 결정하는 데 사용되는 기본 측정항목입니다.
- `compute_target`: 자동화된 기계 학습 실험을 실행할 Azure 기계 학습 계산 대상입니다.
- `task`: 실행할 작업의 유형입니다. 값은 해결할 자동화된 ML 문제 유형에 따라 '분류', '회귀' 또는 '예측'일 수 있습니다.
- `training_data`: 실험 내에서 사용할 훈련 데이터입니다. 여기에는 훈련 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다.
- `label_column_name`: 레이블 열의 이름입니다.
- `경로`: Azure Machine Learning 프로젝트 폴더의 전체 경로입니다.
- `enable_early_stopping`: 단기간에 점수가 오르지 않을 경우 조기종료 가능 여부.
- `featurization`: 피처링 단계를 자동으로 수행할지 여부 또는 사용자 정의 기능화(featurization)를 사용해야 하는지 여부를 나타내는 표시기(indicator)입니다.
- `debug_log`: 디버그 정보를 기록할 로그 파일입니다.
-
-```python
-from azureml.train.automl import AutoMLConfig
-
-project_folder = './aml-project'
-
-automl_settings = {
-    "experiment_timeout_minutes": 20,
-    "max_concurrent_iterations": 3,
-    "primary_metric" : 'AUC_weighted'
-}
-
-automl_config = AutoMLConfig(compute_target=compute_target,
-                             task = "classification",
-                             training_data=dataset,
-                             label_column_name="DEATH_EVENT",
-                             path = project_folder,  
-                             enable_early_stopping= True,
-                             featurization= 'auto',
-                             debug_log = "automl_errors.log",
-                             **automl_settings
-                            )
-```
-이제 구성이 설정되었으므로 다음 코드를 사용하여 모델을 훈련할 수 있습니다. 이 단계는 클러스터 크기에 따라 최대 1시간이 소요될 수 있습니다.
-
-```python
-remote_run = experiment.submit(automl_config)
-```
-RunDetails 위젯을 실행하여 다양한 실험을 표시할 수 있습니다.
-```python
-from azureml.widgets import RunDetails
-RunDetails(remote_run).show()
-```
-## 3. Azure ML SDK를 사용한 모델 배포 및 엔드포인트 사용
-
-### 3.1 최고의 모델 저장
-
-[AutoMLRun](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)타입 중 하나인 `remote_run` 객체. 이 객체에는 최상의 실행과 해당하는 적합 모델을 반환하는 `get_output()` 메서드가 포함되어 있습니다.
-
-```python
-best_run, fitted_model = remote_run.get_output()
-```
-fit_model을 출력하기만 하면 최상의 모델에 사용된 매개변수를 볼 수 있고 [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) 메소드를 사용하여 최상의 모델의 속성을 볼 수 있습니다.
-
-```python
-best_run.get_properties()
-```
-
-이제 [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) 방법을 사용해 모델을 등록해봅시다.
-```python
-model_name = best_run.properties['model_name']
-script_file_name = 'inference/score.py'
-best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py')
-description = "aml heart failure project sdk"
-model = best_run.register_model(model_name = model_name,
-                                model_path = './outputs/',
-                                description = description,
-                                tags = None)
-```
-### 3.2 모델 배포
-
-최상의 모델이 저장되면 [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) 클래스를 사용하여 배포할 수 있습니다. InferenceConfig는 배포에 사용되는 사용자 지정 환경에 대한 구성 설정을 나타냅니다. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) 클래스는 웹 서비스로 배포된 기계 학습 모델을 나타냅니다. Azure Container Instances의 엔드포인트. 배포된 서비스는 모델, 스크립트 및 관련 파일에서 생성됩니다. 결과 웹 서비스는 REST API가 있는 로드 밸런싱된 HTTP 엔드포인트입니다. 이 API로 데이터를 보내고 모델에서 반환된 예측을 받을 수 있습니다.
-
-모델은 [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) 방법을 사용하여 배포됩니다.
-
-```python
-from azureml.core.model import InferenceConfig, Model
-from azureml.core.webservice import AciWebservice
-
-inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment())
-
-aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1,
-                                               memory_gb = 1,
-                                               tags = {'type': "automl-heart-failure-prediction"},
-                                               description = 'Sample service for AutoML Heart Failure Prediction')
-
-aci_service_name = 'automl-hf-sdk'
-aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig)
-aci_service.wait_for_deployment(True)
-print(aci_service.state)
-```
-이 과정은 몇 분의 시간이 걸릴 수 있습니다.
-
-### 3.3 Endpoint 소비
-
-샘플 입력을 생성하여 엔드포인트를 사용합니다:
-
-```python
-data = {
-    "data":
-    [
-        {
-            'age': "60",
-            'anaemia': "false",
-            'creatinine_phosphokinase': "500",
-            'diabetes': "false",
-            'ejection_fraction': "38",
-            'high_blood_pressure': "false",
-            'platelets': "260000",
-            'serum_creatinine': "1.40",
-            'serum_sodium': "137",
-            'sex': "false",
-            'smoking': "false",
-            'time': "130",
-        },
-    ],
-}
-
-test_sample = str.encode(json.dumps(data))
-```
-그런 다음 예측을 위해 이 입력을 모델에 보낼 수 있습니다.
-
-```python
-response = aci_service.run(input_data=test_sample)
-response
-```
-이것은 `'{"result": [false]}'`를 출력해야 합니다. 이것은 우리가 끝점에 보낸 환자 입력이 예측 '거짓'을 생성했음을 의미합니다.
-
-축하합니다! Azure ML SDK를 사용하여 Azure ML에 배포 및 학습된 모델을 사용했습니다!
-
-> **_참고:_** 프로젝트가 끝나면 모든 리소스를 삭제하는 것을 잊지 마십시오.
-
-## 🚀 도전
-
- SDK를 통해 수행할 수 있는 다른 많은 작업이 있지만 불행히도 이 강의에서 모두 볼 수는 없습니다. 그러나 좋은 소식은 SDK 문서를 훑어보는 방법을 배우면 스스로 많은 시간을 할애할 수 있다는 것입니다. Azure ML SDK 설명서를 살펴보고 파이프라인을 만들 수 있는 'Pipeline' 클래스를 찾으세요. 파이프라인은 워크플로로 실행할 수 있는 단계 모음입니다.
-
-**힌트:** [SDK 설명서](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) 로 이동합니다. 검색창에 "파이프라인"과 같은 키워드를 입력합니다. 검색 결과에 `azureml.pipeline.core.Pipeline` 클래스가 있어야 합니다.
-
-## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/37)
-
-## 복습 및 독학
-
-이 단원에서는 클라우드에서 Azure ML SDK를 사용하여 심부전 위험을 예측하기 위해 모델을 학습, 배포 및 사용하는 방법을 배웠습니다. 자세한 내용은 이 [문서](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)를 확인하세요. Azure ML SDK에 대해 Azure ML SDK를 사용하여 고유한 모델을 만들어 보세요.
-
-## 과제
-
-[Azure ML SDK를 이용한 Data Science 프로젝트](./assignment.ko.md)
-
-
--- a/5-Data-Science-In-Cloud/19-Azure/translations/assignment.hi.md
+++ b/5-Data-Science-In-Cloud/19-Azure/translations/assignment.hi.md
@ -1,11 +0,0 @@
-# Azure ML SDK का उपयोग करके डेटा विज्ञान परियोजना
-
-## निर्देश
-
-हमने देखा कि एज़्योर एमएल एसडीके के साथ एक मॉडल को प्रशिक्षित करने, तैनात करने और उपभोग करने के लिए एज़्योर एमएल प्लेटफॉर्म का उपयोग कैसे किया जाता है। अब कुछ डेटा के लिए चारों ओर देखें, जिसका उपयोग आप किसी अन्य मॉडल को प्रशिक्षित करने, उसे परिनियोजित करने और उसका उपभोग करने के लिए कर सकते हैं। आप [कागल](https://kaggle.com) और [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958 पर डेटासेट ढूंढ सकते हैं। -bethanycheum&ocid=AID3041109)।
-
-## रूब्रिक
-
-| अनुकरणीय | पर्याप्त | सुधार की जरूरत |
-|-----------|----------|---------------------|
-|ऑटोएमएल कॉन्फ़िगरेशन करते समय, आपने यह देखने के लिए कि आप किन मापदंडों का उपयोग कर सकते हैं, एसडीके दस्तावेज़ीकरण को देखा। आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया, और आपने मॉडल स्पष्टीकरण की जाँच की। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। | आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया, और आपने मॉडल स्पष्टीकरण की जाँच की। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। | आपने Azure ML SDK का उपयोग करके AutoML के माध्यम से डेटासेट पर एक प्रशिक्षण चलाया। आपने सबसे अच्छा मॉडल तैनात किया और आप Azure ML SDK के माध्यम से इसका उपभोग करने में सक्षम थे। |
--- a/5-Data-Science-In-Cloud/19-Azure/translations/assignment.ko.md
+++ b/5-Data-Science-In-Cloud/19-Azure/translations/assignment.ko.md
@ -1,11 +0,0 @@
-# Azure ML SDK를 사용한 데이터 사이언스 프로젝트
-
-## 지침
-
-Azure ML 플랫폼을 사용하여 Azure ML SDK로 모델을 학습, 배포 및 사용하는 방법을 살펴보았습니다. 이제 다른 모델을 학습하고 배포하고 소비하는 데 사용할 수 있는 일부 데이터를 찾아보십시오. [Kaggle](https://kaggle.com) 및 [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)에서 데이터 셋을 찾을 수 있습니다.
-
-## 기준표
-
-| 모범 | 충분 | 개선 필요 |
-|----------|----------|-------|
-|AutoML 구성을 수행할 때 사용할 수 있는 매개변수를 확인하기 위해 SDK 문서를 살펴보았습니다. Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행하고 모델 설명을 확인했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. | Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행하고 모델 설명을 확인했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. | Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. |
--- a/5-Data-Science-In-Cloud/19-Azure/translations/assignment.ne.md
+++ b/5-Data-Science-In-Cloud/19-Azure/translations/assignment.ne.md
@ -1,11 +0,0 @@
-# Azure ML SDK प्रयोग गरेर डाटा विज्ञान परियोजना
-
-## निर्देशन
-
-हामीले Azure ML SDK सँग मोडेललाई तालिम, डिप्लोय, र उपभोग गर्न Azure ML प्लेटफर्म कसरी प्रयोग गर्ने भनेर हेर्यौं। अब केहि डेटा को लागी वरिपरि हेर्नुहोस् जुन तपाईले अर्को मोडेललाई प्रशिक्षित गर्न, प्रयोग गर्न र उपभोग गर्न सक्नुहुन्छ। तपाईंले Kaggle र [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) मा डाटासेट फेला पार्न सक्नुहुन्छ।
-
-## रूब्रिक
-
-|अनुकरणीय | पर्याप्त | सुधारको आवश्यकता |
-
-| AutoML कन्फिगरेसन गरिरहँदा, तपाईंले कुन प्यारामिटरहरू प्रयोग गर्न सक्नुहुन्छ भनी हेर्न SDK कागजात हेर्नुभयो। तपाईंले Azure ML SDK प्रयोग गरेर AutoML मार्फत डेटासेटमा प्रशिक्षण चलाउनुभयो, र तपाईंले मोडेल स्पष्टीकरण जाँच गर्नुभयो। तपाईंले उत्तम मोडेल प्रयोग गर्नुभयो र तपाईं Azure ML SDK मार्फत यसलाई उपभोग गर्न सक्षम हुनुभयो।|तपाईंले Azure ML SDK प्रयोग गरेर AutoML मार्फत डेटासेटमा प्रशिक्षण चलाउनुभयो, र तपाईंले मोडेल स्पष्टीकरण जाँच गर्नुभयो। तपाईंले उत्तम मोडेल प्रयोग गर्नुभयो र तपाईं Azure ML SDK मार्फत यसलाई उपभोग गर्न सक्षम हुनुभयो। | तपाईंले Azure ML SDK प्रयोग गरेर AutoML मार्फत डेटासेटमा प्रशिक्षण दिनुभयो। तपाईंले उत्तम मोडेल प्रयोग गर्नुभयो र तपाईं Azure ML SDK मार्फत यसलाई उपभोग गर्न सक्षम हुनुभयो। |
--- a/5-Data-Science-In-Cloud/translations/README.hi.md
+++ b/5-Data-Science-In-Cloud/translations/README.hi.md
@ -1,20 +0,0 @@
-# क्लाउड में डेटा साइंस
-
-![क्लाउड-चित्र](../images/cloud-picture.jpg)
-
-> [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) से [जेलेके वनूटेघम](https://unsplash.com/@ilumire) द्वारा फोटो।
-
-जब बड़े डेटा के साथ डेटा साइंस करने की बात आती है, तो क्लाउड गेम चेंजर हो सकता है। अगले तीन पाठों में हम यह देखने जा रहे हैं कि क्लाउड क्या है और यह इतना मददगार क्यों हो सकता है। हम हृद्पात (दिल की धड़कन रुकना) के डेटासेट का भी पता लगाने जा रहे हैं और किसी के हृद्पात की संभावना का आकलन करने में मदद करने के लिए एक मॉडल का निर्माण करने जा रहे हैं। हम दो अलग-अलग तरीकों से एक मॉडल को प्रशिक्षित करने, डिप्लॉय करने और उपभोग करने के लिए क्लाउड की शक्ति का उपयोग करेंगे। एक तरीका कम कोड/नो कोड फैशन में केवल यूजर इंटरफेस का उपयोग करके, दूसरा तरीका एज़ूर मशीन लर्निंग सॉफ्टवेयर डेवलपर किट (एज़ूर एमएल एस.डी.के) का उपयोग करके।
-
-![प्रॉजेक्ट-स्कीमा](../19-Azure/images/project-schema.PNG)
-
-### विषय
-
-1. [डेटा साइंस के लिए क्लाउड का उपयोग क्यों करें?](../17-Introduction/README.md)
-2. [क्लाउड में डेटा साइंस: "लो कोड/नो कोड" तरीका](../18-Low-Code/README.md)
-3. [क्लाउड में डेटा साइंस: "एज़ूर एमएल एस.डी.के" तरीका](../19-Azure/README.md)
-
-### आभार सूची
-ये पाठ [मौड लेवी](https://twitter.com/maudstweets) और [टिफ़नी सॉटर्रे](https://twitter.com/TiffanySouterre) द्वारा ☁️ और 💕 के साथ लिखे गए थे।
-
-हार्ट फेल्योर प्रेडिक्शन प्रोजेक्ट के लिए डेटा [कागल](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data) पर [लारक्सेल](https://www.kaggle.com/andrewmvd) से प्राप्त किया गया है। इसे [एट्रिब्यूशन 4.0 इंटरनेशनल (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/) के तहत लाइसेंस दिया गया है।
--- a/Show More
+++ b/Show More