From 9ef827d75b585ebdab1847c8d162e0fdc2da3946 Mon Sep 17 00:00:00 2001 From: sonia-comp Date: Mon, 4 Oct 2021 02:01:50 +0900 Subject: [PATCH 001/140] ko: Introduction base README --- 1-Introduction/translations/README.ko.md | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) create mode 100644 1-Introduction/translations/README.ko.md diff --git a/1-Introduction/translations/README.ko.md b/1-Introduction/translations/README.ko.md new file mode 100644 index 00000000..b7629d7d --- /dev/null +++ b/1-Introduction/translations/README.ko.md @@ -0,0 +1,17 @@ +# 데이터 과학(Data Science) 소개 + +![활용중인 데이터](../images/data.jpg) +> 촬영 작가: Stephen Dawson on Unsplash + +이 수업에서는 데이터 과학이 어떻게 정의되는지 알아보고 데이터 과학자가 고려해야 하는 윤리적인 사항들에 대해 배웁니다. 또한 데이터가 어떻게 정의되는지 배우고 데이터 과학의 핵심 학문 영역인 확률과 통계에 대해서 간단히 배우게 됩니다. + +### 주제 + +1. [데이터 과학 정의](../01-defining-data-science/README.md) +2. [데이터 과학 윤리](../02-ethics/README.md) +3. [데이터 정의](../03-defining-data/README.md) +4. [확률과 통계 소개](../04-stats-and-probability/README.md) + +### 크레딧 + +강의를 제작한 분: [Nitya Narasimhan](https://twitter.com/nitya) 과 [Dmitry Soshnikov](https://twitter.com/shwars) \ No newline at end of file From 174ee0979e27a648dc51e977cde0eae6b7ef0ef3 Mon Sep 17 00:00:00 2001 From: poo Date: Wed, 6 Oct 2021 18:05:51 +0900 Subject: [PATCH 002/140] ko: Working-With-Data base README Signed-off-by: poo --- 2-Working-With-Data/translations/README.ko.md | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) create mode 100644 2-Working-With-Data/translations/README.ko.md diff --git a/2-Working-With-Data/translations/README.ko.md b/2-Working-With-Data/translations/README.ko.md new file mode 100644 index 00000000..b321448b --- /dev/null +++ b/2-Working-With-Data/translations/README.ko.md @@ -0,0 +1,17 @@ +# 데이터작업 + +![데이터 사랑](images/data-love.jpg) +> 촬영작가: Alexander Sinn on Unsplash + +이 수업에서는 응용 프로그램에서 데이터를 관리, 조작 및 사용할 수 있는 여러 방법에 대해 배웁니다. 또한 관계형 및 비관계형 데이터베이스에 대해 배우고 데이터가 이러한 데이터베이스에 어떻게 저장되는지 배웁니다. 파이썬으로 데이터를 다루는 기본 원리를 배우며, 이를 통해 데이터를 관리하고 마이닝(data mining) 할 수 있는 다양한 방법을 발견할 수 있을 것입니다. + +### 주제 + +1. [관계형 데이터베이스](05-relational-databases/README.md) +2. [비관계형 데이터베이스](06-non-relational/README.md) +3. [Python 활용하기](07-python/README.md) +4. [데이터 준비](08-data-preparation/README.md) + +### 크레딧 + +강의를 제작한 분: [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) 와 [Jasmine Greenaway](https://twitter.com/paladique) \ No newline at end of file From bfd7607257a23f26d033887a071fbd5db320258b Mon Sep 17 00:00:00 2001 From: sonia-comp Date: Thu, 7 Oct 2021 00:50:27 +0900 Subject: [PATCH 003/140] ko: Defining Data Science README --- .../translations/README.ko.md | 165 ++++++++++++++++++ 1 file changed, 165 insertions(+) create mode 100644 1-Introduction/01-defining-data-science/translations/README.ko.md diff --git a/1-Introduction/01-defining-data-science/translations/README.ko.md b/1-Introduction/01-defining-data-science/translations/README.ko.md new file mode 100644 index 00000000..c7766027 --- /dev/null +++ b/1-Introduction/01-defining-data-science/translations/README.ko.md @@ -0,0 +1,165 @@ +# 데이터 과학(Data Science) 정의 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)| +|:---:| +|데이터 과학(Data Science) 정의 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +--- + +[![데이터 과학(Data Science) 정의 영상](../images/video-def-ds.png)](https://youtu.be/pqqsm5reGvs) + +## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) + +## 데이터란 무엇인가? +일상 생활에서 우리는 항상 데이터에 둘러싸여 있습니다. 지금 당신이 읽고 있는 이 글, 당신의 스마트폰 안에 있는 친구들의 전화번호 목록도 데이터이며, 시계에 표시되는 현재 시간 역시 마찬가지입니다. 인간으로서 우리는 가지고 있는 돈을 세거나 친구들에게 편지를 쓰면서 자연스럽게 데이터를 조작합니다. + +그러나 데이터는 컴퓨터의 발명과 함께 훨씬 더 중요해졌습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만 컴퓨터에게는 계산할 데이터가 필요합니다. 따라서, 우리는 컴퓨터가 데이터를 저장하고 처리하는 방법을 이해해야 합니다. + +인터넷의 등장으로 데이터 처리 장치로서의 컴퓨터 역할이 증가했습니다. 생각해보면, 우리는 점점 더 컴퓨터를 문자 그대로의 계산보다는 데이터 처리와 통신을 위해 사용하고있습니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 본질적으로 데이터를 생성, 저장, 전송 및 조작을 합니다. +> 마지막으로 컴퓨터를 사용하여 실제로 무엇인가를 계산한 적이 언제인지 기억하십니까? + +## 데이터 과학(data science)란 무엇인가? + +[위키피디아](https://en.wikipedia.org/wiki/Data_science)에서, **데이터 과학**은 *정형 데이터와 비정형 데이터에서 지식과 통찰력을 추출하고 광범위한 어플리케이션 도메인에 걸쳐 데이터에서 지식과 실행가능한 통찰력을 적용하기 위해 과학적 방법을 사용하는 과학 분야*로 정의됩니다. + +이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다: + +* 데이터 과학의 주된 목표는 데이터에서 **지식을 추출**하는 것, 즉, 데이터를 **이해**하고, 숨겨진 관계를 찾고 **모델**을 구축하는 것입니다. +* 데이터 과학은 확률 및 통계와 같은 **과학적 방법**을 사용합니다. 사실 *데이터 과학(data science)*라는 용어가 처음 소개되었을 때, 일부 사람들은 데이터 과학이 통계의 새로운 멋진 이름일 뿐이라고 주장했습니다. 오늘날에는 데이터 과학의 분야가 훨씬 더 광범위하다는 것이 분명해졌습니다. +* 추출한 지식을 적용하여 **실행 가능한 통찰력**을 생성해야 합니다. +* **정형** 및 **비정형** 데이터 모두에서 작업할 수 있어야 합니다. 이 과정의 뒷부분에서 다양한 유형의 데이터에 대해 더 논의할 것입니다. +* **어플리케이션 도메인**은 중요한 개념이며, 데이터 과학자는 종종 문제 도메인(problem domain)에서 최소한 어느 정도의 전문 지식을 필요로 합니다. + +> 데이터 과학의 또 다른 중요한 측면은 컴퓨터를 사용하여 데이터를 수집, 저장 및 운영하는 방법을 연구한다는 것입니다. 통계는 우리에게 수학적인 기초를 제공하지만, 데이터 과학은 수학적 개념을 적용하여 실제로 데이터에서 통찰력을 이끌어냅니다. + +([짐 그레이](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))에 의하면) 데이터 과학을 보는 방법 중 하나는 데이터 과학을 별도의 과학 패러다임으로 간주하는 것입니다: +* **경험적**: 우리는 주로 관찰과 실험 결과에 의존합니다. +* **이론적**: 기존의 과학적 지식에서 새로운 개념이 등장한 것입니다. +* **전산적(Computational)**: 전산적인 실험을 기반으로 새로운 원리를 발견합니다. +* **데이터 기반(Data-Driven)**: 데이터에서 관계와 패턴을 발견하는 것에 기반합니다. + +## 기타 관련 분야 + +데이터는 널리 알려진 개념이기 때문에, 데이터 과학 자체도 다른 많은 관련 분야를 다루는 광범위한 분야입니다. + +
+
데이터베이스(Databases)
+
+우리가 반드시 고려해야 할 것은 데이터를 **저장하는 방법**, 즉, 데이터를 더 빠르게 처리하기 위해 데이터를 구조화하는 방법입니다. 정형 데이터와 비정형 데이터를 저장하는 다양한 유형의 데이터베이스가 있으며, [이 과정에서 그러한 점을 고려할 것입니다.] (../../../2-Working-With-Data/README.md). +
+
빅데이터(Big Data)
+
+종종 우리는 비교적 단순한 구조로 정말 많은 양의 데이터를 저장하고 처리해야 합니다. 데이터를 컴퓨터 클러스터에 분산 방식으로 저장하고 효율적으로 처리하기 위한 특별한 접근 방식과 도구가 있습니다. +
+
머신러닝(Machine Learning)
+
+데이터를 이해하는 방법 중 하나는 원하는 결과를 예측할 수 있는 **모델을 구축**하는 것 입니다. 데이터에서 이러한 모델을 학습할 수 있다는 것은 **머신러닝**에서 연구되는 역역입니다. 이 분야에 대해 자세히 알아보고 싶다면, [초보자를 위한 머신러닝](https://github.com/microsoft/ML-For-Beginners/) 과정을 보실 수 있습니다. +
+
인공지능(Artificial Intelligence)
+
+머신러닝과 마찬가지로, 인공지능도 데이터에 의존하며 인간과 유사항 행동을 보이는 복잡한 모델을 구축해야 합니다. 또한 인공지능 방법을 사용하면 일부 인사이트를 추출하여 비정형 데이터(예: 자연어)를 정형 데이터로 전환할 수 있습니다. +
+
시각화(Visualization)
+
+방대한 양의 데이터는 인간이 이해할 수 없지만, 유용한 시각화를 생성하면, 데이터를 더 잘 이해하고 데이터에서 몇 가지 결론을 도출해낼 수 있습니다. 따라서 정보를 시각화하는 여러 가지 방법을 아는 것이 중요합니다. 이는 우리 과정의 [Section 3](../../../3-Data-Visualization/README.md)에서 다룰 것입니다. 관련 분야에는 일반적으로 **인포그래픽(Infographics)** 및 **인간-컴퓨터 상호작용(Human-Computer Interaction)**도 포함됩니다. +
+
+ +## 데이터 유형 + +이미 언급했던 것처럼 데이터는 어디에나 있으므로, 우리는 데이터를 올바른 방법으로 수집하기만 하면 됩니다! **정형** 데이터와 **비정형** 데이터를 구별하는 것이 유용합니다. 정형 데이터는 일반적으로 잘 구조화된 형식으로, 종종 테이블 또는 테이블 수로 표시되는 반면 비정형 데이터는 파일 모음일 뿐입니다. 크게 다를 수 있는 구조를 가진 **반정형** 데이터에 대해서도 때때로 다룰 것입니다. + +| 정형(Structured) | 반정형(Semi-structured) | 비정형(Unstructured) | +|------------|-----------------|--------------| +| 사람들과 그들의 전화번호 목록 | 위키피디아 페이지와 그 링크 | 브리태니커 백과사전 텍스트 | +| 지난 20년 동안 매 분 마다의 모든 방의 온도 | 저자, 출판 데이터, 초록이 포함된 JSON 형식의 과학 논문 모음 | 기업 문서와 파일 공유 | +| 건물에 출입하는 모든 사람의 연령 및 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원시 비디오 피드 | + +## 데이터를 얻을 수 있는 곳 + +데이터를 얻을 수 있는 소스들은 많고, 모든 소스를 나열하는 것은 불가능합니다! 그러나 데이터를 얻을 수 있는 몇 가지 일반적인 소스들은 이러합니다. + +* **정형(Structured)** + - **사물 인터넷(IoT)**: 온도 또는 압력 센서와 같은 다양한 센서의 데이터를 포함하는 사물 인터넷은 많은 유용한 데이터를 제공합니다. 예를 들어, 사무실 건물에 IoT 센서가 장착되어 있으면 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다. + - **설문조사**: 상품 구매 후 또는 웹사이트 방문 후 사용자에게 묻는 설문조사. + - **행동 분석**: 예를 들어 사용자가 사이트에 얼마나 깊이 들어가고 사이트를 떠나는 일반적인 이유는 무엇인지 이해하는 데 도움이 될 수 있습니다. +* **비정형(Unstructured)** + - **텍스트**: 전반적인 **감정 점수(sentiment score)**에서 시작해서, 키워드 및 의미론적 의미(semantic meaning) 추출에 이르기까지 통찰력을 얻을 수 있는 풍부한 소스가 될 수 있습니다. + - **이미지** 또는 **동영상**: 감시 카메라의 비디오를 사용하여 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 알릴 수 있습니다. + - **로그**: 웹 서버 로그는 당사 사이트에서 가장 많이 방문한 페이지와 시간을 파악하는 데 사용할 수 있습니다. +* 반정형(Semi-structured) + - **소셜 네트워크(Social Network)**: 소셜 네트워크 그래프는 사용자의 성격과 정보 확산의 잠재적 효과에 대한 훌륭한 데이터 소스가 될 수 있습니다. + - **그룹 역학**: 파티에서 찍은 사진이 많을 때 서로 사진을 찍는 사람들의 그래프를 만들어 그룹 역학 데이터를 추출해 볼 수 있습니다. + +다양한 데이터 소스를 알면, 상황을 더 잘 파악하고 비즈니스 프로세스를 개선하기 위해, 데이터 과학 기술을 적용할 수 있는 다양한 시나리오에 대해 생각해 볼 수 있습니다. + +## 데이터로 할 수 있는 일 + +데이터 과학에서는 데이터 여정의 다음 단계에 중점을 둡니다. + +
+
1) 데이터 수집
+
+첫 번째 단계는 데이터를 수집하는 것입니다. 많은 경우 웹 애플리케이션에서 데이터베이스로 오는 데이터와 같이 간단한 프로세스일 수 있지만 때로는 특별한 기술을 사용해야 합니다. 예를 들어 IoT 센서의 데이터는 압도적으로 많을 수 있으며, IoT Hub와 같은 버퍼링 엔드포인트를 사용하여 추가 프로세싱 전에 모든 데이터를 수집하는 것이 좋습니다. +
+
2) 데이터 저장
+
+특히 빅 데이터의 경우에, 데이터를 저장하는 것은 어려울 수 있습니다. 데이터를 저장하는 방법을 결정할 때는 나중에 데이터를 쿼리할 방법을 예상하는 것이 좋습니다. 데이터를 저장할 수 있는 방법에는 여러 가지가 있습니다. +
    +
  • 관계형 데이터베이스는 테이블 모음을 저장하고 SQL이라는 특수 언어를 사용하여 쿼리합니다. 일반적으로 테이블은 어떤 스키마를 사용하여 서로 연결됩니다. 많은 경우 스키마에 맞게 원래 형식의 데이터를 변환해야 합니다.
  • +
  • CosmosDB와 같은 NoSQL 데이터베이스는 데이터에 스키마를 적용하지 않으며, 계층적 JSON 문서 또는 그래프와 같은 더 복잡한 데이터를 저장할 수 있습니다. 그러나 NoSQL 데이터베이스는 SQL의 풍부한 쿼리 기능이 없으며 데이터 간의 참조 무결성을 강제할 수 없습니다.
  • +
  • Data Lake 저장소는 원시 형식(raw form)의 대규모 데이터 저장소로 사용됩니다. 데이터 레이크는 모든 데이터가 하나의 시스템에 들어갈 수 없고 클러스터에서 저장 및 처리를 해야하는 빅 데이터와 함께 사용하는 경우가 많습니다. Parquet은 빅 데이터와 함께 자주 사용되는 데이터 형식입니다.
  • +
+
+
3) 데이처 처리
+
+이 부분은 데이터를 원래 형식에서 시각화/모델 학습에 사용할 수 있는 형식으로 처리하는 것과 관련된, 데이터 여정에서 가장 흥미로운 부분입니다. 텍스트나 이미지와 같은 비정형 데이터를 처리할 때 데이터에서 **특징(features)**을 추출하여 정형화된 형식으로 변환하기 위해 일부 AI 기술을 사용해야 할 수도 있습니다. +
+
4) 시각화(Visualization) / 인간 통찰력(Human Insights)
+
+데이터를 이해하기 위해 우리는 종종 데이터를 시각화해야 합니다. 우리에게는 다양한 시각화 기술이 있으므로 인사이트를 만들어내기 위한 올바른 데이터의 시각화를 찾아낼 수 있습니다. 종종 데이터 과학자는 "데이터를 가지고 노는" 작업을 수행하여 여러 번 시각화하고 관계를 찾아야 합니다. 또한 통계 기술을 사용하여 몇 가지 가설을 테스트하거나 서로 다른 데이터 조각 간의 상관 관계를 증명할 수 있습니다. +
+
5) 예측 모델 학습
+
+데이터 과학의 궁극적인 목표는 데이터를 기반으로 의사 결정을 내리는 것이므로, 문제를 해결할 수 있는 예측 모델을 구축하기 위해 머신러닝 기술을 사용할 수 있습니다. +
+
+ +물론 실제 데이터에 따라 일부 단계가 누락될 수 있거나(예: 데이터베이스에 데이터가 이미 있는 경우 또는 모델 학습이 필요하지 않은 경우) 일부 단계가 여러 번 반복될 수 있습니다(예: 데이터 처리 ). + +## 디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation) + +지난 10년 동안, 많은 기업이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 일부 데이터를 수집해야 합니다. 즉, 어떻게든 비즈니스 프로세스를 디지털 형식으로 전환해야 합니다. 이를 **디지털화(digitalization)**라고 하며, 데이터 과학 기술을 사용하여 결정을 안내하고 종종 생산성(또는 비즈니스 피봇(pivot))이 크게 증가하는 **디지털 트랜스포메이션(Digital Transformation)**을 동반합니다. + +예를 들어 보겠습니다. 우리가 학생들에게 온라인으로 제공하는 데이터 과학 과정(예를 들어 현재 이 과정)이 있고 이를 개선하기 위해 데이터 과학을 사용하려고 한다고 가정해 보겠습니다. 어떻게 할 수 있습니까? + +우리는 "무엇을 디지털화할 수 있는가?"라고 생각하는 것으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간과 획득한 지식을 측정하는 것입니다(예를 들어, 각 모듈의 끝에 객관식 테스트를 제공함으로). 모든 학생의 완료 시간을 평균화하여 어떤 모듈이 학생들에게 가장 많은 문제를 일으키는지 찾아내고 이를 단순화하기 위해 노력할 수 있습니다. + +> 모듈의 길이가 다를 수 있으므로 이 접근 방식이 이상적이지 않다고 주장할 수 있습니다. 시간을 모듈의 길이(문자 수)로 나누고 대신 해당 값을 비교하는 것이 더 공정할 수 있습니다. + +객관식 시험의 결과를 분석하기 시작하면 학생들이 잘 이해하지 못하는 특정 개념을 찾아 내용을 개선할 수 있습니다. 그렇게 하려면 각 질문이 특정 개념이나 지식 덩어리에 매핑되는 방식으로 테스트를 설계해야 합니다. + +더 복잡하게 하려면 학생의 연령 범주에 대해 각 모듈에 소요된 시간을 표시할 수 있습니다. 일부 연령 범주의 경우 모듈을 완료하는 데 부적절하게 오랜 시간이 걸리거나 학생들이 특정 지점에서 중도 탈락한다는 것을 알 수 있습니다. 이를 통해 모듈에 대한 권장 연령을 제공하고 잘못된 기대로 인한 사람들의 불만을 최소화할 수 있습니다. + +## 🚀 챌린지 + +이 챌린지에서는 텍스트에서 데이터 과학 분야와 관련된 개념을 찾으려고 합니다. 데이터 과학에 대한 Wikipedia 기사를 가져와 텍스트를 다운로드 및 처리한 다음 다음과 같은 워드 클라우드를 구축해봅시다. + +![데이터 과학에 대한 워드 클라우드](../images/ds_wordcloud.png) + +[`notebook.ipynb`](../notebook.ipynb)에서 코드를 읽어보세요. 코드를 실행할 수 있고, 실시간으로 모든 데이터 변환을 어떻게 수행하는 지 확인할 수 있습니다. + +> 주피터 노트북(Jupyter Notebook)에서 코드를 어떻게 실행하는 지 잘 모른다면, [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 읽어보세요. + + + +## [강의 후 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) + +## 과제 + +* **Task 1**: **빅 데이터** 및 **머신러닝** 분야에 대한 관련 개념을 찾기 위해 위의 코드를 수정합니다. +* **Task 2**: [데이터 과학 시나리오에 대해 생각하기](../assignment.md) + +## 크레딧 + +강의를 제작한 분: [Dmitry Soshnikov](http://soshnikov.com) \ No newline at end of file From 882294d1f70cc5672c7f763148f8c72b0f2bb967 Mon Sep 17 00:00:00 2001 From: poo Date: Thu, 7 Oct 2021 15:44:07 +0900 Subject: [PATCH 004/140] ko: Relational Databases README(1) Signed-off-by: poo --- .../translations/README.ko.md | 181 ++++++++++++++++++ 1 file changed, 181 insertions(+) create mode 100644 2-Working-With-Data/05-relational-databases/translations/README.ko.md diff --git a/2-Working-With-Data/05-relational-databases/translations/README.ko.md b/2-Working-With-Data/05-relational-databases/translations/README.ko.md new file mode 100644 index 00000000..3bffafc8 --- /dev/null +++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md @@ -0,0 +1,181 @@ +# 데이터 작업: 관계형 데이터베이스 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)| +|:---:| +| 데이터 작업: 관계형 데이터베이스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +과거에 스프레드 시트를 통해 정보를 저장한 경험이 있을 것입니다. 이는 행(rows)과 열(columns)을 가지고 있으며, 행(rows)에는 정보(혹은 데이터)를 나타내고 열(columns)에는 해당 정보(또는 메타데이터)를 정의합니다. 관계형 데이터베이스는 테이블의 행과 열의 핵심 원리를 기반으로 구축되며 여러 테이블에 정보를 분산시킬 수 있습니다. 이를 통해 더 복잡한 데이터를 다룰 수 있을 뿐만 아니라 중복을 방지하고, 데이터 탐색 방식에서 유연성을 가질 수 있습니다. 관계형 데이터베이스의 개념을 좀 더 살펴보겠습니다. + +## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8) + +## 모든 것의 시작 : 테이블(table) + +A relational database has at its core tables. 스프레드 시트와 마찬가지로 테이블은 열과 행으로 이루어져 있습니다. 행에는 도시 이름이나 강우량등의 작업하고자 하는 데이터나 정보를 나타냅니다. 열에는 저장된 데이터에 대한 설명을 나타냅니다. + +그렇다면 이제 실습을 시작해보겠습니다. 우선 도시 정보를 저장하는 테이블을 생성해 보도록 하겠습니다. 아래와 같이 나라와 도시 이름을 저장할 수 있을 것입니다.: + +| City | Country | +| -------- | ------------- | +| Tokyo | Japan | +| Atlanta | United States | +| Auckland | New Zealand | + +**city**, **country** 및 **population**의 열 이름은 저장 중인 데이터를 가리키며, 각 행에는 도시에 대한 정보가 저장되어 있습니다. + +## 단일 테이블의 단점 + +위의 테이블은 비교적 친숙해 보일 수도 있습니다. 이제 데이터베이스에 급증하는 연간 강우량(밀리미터 단위)에 대한 몇가지 데이터를 추가해 보겠습니다. 만약 우리가 2018,2018 그리고 2020년의 데이터를 추가한다면, 다음과 같을 것입니다.: + +| City | Country | Year | Amount | +| ----- | ------- | ---- | ------ | +| Tokyo | Japan | 2020 | 1690 | +| Tokyo | Japan | 2019 | 1874 | +| Tokyo | Japan | 2018 | 1445 | + +테이블에서 뭔가 알아차리셨나요? 도시의 이름과 국가를 계속해서 중복적으로 사용하고 있는 것을 발견했을 것입니다. 이러한 경우 불필요한 복사본을 저장함에 따라 저장소 낭비가 발생하게 됩니다. 결국, Tokyo는 하나만 존재해야 합니다. + +그렇다면 다른 방식으로 접근해 보겠습니다. 각 연도에 대한 새 열을 추가하겠습니다.: + +| City | Country | 2018 | 2019 | 2020 | +| -------- | ------------- | ---- | ---- | ---- | +| Tokyo | Japan | 1445 | 1874 | 1690 | +| Atlanta | United States | 1779 | 1111 | 1683 | +| Auckland | New Zealand | 1386 | 942 | 1176 | + +이러한 방식은 행에 대한 중복을 피할수는 있지만, 몇 가지 해결해야할 과제가 존재합니다. 우선, 새로운 연도가 추가될 때마다 테이블의 구조를 수정해야만 합니다. 또한, 데이터가 증가함에 따라 값을 검색하고 계산하는 것이 더 어려워집니다. + +이것이 여러 테이블의 관계가 필요한 이유입니다. 데이터를 분리함으로써 중복을 방지하고, 데이터를 보다 유연하게 사용할 수 있습니다. + +## 관계의 개념 + +다시 데이터를 보며 어떻게 데이터를 분할할 것인지 결정해 보겠습니다. 이미 우리는 City의 Name과 Country를 저장하는 것이 최선의 방법인 것을 알고 있고, 실제로 가장 잘 동작할 것입니다. + +| City | Country | +| -------- | ------------- | +| Tokyo | Japan | +| Atlanta | United States | +| Auckland | New Zealand | + +하지만 우리가 다음 테이블을 생성하기 이전에, 우리는 각각의 도시를 어떻게 참조할 것인지 생각해 봐야합니다. 구분 지을 수 있는 여러 형태의 식별자,ID 또는 기본키(Primary key)가 필요합니다. 기본키(Primary key)는 테이블에서 특정 행을 식별하는데 사용되는 값입니다. 기본키로 값 자체(ex. 도시 이름)를 사용할 수도 있지만, 대부분 숫자 또는 다른 식별자가 사용됩니다. ID 값이 바뀌면서 관계를 깨뜨릴 수 있기 때문에 대부분 기본키 또는 자동 생성된 번호를 사용합니다. + +> ✅ 기본키(Primary key)는 주로 PK라고 약칭 됩니다. + +### 도시 + +| city_id | City | Country | +| ------- | -------- | ------------- | +| 1 | Tokyo | Japan | +| 2 | Atlanta | United States | +| 3 | Auckland | New Zealand | + +> ✅ 이번 강의에서 우리는 "id"와 "기본키(Primary key)"를 혼용해서 사용하고 있습니다. 이에 대한 자세한 개념은 나중에 살펴볼 데이터 프레임(DataFrames)에 적용됩니다. 데이터 프레임(DataFrames)이 "기본 키"라는 용어를 사용하지는 않지만, 동일한 방식인 것을 알 수 있습니다. + +도시 테이블이 생성되었으니, 강우량 테이블을 만들어 보겠습니다. 도시에 대한 전체 정보를 가져오는 대신, 이제 우리는 id를 사용할 수 있습니다. 모든 테이블은 id 또는 기본 키를 가져야 하므로, 새로 생성되는 테이블도 *id* 열을 가져야 합니다. + +### 강수량 + +| rainfall_id | city_id | Year | Amount | +| ----------- | ------- | ---- | ------ | +| 1 | 1 | 2018 | 1445 | +| 2 | 1 | 2019 | 1874 | +| 3 | 1 | 2020 | 1690 | +| 4 | 2 | 2018 | 1779 | +| 5 | 2 | 2019 | 1111 | +| 6 | 2 | 2020 | 1683 | +| 7 | 3 | 2018 | 1386 | +| 8 | 3 | 2019 | 942 | +| 9 | 3 | 2020 | 1176 | + +새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **왜래 키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. + +> ✅ 외래키(Foreign key)는 주로 FK라고 약칭합니다. + +## 데이터 조회 + +With our data separated into two tables, you may be wondering how we retrieve it. If we are using a relational database such as MySQL, SQL Server or Oracle, we can use a language called Structured Query Language or SQL. SQL (sometimes pronounced sequel) is a standard language used to retrieve and modify data in a relational database. + +To retrieve data you use the command `SELECT`. At its core, you **select** the columns you want to see **from** the table they're contained in. If you wanted to display just the names of the cities, you could use the following: + +```sql +SELECT city +FROM cities; + +-- Output: +-- Tokyo +-- Atlanta +-- Auckland +``` + +`SELECT` is where you list the columns, and `FROM` is where you list the tables. + +> [NOTE] SQL syntax is case-insensitive, meaning `select` and `SELECT` mean the same thing. However, depending on the type of database you are using the columns and tables might be case sensitive. As a result, it's a best practice to always treat everything in programming like it's case sensitive. When writing SQL queries common convention is to put the keywords in all upper-case letters. + +The query above will display all cities. Let's imagine we only wanted to display cities in New Zealand. We need some form of a filter. The SQL keyword for this is `WHERE`, or "where something is true". + +```sql +SELECT city +FROM cities +WHERE country = 'New Zealand'; + +-- Output: +-- Auckland +``` + +## 데이터 조인 + +Until now we've retrieved data from a single table. Now we want to bring the data together from both **cities** and **rainfall**. This is done by *joining* them together. You will effectively create a seam between the two tables, and match up the values from a column from each table. + +In our example, we will match the **city_id** column in **rainfall** with the **city_id** column in **cities**. This will match the rainfall value with its respective city. The type of join we will perform is what's called an *inner* join, meaning if any rows don't match with anything from the other table they won't be displayed. In our case every city has rainfall, so everything will be displayed. + +Let's retrieve the rainfall for 2019 for all our cities. + +We're going to do this in steps. The first step is to join the data together by indicating the columns for the seam - **city_id** as highlighted before. + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +``` + +We have highlighted the two columns we want, and the fact we want to join the tables together by the **city_id**. Now we can add the `WHERE` statement to filter out only year 2019. + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +WHERE rainfall.year = 2019 + +-- Output + +-- city | amount +-- -------- | ------ +-- Tokyo | 1874 +-- Atlanta | 1111 +-- Auckland | 942 +``` + +## 요약 + +Relational databases are centered around dividing information between multiple tables which is then brought back together for display and analysis. This provides a high degree of flexibility to perform calculations and otherwise manipulate data. You have seen the core concepts of a relational database, and how to perform a join between two tables. + +## 🚀 챌린지 + +There are numerous relational databases available on the internet. You can explore the data by using the skills you've learned above. + +## 강의 후 퀴즈 + +## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9) + +## Review & Self Study + +There are several resources available on [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) for you to continue your exploration of SQL and relational database concepts + +- [Describe concepts of relational data](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa) +- [Get Started Querying with Transact-SQL](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (Transact-SQL is a version of SQL) +- [SQL content on Microsoft Learn](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa) + +## 과제 + +[Assignment Title](assignment.md) From 255d2942925b4ea327d654b443e275e0919e9f89 Mon Sep 17 00:00:00 2001 From: sonia-comp Date: Thu, 7 Oct 2021 23:13:13 +0900 Subject: [PATCH 005/140] ko: Vizualization base README --- .../translations/README.ko.md | 32 +++++++++++++++++++ 1 file changed, 32 insertions(+) create mode 100644 3-Data-Visualization/translations/README.ko.md diff --git a/3-Data-Visualization/translations/README.ko.md b/3-Data-Visualization/translations/README.ko.md new file mode 100644 index 00000000..f3980c82 --- /dev/null +++ b/3-Data-Visualization/translations/README.ko.md @@ -0,0 +1,32 @@ +# 시각화 + +![라벤더 꽃 위의 꿀벌](../images/bee.jpg) +> Photo by Jenna Lee on Unsplash + + +데이터 시각화는 데이터 과학자의 가장 중요한 작업 중 하나입니다. 이미지는 1000 단어의 가치가 있으며 시각화는 급증, 이상값, 그룹화, 경향 등과 같은 데이터의 모든 흥미로운 부분을 식별하는 데 도움이 되어 데이터가 전달하려는 이야기를 이해하는 데 도움이 됩니다. + +이 다섯 개의 수업에서는 자연에서 얻은 데이터를 탐색하고, 다양한 기술을 사용하여 흥미롭고 아름다운 시각화를 만들어봅시다. +### 주제 + +1. [수량 시각화](../09-visualization-quantities/README.md) +2. [분포 시각화](../10-visualization-distributions/README.md) +3. [비율 시각화](../11-visualization-proportions/README.md) +4. [관계 시각화](../12-visualization-relationships/README.md) +5. [의미있는 시각화 만들기](../13-meaningful-visualizations/README.md) + +### 크레딧 + +강의를 만드신 분: [Jen Looper](https://twitter.com/jenlooper) + +🍯 미국 꿀 생산에 대한 데이터는 [Kaggle](https://www.kaggle.com/jessicali9530/honey-production)의 Jessica Li의 프로젝트에서 제공되는 것입니다. 이 [데이터](https://usda.library.cornell.edu/concern/publications/rn301137d)는 [미국 농무부](https://www.nass.usda.gov/About_NASS/index.php)에서 만들어졌습니다. + +🍄 버섯에 대한 데이터 역시 [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset)에서 제공되었고, Hatteras Dunton이 수정했습니다. 이 데이터 셋에는 Agaricus 및 Lepiota 과에 속하는 23종의 주름 버섯목에 해당하는 가상 샘플에 대한 설명이 포함되어 있습니다. 버섯에 대한 정보는 'The Audubon Society Field Guide to North American Mushrooms(1981)'에서 발췌했습니다. 이 데이터 셋은 1987년 UCI ML 27에 기증되었습니다. + +🦆 Minnesota 새에 대한 데이터는 Hannah Collins가 [위키피디아](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota)에서 스크랩한 [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) 데이터 입니다. + +모든 데이터 셋에는 [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) 라이선스가 부여됩니다. + + + + From c30d528673e612b5c9bebdc08fc17e751b991f4f Mon Sep 17 00:00:00 2001 From: poo Date: Wed, 13 Oct 2021 17:57:13 +0900 Subject: [PATCH 006/140] ko: Relational Databases README(2) Signed-off-by: poo --- .../translations/README.ko.md | 42 +++++++++---------- 2-Working-With-Data/translations/README.ko.md | 2 +- 2 files changed, 22 insertions(+), 22 deletions(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.ko.md b/2-Working-With-Data/05-relational-databases/translations/README.ko.md index 3bffafc8..1ec53461 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.ko.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md @@ -1,6 +1,6 @@ # 데이터 작업: 관계형 데이터베이스 -|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)| +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/05-RelationalData.png)| |:---:| | 데이터 작업: 관계형 데이터베이스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | @@ -86,15 +86,15 @@ A relational database has at its core tables. 스프레드 시트와 마찬가 | 8 | 3 | 2019 | 942 | | 9 | 3 | 2020 | 1176 | -새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **왜래 키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. +새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래 키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. > ✅ 외래키(Foreign key)는 주로 FK라고 약칭합니다. ## 데이터 조회 -With our data separated into two tables, you may be wondering how we retrieve it. If we are using a relational database such as MySQL, SQL Server or Oracle, we can use a language called Structured Query Language or SQL. SQL (sometimes pronounced sequel) is a standard language used to retrieve and modify data in a relational database. +데이터가 두개의 테이블로 분리되어 있을때는, 어떻게 데이터를 검색할까요?. 만약 우리가 MYSQL, SQL Server, Oracle과 같은 관계형 데이터베이스를 사용하는 경우, 우리는 구조화된 질의언어 혹은 SQL을 사용할 수 있습니다 . SQL("에스큐엘"이라고 발음된다.)은 관계형 데이터베이스에서 데이터를 검색하고 수정하는 데 사용되는 표준 언어입니다. -To retrieve data you use the command `SELECT`. At its core, you **select** the columns you want to see **from** the table they're contained in. If you wanted to display just the names of the cities, you could use the following: +데이터를 검색할 때는 `SELECT` 명령어를 사용합니다. 핵심은 데이터가 담긴 테이블에서(**from**) 찾고자 하는 열을 검색(**select**)하는 것입니다. 만약 도시의 이름만 보이고 싶다면, 다음 내용을 따라하세요: ```sql SELECT city @@ -106,11 +106,11 @@ FROM cities; -- Auckland ``` -`SELECT` is where you list the columns, and `FROM` is where you list the tables. +`SELECT`는 열의 집합이라면, `FROM`은 테이블의 집합이라고 할 수 있습니다. -> [NOTE] SQL syntax is case-insensitive, meaning `select` and `SELECT` mean the same thing. However, depending on the type of database you are using the columns and tables might be case sensitive. As a result, it's a best practice to always treat everything in programming like it's case sensitive. When writing SQL queries common convention is to put the keywords in all upper-case letters. +> [주의] SQL 문법은 대소문자를 구분하지 않으며, `select`와 `SELECT`는 서로 같습니다. 그러나, 데이터베이스의 타입에 따라 열과 테이블은 대소문자를 구분할 수도 있습니다. 따라서, 대소문자를 구분해 프로그래밍하는 것이 좋습니다. SQL 쿼리를 작성할 때 키워드를 대문자로 적는 것이 원칙입니다. -The query above will display all cities. Let's imagine we only wanted to display cities in New Zealand. We need some form of a filter. The SQL keyword for this is `WHERE`, or "where something is true". +위의 예시 쿼리는 모든 도시를 나타냅니다. 여기서 뉴질랜드(New Zealand)의 도시만 보여주고 싶다면 어떻게 할까요? 사용할 키워드는 `WHERE`, 혹은 "where something is true" 입니다. ```sql SELECT city @@ -123,13 +123,13 @@ WHERE country = 'New Zealand'; ## 데이터 조인 -Until now we've retrieved data from a single table. Now we want to bring the data together from both **cities** and **rainfall**. This is done by *joining* them together. You will effectively create a seam between the two tables, and match up the values from a column from each table. +우리는 이전까지 단일 테이블에서 데이터를 검색했습니다. 이제 도시(**city**)와 강수량(**rainfall**)의 데이터를 하나로 통합해 보여주려 합니다. 이것은 데이터 *조인*을 통해서 할 수 있습니다. 데이터 조인은 두개의 다른 테이블의 열을 일치시킴으로써 효과적으로 이어줍니다. -In our example, we will match the **city_id** column in **rainfall** with the **city_id** column in **cities**. This will match the rainfall value with its respective city. The type of join we will perform is what's called an *inner* join, meaning if any rows don't match with anything from the other table they won't be displayed. In our case every city has rainfall, so everything will be displayed. +예를들어, 강수량(**rainfall) 테이블의 **city_id** 열과 도시(**city**) 테이블의 **city_id** 열을 매칭할 수 있습니다. 조인을 통해 각 도시들과 그에 맞는 강수량을 매칭할 것입니다. 여러 조인의 종류 중에서 먼저 다룰 것은 *inner* 조인입니다. *inner* 조인은 테이블간의 행이 정확하게 일치하지 않으면 표시되지 않습니다. 위의 예시의 경우 모든 도시에 비가 내리므로, 모든 행이 표시될 것입니다. -Let's retrieve the rainfall for 2019 for all our cities. +그렇다면 모든 도시의 2019년 강수량을 보겠습니다. -We're going to do this in steps. The first step is to join the data together by indicating the columns for the seam - **city_id** as highlighted before. +첫번째로 이전에 강조했던 **city_id** 열을 매칭해 데이터를 결합하겠습니다. ```sql SELECT cities.city @@ -138,7 +138,7 @@ FROM cities INNER JOIN rainfall ON cities.city_id = rainfall.city_id ``` -We have highlighted the two columns we want, and the fact we want to join the tables together by the **city_id**. Now we can add the `WHERE` statement to filter out only year 2019. +같은 **city_id**값과 함께 테이블 명을 명시함으로써, 테이블 조인에 핵심적인 열을 강조했습니다. 이제 `WHERE` 구문을 추가해 2019년만 검색해 보겠습니다. ```sql SELECT cities.city @@ -158,24 +158,24 @@ WHERE rainfall.year = 2019 ## 요약 -Relational databases are centered around dividing information between multiple tables which is then brought back together for display and analysis. This provides a high degree of flexibility to perform calculations and otherwise manipulate data. You have seen the core concepts of a relational database, and how to perform a join between two tables. +관계형 데이터 베이스는 여러 테이블 간에 정보를 분산시키며, 데이터 분석과 검색을 위해 결합됩니다. 계산을 수행할때나 조작할때 높은 유연성을 보장하는 것이 장점입니다. 지금까지 관계형 데이터베이스의 핵심 개념과 두 테이블 간의 조인을 수행하는 방법을 살펴보았습니다. ## 🚀 챌린지 -There are numerous relational databases available on the internet. You can explore the data by using the skills you've learned above. +인터넷에는 수많은 관계형 데이터베이스가 있습니다. 위에서 배운 내용과 기술을 토대로 이제 데이터를 자유롭게 다룰 수 있습니다. ## 강의 후 퀴즈 -## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9) +## [강의 후 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/9) -## Review & Self Study +## 리뷰 & 복습 -There are several resources available on [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa) for you to continue your exploration of SQL and relational database concepts +[Microsoft 학습](https://docs.microsoft.com/learn?WT.mc_id=academic-40229-cxa)에 SQL 및 관계형 데이터베이스 개념에 대한 학습을 계속할 수 있는 자료들이 있습니다. -- [Describe concepts of relational data](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa) -- [Get Started Querying with Transact-SQL](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (Transact-SQL is a version of SQL) -- [SQL content on Microsoft Learn](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa) +- [관계형 데이터의 개념 설명](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-40229-cxa) +- [Transact-SQL로 시작하는 쿼리](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-40229-cxa) (Transact-SQL SQL의 버전이다.) +- [Microsoft 학습의 SQL 콘텐츠](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-40229-cxa) ## 과제 -[Assignment Title](assignment.md) +[과제](assignment.md) diff --git a/2-Working-With-Data/translations/README.ko.md b/2-Working-With-Data/translations/README.ko.md index b321448b..7c294d53 100644 --- a/2-Working-With-Data/translations/README.ko.md +++ b/2-Working-With-Data/translations/README.ko.md @@ -1,6 +1,6 @@ # 데이터작업 -![데이터 사랑](images/data-love.jpg) +![데이터 사랑](../images/data-love.jpg) > 촬영작가: Alexander Sinn on Unsplash 이 수업에서는 응용 프로그램에서 데이터를 관리, 조작 및 사용할 수 있는 여러 방법에 대해 배웁니다. 또한 관계형 및 비관계형 데이터베이스에 대해 배우고 데이터가 이러한 데이터베이스에 어떻게 저장되는지 배웁니다. 파이썬으로 데이터를 다루는 기본 원리를 배우며, 이를 통해 데이터를 관리하고 마이닝(data mining) 할 수 있는 다양한 방법을 발견할 수 있을 것입니다. From f12d5ca1ed8fcc1c83f19cff26d4dc12b0baa7bf Mon Sep 17 00:00:00 2001 From: poo Date: Wed, 13 Oct 2021 18:02:09 +0900 Subject: [PATCH 007/140] ko: fix Relational Databases README(2) Signed-off-by: poo --- .../05-relational-databases/translations/README.ko.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.ko.md b/2-Working-With-Data/05-relational-databases/translations/README.ko.md index 1ec53461..22051b29 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.ko.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md @@ -6,7 +6,7 @@ 과거에 스프레드 시트를 통해 정보를 저장한 경험이 있을 것입니다. 이는 행(rows)과 열(columns)을 가지고 있으며, 행(rows)에는 정보(혹은 데이터)를 나타내고 열(columns)에는 해당 정보(또는 메타데이터)를 정의합니다. 관계형 데이터베이스는 테이블의 행과 열의 핵심 원리를 기반으로 구축되며 여러 테이블에 정보를 분산시킬 수 있습니다. 이를 통해 더 복잡한 데이터를 다룰 수 있을 뿐만 아니라 중복을 방지하고, 데이터 탐색 방식에서 유연성을 가질 수 있습니다. 관계형 데이터베이스의 개념을 좀 더 살펴보겠습니다. -## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8) +## [강의 전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/8) ## 모든 것의 시작 : 테이블(table) @@ -86,7 +86,7 @@ A relational database has at its core tables. 스프레드 시트와 마찬가 | 8 | 3 | 2019 | 942 | | 9 | 3 | 2020 | 1176 | -새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래 키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. +새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. > ✅ 외래키(Foreign key)는 주로 FK라고 약칭합니다. @@ -125,7 +125,7 @@ WHERE country = 'New Zealand'; 우리는 이전까지 단일 테이블에서 데이터를 검색했습니다. 이제 도시(**city**)와 강수량(**rainfall**)의 데이터를 하나로 통합해 보여주려 합니다. 이것은 데이터 *조인*을 통해서 할 수 있습니다. 데이터 조인은 두개의 다른 테이블의 열을 일치시킴으로써 효과적으로 이어줍니다. -예를들어, 강수량(**rainfall) 테이블의 **city_id** 열과 도시(**city**) 테이블의 **city_id** 열을 매칭할 수 있습니다. 조인을 통해 각 도시들과 그에 맞는 강수량을 매칭할 것입니다. 여러 조인의 종류 중에서 먼저 다룰 것은 *inner* 조인입니다. *inner* 조인은 테이블간의 행이 정확하게 일치하지 않으면 표시되지 않습니다. 위의 예시의 경우 모든 도시에 비가 내리므로, 모든 행이 표시될 것입니다. +예를들어, 강수량(**rainfall**) 테이블의 **city_id** 열과 도시(**city**) 테이블의 **city_id** 열을 매칭할 수 있습니다. 조인을 통해 각 도시들과 그에 맞는 강수량을 매칭할 것입니다. 여러 조인의 종류 중에서 먼저 다룰 것은 *inner* 조인입니다. *inner* 조인은 테이블간의 행이 정확하게 일치하지 않으면 표시되지 않습니다. 위의 예시의 경우 모든 도시에 비가 내리므로, 모든 행이 표시될 것입니다. 그렇다면 모든 도시의 2019년 강수량을 보겠습니다. From e0a6b88e991af9d8a797dcbdd343f0f00beb63b0 Mon Sep 17 00:00:00 2001 From: poo Date: Wed, 13 Oct 2021 18:03:46 +0900 Subject: [PATCH 008/140] Fix typo Signed-off-by: poo --- .../05-relational-databases/translations/README.ko.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/2-Working-With-Data/05-relational-databases/translations/README.ko.md b/2-Working-With-Data/05-relational-databases/translations/README.ko.md index 22051b29..1e2ccf83 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.ko.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md @@ -86,7 +86,7 @@ A relational database has at its core tables. 스프레드 시트와 마찬가 | 8 | 3 | 2019 | 942 | | 9 | 3 | 2020 | 1176 | -새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래키(foreign key)**라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. +새롭게 생성된 **강수량** 테이블의 **city_id** 열이 추가 되었습니다. 이 열은 **cities** 테이블의 참조 값(reference id)을 나타냅니다. 기술적 용어로 이것을, **외래키**(foreign key)라고 부릅니다; 이는 다른 테이블의 기본키입니다. 참조나 포인터의 개념이라고 생각할 수 있습니다. **city_id** 1은 Tokyo를 참조합니다. > ✅ 외래키(Foreign key)는 주로 FK라고 약칭합니다. From 07ff5965181ff6e4332446f8b0d2ee25b6d840df Mon Sep 17 00:00:00 2001 From: poo Date: Thu, 14 Oct 2021 15:56:02 +0900 Subject: [PATCH 009/140] ko:06-non-Relational README(1) Signed-off-by: poo --- .../translations/README.ko.md | 6 +- .../translations/README.ko.md | 150 ++++++++++++++++++ 2 files changed, 153 insertions(+), 3 deletions(-) create mode 100644 2-Working-With-Data/06-non-relational/translations/README.ko.md diff --git a/2-Working-With-Data/05-relational-databases/translations/README.ko.md b/2-Working-With-Data/05-relational-databases/translations/README.ko.md index 1e2ccf83..cf77a3bb 100644 --- a/2-Working-With-Data/05-relational-databases/translations/README.ko.md +++ b/2-Working-With-Data/05-relational-databases/translations/README.ko.md @@ -1,8 +1,8 @@ -# 데이터 작업: 관계형 데이터베이스 +# 데이터 처리: 관계형 데이터베이스 |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/05-RelationalData.png)| |:---:| -| 데이터 작업: 관계형 데이터베이스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | +| 데이터 처리: 관계형 데이터베이스 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | 과거에 스프레드 시트를 통해 정보를 저장한 경험이 있을 것입니다. 이는 행(rows)과 열(columns)을 가지고 있으며, 행(rows)에는 정보(혹은 데이터)를 나타내고 열(columns)에는 해당 정보(또는 메타데이터)를 정의합니다. 관계형 데이터베이스는 테이블의 행과 열의 핵심 원리를 기반으로 구축되며 여러 테이블에 정보를 분산시킬 수 있습니다. 이를 통해 더 복잡한 데이터를 다룰 수 있을 뿐만 아니라 중복을 방지하고, 데이터 탐색 방식에서 유연성을 가질 수 있습니다. 관계형 데이터베이스의 개념을 좀 더 살펴보겠습니다. @@ -10,7 +10,7 @@ ## 모든 것의 시작 : 테이블(table) -A relational database has at its core tables. 스프레드 시트와 마찬가지로 테이블은 열과 행으로 이루어져 있습니다. 행에는 도시 이름이나 강우량등의 작업하고자 하는 데이터나 정보를 나타냅니다. 열에는 저장된 데이터에 대한 설명을 나타냅니다. +관계형 데이터베이스는 테이블을 가지며, 스프레드 시트와 마찬가지로 열과 행으로 이루어져 있습니다. 행에는 도시 이름이나 강우량등의 작업하고자 하는 데이터나 정보를 나타냅니다. 열에는 저장된 데이터에 대한 설명을 나타냅니다. 그렇다면 이제 실습을 시작해보겠습니다. 우선 도시 정보를 저장하는 테이블을 생성해 보도록 하겠습니다. 아래와 같이 나라와 도시 이름을 저장할 수 있을 것입니다.: diff --git a/2-Working-With-Data/06-non-relational/translations/README.ko.md b/2-Working-With-Data/06-non-relational/translations/README.ko.md new file mode 100644 index 00000000..d4aea0a5 --- /dev/null +++ b/2-Working-With-Data/06-non-relational/translations/README.ko.md @@ -0,0 +1,150 @@ +# 데이터 처리: 비-관계형 데이터 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/06-NoSQL.png)| +|:---:| +|데이터 처리: NoSQL 데이터 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [강의 전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/10) + +데이터는 관계형 데이터베이스에만 국한되지 않습니다. 이 과정을 통해 비-관계형 데이터에 초점을 맞춰 스프레드시트와 NoSQL의 기초에 대해 설명하겠습니다. + +## 스프레드시트 + +스프레드시트는 설정 및 시작에 필요한 작업량이 적기 때문에 데이터를 저장하거나 탐색하는 일반적인 방법입니다. 이 과정에서는 공식 및 함수뿐만 아니라 스프레드시트의 기본 구성요소에 대해 알아보겠습니다. 예시들은 Microsoft Excel에서 다룰 것이며, 대부분의 다른 스프레드시트 소프트웨어 또한 유사한 이름과 단계들을 가지고 있습니다. + +![An empty Microsoft Excel workbook with two worksheets](../images/parts-of-spreadsheet.png) + +스프레드시트는 하나의 파일이며, 컴퓨터, 장치, 클라우드 기반 파일 시스템에서 접근할 수 있습니다. 소프트웨어 자체로써 브라우저 기반이거나 컴퓨터나 앱에서 다운로드해야 하는 응용 프로그램일 수도 있습니다. 엑셀에서 이러한 파일은 **워크북**이라고 적의되며, 이 과정의 나머지 부분에서 다시 설명하도록 하겠습니다. + +워크북은 하나 이상의 **워크시트**가 포함되며, 각 워크시트에는 탭으로 레이블이 지정됩니다. 워크시트에는 **셀**이라 불리는 사각형이 있고, 실제 데이터가 여기에 들어가게 됩니다. 셀은 행과 열의 교차하며 열에는 알파벳 문자의 레이블, 행에는 숫자 레이블이 지정됩니다. 일부 스프레드시트는 처음 몇 행에 셀의 데이터를 설명하는 머릿글이 위치할 수도 있습니다. + +엑셀 워크북의 기본 요소를 사용하며 스프레드시트의 몇가지 추가적인 기능을 살펴보기 위해서, 재고를 다루는 [마이크로소프트 템플릿](https://templates.office.com/)에서 제공하는 몇 가지 예제를 사용하겠습니다. + +### 재고 관리 + +"재고 예시"라는 스프레드시트 파일은 세 개의 워크시트를 가지고 있는 재고 목록의 형식화된 스프레드시트입니다. 탭에는 "재고 목록", "선택한 재고 목록", "Bin 조회" 레이블을 가지고 있습니다. 재고 목록 워크시트의 4행은 각 셀의 값을 설명하는 머리글입니다. + +![A highlighted formula from an example inventory list in Microsoft Excel](../images/formula-excel.png) + +위의 예시 중 어떤 셀은 값을 생성하기 위해 다른 셀의 값에 의존하기도 합니다. 재고 목록 스프레드시트는 재고에 대한 단가는 가지고 있지만, 만약 우리가 재고의 전체적인 비용을 알아야 한다면 어떻게 할까? 이 예에서 [**공식**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) 셀 데이터에 대해 계산을 수행하고 재고 비용을 계산하는 데 사용됩니다. 이 스프레드시트는 재고 비용 열의 공식을 사용해 QTY 헤더에 따른 수량과 COST 헤더에 따른 단가를 곱해 각 항목의 값을 계산했습니다. 셀을 두 번 클릭하거나 강조 표시하면 공식이 표시됩니다. 공식은 등호 다음에 계산 또는 연산으로 시작합니다. + +![A highlighted function from an example inventory list in Microsoft Excel](../images/function-excel.png) + +우리는 재고 비용의 모든 값을 더한 총 합계를 구하기 위해 다른 공식을 사용할 수도 있습니다. 총 합계를 계산하기 위해 각각의 셀을 추가해 계산할 수도 있지만, 이것은 너무 지루한 작업입니다. 이 같은 문제를 해결하기 위해 엑셀은 [**함수**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), 또는 셀 값에 대한 계산을 수행하기 위한 사전에 정의된 공식을 가지고 있습니다. 함수는 이러한 계산을 수행하는 데 필요한 값인 인수가 필요합니다. 함수에 둘 이상의 인수가 필요한 경우, 인수가 특정 순서로 나열되지 않는다면 올바른 값이 도출되지 않을 수 있습니다. 이 예제에서는 SUM 함수를 사용하겠습니다. 재고 값들을 인수로 사용해, 3행 B열(또는 B3)에 나열된 합계를 추가합니다. + +## NoSQL + +NoSQL은 비관계적 데이터를 저장하는 다양한 방법을 포괄적으로 지칭하는 용어이며, "비SQL", "비-관계적" 또는 "SQL의 확장"으로 해석될 수 있다. 이러한 유형의 데이터베이스 시스템은 4가지 유형으로 분류할 수 있습니다. + +![Graphical representation of a key-value data store showing 4 unique numerical keys that are associated with 4 various values](../images/kv-db.png) +> 출처: [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) + +[키-값](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) databases pair unique keys, which are a unique identifier associated with a value. These pairs are stored using a [hash table](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) with an appropriate hashing function. + + +![Graphical representation of a graph data store showing the relationships between people, their interests and locations](../images/graph-db.png) +> 출처: [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) + +[그래프](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) databases describe relationships in data and are represented as a collection of nodes and edges. A node represents an entity, something that exists in the real world such as a student or bank statement. Edges represent the relationship between two entities Each node and edge have properties that provides additional information about each node and edges. + +![Graphical representation of a columnar data store showing a customer database with two column families named Identity and Contact Info](../images/columnar-db.png) + +[열 기반](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) data stores organizes data into columns and rows like a relational data structure but each column is divided into groups called a column family, where the all the data under one column is related and can be retrieved and changed in one unit. + + +### Document Data Stores with the Azure Cosmos DB + +[Document](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) data stores build on the concept of a key-value data store and is made up of a series of fields and objects. This section will explore document databases with the Cosmos DB emulator. + +A Cosmos DB database fits the definition of "Not Only SQL", where Cosmos DB's document database relies on SQL to query the data. The [previous lesson](../../05-relational-databases/README.md) on SQL covers the basics of the language, and we'll be able to apply some of the same queries to a document database here. We'll be using the Cosmos DB Emulator, which allows us to create and explore a document database locally on a computer. Read more about the Emulator [here](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21). + +A document is a collection of fields and object values, where the fields describe what the object value represents. Below is an example of a document. + +```json +{ + "firstname": "Eva", + "age": 44, + "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5", + "_rid": "bHwDAPQz8s0BAAAAAAAAAA==", + "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"", + "_attachments": "attachments/", + "_ts": 1630544034 +} +``` + +The fields of interest in this document are: `firstname`, `id`, and `age`. The rest of the fields with the underscores were generated by Cosmos DB. + +#### Exploring Data with the Cosmos DB Emulator + +You can download and install the emulator [for Windows here](https://aka.ms/cosmosdb-emulator). Refer to this [documentation](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) for options on how to run the Emulator for macOS and Linux. + +The Emulator launches a browser window, where the Explorer view allows you to explore documents. + +![The Explorer view of the Cosmos DB Emulator](images/cosmosdb-emulator-explorer.png) + +If you're following along, click on "Start with Sample" to generate a sample database called SampleDB. If you expand Sample DB by clicking on the arrow you'll find a container called `Persons`, a container holds a collection of items, which are the documents within the container. You can explore the four individual documents under `Items`. + +![Exploring sample data in the Cosmos DB Emulator](images/cosmosdb-emulator-persons.png) + +#### Querying Document Data with the Cosmos DB Emulator + +We can also query the sample data by clicking on the new SQL Query button (second button from the left). + +`SELECT * FROM c` returns all the documents in the container. Let's add a where clause and find everyone younger than 40. + +`SELECT * FROM c where c.age < 40` + + ![Running a SELECT query on sample data in the Cosmos DB Emulator to find documents that have an age field value that is less than 40](images/cosmosdb-emulator-persons-query.png) + +The query returns two documents, notice the age value for each document is less than 40. + +#### JSON and Documents + +If you're familiar with JavaScript Object Notation (JSON) you'll notice that documents look similar to JSON. There is a `PersonsData.json` file in this directory with more data that you may upload to the Persons container in the Emulator via the `Upload Item` button. + +In most instances, APIs that return JSON data can be directly transferred and stored in document databases. Below is another document, it represents tweets from the Microsoft Twitter account that was retrieved using the Twitter API, then inserted into Cosmos DB. + +```json +{ + "created_at": "2021-08-31T19:03:01.000Z", + "id": "1432780985872142341", + "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK", + "_rid": "dhAmAIUsA4oHAAAAAAAAAA==", + "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"", + "_attachments": "attachments/", + "_ts": 1630537000 +``` + +The fields of interest in this document are: `created_at`, `id`, and `text`. + +## 🚀 Challenge + + +There is a `TwitterData.json` file that you can upload to the SampleDB database. It's recommended that you add it to a separate container. This can be done by: + +1. Clicking the new container button in the top right +1. Selecting the existing database (SampleDB) creating a container id for the container +1. Setting the partition key to `/id` +1. Clicking OK (you can ignore rest of the information in this view as this is a small dataset running locally on your machine) +1. Open your new container and upload the Twitter Data file with `Upload Item` button + +Try to run a few select queries to find the documents that have Microsoft in the text field. Hint: try to use the [LIKE keyword](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character) + + +## [Post-Lecture Quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/11) + + + +## Review & Self Study + +- There are some additional formatting and features added to this spreadsheet that this lesson does not cover. Microsoft has a [large library of documentation and videos](https://support.microsoft.com/excel) on Excel if you're interested in learning more. + +- This architectural documentation details the characteristics in the different types of non-relational data: [Non-relational Data and NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data) + +- Cosmos DB is a cloud based non-relational database that can also store the different NoSQL types mentioned in this lesson. Learn more about these types in this [Cosmos DB Microsoft Learn Module](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/) + +## Assignment + +[Soda Profits](assignment.md) From aad92567e8b4fcc308a699484614c7dad3e41773 Mon Sep 17 00:00:00 2001 From: Floor Drees Date: Sun, 31 Oct 2021 22:27:46 +0100 Subject: [PATCH 010/140] Add NL translation project README Loving this curriculum! --- translations/README.nl.md | 115 ++++++++++++++++++++++++++++++++++++++ 1 file changed, 115 insertions(+) create mode 100644 translations/README.nl.md diff --git a/translations/README.nl.md b/translations/README.nl.md new file mode 100644 index 00000000..e5220328 --- /dev/null +++ b/translations/README.nl.md @@ -0,0 +1,115 @@ +# Data Science voor Beginners - Een curriculum + +[![GitHub license](https://img.shields.io/github/license/microsoft/Data-Science-For-Beginners.svg)](https://github.com/microsoft/Data-Science-For-Beginners/blob/master/LICENSE) +[![GitHub contributors](https://img.shields.io/github/contributors/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/) +[![GitHub issues](https://img.shields.io/github/issues/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/issues/) +[![GitHub pull-requests](https://img.shields.io/github/issues-pr/microsoft/Data-Science-For-Beginners.svg)](https://GitHub.com/microsoft/Data-Science-For-Beginners/pulls/) +[![PRs Welcome](https://img.shields.io/badge/PRs-welcome-brightgreen.svg?style=flat-square)](http://makeapullrequest.com) + +[![GitHub watchers](https://img.shields.io/github/watchers/microsoft/Data-Science-For-Beginners.svg?style=social&label=Watch)](https://GitHub.com/microsoft/Data-Science-For-Beginners/watchers/) +[![GitHub forks](https://img.shields.io/github/forks/microsoft/Data-Science-For-Beginners.svg?style=social&label=Fork)](https://GitHub.com/microsoft/Data-Science-For-Beginners/network/) +[![GitHub stars](https://img.shields.io/github/stars/microsoft/Data-Science-For-Beginners.svg?style=social&label=Star)](https://GitHub.com/microsoft/Data-Science-For-Beginners/stargazers/) + + +Met groot genoegen bieden Azure Cloud Advocates bij Microsoft dit curriculum van 10 weken en 20 lessen aan over data science (datawetenschap). Elke les bevat quizzen voor en na de les, schriftelijke instructies om de les te voltooien, een oplossing en een opdracht. Onze projectmatige pedagogiek stelt je in staat om te leren tijdens het bouwen, een bewezen manier om nieuwe vaardigheden te laten 'plakken'. + + +**Met dank aan de auteurs:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer). + +**🙏 Speciale dank 🙏 gaat uit naar onze [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) auteurs, proeflezers en "meedenkers",** notably Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), +[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), Tauqeer Ahmad, Yogendrasingh Pawar + +|![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](./sketchnotes/00-Title.png)| +|:---:| +| Data Science voor Beginners - _Sketchnote door [@nitya](https://twitter.com/nitya)_ | + + +# Start + +> **Leerkrachten**: we hebben [suggesties bijgevoegd](for-teachers.md) over het gebruik van dit curriculum. We staan open voor uw feedback [in ons discussie forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)! + +> **Studenten, leerlingen**: "fork" om dit lesmateriaal te gebruiken de gehele folder, en werk op eigen kracht door de opdrachten. Start steeds met de quiz vooraf. Lees dan de lezing en volg de rest van de opdrachten. Probeer de projecten te voltooien zonder de oplossing een-op-een te kopiëren; maar weet dat de oplossing in de /solutions folder te vinden is. Overweeg een studie groep te vormen en samen door het lesmateriaal te gaan. Wil je nog meer leren? Ga dan naar [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-40229-cxa). + +## Het team achter Data Science voor Beginners + +[![Promo video](ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video") + +**Gif door** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal) + +> 🎥 Klik op de afbeelding hierboven om een video over de makers van dit project te bekijken! + +## Pedagogie + +We hebben twee pedagogische uitgangspunten gekozen bij het bouwen van dit curriculum: we wilden ervoor zorgen dat het projectmatig is en dat het frequente quizzen bevat. Aan het einde van deze serie hebben studenten de basisprincipes van datawetenschap geleerd, waaronder ethische concepten, "data preparation", verschillende manieren van werken met gegevens, gegevensvisualisatie, gegevensanalyse, praktijkgevallen van data wetenschap en meer. + +Bovendien zet een laagdrempelige quiz voor een les de intentie van de student om een ​​onderwerp te leren, terwijl een tweede quiz na de les zorgt voor verdere retentie. Dit curriculum is ontworpen om flexibel en leuk te zijn en kan geheel of gedeeltelijk worden gevolgd. De projecten beginnen klein en worden steeds complexer tegen het einde van de cyclus van 10 weken. + +> Vind onze richtlijnen hierL [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md). Ook hier verwelkomen wij feedback. + +## Elke les omvat: + +- (Optioneel) sketchnote +- (Optioneel) video +- Een warmup quiz voor de les +- Uitgeschreven lezing +- Voor projectgebaseerde lessen: stapsgewijze handleidingen voor het bouwen van het project +- Kennischecks +- Een uitdaging +- Aanvullende lectuur +- Opdracht +- Quiz na de les + + +> **Een opmerking over de quizzen**: Alle quizzen zijn opgenomen [in deze app](https://red-water-0103e7a0f.azurestaticapps.net/), voor in totaal 40 quizzen van elk drie vragen. Ze zijn gekoppeld vanuit de lessen, maar de quiz-app kan lokaal worden uitgevoerd; volg de instructies in de `quiz-app` map. Ze worden stilaan gelokaliseerd. + +## Lessen + + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](./sketchnotes/00-Roadmap.png)| +|:---:| +| Data Science voor Beginners: Roadmap - _Sketchnote door [@nitya](https://twitter.com/nitya)_ | + + +| Les Nummer | Onderwerp | Lesgroepering | Leerdoelen | Link | Auteur | +| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: | +| 01 | Datawetenschap definiëren | [Introductie](1-Introduction/README.md) | Leer de basisconcepten achter datawetenschap en hoe deze verband houdt met kunstmatige intelligentie, machine learning en big data. | [les](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) | +| 02 | Ethiek | [Introductie](1-Introduction/README.md) | Data-ethiekconcepten, uitdagingen en kaders. | [lesson](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) | +| 03 | Data definiëren | [Introductie](1-Introduction/README.md) | Hoe gegevens worden geclassificeerd en de gemeenschappelijke bronnen. | [les](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) | +| 04 | Inleiding tot statistiek en waarschijnlijkheid | [Introductie](1-Introduction/README.md) | De wiskundige techniek van waarschijnlijkheid en statistiek om gegevens te begrijpen. | [les](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) | +| 05 | Werken met relationele gegevens | [Werken met Data](2-Working-With-Data/README.md) | Inleiding tot relationele gegevens en de basisprincipes van het verkennen en analyseren van relationele gegevens met de Structured Query Language, ook bekend als SQL (uitgesproken als "see-quell"). | [les](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | | +| 06 | Werken met NoSQL Data | [Werken met Data](2-Working-With-Data/README.md) | Inleiding tot niet-relationele gegevens, de verschillende soorten en de basisprincipes van het verkennen en analyseren van documentdatabases. | [les](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)| +| 07 | Aan de slag met Python | [Werken met Data](2-Working-With-Data/README.md) |Basisprincipes van het gebruik van Python voor gegevensverkenning met bibliotheken zoals Panda's. Fundamenteel begrip van Python-programmering wordt aanbevolen. | [les](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) | +| 08 | Data Preparation | [Werken met Data](2-Working-With-Data/README.md) | Onderwerpen over gegevenstechnieken voor het opschonen en transformeren van gegevens om uitdagingen als ontbrekende, onnauwkeurige of onvolledige gegevens aan te pakken. | [les](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) | +| 09 | Hoeveelheden visualiseren | [Data Visualisatie](3-Data-Visualization/README.md) | Leer Matplotlib te gebruiken om vogelgegevens te visualiseren 🦆 | [les](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) | +| 10 | Distributies van gegevens visualiseren | [Data Visualisatie](3-Data-Visualization/README.md) | Visualiseren van waarnemingen en trends binnen een interval. | [les](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) | +| 11 | Verhoudingen visualiseren | [Data Visualisatie](3-Data-Visualization/README.md) | Het visualiseren van discrete en gegroepeerde percentages. | [les](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) | +| 12 | Relaties visualiseren | [Data Visualisatie](3-Data-Visualization/README.md) | Het visualiseren van verbanden en correlaties tussen gegevenssets en hun variabelen. | [les](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) | +| 13 | Betekenisvolle visualisaties | [Data Visualisatie](3-Data-Visualization/README.md) | Technieken en begeleiding om uw visualisaties waardevol te maken voor effectieve probleemoplossing en inzichten. | [les](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) | +| 14 | Inleiding tot de Data Science-levenscyclus | [Levenscyclus](4-Data-Science-Lifecycle/README.md) | Inleiding tot de data science-levenscyclus en de eerste stap van het verwerven en extraheren van gegevens. | [les](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) | +| 15 | Analyse | [Levenscyclus](4-Data-Science-Lifecycle/README.md) | Deze fase van de data science-levenscyclus richt zich op technieken om data te analyseren. | [les](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | | +| 16 | Communicatie | [Levenscyclus](4-Data-Science-Lifecycle/README.md) | Deze fase van de data science-levenscyclus richt zich op het presenteren van de inzichten uit de data op een manier die het voor besluitvormers gemakkelijker maakt om te begrijpen. | [les](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | | +| 17 | Data Science in de Cloud | [Levenscyclus](5-Data-Science-In-Cloud/README.md) | Deze lessenreeks introduceert datawetenschap in de cloud en de voordelen ervan. | [les](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) en [Maud](https://twitter.com/maudstweets) | +| 18 | Data Science in de Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Modellen trainen met behulp van low code-tools. |[les](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) en [Maud](https://twitter.com/maudstweets) | +| 19 | Data Science in de Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Modellen implementeren met Azure Machine Learning Studio. | [les](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) en [Maud](https://twitter.com/maudstweets) | +| 20 | Data Science in het Wild | [In het Wild](6-Data-Science-In-Wild/README.md) | Data science projecten in de echte wereld. | [les](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) | + +## Offline toegang + +Deze documentatie kan offline geconsumeerd worden door [Docsify](https://docsify.js.org/#/) te gebruiken. Fork deze foldeer, [installeer Docsify](https://docsify.js.org/#/quickstart) op uw computer en typ vervolgens in de hoofdmap van deze opslagplaats `docsify serve`. De website wordt bediend op poort 3000: `localhost:3000`. + +> Let op, notebooks worden niet weergegeven via Docsify, dus als je een notebook moet uitvoeren, doe dat dan apart in VS Code met een Python-kernel. + +## PDF + +Een PDF van alle lessen is [hier](https://microsoft.github.io/Data-Science-For-Beginners/pdf/readme.pdf) te vinden. + +## Hulp gewenst! + +Als je het hele curriculum of een deel ervan wilt vertalen, volg dan onze gids [Vertalingen](TRANSLATIONS.md). + +## Ander Curricula + +Ons team maakt andere curricula: +- [Machine Learning voor Beginners](https://aka.ms/ml-beginners) +- [IoT voor Beginners](https://aka.ms/iot-beginners) +- [Web Dev voor Beginners](https://aka.ms/webdev-beginners) From 7628aa644ff21f0b9b8b5b59e4cebcfe239c06fc Mon Sep 17 00:00:00 2001 From: Floor Drees Date: Sun, 31 Oct 2021 22:33:29 +0100 Subject: [PATCH 011/140] NL README for 1-Introductions --- 1-Introduction/translations/README.nl.md | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) create mode 100644 1-Introduction/translations/README.nl.md diff --git a/1-Introduction/translations/README.nl.md b/1-Introduction/translations/README.nl.md new file mode 100644 index 00000000..04682436 --- /dev/null +++ b/1-Introduction/translations/README.nl.md @@ -0,0 +1,17 @@ +# Inleiding tot datawetenschap + +![data in actie](images/data.jpg) +> Beeld door Stephen Dawson op Unsplash + +In deze lessen ontdek je hoe Data Science wordt gedefinieerd en leer je over ethische overwegingen waarmee een datawetenschapper rekening moet houden. Je leert ook hoe gegevens worden gedefinieerd en leert over statistiek en waarschijnlijkheid, de academische kerndomeinen van Data Science. + +### Onderwerpen + +1. [Data Science definiëren](01-defining-data-science/README.md) +2. [Ethiek in Data Science](02-ethics/README.md) +3. [Data definiëren](03-defining-data/README.md) +4. [Inleiding tot statistiek en kansrekening](04-stats-and-probability/README.md) + +### Credits + +Dit lesmateriaal is met liefde ❤️ geschreven door [Nitya Narasimhan](https://twitter.com/nitya) en [Dmitry Soshnikov](https://twitter.com/shwars). From 00567ead7a2896e23d4479b23966725ecea40644 Mon Sep 17 00:00:00 2001 From: Floor Drees Date: Sun, 31 Oct 2021 23:17:53 +0100 Subject: [PATCH 012/140] NL README 2-Working-With-Data project --- 2-Working-With-Data/translations/README.nl.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) create mode 100644 2-Working-With-Data/translations/README.nl.md diff --git a/2-Working-With-Data/translations/README.nl.md b/2-Working-With-Data/translations/README.nl.md new file mode 100644 index 00000000..3ce3b957 --- /dev/null +++ b/2-Working-With-Data/translations/README.nl.md @@ -0,0 +1,16 @@ +# Werken met gegevens + +![data love](images/data-love.jpg) +> Beeld door Alexander Sinn op Unsplash + +Leer over de manieren waarop gegevens kunnen worden beheerd, gemanipuleerd en gebruikt in applicaties. Leer meer over relationele en niet-relationele databases en hoe gegevens daarin kunnen worden opgeslagen. Lees over de basisprincipes van het werken met Python om gegevens te beheren, en ontdek enkele van de vele manieren waarop je met Python kunt werken om gegevens te beheren en te ontginnen. +### Onderwerpen + +1. [Relationele databases](05-relational-databases/README.md) +2. [Niet-relationale databases](06-non-relational/README.md) +3. [Aan de slag met Python](07-python/README.md) +4. [Data voorbereiden](08-data-preparation/README.md) + +### Credits + +Dit materiaal is met ❤️ geschreven door [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) en [Jasmine Greenaway](https://twitter.com/paladique) From 86e9fae19c36717d47218515df679bace65d99bc Mon Sep 17 00:00:00 2001 From: Floor Drees Date: Sun, 31 Oct 2021 23:30:37 +0100 Subject: [PATCH 013/140] NL README project 3-Data-Vizualisation --- .../translations/README.nl.md | 27 +++++++++++++++++++ 1 file changed, 27 insertions(+) create mode 100644 3-Data-Visualization/translations/README.nl.md diff --git a/3-Data-Visualization/translations/README.nl.md b/3-Data-Visualization/translations/README.nl.md new file mode 100644 index 00000000..eb04fff2 --- /dev/null +++ b/3-Data-Visualization/translations/README.nl.md @@ -0,0 +1,27 @@ +# Visualisaties + +![Een bij op lavendel](./images/bee.jpg) +> Beeld door Jenna Lee op Unsplash + +Het visualiseren van data is een van de belangrijkste taken van een data scientist. Afbeeldingen zeggen meer dan 1000 woorden, en een visualisatie kan helpen allerlei interessante delen van uw gegevens te identificeren, zoals pieken, uitbijters, groeperingen, tendensen en meer, die kunnen helpen het verhaal te begrijpen dat de data probeert te vertellen. + +In deze vijf lessen verkennen we gegevens uit de natuur en maken we interessante en mooie visualisaties met behulp van verschillende technieken. +### Onderwerpen + +1. [Hoeveelheden visualiseren](09-visualization-quantities/README.md) +1. [Distributie visualiseren](10-visualization-distributions/README.md) +1. [Proporties visualiseren](11-visualization-proportions/README.md) +1. [Relaties visualiseren](12-visualization-relationships/README.md) +1. [Betekenisvolle visualisaties maken](13-meaningful-visualizations/README.md) + +### Credits + +🌸 Deze lessen in visualisatie zijn geschreven door [Jen Looper](https://twitter.com/jenlooper) + +🍯 De US Honey Production data is gebruikt uit Jessica Li's project op [Kaggle](https://www.kaggle.com/jessicali9530/honey-production). De [data](https://usda.library.cornell.edu/concern/publications/rn301137d) is afgeleid van de [United States Department of Agriculture](https://www.nass.usda.gov/About_NASS/index.php). + +🍄 De gegevens voor paddenstoelen zijn ook afkomstig van [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset), herzien door Hatteras Dunton. Deze dataset bevat beschrijvingen van hypothetische monsters die overeenkomen met 23 soorten kieuwen van paddenstoelen in de Agaricus- en Lepiota-familie. Paddestoel getekend uit The Audubon Society Field Guide to North American Mushrooms (1981). Deze dataset werd in 1987 geschonken aan UCI ML 27. + +🦆 Gegevens voor Minnesota Birds komen eveneens van [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) gescraped van [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) door Hannah Collins. + +Al deze datasets zijn gelicentieerd als [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/). From 54e955a7d0a4a09efccc005fa9a0ad91e978eef0 Mon Sep 17 00:00:00 2001 From: vahid baghi Date: Mon, 1 Nov 2021 11:16:53 +0330 Subject: [PATCH 014/140] Create README.fa.md adding persian translation --- 1-Introduction/translations/README.fa.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) create mode 100644 1-Introduction/translations/README.fa.md diff --git a/1-Introduction/translations/README.fa.md b/1-Introduction/translations/README.fa.md new file mode 100644 index 00000000..46baec88 --- /dev/null +++ b/1-Introduction/translations/README.fa.md @@ -0,0 +1,21 @@ +
+ +# مقدمه‌ای بر علم داده + + +![data in action](images/data.jpg) +> تصویر از Stephen Dawson در Unsplash + +شما در این بخش با تعریف علم داده و ملاحظات اخلاقی که یک دانشمند علوم داده باید در نظر داشته باشد آشنا خواهید شد. همچنین با تعریف داده و کمی هم با آمار و احتمالات که پایه و اساس علم داده است آشنا خواهید شد. + +### سرفصل ها + +1. [تعریف علم داده](01-defining-data-science/README.md) +2. [اصول اخلاقی علم داده](02-ethics/README.md) +3. [تعریف داده](03-defining-data/README.md) +4. [مقدمه ای بر آمار و احتمال](04-stats-and-probability/README.md) + +### تهیه کنندگان + +این درس ها با ❤️ توسط [Nitya Narasimhan](https://twitter.com/nitya) و [Dmitry Soshnikov](https://twitter.com/shwars) تهیه شده است. +
From e511c5c60a27910311f57da8cf8643b51caa173d Mon Sep 17 00:00:00 2001 From: Thoogend1 Date: Tue, 2 Nov 2021 15:18:43 +0100 Subject: [PATCH 015/140] Eerste opzet README vertaling --- .../translations/README.nl.md | 165 ++++++++++++++++++ 1 file changed, 165 insertions(+) create mode 100644 1-Introduction/01-defining-data-science/translations/README.nl.md diff --git a/1-Introduction/01-defining-data-science/translations/README.nl.md b/1-Introduction/01-defining-data-science/translations/README.nl.md new file mode 100644 index 00000000..f7257365 --- /dev/null +++ b/1-Introduction/01-defining-data-science/translations/README.nl.md @@ -0,0 +1,165 @@ +# Definitie van Data Science + +| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| :----------------------------------------------------------------------------------------------------: | +| Defining Data Science - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +--- + +[![Defining Data Science Video](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) + +## [Starttoets data science](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) + +## Wat is Data? +In our everyday life, we are constantly surrounded by data. The text you are reading now is data. The list of phone numbers of your friends in your smartphone is data, as well as the current time displayed on your watch. As human beings, we naturally operate with data by counting the money we have or by writing letters to our friends. + +However, data became much more critical with the creation of computers. The primary role of computers is to perform computations, but they need data to operate on. Thus, we need to understand how computers store and process data. + +With the emergence of the Internet, the role of computers as data handling devices increased. If you think about it, we now use computers more and more for data processing and communication, rather than actual computations. When we write an e-mail to a friend or search for some information on the Internet - we are essentially creating, storing, transmitting, and manipulating data. +> Can you remember the last time you have used computers to actually compute something? + +## What is Data Science? + +In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Data Science** is defined as *a scientific field that uses scientific methods to extract knowledge and insights from structured and unstructured data, and apply knowledge and actionable insights from data across a broad range of application domains*. + +This definition highlights the following important aspects of data science: + +* The main goal of data science is to **extract knowledge** from data, in order words - to **understand** data, find some hidden relationships and build a **model**. +* Data science uses **scientific methods**, such as probability and statistics. In fact, when the term *data science* was first introduced, some people argued that data science was just a new fancy name for statistics. Nowadays it has become evident that the field is much broader. +* Obtained knowledge should be applied to produce some **actionable insights**, i.e. practical insights that you can apply to real business situations. +* We should be able to operate on both **structured** and **unstructured** data. We will come back to discuss different types of data later in the course. +* **Application domain** is an important concept, and data scientists often need at least some degree of expertise in the problem domain, for example: finance, medicine, marketing, etc. + +> Another important aspect of Data Science is that it studies how data can be gathered, stored and operated upon using computers. While statistics gives us mathematical foundations, data science applies mathematical concepts to actually draw insights from data. + +One of the ways (attributed to [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) to look at the data science is to consider it to be a separate paradigm of science: +* **Empirical**, in which we rely mostly on observations and results of experiments +* **Theoretical**, where new concepts emerge from existing scientific knowledge +* **Computational**, where we discover new principles based on some computational experiments +* **Data-Driven**, based on discovering relationships and patterns in the data + +## Other Related Fields + +Since data is pervasive, data science itself is also a broad field, touching many other disciplines. + +
+
Databases
+
+A critical consideration is **how to store** the data, i.e. how to structure it in a way that allows faster processing. There are different types of databases that store structured and unstructured data, which we will consider in our course. +
+
Big Data
+
+Often we need to store and process very large quantities of data with a relatively simple structure. There are special approaches and tools to store that data in a distributed manner on a computer cluster, and process it efficiently. +
+
Machine Learning
+
+One way to understand data is to **build a model** that will be able to predict a desired outcome. Developing models from data is called **machine learning**. You may want to have a look at our Machine Learning for Beginners Curriculum to learn more about it. +
+
Artificial Intelligence
+
+An area of machine learning known as artificial intelligence (AI) also relies on data, and it involves building high complexity models that mimic human thought processes. AI methods often allow us to turn unstructured data (e.g. natural language) into structured insights. +
+
Visualization
+
+Vast amounts of data are incomprehensible for a human being, but once we create useful visualizations using that data, we can make more sense of the data, and draw some conclusions. Thus, it is important to know many ways to visualize information - something that we will cover in Section 3 of our course. Related fields also include **Infographics**, and **Human-Computer Interaction** in general. +
+
+ +## Types of Data + +As we have already mentioned, data is everywhere. We just need to capture it in the right way! It is useful to distinguish between **structured** and **unstructured** data. The former is typically represented in some well-structured form, often as a table or number of tables, while the latter is just a collection of files. Sometimes we can also talk about **semistructured** data, that have some sort of a structure that may vary greatly. + +| Structured | Semi-structured | Unstructured | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| List of people with their phone numbers | Wikipedia pages with links | Text of Encyclopaedia Britannica | +| Temperature in all rooms of a building at every minute for the last 20 years | Collection of scientific papers in JSON format with authors, data of publication, and abstract | File share with corporate documents | +| Data for age and gender of all people entering the building | Internet pages | Raw video feed from surveillance camera | + +## Where to get Data + +There are many possible sources of data, and it will be impossible to list all of them! However, let's mention some of the typical places where you can get data: + +* **Structured** + - **Internet of Things** (IoT), including data from different sensors, such as temperature or pressure sensors, provides a lot of useful data. For example, if an office building is equipped with IoT sensors, we can automatically control heating and lighting in order to minimize costs. + - **Surveys** that we ask users to complete after a purchase, or after visiting a web site. + - **Analysis of behavior** can, for example, help us understand how deeply a user goes into a site, and what is the typical reason for leaving the site. +* **Unstructured** + - **Texts** can be a rich source of insights, such as an overall **sentiment score**, or extracting keywords and semantic meaning. + - **Images** or **Video**. A video from a surveillance camera can be used to estimate traffic on the road, and inform people about potential traffic jams. + - Web server **Logs** can be used to understand which pages of our site are most often visited, and for how long. +* Semi-structured + - **Social Network** graphs can be great sources of data about user personalities and potential effectiveness in spreading information around. + - When we have a bunch of photographs from a party, we can try to extract **Group Dynamics** data by building a graph of people taking pictures with each other. + +By knowing different possible sources of data, you can try to think about different scenarios where data science techniques can be applied to know the situation better, and to improve business processes. + +## What you can do with Data + +In Data Science, we focus on the following steps of data journey: + +
+
1) Data Acquisition
+
+The first step is to collect the data. While in many cases it can be a straightforward process, like data coming to a database from a web application, sometimes we need to use special techniques. For example, data from IoT sensors can be overwhelming, and it is a good practice to use buffering endpoints such as IoT Hub to collect all the data before further processing. +
+
2) Data Storage
+
+Storing data can be challenging, especially if we are talking about big data. When deciding how to store data, it makes sense to anticipate the way you would to query the data in the future. There are several ways data can be stored: +
    +
  • A relational database stores a collection of tables, and uses a special language called SQL to query them. Typically, tables are organized into different groups called schemas. In many cases we need to convert the data from original form to fit the schema.
  • +
  • A NoSQL database, such as CosmosDB, does not enforce schemas on data, and allows storing more complex data, for example, hierarchical JSON documents or graphs. However, NoSQL databases do not have the rich querying capabilities of SQL, and cannot enforce referential integrity, i.e. rules on how the data is structured in tables and governing the relationships between tables.
  • +
  • Data Lake storage is used for large collections of data in raw, unstructured form. Data lakes are often used with big data, where all data cannot fit on one machine, and has to be stored and processed by a cluster of servers. Parquet is the data format that is often used in conjunction with big data.
  • +
+
+
3) Data Processing
+
+This is the most exciting part of the data journey, which involves converting the data from its original form into a form that can be used for visualization/model training. When dealing with unstructured data such as text or images, we may need to use some AI techniques to extract **features** from the data, thus converting it to structured form. +
+
4) Visualization / Human Insights
+
+Oftentimes, in order to understand the data, we need to visualize it. Having many different visualization techniques in our toolbox, we can find the right view to make an insight. Often, a data scientist needs to "play with data", visualizing it many times and looking for some relationships. Also, we may use statistical techniques to test a hypotheses or prove a correlation between different pieces of data. +
+
5) Training a predictive model
+
+Because the ultimate goal of data science is to be able to make decisions based on data, we may want to use the techniques of Machine Learning to build a predictive model. We can then use this to make predictions using new data sets with similar structures. +
+
+ +Of course, depending on the actual data, some steps might be missing (e.g., when we already have the data in the database, or when we do not need model training), or some steps might be repeated several times (such as data processing). + +## Digitalization and Digital Transformation + +In the last decade, many businesses started to understand the importance of data when making business decisions. To apply data science principles to running a business, one first needs to collect some data, i.e. translate business processes into digital form. This is known as **digitalization**. Applying data science techniques to this data to guide decisions can lead to significant increases in productivity (or even business pivot), called **digital transformation**. + +Let's consider an example. Suppose we have a data science course (like this one) which we deliver online to students, and we want to use data science to improve it. How can we do it? + +We can start by asking "What can be digitized?" The simplest way would be to measure the time it takes each student to complete each module, and to measure the obtained knowledge by giving a multiple-choice test at the end of each module. By averaging time-to-complete across all students, we can find out which modules cause the most difficulties for students, and work on simplifying them. + +> You may argue that this approach is not ideal, because modules can be of different lengths. It is probably more fair to divide the time by the length of the module (in number of characters), and compare those values instead. + +When we start analyzing results of multiple-choice tests, we can try to determine which concepts that students have difficulty understanding, and and use that information to improve the content. To do that, we need to design tests in such a way that each question maps to a certain concept or chunk of knowledge. + +If we want to get even more complicated, we can plot the time taken for each module against the age category of students. We might find out that for some age categories it takes an inappropriately long time to complete the module, or that students drop out before completing it. This can help us provide age recommendations for the module, and minimize people's dissatisfaction from wrong expectations. + +## 🚀 Challenge + +In this challenge, we will try to find concepts relevant to the field of Data Science by looking at texts. We will take a Wikipedia article on Data Science, download and process the text, and then build a word cloud like this one: + +![Word Cloud for Data Science](images/ds_wordcloud.png) + +Visit [`notebook.ipynb`](notebook.ipynb) to read through the code. You can also run the code, and see how it performs all data transformations in real time. + +> If you do not know how to run code in a Jupyter Notebook, have a look at [this article](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + + + +## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/1) + +## Assignments + +* **Task 1**: Modify the code above to find out related concepts for the fields of **Big Data** and **Machine Learning** +* **Task 2**: [Think About Data Science Scenarios](assignment.md) + +## Credits + +This lesson has been authored with ♥️ by [Dmitry Soshnikov](http://soshnikov.com) From 9b50293f5baa13a3a8ec702713ca58683945b2df Mon Sep 17 00:00:00 2001 From: Thoogend1 Date: Wed, 3 Nov 2021 09:02:30 +0100 Subject: [PATCH 016/140] Translated 'what is data' section --- .../translations/README.nl.md | 14 +++++++------- 1 file changed, 7 insertions(+), 7 deletions(-) diff --git a/1-Introduction/01-defining-data-science/translations/README.nl.md b/1-Introduction/01-defining-data-science/translations/README.nl.md index f7257365..7808649f 100644 --- a/1-Introduction/01-defining-data-science/translations/README.nl.md +++ b/1-Introduction/01-defining-data-science/translations/README.nl.md @@ -1,24 +1,24 @@ # Definitie van Data Science -| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | +| ![ Sketchnote door [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png) | | :----------------------------------------------------------------------------------------------------: | | Defining Data Science - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | --- -[![Defining Data Science Video](images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) +[![Defining Data Science Video](../images/video-def-ds.png)](https://youtu.be/beZ7Mb_oz9I) ## [Starttoets data science](https://red-water-0103e7a0f.azurestaticapps.net/quiz/0) ## Wat is Data? -In our everyday life, we are constantly surrounded by data. The text you are reading now is data. The list of phone numbers of your friends in your smartphone is data, as well as the current time displayed on your watch. As human beings, we naturally operate with data by counting the money we have or by writing letters to our friends. +In ons dagelijks leven zijn we voortdurend omringd door data. De tekst die je nu leest is data. De lijst met telefoonnummers van je vrienden op je smartphone is data, evenals de huidige tijd die op je horloge wordt weergegeven. Als mens werken we van nature met data, denk aan het geld dat we moeten tellen of door berichten te schrijven aan onze vrienden. -However, data became much more critical with the creation of computers. The primary role of computers is to perform computations, but they need data to operate on. Thus, we need to understand how computers store and process data. +Gegevens werden echter veel belangrijker met de introductie van computers. De primaire rol van computers is om berekeningen uit te voeren, maar ze hebben gegevens nodig om mee te werken. We moeten dus begrijpen hoe computers gegevens opslaan en verwerken. -With the emergence of the Internet, the role of computers as data handling devices increased. If you think about it, we now use computers more and more for data processing and communication, rather than actual computations. When we write an e-mail to a friend or search for some information on the Internet - we are essentially creating, storing, transmitting, and manipulating data. -> Can you remember the last time you have used computers to actually compute something? +Met de opkomst van het internet nam de rol van computers als gegevensverwerkingsapparatuur toe. Als je erover nadenkt, gebruiken we computers nu steeds meer voor gegevensverwerking en communicatie, in plaats van echte berekeningen. Wanneer we een e-mail schrijven naar een vriend of zoeken naar informatie op internet, creëren, bewaren, verzenden en manipuleren we in wezen gegevens. +> Kan jij je herinneren wanneer jij voor het laatste echte berekeningen door een computer hebt laten uitvoeren? -## What is Data Science? +## Wat is Data Science? In [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Data Science** is defined as *a scientific field that uses scientific methods to extract knowledge and insights from structured and unstructured data, and apply knowledge and actionable insights from data across a broad range of application domains*. From 7e1d6e3123f6ff36a4de138ab73a3815c267ecac Mon Sep 17 00:00:00 2001 From: vahid baghi Date: Fri, 5 Nov 2021 10:28:00 +0330 Subject: [PATCH 017/140] Update README.fa.md --- 1-Introduction/translations/README.fa.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/1-Introduction/translations/README.fa.md b/1-Introduction/translations/README.fa.md index 46baec88..45532340 100644 --- a/1-Introduction/translations/README.fa.md +++ b/1-Introduction/translations/README.fa.md @@ -3,17 +3,17 @@ # مقدمه‌ای بر علم داده -![data in action](images/data.jpg) +![data in action](../images/data.jpg) > تصویر از Stephen Dawson در Unsplash شما در این بخش با تعریف علم داده و ملاحظات اخلاقی که یک دانشمند علوم داده باید در نظر داشته باشد آشنا خواهید شد. همچنین با تعریف داده و کمی هم با آمار و احتمالات که پایه و اساس علم داده است آشنا خواهید شد. ### سرفصل ها -1. [تعریف علم داده](01-defining-data-science/README.md) -2. [اصول اخلاقی علم داده](02-ethics/README.md) -3. [تعریف داده](03-defining-data/README.md) -4. [مقدمه ای بر آمار و احتمال](04-stats-and-probability/README.md) +1. [تعریف علم داده](../01-defining-data-science/README.md) +2. [اصول اخلاقی علم داده](../02-ethics/README.md) +3. [تعریف داده](../03-defining-data/README.md) +4. [مقدمه ای بر آمار و احتمال](../04-stats-and-probability/README.md) ### تهیه کنندگان From 42d2a68bc0868ac2647990d2000752d3c27da0ac Mon Sep 17 00:00:00 2001 From: Eugene Chung Date: Fri, 5 Nov 2021 14:16:58 -0400 Subject: [PATCH 018/140] fixed paths for README.zh-cn.md --- 2-Working-With-Data/translations/README.zh-cn.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/2-Working-With-Data/translations/README.zh-cn.md b/2-Working-With-Data/translations/README.zh-cn.md index ebcb87f9..fb0e368b 100644 --- a/2-Working-With-Data/translations/README.zh-cn.md +++ b/2-Working-With-Data/translations/README.zh-cn.md @@ -7,10 +7,10 @@ ### 话题 -1. [关系数据库](05-relational-databases/README.md) -2. [非关系数据库](06-non-relational/README.md) -3. [使用Python](07-python/README.md) -4. [准备数据](08-data-preparation/README.md) +1. [关系数据库](../05-relational-databases/README.md) +2. [非关系数据库](../06-non-relational/README.md) +3. [使用Python](../07-python/README.md) +4. [准备数据](../08-data-preparation/README.md) ### 学分 From a097fda28b2c573955c7b5b0a96ccd5fd7645a66 Mon Sep 17 00:00:00 2001 From: nahyeong99 Date: Sat, 6 Nov 2021 04:11:52 +0900 Subject: [PATCH 019/140] README for translation --- 1-Introduction/translations/README.md | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) create mode 100644 1-Introduction/translations/README.md diff --git a/1-Introduction/translations/README.md b/1-Introduction/translations/README.md new file mode 100644 index 00000000..b041eb5b --- /dev/null +++ b/1-Introduction/translations/README.md @@ -0,0 +1,17 @@ +# Introduction to Data Science + +![data in action](images/data.jpg) +> Photo by Stephen Dawson on Unsplash + +In these lessons, you will discover how Data Science is defined and learn about ethical considerations that must be considered by a data scientist. You will also learn how data is defined and learn a bit about statistics and probability, the core academic domains of Data Science. + +### Topics + +1. [Defining Data Science](01-defining-data-science/README.md) +2. [Data Science Ethics](02-ethics/README.md) +3. [Defining Data](03-defining-data/README.md) +4. [Introduction to Statistics and Probability](04-stats-and-probability/README.md) + +### Credits + +These lessons were written with ❤️ by [Nitya Narasimhan](https://twitter.com/nitya) and [Dmitry Soshnikov](https://twitter.com/shwars). From e25cf768f2af71d828e2117ed85cb5d8f6ce0480 Mon Sep 17 00:00:00 2001 From: nahyeongKim <74201593+nahyeong99@users.noreply.github.com> Date: Sat, 6 Nov 2021 04:42:10 +0900 Subject: [PATCH 020/140] Update README.md --- 1-Introduction/translations/README.md | 21 +++++++++++---------- 1 file changed, 11 insertions(+), 10 deletions(-) diff --git a/1-Introduction/translations/README.md b/1-Introduction/translations/README.md index b041eb5b..232dcd3f 100644 --- a/1-Introduction/translations/README.md +++ b/1-Introduction/translations/README.md @@ -1,17 +1,18 @@ -# Introduction to Data Science +# 데이터 과학의 입문 ![data in action](images/data.jpg) -> Photo by Stephen Dawson on Unsplash +> 이미지 출처: Stephen Dawson on Unsplash -In these lessons, you will discover how Data Science is defined and learn about ethical considerations that must be considered by a data scientist. You will also learn how data is defined and learn a bit about statistics and probability, the core academic domains of Data Science. +이 레슨에서, 당신은 어떻게 데이터 과학이 정의되었는지 발견하고 데이터 과학자에게 있어서 필히 고려해야만 하는 윤리적 사항들에 대하여 배울 것입니다. 당신은 또한 데이터가 어떻게 정의되었는지와, 데이터 과학 학습 영역에서의 중심인 약간의 통계와 확률에 대하여 배울 것입니다. -### Topics -1. [Defining Data Science](01-defining-data-science/README.md) -2. [Data Science Ethics](02-ethics/README.md) -3. [Defining Data](03-defining-data/README.md) -4. [Introduction to Statistics and Probability](04-stats-and-probability/README.md) +### 토픽 -### Credits +1. [데이터 과학 정의하기](01-defining-data-science/README.md) +2. [데이터 과학에서의 윤리](02-ethics/README.md) +3. [데이터 정의하기](03-defining-data/README.md) +4. [통계와 확률에 대한 소개](04-stats-and-probability/README.md) -These lessons were written with ❤️ by [Nitya Narasimhan](https://twitter.com/nitya) and [Dmitry Soshnikov](https://twitter.com/shwars). +### 출처 + +이 강의들은 [Nitya Narasimhan](https://twitter.com/nitya) 과 [Dmitry Soshnikov](https://twitter.com/shwars)에 의해 쓰여졌음❤️ From 1be226e0e89b17fcff500f89b2b84ca9f71f888b Mon Sep 17 00:00:00 2001 From: nahyeongKim <74201593+nahyeong99@users.noreply.github.com> Date: Sat, 6 Nov 2021 04:42:23 +0900 Subject: [PATCH 021/140] Rename README.md to README.ko.md --- 1-Introduction/translations/{README.md => README.ko.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename 1-Introduction/translations/{README.md => README.ko.md} (100%) diff --git a/1-Introduction/translations/README.md b/1-Introduction/translations/README.ko.md similarity index 100% rename from 1-Introduction/translations/README.md rename to 1-Introduction/translations/README.ko.md From 2b47221e8567cb66c41726694ff64d6ca77074e9 Mon Sep 17 00:00:00 2001 From: Hyejeong443 <82637076+Hyejeong443@users.noreply.github.com> Date: Sat, 6 Nov 2021 13:05:18 +0900 Subject: [PATCH 022/140] Update assignment.md --- .../14-Introduction/assignment.md | 24 +++++++++---------- 1 file changed, 12 insertions(+), 12 deletions(-) diff --git a/4-Data-Science-Lifecycle/14-Introduction/assignment.md b/4-Data-Science-Lifecycle/14-Introduction/assignment.md index e0ff4244..0a6db90f 100644 --- a/4-Data-Science-Lifecycle/14-Introduction/assignment.md +++ b/4-Data-Science-Lifecycle/14-Introduction/assignment.md @@ -1,23 +1,23 @@ -# Assessing a Dataset +# 데이터셋 평가 -A client has approached your team for help in investigating a taxi customer's seasonal spending habits in New York City. +한 고객이 뉴욕에서 택시 고객의 계절별 소비 습관을 조사하는 데 도움을 청하기 위해 귀하의 팀에 연락했습니다. -They want to know: **Do yellow taxi passengers in New York City tip drivers more in the winter or summer?** +그들은 알고 싶어한다: **뉴욕의 노란 택시 승객들은 겨울이나 여름에 기사들에게 팁을 더 많이 주는가?** -Your team is in the [Capturing](Readme.md#Capturing) stage of the Data Science Lifecycle and you are in charge of handling the the dataset. You have been provided a notebook and [data](../../data/taxi.csv) to explore. +귀하의 팀은 데이터과학 라이프사이클 [캡처링](Readme.md#Capturing) 단계에 있으며, 귀하는 데이터 셋을 처리하는 임무를 맡고 있습니다. 노트북과 가공할 [데이터](../../data/taxi.csv)를 제공받으셨습니다. -In this directory is a [notebook](notebook.ipynb) that uses Python to load yellow taxi trip data from the [NYC Taxi & Limousine Commission](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets). -You can also open the taxi data file in text editor or spreadsheet software like Excel. +이 디렉토리에서는 파이썬을 사용하여 [NYC택시 & 리무진 위원회](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets)로부터 노란색 택시 트립 데이터를 로드하는 [노트북](notebook.ipynb)이 있습니다. +엑셀과 같은 텍스트 편집기나 스프레드시트 소프트웨어에서 택시 데이터 파일을 열 수도 있습니다. -## Instructions +## 지시사항 -- Assess whether or not the data in this dataset can help answer the question. -- Explore the [NYC Open Data catalog](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93). Identify an additional dataset that could potentially be helpful in answering the client's question. -- Write 3 questions that you would ask the client for more clarification and better understanding of the problem. +- 이 데이터 세트의 데이터가 질문에 대답하는 데 도움이 될 수 있는지 여부를 평가합니다. +- [NYC Open Data 카탈로그](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93)를 살펴보십시오. 고객의 질문에 대답하는 데 잠재적으로 도움이 될 수 있는 추가 데이터 세트를 식별합니다. +- 고객에게 문제에 대한 보다 명확한 설명과 이해를 위해 물어볼 질문 3개를 작성합니다. -Refer to the [dataset's dictionary](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) and [user guide](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf) for more information about the data. +데이터에 대한 자세한 내용은 [정보 사전](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) 및 [사용자 가이드](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)을 참조하십시오. ## Rubric -Exemplary | Adequate | Needs Improvement +모범 | 충분 | 개선 필요 --- | --- | -- | From 9a02c016f69a9ab3cbd151d9e57c396904a7487c Mon Sep 17 00:00:00 2001 From: Hyejeong443 <82637076+Hyejeong443@users.noreply.github.com> Date: Sat, 6 Nov 2021 13:06:01 +0900 Subject: [PATCH 023/140] Update assignment.md --- 4-Data-Science-Lifecycle/14-Introduction/assignment.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/4-Data-Science-Lifecycle/14-Introduction/assignment.md b/4-Data-Science-Lifecycle/14-Introduction/assignment.md index 0a6db90f..df425137 100644 --- a/4-Data-Science-Lifecycle/14-Introduction/assignment.md +++ b/4-Data-Science-Lifecycle/14-Introduction/assignment.md @@ -17,7 +17,7 @@ 데이터에 대한 자세한 내용은 [정보 사전](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) 및 [사용자 가이드](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)을 참조하십시오. -## Rubric +## 표제 모범 | 충분 | 개선 필요 --- | --- | -- | From c1802f663259e9cfaa9bfc88f1164bf6940b1ea2 Mon Sep 17 00:00:00 2001 From: ludovicobesana Date: Sat, 6 Nov 2021 19:14:38 +0100 Subject: [PATCH 024/140] fix: Update favicon img --- images/favicon.png | Bin 6188 -> 4556 bytes 1 file changed, 0 insertions(+), 0 deletions(-) diff --git a/images/favicon.png b/images/favicon.png index 9e5b4f6ac5ab75ef5467dcdb59f9db3cc7a0f405..7e33f5aedba624bb20001cc044b0fdd9a8587a46 100644 GIT binary patch delta 4214 zcmZ`+X*|?l)E{FkL)MY9Z)GC8k+DX|n#q!^Bm2%+vXuNr$UbD>$5M@oP?kYzLbkC* zb}|T+QI^sa@y!48yn0?d_szZM-upfG-0wZ-p3kXM8kWlT20;I{KL(xu4Ok*fuNkqd zvoo^FfF1{7bU+}k2vb9S+vxf2@}Lao8HavgOyl>b;<<8{AM*iPvrXm1CXdcg;hYC4 z&El-4l~2L7tP+W~_qiXNf+T1pbs8=a%Q}&#ZbdO*=M}eldX4QN+haYm)Y3NQvPU@A z)!E(e!05bI!|zYwG|YGE=+Y!w5?H#ukLj0+S;Dn%Ud=smyOsDtM(><}OMiwL^{oe4FEGwv!Hq@EGdXu_^gtGE zd7+vzoqYmtnB~;-nzEg}m`#SnS-EfVB0-B#K$rz5efdXlZBb$DTXeg%b(J|uixfaA zB`uI{FryxDQJHY(ytJ7YnPa(dSg4&)s#i;uGs_FmX8Z}`C(!X3B8YEJTtG-dk1?Di zL-8Q}OI`VWj=3S~E4ooHMQTlWCy26)Jpqq`^Em`{*<&xrto37aiG9jR0epUBUks4w z+{d$PZ9RGu%Os9QtxOwWy9JIJC@_+7sJvfT`B;Eak?r0BsSw++>gZZOwh1BWQ+O!- z@pmyg)?Aet{BYDV)0>LC{ZgdlgKrDcSeE!@mNz}mL^;>eu)ncynRKC4YE79|JRW?k z5OWpL8&-hX`_oDKy>e%fBten~NQw-uJx%y$Sg_q~;<ok|@VjG}D;KOHb?NE1g zOF_W2Qi%JD`J(dywf2+duI>~U3LP8Y_C><9i**NMd2kbpCnW`nJcPM5L<{eOzfTL` zzF_YSd0gewu%fYE(SfMs)p>pDD@!*(X9bkuWM2neVUtFaOK)ILK*tv(JT(5CXzyIu zL0C#^4PlwR^EWuxf$$;no?H1!<-x2>36ux?(TtVPUB=1aouEQ-ifU-)%~jcut7-}h zDLF2$+T}ne*?IdnrZM9IJeBc>*ky>Qx$NABo#gy6u&$qyu}Nh`g}>&7ZbNK zmV*a)i0J_5L=kKyZ*(s@do%eTl=DKCp562E){I{$M!C77o7J+eoawL679hovmr9~} zXvSp;aV?Wu9Z8;1ptraHhunJgSCZP4Oep@m`lzo+-vlYYEQdY7y<W)?Ov=1{hgT^%!0K|Aki;doIPNvgx4JP5KpQGa&Fy|H)ozRuXC7%e0{?}N6 z56((F?Azy>^%>z255_!wXkUjBcc;YrT*}=-yCU&>$ZE!C(_zzww)5s1P->5nNyrCE zo|Ac$FpXmoTmAILwbWHOY)$OLyN>lIt`;f4YU9D&W5k)9#ug{%O^LF-m)gapD=_^E z5tZ3ba~xo*bxDsVr9&-tCb9fZx154exFD_a7@rBTV8D03|9h=NOkA7SV$U-;@=+f= z26Z)Y!Il*KSR+L8MN#ecKS5$Yd5``y#{aZoQYvv$beG2-#4H<@1w{@2;v3b*B?69J zixiXBXW%-up&gywKl9{Id+Xi$Q_$vlhXc-+B5VnSu!I$ zx7V@TI@o8ng1ZsIa4`*g(P0)D%l3UPX5p7`(FB*Ym&BD`^?0&qaP=yhVz`wMY$ck- zlq)}2g>ZL zRVRE0HzuJ4F9F-@dY!oxY|aDFn_?0Tp4^+STh_?ln61ZnkZ3;cG$!u)w> zOwAhCMdyxonUOkd&HSd_I$;OTA110&&QP!U=_!lp@9nm?OyH#X%b6u2 zLqlCnMyD>Ok2&7LlG)TzbDvoXl<9$gI^a%nwdCyht%ezKNAqNentHsh=B72jIs>HE z(TBW#5aA7Z{TvgpR9b*dp5BXet{FF<-Adu`Zpx51)+x9n^YM+$&+^XfVj(<)fxmvG zo(Np6ce($JRLZ8V(>fmA5As9ii5sHU8;=p|d_r?q^IRLYYYejhOFK6^-pLO+#vhRjxo6W22cHL_>s z;hu7qf0u2E^_Ln}3&I*IeL0p{$<7F?4q)Je<8Z#@#%hb`8}WDo-H&!~BTLyj`qA6*fxs+{7tskqBD;FYTs{%(6o2rmYx|cYOmiz)Frl( zsxt@ER}~ZuE?rXu)h1qNdl(3uGob|isSqcr1<>4oX`a|#wD#xn;E#XHT*1<<$snP? z*CnKWxpAJo(YZyLo?zUzYiu@nfk2I3euHy`6_7y|lfH$QI{FwPE%Yh#Bct1??Az?G zP6bD;Z(_8rluEl7V4k;re=l$2tpBc0&VG~YK<4s4ZTipFoSR(|Mxp^@V#+m-eq zUP6r-f%{lxhd^A?kwCz>S1*|?;}$SoVPoLJpx$b=#V6VavWjZZR$)y%FisE-I*-4; zOx*RiU6~u=JrT_R!ksaLRb&M2OM!h|MegaeTT%*a8tgAJD+n5QORT>laPdx0!dlZ% z_G)qYo3iFd;r7)N8oQB#G)4;GJJ8j_dkaH7yV#Lm+*c}5urKZSuqMug$aAkdZFfy} z%#JNqP0spT*&7X(BjsRV%-&|6U=!%j!!Zh8bo}t-@i&QJv6*URVQOxo&>$Qkc=Bo; ztQetwe43&d8hR4DH4^;p-aVmX$fy`%on6or`6xCrYY3i^Dm;~W;%K}6Djz%+rG59 zm2Ge^%BDiiFB?+7eEH+&VC_rrUcgNV7e)$BmIFaywtNTvDZc%m% zz0b*LSVMgj_y-uHNO#=fe~H&A+kcc@^A}kq)?fAv&N@3z)JRU+8@QwQyyu#XmX1@L z$iLv~YwIxnpp&qV8!$nexj{kYyDf%Cqmp^XFsRy~Wk~Wu+pgO^f-%PooX?B+OT$H9HRd1jeWdW_C}j~*TO*Z7no#V6&QFg*lHhM0_+OzYB5o#CQO=v zqLSsbOzIkH8}?Te{?VOk&2+aVvCBHb3MC^PL>9}T<7-%CP6d@=-v@n5-yRSN#)lqv zWO5~F=wqUFt9H*lmhi9-jZ-}J?ZQJ_T{oTf8mr2z#nA_9Z%-#^lf9yK-BP}&wyAQ@ z`Sn(E0h0n1sIy=@$7AlbBlOumzpFj_P)5TgT0{Sh3L*EhW%eFTOMl^6 zJ0FB3odxSN-FH%!1&b%4kRg(6rwS6K*MOV-29biwW?=Ehs0-)T5;Jp@f;rn@SFeE{ z{e&{TQs(WuvG3F*0MRqUH==o`dA2hw=&}PuZz%Li6{`O=XR=lp{UYAHAjSizlRkZI z4x)Ei*DbSR+?cG`m`dj|R2($%H&MYaJruWp*Ugy~+pJq|yRS|a1n=F8NWV0OP_yLbw2GM3-iWI@c5oc@yQF!#U>nAkA7eYob&KB$Td zofJ9U63QAJZgP_s;jT78rbWFBI=Wp0hXx7(UwrdwjP3{l4}<0ekazwt@BaXTLOlJvV?_Ud1j7@AWo|G36q|+$5~-$UG$O~FTXV)j=Rf6& z?jB0&2zM`}x0eUPT?3)6>_MOLP*YX)RQLAOKq3|VJVF#O!9I1zHRJSSL8eBQhA*z% Gy8l0+P~2Yt delta 5859 zcmZu#cQD*hwEpc{U9fr(WFv^Wy2N6!%j&%(L|a7fgb+VHt4oAPQKCfDAWHP;(TQFX z5;Z~e-kvw_{qxG)IdkuvneY3~%$+&knbUWx7@1@bUIJGqt1&+r0043i+*Z4URfU2WY`ko$p03^6`bGX5wx7+SC%}~4 z7cTtuOAk~N@UjI}g5uxrRdDyF3U=q>hJ(;tiU3Tlk7`-&&@VGtfg~6G97ft6f;8AI za-y<#n+psakUsP|{6jjFqngMe_hfH%_n9hk`g31l!h38g?Dn#ZZ&eHw5r526pv!{Ms5 zaNJ6^fSsbQ{oXipK4*jbPHpSTX5yFEBselyQW!!Xmd7XocSHckRxtO6hZ>>z4Usx^ zZN4HQ1T;Vv@x_M(6_7??@CXfL6hu)|&=S$kw*Mm1`B}c{Ebg_)n?8B;;xMGG6Kog$ zDYvCa%8jjCt^E`T;R49vFxR4F=*zlRH5jeu>fh8#I^srKH>NPeh#waA&%Prd@5RN? zE!r|9my(r5=j%Q}rtfOTbhHG+897nkVd95}P&8oA1Hk?m0+4dDaPsscdI-avn@M~K zy~ca*T{^-FI@rJDmWSt9+id0 zY*qd~*r;o>BgXv*qCX&TRlEH-$O7k8y&liyzrahEzPN6(Ma-ZmKn$YETE7=)Fk8RJ z4h}MID#M6>qn)KpT$Y7%&R)sVroV0zH>)A3);~@YdeyA^bX!(|myWn4YQM;7XenE* z6aRf3*{^c9Z0C0p+UwaK(+Ur!Jmr4#vH4nOh;_OE|mO#Q%Q(Y<&7+2!s5cRcXB3 zbs6uQQ%^m^*|23Kf0UlHC^&hS5RaLJPd-P|7vDyBqcv<)qK`i!Vni?q0)Ziv0Y|3W zV^D6I+3YzoaCWY+^e4?22CpT7Catu!+t?II3IOx|>CV;Q#b*!e(ZNFnvF#z{t`|8u zA8*K3e}E?GZ!y4=Uv$w)4_^4%2mU%{`*l|<_tga zMPto;L2GY0tx`>0JlZ6s&yGdVuo4FHtamu}QR;Q@8(qP9$JCuK0*ee`TeY?j4Af`j zLPJ{FSCCrdt(;~L>TzlL{HeT6Im_fUoB8MMxwa_-&S%-d087wd_=Gu7!hpg9hz`W6 zPh2#avF|J;36KCd)i2nk*GOnk&@Phb$_6)RXB@NMaRNd_NoJ~DmE|*^ArI^A7izL? zeu0T$<`$qdrN(;r`b<@3UBJVV{iRuA8 zDhGxh5j9`Y0qzq2{lW=Q*dVq_yeG5)031?e51#wV?Rc(*fQm1yPkr7((ctlT7B)6z zL9&;ztu?hzHU8ECE+AKs-VLjS>9pJE0r0 zsHG5g(*7J5@N)uf2n+G5jeF8aji-`wosPIFGwahQn)TU_uA`S_zJC9#;XR~a?U~c$ z8FV@waSi$sr`lpi#zhs4PCtxLq=1%H86Q26heSTg2vPg+K72AZcTWI4b1g+ZZ#Q7) z80EJ<8T$VHO+MXBXGySstdOQMhB()6eYLb>4(%X>V0)4EV|8;673vkj=YtZD;6m7x z(66Mz51ODieE(?jhnLfUdvT!HvM0g@-ZDGOUR<>yaw`mj2;G>e!Tb0ygl_Uqs%&by zOur*&_xlacGLKX+RoTa;VaY${Y>rgRY=;5q!@$0E#4E*&hh?UQY?K+q6_g7mH54!DvI{#38RKqelOER{MzAPNqKF_2v zS*GtUQ{aqf9?WkcjRN;M4ua3gcrI-fzPPColdt+{e`|;AkST@m!5u=XxZQ`Lx5um6 z%Pj(0UI~N@Ea|c-7>h=?UmA>GFo=^zDnZ)X+K|hwy)5{o!6nTC^QH+Z*R!Inb#q^% zVwx;#p`H@lIJt>@S%<=@dkq(Nh@ur)Ibg)=6-R6YkA@*J;N&{|H}xhZH+U&MC23*Q zGpF4X$QDASh^lN1N0jmCQuGX#iR(FN*k}bs<~313oEEyQzB}^an>wszAj@n;WBi3< z{9d)}w!?Te%<9^jvdfd@0sFil`tpXM66oauvwSF%@{*i?2jK^{P#BnYa)#mmd+;2j8l8)M_F^rP<;h0AyL-{g;tAhKuL`f^8Wb6*Z; zpBXcxu)Y`YpSB2u0AKw*{R`He&D~MA$A7X!-CSN?9-5eVtSApx6nl-im(J?M5c_z_ zem8P)lEq0i(c>xjFPWA#EiF0yHl~T^4n-P}@DKU&T7o+~}-=k(n$r!|Eld3JwR9lb&u*09%w0Z8Za2_H};##~Cay)Pm z6K%ED)*LrmkP**HeA&Q*e`d>8+{EI`pD+#ZZZ4OpO^qnfEa!#ix?)-2U+qkSKRBluhG>EqS0Z;@w&x3Z@e*7s>}Ob7@- zRJ$`71@%~5WIu?{>>NTrv7Rp!2Uqt^Xka?ZVjR|=NgLurdVc7X%5Et1FqXUD@wCAsvCChj1Y705ALH@V?^76jrA?!zg1_RUX2WC9G zxCrLUvno;EUZ1-Cqr=MzDEN~2xY1YECioFe31fs-3wH>Dz)Cfmo;7K6qCNHNklJ|5 zw6Wm0>*t|mX-bJmw~>}saYAC729IJV3Ty4G|1Qv=z)FtzwJF0P$8Y_TreKq$?MV!Ro#Z1#*S|XQ4?R}+8h6Ti(B@jxrE+EvESX+w z7X0)n(NK9HkUKHRcE6+6=@eEANwei2N6DS@vPW?u@;pYgq^%b^<7wfV>~b*$3tjd4 zI7pIO=k~Eq19RZNAo|=k{{~=yLc5wprzVXMe^ZCC<-%aH1N;mn!@?JGfNOX_l%ML8Xy(@J2tjM6;#lIJe@P`BA>oZ!=WeeH{h|(8HHat< z%Z;Yx{R${SJv4uXgEfz~Ii)|0CWBj#IJ?|0cJje5Fuuk;IsZRYFIS#EGwW|_4VpPS zL$St_=oc`&_(S!gKtjF4#$+}Luad(E0b~`sp$3RFo@_;;>qZe050|5P09Jxyt6xYB zk!i)TVu)Bo$s1dk8nI=Gg|Z`dWW*N{I+T((FMks1JD`ywz|4Bt`#3bpN47bvMz1w2W=U>pW zQ}gK7ap2wlG>;VMsgsXl-9L@~(o64B^WEzp{jT6-1aEZYqyb zm{{nRJbDJ!xCUJg=OkZ(o3DbI13At%cDtHR^PcHF5@SP2r-?c}QtEw3X*2tgEP&Ym z6;cXDFxB<`T1?L#!=fV{ks%Nzv*jeNH@g_=zt((`ZX|vYLkvv6CufA6>y;l#3&;G6 z?Xa1wa%QfW5-g7QIQk0dOTSy+$_Af5O+;i~-gW{dd*g3s6y`S_sWBk*@t$u7kH6eh z`7*}4E)^q1-%d(_QHL>^htBVvvD1QN7Is8CW2_MH9jZ$F00?s za~}PjkAT(TVZFGxxJn|gWZtdmU$;!=c)6f)#~JF};O#dePoyH@Sk zdAfOnpn~7OS@OYM-6F%SzfDgaq*!~K%k=G7HrHO_f_M%`Xc`QIPt*!B(oDtiB_t28 zo9&9-Pt*J$ST*gsKC8XLe&v_Hw`D3tKN^AjAB~FA3$*ydjK#Ma8W~`j`cvzi(#r!) zAL103NJ%HAEgt3z#O~R!MIk{euwR3xSzGFf4og(IO*x^dsVP!kk;6M*$CAC*QAg7` z6se=GrC7k3G(Ol$lVMaaY7HLVNLgKlTOBYgTRsUcajoL_!G;_Yo&L%j;TjB#dH|N- zTMtsNxU}9%wH!XRJvpJ(;MOfNwvG!GC4ui&@}1l9?V|#gkwNbIT?^hnzt%++O^AZ4 zv`AmCrO4Bp`OdwDMkwlL(5iLJN$2ad+11e1vm{1BLPFbaW2zt#Va$>(@+y4gR7ONRXP|dM%*tSYvYcowI4)KD!KdWe^Pf+7oj!3?_Utw(s`r~Y>j^U5L~tRf zTz|&7;&Z;yP;sSqXNkQ1u}t24w=)dCdA40u-S%dabhDf*uW?lMqB#y(KM!1O6p zid;#8@?UCvyIf5ysS+BGDE-H{ZG?aw2Y>Yc%{bwLB3@*9dt@;kY_0MA;w$o3$Uv|>&xWZ z9P~0scjQ>`Sw5$Y6u*Zuco(k|Rzjaz((YPAiEh9UYu(0U=8YA1?bn1B#8+JKZY&f^15Y zorxZ)XtcVC^iB=`)l@j45VDx=UJyx7Z`M&;??L`p6*F1ZL=(Oyrd!zPu(uPua3JI0LSkjA2y+3=GFZkZjtlXP3eQb1?K<#z+qbX|S zjqE9yPlw$E@x;Y1!^Yj$DSJ9fQg%tQdq-=%x@$B{cul+qve&(=eM?cBrxwD8Zq#iH zzp@!~ozjPx?I8eyk4?qFrTTk3>ENt<}oPJD?ed-dSWU}vlO7LSG7~`@`K4yBs;K? z_WN+mzIRvsu4a3OUeAHIe6c_vkIb?2{79vw(L27qyIxwqxJs zDv5gh8H@!ynXxC?W|ZNtX63z}Z*F$F$$7m$F&Ut7(C1E=2{d5yir&EQf7D(4-75k< zq@+LiziZR~$_V_*gai{E(Vqseq+V@;Z~I_PeQd3L?C#;c?5-|A3@IimB#IOg7c~?W zzb7GfPgFtxiM)qIiU=LA{SSbvyRD;r!2biF{BMMXhoVWcE$tYEl#H~rxI~^}h9rtq5p From 57297a4b28f3228cc0191060d2e59f4b97d0d8b4 Mon Sep 17 00:00:00 2001 From: chaeyoon20 Date: Sun, 7 Nov 2021 04:53:25 +0900 Subject: [PATCH 025/140] add README.ko.md and assignment.ko.md --- .../15-analyzing/translations/README.ko.md | 46 +++++++++++++++++++ .../translations/assignment.ko.md | 22 +++++++++ 2 files changed, 68 insertions(+) create mode 100644 4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md create mode 100644 4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md diff --git a/4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md b/4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md new file mode 100644 index 00000000..7ae57b00 --- /dev/null +++ b/4-Data-Science-Lifecycle/15-analyzing/translations/README.ko.md @@ -0,0 +1,46 @@ +# 데이터 과학의 라이프 사이클: 분석하기 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| +|:---:| +| 데이터 과학의 라이프 사이클: 분석하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## 강의 전 퀴즈 + +## [강의 전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/28) + +데이터의 라이프사이클을 분석하면 데이터가 제안된 질문에 답하거나 특정 문제를 해결할 수 있음을 확인할 수 있습니다. 또한 이 단계는 모델이 이러한 질문과 문제를 올바르게 해결하는지 확인하는 데 초점을 맞출 수 있습니다. 이 과정에서는 데이터 내의 특징과 관계를 정의하는 기술이며 모델링을 위한 데이터를 준비하는 데 사용할 수 있는 탐색 데이터 분석(Exploratory Data Analysis) 또는 EDA에 초점을 맞춥니다. + + [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1)의 예제 데이터셋을 사용하여 파이썬 및 Pandas 라이브러리에 어떻게 적용할 수 있는지 보여드리겠습니다. 이 데이터셋에는 이메일에서 발견되는 몇 가지 일반적인 단어가 포함되어 있으며 이러한 이메일의 출처는 익명입니다. 이 디렉터리에 있는 [노트북](notebook.ipynb)을 사용하여 계속 진행하십시오. + +## 탐색 데이터 분석 + +라이프사이클의 캡처 단계는 데이터를 획득하는 단계이며 당면한 문제와 질문입니다. 하지만 데이터가 최종 결과를 지원하는 데 도움이 될 수 있는지 어떻게 알 수 있을까요? +데이터 과학자는 데이터를 획득할 때 다음과 같은 질문을 할 수 있습니다. +- 이 문제를 해결할 데이터가 충분한가요? +- 이 문제에 적합한 품질의 데이터입니까? +- 이 데이터를 통해 추가 정보를 발견하게 되면 목표를 바꾸거나 재정의하는 것을 고려해야 하나요? +탐색적 데이터 분석은 데이터를 파악하는 프로세스이며, 이러한 질문에 답하는 데 사용할 수 있을 뿐만 아니라 데이터셋으로 작업하는 데 따른 당면 과제를 파악할 수 있습니다. 이를 달성하기 위해 사용되는 몇 가지 기술에 초점을 맞춰보겠습니다. + +## 데이터 프로파일링, 기술 통계 및 Pandas +이 문제를 해결하기에 충분한 데이터가 있는지 어떻게 평가합니까? 데이터 프로파일링은 기술 통계 기법을 통해 데이터셋에 대한 일반적인 전체 정보를 요약하고 수집할 수 있습니다. 데이터 프로파일링은 우리가 사용할 수 있는 것을 이해하는 데 도움이 되며 기술 통계는 우리가 사용할 수 있는 것이 얼마나 많은지 이해하는 데 도움이 됩니다. + +이전 강의에서 우리는 Pandas를 사용하여 [`describe()` 함수]와 함께 기술 통계를 제공했습니다. 숫자 데이터에 대한 카운트, 최대값 및 최소값, 평균, 표준 편차 및 분위수를 제공합니다. `describe()` 함수와 같은 기술 통계를 사용하면 얼마나 가지고 있고 더 필요한지를 평가하는 데 도움이 될 수 있습니다. + +## 샘플링 및 쿼리 +대규모 데이터셋의 모든 것을 탐색하는 것은 매우 많은 시간이 걸릴 수 있으며 일반적으로 컴퓨터가 수행해야 하는 작업입니다. 그러나 샘플링은 데이터를 이해하는 데 유용한 도구이며 데이터 집합에 무엇이 있고 무엇을 나타내는지를 더 잘 이해할 수 있도록 해줍니다. 표본을 사용하여 확률과 통계량을 적용하여 데이터에 대한 일반적인 결론을 내릴 수 있습니다. 표본 추출하는 데이터의 양에 대한 규칙은 정의되어 있지 않지만, 표본 추출하는 데이터의 양이 많을수록 데이터에 대한 일반화의 정확성을 높일 수 있다는 점에 유의해야 합니다. +Pandas에는 받거나 사용하려는 임의의 샘플 수에 대한 아규먼트를 전달할 수 있는 [라이브러리 속 함수`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)이 있습니다. + +데이터에 대한 일반적인 쿼리는 몇 가지 일반적인 질문과 이론에 답하는 데 도움이 될 수 있습니다. 샘플링과 달리 쿼리를 사용하면 질문이 있는 데이터의 특정 부분을 제어하고 집중할 수 있습니다. +Pandas 라이브러리의 [`query()` 함수](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html)를 사용하면 열을 선택하고 간단한 검색된 행을 통해 데이터에 대한 답변을 제공받을 수 있습니다. + +## 시각화를 통한 탐색 +시각화 생성을 시작하기 위해 데이터가 완전히 정리되고 분석될 때까지 기다릴 필요가 없습니다. 실제로 탐색하는 동안 시각적 표현이 있으면 데이터의 패턴, 관계 및 문제를 식별하는 데 도움이 될 수 있습니다. 또한, 시각화는 데이터 관리에 관여하지 않는 사람들과 의사 소통하는 수단을 제공하고 캡처 단계에서 해결되지 않은 추가 질문을 공유하고 명확히 할 수 있는 기회가 될 수 있습니다. 시각적으로 탐색하는 몇 가지 인기 있는 방법에 대해 자세히 알아보려면 [section on Visualizations](3-Data-Visualization)을 참조하세요. + +## 불일치 식별을 위한 탐색 +이 강의의 모든 주제는 누락되거나 일치하지 않는 값을 식별하는 데 도움이 될 수 있지만 Pandas는 이러한 값 중 일부를 확인하는 기능을 제공합니다. [isna() 또는 isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html)에서 결측값을 확인할 수 있습니다. 데이터 내에서 이러한 값을 탐구할 때 중요한 한 가지 요소는 처음에 이러한 값이 왜 이렇게 되었는지 이유를 탐구하는 것입니다. 이는 [문제 해결을 위해 취해야 할 조치](2-Working-With-Data\08-data-preparation\notebook.ipynb)를 결정하는 데 도움이 될 수 있습니다. + +## [강의 전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/27) + +## 과제 + +[Exploring for answers](assignment.md) diff --git a/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md b/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md new file mode 100644 index 00000000..882c40a0 --- /dev/null +++ b/4-Data-Science-Lifecycle/15-analyzing/translations/assignment.ko.md @@ -0,0 +1,22 @@ +# 정답 찾기 + +이는 지난 강의의 [assignment](..\14-Introduction\assignment.md)와 이어지며, 우리는 잠시 데이터셋을 살펴보았습니다. 이제 데이터를 더욱 자세히 살펴보겠습니다. + +다시 한번, 고객이 알고싶어하는 질문: **뉴욕의 노란 택시 승객들은 겨울이나 여름에 기사들에게 팁을 더 많이 주나요?** + +당신의 팀은 Data Science Lifecycle의 [Analyzing](Readme.md)단계에 있으며, 이 곳에서 데이터셋에 대한 탐색적 데이터분석을 수행해야합니다. 당신은 2019년 1월부터 7월까지 200건의 택시 거래가 포함된 노트북과 데이터셋을 제공받았습니다. + +## 지시사항 + +이 디렉토리에는 [notebook](assignment.ipynb)와 [Taxi & Limousine Commission](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets)의 데이터가 있습니다. 데이터에 대한 자세한 내용은 [dataset's dictionary](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) 및 [user guide](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf)를 참조하세요. + +이번 강의에서 배운 몇 가지 기술을 사용하여 노트북에 있는 EDA를 직접 수행하고(원하는 경우 셀 추가) 다음 질문에 답하십시오. + +- 데이터의 어떤 다른 영향이 팁 금액에 영향을 미칠 수 있습니까? +- 클라이언트의 질문에 답하는 데 가장 필요없는 열은 무엇입니까? +- 지금까지 제공된 자료에 따르면, 데이터가 계절별 팁에대한 증거를 제공하는 것 같습니까? + +## Rubric + +모범 | 충분 | 개선 필요 +--- | --- | -- | From a0415e4c967e67597f9b39076befb693076cb80d Mon Sep 17 00:00:00 2001 From: qzylalala <304228244@qq.com> Date: Sun, 7 Nov 2021 21:16:59 +0800 Subject: [PATCH 026/140] [zh-cn] 3/README --- .../translations/README.zh-cn.md | 28 +++++++++++++++++++ 1 file changed, 28 insertions(+) create mode 100644 3-Data-Visualization/translations/README.zh-cn.md diff --git a/3-Data-Visualization/translations/README.zh-cn.md b/3-Data-Visualization/translations/README.zh-cn.md new file mode 100644 index 00000000..2a5393fa --- /dev/null +++ b/3-Data-Visualization/translations/README.zh-cn.md @@ -0,0 +1,28 @@ +# 可视化 + +![a bee on a lavender flower](../images/bee.jpg) +> 拍摄者 Jenna Lee 上传于 Unsplash + +数据可视化是数据科学家最重要的任务之一。一张图片有时胜过千言万语,同时可视化还可以帮助你指出你的数据中包含的各种有趣的特征,例如峰值、异常值、分组、趋势等等,这可以帮助你更好的了解你的数据。 + +在这五节课当中,你将接触到来源于大自然的数据,并使用各种不同的技术来完成有趣且漂亮的可视化。 + +### 主题 + +1. [可视化数据](../09-visualization-quantities/README.md) +1. [可视化数据分布](../10-visualization-distributions/README.md) +1. [可视化数据占比](../11-visualization-proportions/README.md) +1. [可视化数据间的关系](../12-visualization-relationships/README.md) +1. [做有意义的可视化](../13-meaningful-visualizations/README.md) + +### 致谢 + +这些可视化课程是由 [Jen Looper](https://twitter.com/jenlooper) 用 🌸 编写的 + +🍯 US Honey Production 所使用的数据来自 Jessica Li 在 [Kaggle](https://www.kaggle.com/jessicali9530/honey-production) 上的项目. 实际上,该 [数据集](https://usda.library.cornell.edu/concern/publications/rn301137d) 来自 [美国农业部](https://www.nass.usda.gov/About_NASS/index.php). + +🍄 mushrooms 所使用的数据集也是来自于 [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset) ,该数据集经历过 Hatteras Dunton 的一些小修订. 该数据集包括对与姬松茸和环柄菇属中 23 种金针菇相对应的假设样本的描述。 蘑菇取自于奥杜邦协会北美蘑菇野外指南 (1981)。 该数据集于 1987 年捐赠给了 UCI ML(机器学习数据集仓库) 27 + +🦆 Minnesota Birds 的数据也来自于 [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds) ,是由 Hannah Collins 从 [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) 中获取的. + +以上这些数据集都遵循 [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/) 条款. \ No newline at end of file From c3deb5759b54e9d02e581f9c5efec647f097974a Mon Sep 17 00:00:00 2001 From: JULO01 <90795588+JULO01@users.noreply.github.com> Date: Sun, 7 Nov 2021 14:51:33 +0100 Subject: [PATCH 027/140] Fixed Navigation Bar scaling of quiz-app --- quiz-app/src/App.vue | 34 ++++++++++++++++++++++++++-------- 1 file changed, 26 insertions(+), 8 deletions(-) diff --git a/quiz-app/src/App.vue b/quiz-app/src/App.vue index 65b54a08..8b5365df 100644 --- a/quiz-app/src/App.vue +++ b/quiz-app/src/App.vue @@ -1,14 +1,21 @@