You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
165 lines
17 KiB
165 lines
17 KiB
# 데이터 과학(Data Science) 정의
|
|
|
|
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
|
|
|:---:|
|
|
|데이터 과학(Data Science) 정의 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
---
|
|
|
|
[![데이터 과학(Data Science) 정의 영상](../images/video-def-ds.png)](https://youtu.be/pqqsm5reGvs)
|
|
|
|
## [Pre-lecture quiz](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
|
|
|
|
## 데이터란 무엇인가?
|
|
일상 생활에서 우리는 항상 데이터에 둘러싸여 있습니다. 지금 당신이 읽고 있는 이 글, 당신의 스마트폰 안에 있는 친구들의 전화번호 목록도 데이터이며, 시계에 표시되는 현재 시간 역시 마찬가지입니다. 인간으로서 우리는 가지고 있는 돈을 세거나 친구들에게 편지를 쓰면서 자연스럽게 데이터를 조작합니다.
|
|
|
|
그러나 데이터는 컴퓨터의 발명과 함께 훨씬 더 중요해졌습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만 컴퓨터에게는 계산할 데이터가 필요합니다. 따라서, 우리는 컴퓨터가 데이터를 저장하고 처리하는 방법을 이해해야 합니다.
|
|
|
|
인터넷의 등장으로 데이터 처리 장치로서의 컴퓨터 역할이 증가했습니다. 생각해보면, 우리는 점점 더 컴퓨터를 문자 그대로의 계산보다는 데이터 처리와 통신을 위해 사용하고있습니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 본질적으로 데이터를 생성, 저장, 전송 및 조작을 합니다.
|
|
> 마지막으로 컴퓨터를 사용하여 실제로 무엇인가를 계산한 적이 언제인지 기억하십니까?
|
|
|
|
## 데이터 과학(data science)란 무엇인가?
|
|
|
|
[위키피디아](https://en.wikipedia.org/wiki/Data_science)에서, **데이터 과학**은 *정형 데이터와 비정형 데이터에서 지식과 통찰력을 추출하고 광범위한 어플리케이션 도메인에 걸쳐 데이터에서 지식과 실행가능한 통찰력을 적용하기 위해 과학적 방법을 사용하는 과학 분야*로 정의됩니다.
|
|
|
|
이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:
|
|
|
|
* 데이터 과학의 주된 목표는 데이터에서 **지식을 추출**하는 것, 즉, 데이터를 **이해**하고, 숨겨진 관계를 찾고 **모델**을 구축하는 것입니다.
|
|
* 데이터 과학은 확률 및 통계와 같은 **과학적 방법**을 사용합니다. 사실 *데이터 과학(data science)*라는 용어가 처음 소개되었을 때, 일부 사람들은 데이터 과학이 통계의 새로운 멋진 이름일 뿐이라고 주장했습니다. 오늘날에는 데이터 과학의 분야가 훨씬 더 광범위하다는 것이 분명해졌습니다.
|
|
* 추출한 지식을 적용하여 **실행 가능한 통찰력**을 생성해야 합니다.
|
|
* **정형** 및 **비정형** 데이터 모두에서 작업할 수 있어야 합니다. 이 과정의 뒷부분에서 다양한 유형의 데이터에 대해 더 논의할 것입니다.
|
|
* **어플리케이션 도메인**은 중요한 개념이며, 데이터 과학자는 종종 문제 도메인(problem domain)에서 최소한 어느 정도의 전문 지식을 필요로 합니다.
|
|
|
|
> 데이터 과학의 또 다른 중요한 측면은 컴퓨터를 사용하여 데이터를 수집, 저장 및 운영하는 방법을 연구한다는 것입니다. 통계는 우리에게 수학적인 기초를 제공하지만, 데이터 과학은 수학적 개념을 적용하여 실제로 데이터에서 통찰력을 이끌어냅니다.
|
|
|
|
([짐 그레이](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))에 의하면) 데이터 과학을 보는 방법 중 하나는 데이터 과학을 별도의 과학 패러다임으로 간주하는 것입니다:
|
|
* **경험적**: 우리는 주로 관찰과 실험 결과에 의존합니다.
|
|
* **이론적**: 기존의 과학적 지식에서 새로운 개념이 등장한 것입니다.
|
|
* **전산적(Computational)**: 전산적인 실험을 기반으로 새로운 원리를 발견합니다.
|
|
* **데이터 기반(Data-Driven)**: 데이터에서 관계와 패턴을 발견하는 것에 기반합니다.
|
|
|
|
## 기타 관련 분야
|
|
|
|
데이터는 널리 알려진 개념이기 때문에, 데이터 과학 자체도 다른 많은 관련 분야를 다루는 광범위한 분야입니다.
|
|
|
|
<dl>
|
|
<dt>데이터베이스(Databases)</dt>
|
|
<dd>
|
|
우리가 반드시 고려해야 할 것은 데이터를 **저장하는 방법**, 즉, 데이터를 더 빠르게 처리하기 위해 데이터를 구조화하는 방법입니다. 정형 데이터와 비정형 데이터를 저장하는 다양한 유형의 데이터베이스가 있으며, [이 과정에서 그러한 점을 고려할 것입니다.] (../../../2-Working-With-Data/translations/README.ko.md).
|
|
</dd>
|
|
<dt>빅데이터(Big Data)</dt>
|
|
<dd>
|
|
종종 우리는 비교적 단순한 구조로 정말 많은 양의 데이터를 저장하고 처리해야 합니다. 데이터를 컴퓨터 클러스터에 분산 방식으로 저장하고 효율적으로 처리하기 위한 특별한 접근 방식과 도구가 있습니다.
|
|
</dd>
|
|
<dt>머신러닝(Machine Learning)</dt>
|
|
<dd>
|
|
데이터를 이해하는 방법 중 하나는 원하는 결과를 예측할 수 있는 **모델을 구축**하는 것 입니다. 데이터에서 이러한 모델을 학습할 수 있다는 것은 **머신러닝**에서 연구되는 역역입니다. 이 분야에 대해 자세히 알아보고 싶다면, [초보자를 위한 머신러닝](https://github.com/microsoft/ML-For-Beginners/) 과정을 보실 수 있습니다.
|
|
</dd>
|
|
<dt>인공지능(Artificial Intelligence)</dt>
|
|
<dd>
|
|
머신러닝과 마찬가지로, 인공지능도 데이터에 의존하며 인간과 유사항 행동을 보이는 복잡한 모델을 구축해야 합니다. 또한 인공지능 방법을 사용하면 일부 인사이트를 추출하여 비정형 데이터(예: 자연어)를 정형 데이터로 전환할 수 있습니다.
|
|
</dd>
|
|
<dt>시각화(Visualization)</dt>
|
|
<dd>
|
|
방대한 양의 데이터는 인간이 이해할 수 없지만, 유용한 시각화를 생성하면, 데이터를 더 잘 이해하고 데이터에서 몇 가지 결론을 도출해낼 수 있습니다. 따라서 정보를 시각화하는 여러 가지 방법을 아는 것이 중요합니다. 이는 우리 과정의 [Section 3](../../../3-Data-Visualization/README.md)에서 다룰 것입니다. 관련 분야에는 일반적으로 **인포그래픽(Infographics)** 및 **인간-컴퓨터 상호작용(Human-Computer Interaction)**도 포함됩니다.
|
|
</dd>
|
|
</dl>
|
|
|
|
## 데이터 유형
|
|
|
|
이미 언급했던 것처럼 데이터는 어디에나 있으므로, 우리는 데이터를 올바른 방법으로 수집하기만 하면 됩니다! **정형** 데이터와 **비정형** 데이터를 구별하는 것이 유용합니다. 정형 데이터는 일반적으로 잘 구조화된 형식으로, 종종 테이블 또는 테이블 수로 표시되는 반면 비정형 데이터는 파일 모음일 뿐입니다. 크게 다를 수 있는 구조를 가진 **반정형** 데이터에 대해서도 때때로 다룰 것입니다.
|
|
|
|
| 정형(Structured) | 반정형(Semi-structured) | 비정형(Unstructured) |
|
|
|------------|-----------------|--------------|
|
|
| 사람들과 그들의 전화번호 목록 | 위키피디아 페이지와 그 링크 | 브리태니커 백과사전 텍스트 |
|
|
| 지난 20년 동안 매 분 마다의 모든 방의 온도 | 저자, 출판 데이터, 초록이 포함된 JSON 형식의 과학 논문 모음 | 기업 문서와 파일 공유 |
|
|
| 건물에 출입하는 모든 사람의 연령 및 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원시 비디오 피드 |
|
|
|
|
## 데이터를 얻을 수 있는 곳
|
|
|
|
데이터를 얻을 수 있는 소스들은 많고, 모든 소스를 나열하는 것은 불가능합니다! 그러나 데이터를 얻을 수 있는 몇 가지 일반적인 소스들은 이러합니다.
|
|
|
|
* **정형(Structured)**
|
|
- **사물 인터넷(IoT)**: 온도 또는 압력 센서와 같은 다양한 센서의 데이터를 포함하는 사물 인터넷은 많은 유용한 데이터를 제공합니다. 예를 들어, 사무실 건물에 IoT 센서가 장착되어 있으면 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
|
|
- **설문조사**: 상품 구매 후 또는 웹사이트 방문 후 사용자에게 묻는 설문조사.
|
|
- **행동 분석**: 예를 들어 사용자가 사이트에 얼마나 깊이 들어가고 사이트를 떠나는 일반적인 이유는 무엇인지 이해하는 데 도움이 될 수 있습니다.
|
|
* **비정형(Unstructured)**
|
|
- **텍스트**: 전반적인 **감정 점수(sentiment score)**에서 시작해서, 키워드 및 의미론적 의미(semantic meaning) 추출에 이르기까지 통찰력을 얻을 수 있는 풍부한 소스가 될 수 있습니다.
|
|
- **이미지** 또는 **동영상**: 감시 카메라의 비디오를 사용하여 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 알릴 수 있습니다.
|
|
- **로그**: 웹 서버 로그는 당사 사이트에서 가장 많이 방문한 페이지와 시간을 파악하는 데 사용할 수 있습니다.
|
|
* 반정형(Semi-structured)
|
|
- **소셜 네트워크(Social Network)**: 소셜 네트워크 그래프는 사용자의 성격과 정보 확산의 잠재적 효과에 대한 훌륭한 데이터 소스가 될 수 있습니다.
|
|
- **그룹 역학**: 파티에서 찍은 사진이 많을 때 서로 사진을 찍는 사람들의 그래프를 만들어 그룹 역학 데이터를 추출해 볼 수 있습니다.
|
|
|
|
다양한 데이터 소스를 알면, 상황을 더 잘 파악하고 비즈니스 프로세스를 개선하기 위해, 데이터 과학 기술을 적용할 수 있는 다양한 시나리오에 대해 생각해 볼 수 있습니다.
|
|
|
|
## 데이터로 할 수 있는 일
|
|
|
|
데이터 과학에서는 데이터 여정의 다음 단계에 중점을 둡니다.
|
|
|
|
<dl>
|
|
<dt>1) 데이터 수집</dt>
|
|
<dd>
|
|
첫 번째 단계는 데이터를 수집하는 것입니다. 많은 경우 웹 애플리케이션에서 데이터베이스로 오는 데이터와 같이 간단한 프로세스일 수 있지만 때로는 특별한 기술을 사용해야 합니다. 예를 들어 IoT 센서의 데이터는 압도적으로 많을 수 있으며, IoT Hub와 같은 버퍼링 엔드포인트를 사용하여 추가 프로세싱 전에 모든 데이터를 수집하는 것이 좋습니다.
|
|
</dd>
|
|
<dt>2) 데이터 저장</dt>
|
|
<dd>
|
|
특히 빅 데이터의 경우에, 데이터를 저장하는 것은 어려울 수 있습니다. 데이터를 저장하는 방법을 결정할 때는 나중에 데이터를 쿼리할 방법을 예상하는 것이 좋습니다. 데이터를 저장할 수 있는 방법에는 여러 가지가 있습니다.
|
|
<ul>
|
|
<li>관계형 데이터베이스는 테이블 모음을 저장하고 SQL이라는 특수 언어를 사용하여 쿼리합니다. 일반적으로 테이블은 어떤 스키마를 사용하여 서로 연결됩니다. 많은 경우 스키마에 맞게 원래 형식의 데이터를 변환해야 합니다.</li>
|
|
<li><a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-77958-bethanycheum">CosmosDB</a>와 같은 <a href="https://en.wikipedia.org/wiki/NoSQL">NoSQL</a> 데이터베이스는 데이터에 스키마를 적용하지 않으며, 계층적 JSON 문서 또는 그래프와 같은 더 복잡한 데이터를 저장할 수 있습니다. 그러나 NoSQL 데이터베이스는 SQL의 풍부한 쿼리 기능이 없으며 데이터 간의 참조 무결성을 강제할 수 없습니다.</li>
|
|
<li><a href="https://en.wikipedia.org/wiki/Data_lake">Data Lake</a> 저장소는 원시 형식(raw form)의 대규모 데이터 저장소로 사용됩니다. 데이터 레이크는 모든 데이터가 하나의 시스템에 들어갈 수 없고 클러스터에서 저장 및 처리를 해야하는 빅 데이터와 함께 사용하는 경우가 많습니다. <a href="https://en.wikipedia.org/wiki/Apache_Parquet">Parquet</a>은 빅 데이터와 함께 자주 사용되는 데이터 형식입니다.</li>
|
|
</ul>
|
|
</dd>
|
|
<dt>3) 데이처 처리</dt>
|
|
<dd>
|
|
이 부분은 데이터를 원래 형식에서 시각화/모델 학습에 사용할 수 있는 형식으로 처리하는 것과 관련된, 데이터 여정에서 가장 흥미로운 부분입니다. 텍스트나 이미지와 같은 비정형 데이터를 처리할 때 데이터에서 **특징(features)**을 추출하여 정형화된 형식으로 변환하기 위해 일부 AI 기술을 사용해야 할 수도 있습니다.
|
|
</dd>
|
|
<dt>4) 시각화(Visualization) / 인간 통찰력(Human Insights)</dt>
|
|
<dd>
|
|
데이터를 이해하기 위해 우리는 종종 데이터를 시각화해야 합니다. 우리에게는 다양한 시각화 기술이 있으므로 인사이트를 만들어내기 위한 올바른 데이터의 시각화를 찾아낼 수 있습니다. 종종 데이터 과학자는 "데이터를 가지고 노는" 작업을 수행하여 여러 번 시각화하고 관계를 찾아야 합니다. 또한 통계 기술을 사용하여 몇 가지 가설을 테스트하거나 서로 다른 데이터 조각 간의 상관 관계를 증명할 수 있습니다.
|
|
</dd>
|
|
<dt>5) 예측 모델 학습</dt>
|
|
<dd>
|
|
데이터 과학의 궁극적인 목표는 데이터를 기반으로 의사 결정을 내리는 것이므로, 문제를 해결할 수 있는 예측 모델을 구축하기 위해 <a href="http://github.com/microsoft/ml-for-beginners">머신러닝</a> 기술을 사용할 수 있습니다.
|
|
</dd>
|
|
</dl>
|
|
|
|
물론 실제 데이터에 따라 일부 단계가 누락될 수 있거나(예: 데이터베이스에 데이터가 이미 있는 경우 또는 모델 학습이 필요하지 않은 경우) 일부 단계가 여러 번 반복될 수 있습니다(예: 데이터 처리 ).
|
|
|
|
## 디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation)
|
|
|
|
지난 10년 동안, 많은 기업이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 일부 데이터를 수집해야 합니다. 즉, 어떻게든 비즈니스 프로세스를 디지털 형식으로 전환해야 합니다. 이를 **디지털화(digitalization)**라고 하며, 데이터 과학 기술을 사용하여 결정을 안내하고 종종 생산성(또는 비즈니스 피봇(pivot))이 크게 증가하는 **디지털 트랜스포메이션(Digital Transformation)**을 동반합니다.
|
|
|
|
예를 들어 보겠습니다. 우리가 학생들에게 온라인으로 제공하는 데이터 과학 과정(예를 들어 현재 이 과정)이 있고 이를 개선하기 위해 데이터 과학을 사용하려고 한다고 가정해 보겠습니다. 어떻게 할 수 있습니까?
|
|
|
|
우리는 "무엇을 디지털화할 수 있는가?"라고 생각하는 것으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간과 획득한 지식을 측정하는 것입니다(예를 들어, 각 모듈의 끝에 객관식 테스트를 제공함으로). 모든 학생의 완료 시간을 평균화하여 어떤 모듈이 학생들에게 가장 많은 문제를 일으키는지 찾아내고 이를 단순화하기 위해 노력할 수 있습니다.
|
|
|
|
> 모듈의 길이가 다를 수 있으므로 이 접근 방식이 이상적이지 않다고 주장할 수 있습니다. 시간을 모듈의 길이(문자 수)로 나누고 대신 해당 값을 비교하는 것이 더 공정할 수 있습니다.
|
|
|
|
객관식 시험의 결과를 분석하기 시작하면 학생들이 잘 이해하지 못하는 특정 개념을 찾아 내용을 개선할 수 있습니다. 그렇게 하려면 각 질문이 특정 개념이나 지식 덩어리에 매핑되는 방식으로 테스트를 설계해야 합니다.
|
|
|
|
더 복잡하게 하려면 학생의 연령 범주에 대해 각 모듈에 소요된 시간을 표시할 수 있습니다. 일부 연령 범주의 경우 모듈을 완료하는 데 부적절하게 오랜 시간이 걸리거나 학생들이 특정 지점에서 중도 탈락한다는 것을 알 수 있습니다. 이를 통해 모듈에 대한 권장 연령을 제공하고 잘못된 기대로 인한 사람들의 불만을 최소화할 수 있습니다.
|
|
|
|
## 🚀 챌린지
|
|
|
|
이 챌린지에서는 텍스트에서 데이터 과학 분야와 관련된 개념을 찾으려고 합니다. 데이터 과학에 대한 Wikipedia 기사를 가져와 텍스트를 다운로드 및 처리한 다음 다음과 같은 워드 클라우드를 구축해봅시다.
|
|
|
|
![데이터 과학에 대한 워드 클라우드](../images/ds_wordcloud.png)
|
|
|
|
[`notebook.ipynb`](../notebook.ipynb)에서 코드를 읽어보세요. 코드를 실행할 수 있고, 실시간으로 모든 데이터 변환을 어떻게 수행하는 지 확인할 수 있습니다.
|
|
|
|
> 주피터 노트북(Jupyter Notebook)에서 코드를 어떻게 실행하는 지 잘 모른다면, [이 기사](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)를 읽어보세요.
|
|
|
|
|
|
|
|
## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
|
|
|
|
## 과제
|
|
|
|
* **Task 1**: **빅 데이터** 및 **머신러닝** 분야에 대한 관련 개념을 찾기 위해 위의 코드를 수정합니다.
|
|
* **Task 2**: [데이터 과학 시나리오에 대해 생각하기](./assignment.ko.md)
|
|
|
|
## 크레딧
|
|
|
|
강의를 제작한 분: [Dmitry Soshnikov](http://soshnikov.com) |