You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
122 lines
13 KiB
122 lines
13 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "2583a9894af7123b2fcae3376b14c035",
|
|
"translation_date": "2025-08-25T16:55:22+00:00",
|
|
"source_file": "1-Introduction/01-defining-data-science/README.md",
|
|
"language_code": "ko"
|
|
}
|
|
-->
|
|
# 데이터 과학 정의하기
|
|
|
|
|  ](../../sketchnotes/01-Definitions.png) |
|
|
| :----------------------------------------------------------------------------------------------------: |
|
|
| 데이터 과학 정의하기 - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
---
|
|
|
|
[](https://youtu.be/beZ7Mb_oz9I)
|
|
|
|
## [강의 전 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/0)
|
|
|
|
## 데이터란 무엇인가?
|
|
우리의 일상생활은 데이터로 가득 차 있습니다. 지금 읽고 있는 이 텍스트도 데이터입니다. 스마트폰에 저장된 친구들의 전화번호 목록, 시계에 표시된 현재 시간도 데이터입니다. 인간은 돈을 세거나 친구에게 편지를 쓰는 등 자연스럽게 데이터를 다루며 살아갑니다.
|
|
|
|
하지만 컴퓨터가 발명되면서 데이터는 훨씬 더 중요한 역할을 하게 되었습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만, 이를 위해서는 데이터가 필요합니다. 따라서 컴퓨터가 데이터를 저장하고 처리하는 방식을 이해해야 합니다.
|
|
|
|
인터넷이 등장하면서 컴퓨터의 데이터 처리 장치로서의 역할이 더욱 커졌습니다. 생각해보면, 우리는 이제 실제 계산보다는 데이터 처리와 통신을 위해 컴퓨터를 더 많이 사용합니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 데이터를 생성하고, 저장하고, 전송하며 조작하고 있는 것입니다.
|
|
> 마지막으로 컴퓨터를 실제 계산 목적으로 사용한 적이 언제였는지 기억나시나요?
|
|
|
|
## 데이터 과학이란 무엇인가?
|
|
|
|
[위키피디아](https://en.wikipedia.org/wiki/Data_science)에 따르면, **데이터 과학**은 *구조화된 데이터와 비구조화된 데이터에서 지식과 통찰을 추출하고, 이를 다양한 응용 분야에 적용하는 과학적 방법을 사용하는 학문 분야*로 정의됩니다.
|
|
|
|
이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:
|
|
|
|
* 데이터 과학의 주요 목표는 데이터를 통해 **지식을 추출**하는 것입니다. 즉, 데이터를 **이해**하고, 숨겨진 관계를 발견하며, **모델**을 구축하는 것입니다.
|
|
* 데이터 과학은 확률과 통계와 같은 **과학적 방법**을 사용합니다. 사실, *데이터 과학*이라는 용어가 처음 등장했을 때, 일부 사람들은 데이터 과학이 통계학의 새로운 멋진 이름일 뿐이라고 주장했습니다. 하지만 오늘날 데이터 과학은 훨씬 더 넓은 분야로 자리 잡았습니다.
|
|
* 얻어진 지식은 **실질적인 통찰**을 제공해야 합니다. 즉, 실제 비즈니스 상황에 적용할 수 있는 실용적인 통찰이어야 합니다.
|
|
* 우리는 **구조화된 데이터**와 **비구조화된 데이터** 모두를 다룰 수 있어야 합니다. 데이터의 다양한 유형에 대해서는 이 과정에서 나중에 다시 논의할 것입니다.
|
|
* **응용 분야**는 중요한 개념이며, 데이터 과학자는 종종 금융, 의학, 마케팅 등 문제 도메인에 대한 일정 수준의 전문 지식이 필요합니다.
|
|
|
|
> 데이터 과학의 또 다른 중요한 측면은 데이터가 컴퓨터를 사용하여 어떻게 수집되고, 저장되고, 처리될 수 있는지를 연구한다는 점입니다. 통계학이 수학적 기초를 제공한다면, 데이터 과학은 수학적 개념을 실제로 데이터에서 통찰을 도출하는 데 적용합니다.
|
|
|
|
[짐 그레이](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))에게 귀속된 한 가지 관점은 데이터 과학을 별도의 과학 패러다임으로 보는 것입니다:
|
|
* **경험적**: 관찰과 실험 결과에 주로 의존
|
|
* **이론적**: 기존 과학 지식에서 새로운 개념 도출
|
|
* **계산적**: 계산 실험을 기반으로 새로운 원리 발견
|
|
* **데이터 기반**: 데이터에서 관계와 패턴 발견
|
|
|
|
## 관련 분야
|
|
|
|
데이터는 어디에나 존재하기 때문에, 데이터 과학 자체도 매우 광범위하며 여러 다른 학문과 연결됩니다.
|
|
|
|
## 데이터의 유형
|
|
|
|
앞서 언급했듯이, 데이터는 어디에나 존재합니다. 단지 올바른 방식으로 이를 포착하면 됩니다! 데이터는 **구조화된 데이터**와 **비구조화된 데이터**로 구분할 수 있습니다. 구조화된 데이터는 일반적으로 표나 여러 개의 표 형태로 잘 정리된 형태로 표현되며, 비구조화된 데이터는 단순히 파일 모음일 뿐입니다. 때로는 **반구조화된 데이터**도 언급되는데, 이는 일정한 구조를 가지지만 그 구조가 크게 다를 수 있는 데이터를 말합니다.
|
|
|
|
| 구조화된 데이터 | 반구조화된 데이터 | 비구조화된 데이터 |
|
|
| ---------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- | ------------------------------------- |
|
|
| 사람들의 전화번호 목록 | 링크가 포함된 위키피디아 페이지 | 백과사전 브리태니커의 텍스트 |
|
|
| 지난 20년 동안 매 분마다 건물 내 모든 방의 온도 | 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 | 회사 문서가 저장된 파일 공유 |
|
|
| 건물에 들어오는 모든 사람들의 나이와 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원본 비디오 피드 |
|
|
|
|
## 데이터를 얻는 방법
|
|
|
|
데이터를 얻을 수 있는 출처는 매우 다양하며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처 몇 가지를 살펴보겠습니다:
|
|
|
|
* **구조화된 데이터**
|
|
- **사물인터넷**(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
|
|
- **설문조사**: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다.
|
|
- **행동 분석**: 예를 들어, 사용자가 사이트를 얼마나 깊이 탐색하는지, 사이트를 떠나는 일반적인 이유가 무엇인지 이해하는 데 도움을 줄 수 있습니다.
|
|
* **비구조화된 데이터**
|
|
- **텍스트**: 텍스트는 전체적인 **감정 점수**를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰을 제공할 수 있습니다.
|
|
- **이미지** 또는 **비디오**: 감시 카메라의 비디오는 도로의 교통량을 추정하고, 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
|
|
- 웹 서버 **로그**: 사이트의 어떤 페이지가 가장 자주 방문되었는지, 얼마나 오래 머물렀는지 이해하는 데 사용할 수 있습니다.
|
|
* **반구조화된 데이터**
|
|
- **소셜 네트워크** 그래프: 사용자 성격과 정보를 전파하는 잠재적 효과를 파악하는 데 유용한 데이터 소스가 될 수 있습니다.
|
|
- 파티에서 찍은 사진 모음을 통해 **그룹 동역학** 데이터를 추출하고, 사람들이 서로 사진을 찍은 관계 그래프를 구축할 수 있습니다.
|
|
|
|
다양한 데이터 출처를 알게 되면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.
|
|
|
|
## 데이터로 할 수 있는 일
|
|
|
|
데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다:
|
|
|
|
물론, 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 데이터가 이미 데이터베이스에 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또는 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).
|
|
|
|
## 디지털화와 디지털 전환
|
|
|
|
지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 깨닫기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 **디지털화**라고 합니다. 이 데이터를 활용하여 데이터 과학 기법을 적용하면 생산성이 크게 향상되거나(심지어 비즈니스 전환도 가능) **디지털 전환**을 이룰 수 있습니다.
|
|
|
|
예를 들어, 학생들에게 온라인으로 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 사용하고자 한다면 어떻게 할 수 있을까요?
|
|
|
|
우리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈이 끝난 후 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다.
|
|
모듈의 길이가 서로 다를 수 있기 때문에 이 접근 방식이 최적이 아니라고 주장할 수도 있습니다. 모듈의 길이(문자 수 기준)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다.
|
|
다지선다형 테스트 결과를 분석하기 시작할 때, 학생들이 이해하기 어려워하는 개념을 파악하고 그 정보를 활용해 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다.
|
|
|
|
더 복잡하게 접근하고 싶다면, 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서는 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령별 추천을 제공하고, 잘못된 기대에서 오는 불만을 최소화할 수 있습니다.
|
|
|
|
## 🚀 도전 과제
|
|
|
|
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 기사를 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어볼 것입니다:
|
|
|
|

|
|
|
|
[`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 살펴보세요. 코드를 실행해보며 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.
|
|
|
|
> 주피터 노트북에서 코드를 실행하는 방법을 모른다면, [이 글](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)을 참고하세요.
|
|
|
|
## [강의 후 퀴즈](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1)
|
|
|
|
## 과제
|
|
|
|
* **과제 1**: 위 코드를 수정하여 **빅 데이터**와 **머신 러닝** 분야와 관련된 개념을 찾아보세요.
|
|
* **과제 2**: [데이터 과학 시나리오에 대해 생각해보기](assignment.md)
|
|
|
|
## 크레딧
|
|
|
|
이 강의는 [Dmitry Soshnikov](http://soshnikov.com)가 ♥️를 담아 작성했습니다.
|
|
|
|
**면책 조항**:
|
|
이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다. |