데이터 과학(Data Science) 정의


데이터 과학(Data Science) 정의 - Sketchnote by @nitya

데이터란 무엇인가?

일상 생활에서 우리는 항상 데이터에 둘러싸여 있습니다. 지금 당신이 읽고 있는 이 글, 당신의 스마트폰 안에 있는 친구들의 전화번호 목록도 데이터이며, 시계에 표시되는 현재 시간 역시 마찬가지입니다. 인간으로서 우리는 가지고 있는 돈을 세거나 친구들에게 편지를 쓰면서 자연스럽게 데이터를 조작합니다.

그러나 데이터는 컴퓨터의 발명과 함께 훨씬 더 중요해졌습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만 컴퓨터에게는 계산할 데이터가 필요합니다. 따라서, 우리는 컴퓨터가 데이터를 저장하고 처리하는 방법을 이해해야 합니다.

인터넷의 등장으로 데이터 처리 장치로서의 컴퓨터 역할이 증가했습니다. 생각해보면, 우리는 점점 더 컴퓨터를 문자 그대로의 계산보다는 데이터 처리와 통신을 위해 사용하고있습니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 본질적으로 데이터를 생성, 저장, 전송 및 조작을 합니다.

마지막으로 컴퓨터를 사용하여 실제로 무엇인가를 계산한 적이 언제인지 기억하십니까?

데이터 과학(data science)란 무엇인가?

위키피디아에서, 데이터 과학은 정형 데이터와 비정형 데이터에서 지식과 통찰력을 추출하고 광범위한 어플리케이션 도메인에 걸쳐 데이터에서 지식과 실행가능한 통찰력을 적용하기 위해 과학적 방법을 사용하는 과학 분야로 정의됩니다.

이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:

데이터 과학의 주된 목표는 데이터에서 지식을 추출하는 것, 즉, 데이터를 이해하고, 숨겨진 관계를 찾고 모델을 구축하는 것입니다.
데이터 과학은 확률 및 통계와 같은 과학적 방법을 사용합니다. 사실 *데이터 과학(data science)*라는 용어가 처음 소개되었을 때, 일부 사람들은 데이터 과학이 통계의 새로운 멋진 이름일 뿐이라고 주장했습니다. 오늘날에는 데이터 과학의 분야가 훨씬 더 광범위하다는 것이 분명해졌습니다.
추출한 지식을 적용하여 실행 가능한 통찰력을 생성해야 합니다.
정형 및 비정형 데이터 모두에서 작업할 수 있어야 합니다. 이 과정의 뒷부분에서 다양한 유형의 데이터에 대해 더 논의할 것입니다.
어플리케이션 도메인은 중요한 개념이며, 데이터 과학자는 종종 문제 도메인(problem domain)에서 최소한 어느 정도의 전문 지식을 필요로 합니다.

데이터 과학의 또 다른 중요한 측면은 컴퓨터를 사용하여 데이터를 수집, 저장 및 운영하는 방법을 연구한다는 것입니다. 통계는 우리에게 수학적인 기초를 제공하지만, 데이터 과학은 수학적 개념을 적용하여 실제로 데이터에서 통찰력을 이끌어냅니다.

(짐 그레이에 의하면) 데이터 과학을 보는 방법 중 하나는 데이터 과학을 별도의 과학 패러다임으로 간주하는 것입니다:

경험적: 우리는 주로 관찰과 실험 결과에 의존합니다.
이론적: 기존의 과학적 지식에서 새로운 개념이 등장한 것입니다.
전산적(Computational): 전산적인 실험을 기반으로 새로운 원리를 발견합니다.
데이터 기반(Data-Driven): 데이터에서 관계와 패턴을 발견하는 것에 기반합니다.

기타 관련 분야

데이터는 널리 알려진 개념이기 때문에, 데이터 과학 자체도 다른 많은 관련 분야를 다루는 광범위한 분야입니다.

데이터베이스(Databases): 우리가 반드시 고려해야 할 것은 데이터를 **저장하는 방법**, 즉, 데이터를 더 빠르게 처리하기 위해 데이터를 구조화하는 방법입니다. 정형 데이터와 비정형 데이터를 저장하는 다양한 유형의 데이터베이스가 있으며, [이 과정에서 그러한 점을 고려할 것입니다.] (../../../2-Working-With-Data/translations/README.ko.md).
빅데이터(Big Data): 종종 우리는 비교적 단순한 구조로 정말 많은 양의 데이터를 저장하고 처리해야 합니다. 데이터를 컴퓨터 클러스터에 분산 방식으로 저장하고 효율적으로 처리하기 위한 특별한 접근 방식과 도구가 있습니다.
머신러닝(Machine Learning): 데이터를 이해하는 방법 중 하나는 원하는 결과를 예측할 수 있는 **모델을 구축**하는 것 입니다. 데이터에서 이러한 모델을 학습할 수 있다는 것은 **머신러닝**에서 연구되는 역역입니다. 이 분야에 대해 자세히 알아보고 싶다면, [초보자를 위한 머신러닝](https://github.com/microsoft/ML-For-Beginners/) 과정을 보실 수 있습니다.
인공지능(Artificial Intelligence): 머신러닝과 마찬가지로, 인공지능도 데이터에 의존하며 인간과 유사항 행동을 보이는 복잡한 모델을 구축해야 합니다. 또한 인공지능 방법을 사용하면 일부 인사이트를 추출하여 비정형 데이터(예: 자연어)를 정형 데이터로 전환할 수 있습니다.
시각화(Visualization): 방대한 양의 데이터는 인간이 이해할 수 없지만, 유용한 시각화를 생성하면, 데이터를 더 잘 이해하고 데이터에서 몇 가지 결론을 도출해낼 수 있습니다. 따라서 정보를 시각화하는 여러 가지 방법을 아는 것이 중요합니다. 이는 우리 과정의 [Section 3](../../../3-Data-Visualization/README.md)에서 다룰 것입니다. 관련 분야에는 일반적으로 **인포그래픽(Infographics)** 및 **인간-컴퓨터 상호작용(Human-Computer Interaction)**도 포함됩니다.

데이터 유형

이미 언급했던 것처럼 데이터는 어디에나 있으므로, 우리는 데이터를 올바른 방법으로 수집하기만 하면 됩니다! 정형 데이터와 비정형 데이터를 구별하는 것이 유용합니다. 정형 데이터는 일반적으로 잘 구조화된 형식으로, 종종 테이블 또는 테이블 수로 표시되는 반면 비정형 데이터는 파일 모음일 뿐입니다. 크게 다를 수 있는 구조를 가진 반정형 데이터에 대해서도 때때로 다룰 것입니다.

정형(Structured)	반정형(Semi-structured)	비정형(Unstructured)
사람들과 그들의 전화번호 목록	위키피디아 페이지와 그 링크	브리태니커 백과사전 텍스트
지난 20년 동안 매 분 마다의 모든 방의 온도	저자, 출판 데이터, 초록이 포함된 JSON 형식의 과학 논문 모음	기업 문서와 파일 공유
건물에 출입하는 모든 사람의 연령 및 성별 데이터	인터넷 페이지	감시 카메라의 원시 비디오 피드

데이터를 얻을 수 있는 곳

데이터를 얻을 수 있는 소스들은 많고, 모든 소스를 나열하는 것은 불가능합니다! 그러나 데이터를 얻을 수 있는 몇 가지 일반적인 소스들은 이러합니다.

정형(Structured)
- 사물 인터넷(IoT): 온도 또는 압력 센서와 같은 다양한 센서의 데이터를 포함하는 사물 인터넷은 많은 유용한 데이터를 제공합니다. 예를 들어, 사무실 건물에 IoT 센서가 장착되어 있으면 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
- 설문조사: 상품 구매 후 또는 웹사이트 방문 후 사용자에게 묻는 설문조사.
- 행동 분석: 예를 들어 사용자가 사이트에 얼마나 깊이 들어가고 사이트를 떠나는 일반적인 이유는 무엇인지 이해하는 데 도움이 될 수 있습니다.
비정형(Unstructured)
- 텍스트: 전반적인 **감정 점수(sentiment score)**에서 시작해서, 키워드 및 의미론적 의미(semantic meaning) 추출에 이르기까지 통찰력을 얻을 수 있는 풍부한 소스가 될 수 있습니다.
- 이미지 또는 동영상: 감시 카메라의 비디오를 사용하여 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 알릴 수 있습니다.
- 로그: 웹 서버 로그는 당사 사이트에서 가장 많이 방문한 페이지와 시간을 파악하는 데 사용할 수 있습니다.
반정형(Semi-structured)
- 소셜 네트워크(Social Network): 소셜 네트워크 그래프는 사용자의 성격과 정보 확산의 잠재적 효과에 대한 훌륭한 데이터 소스가 될 수 있습니다.
- 그룹 역학: 파티에서 찍은 사진이 많을 때 서로 사진을 찍는 사람들의 그래프를 만들어 그룹 역학 데이터를 추출해 볼 수 있습니다.

다양한 데이터 소스를 알면, 상황을 더 잘 파악하고 비즈니스 프로세스를 개선하기 위해, 데이터 과학 기술을 적용할 수 있는 다양한 시나리오에 대해 생각해 볼 수 있습니다.

데이터로 할 수 있는 일

데이터 과학에서는 데이터 여정의 다음 단계에 중점을 둡니다.

1) 데이터 수집

첫 번째 단계는 데이터를 수집하는 것입니다. 많은 경우 웹 애플리케이션에서 데이터베이스로 오는 데이터와 같이 간단한 프로세스일 수 있지만 때로는 특별한 기술을 사용해야 합니다. 예를 들어 IoT 센서의 데이터는 압도적으로 많을 수 있으며, IoT Hub와 같은 버퍼링 엔드포인트를 사용하여 추가 프로세싱 전에 모든 데이터를 수집하는 것이 좋습니다.

2) 데이터 저장

특히 빅 데이터의 경우에, 데이터를 저장하는 것은 어려울 수 있습니다. 데이터를 저장하는 방법을 결정할 때는 나중에 데이터를 쿼리할 방법을 예상하는 것이 좋습니다. 데이터를 저장할 수 있는 방법에는 여러 가지가 있습니다.

관계형 데이터베이스는 테이블 모음을 저장하고 SQL이라는 특수 언어를 사용하여 쿼리합니다. 일반적으로 테이블은 어떤 스키마를 사용하여 서로 연결됩니다. 많은 경우 스키마에 맞게 원래 형식의 데이터를 변환해야 합니다.
CosmosDB와 같은 NoSQL 데이터베이스는 데이터에 스키마를 적용하지 않으며, 계층적 JSON 문서 또는 그래프와 같은 더 복잡한 데이터를 저장할 수 있습니다. 그러나 NoSQL 데이터베이스는 SQL의 풍부한 쿼리 기능이 없으며 데이터 간의 참조 무결성을 강제할 수 없습니다.
Data Lake 저장소는 원시 형식(raw form)의 대규모 데이터 저장소로 사용됩니다. 데이터 레이크는 모든 데이터가 하나의 시스템에 들어갈 수 없고 클러스터에서 저장 및 처리를 해야하는 빅 데이터와 함께 사용하는 경우가 많습니다. Parquet은 빅 데이터와 함께 자주 사용되는 데이터 형식입니다.

3) 데이처 처리

이 부분은 데이터를 원래 형식에서 시각화/모델 학습에 사용할 수 있는 형식으로 처리하는 것과 관련된, 데이터 여정에서 가장 흥미로운 부분입니다. 텍스트나 이미지와 같은 비정형 데이터를 처리할 때 데이터에서 **특징(features)**을 추출하여 정형화된 형식으로 변환하기 위해 일부 AI 기술을 사용해야 할 수도 있습니다.

4) 시각화(Visualization) / 인간 통찰력(Human Insights)

데이터를 이해하기 위해 우리는 종종 데이터를 시각화해야 합니다. 우리에게는 다양한 시각화 기술이 있으므로 인사이트를 만들어내기 위한 올바른 데이터의 시각화를 찾아낼 수 있습니다. 종종 데이터 과학자는 "데이터를 가지고 노는" 작업을 수행하여 여러 번 시각화하고 관계를 찾아야 합니다. 또한 통계 기술을 사용하여 몇 가지 가설을 테스트하거나 서로 다른 데이터 조각 간의 상관 관계를 증명할 수 있습니다.

5) 예측 모델 학습

데이터 과학의 궁극적인 목표는 데이터를 기반으로 의사 결정을 내리는 것이므로, 문제를 해결할 수 있는 예측 모델을 구축하기 위해 머신러닝 기술을 사용할 수 있습니다.

물론 실제 데이터에 따라 일부 단계가 누락될 수 있거나(예: 데이터베이스에 데이터가 이미 있는 경우 또는 모델 학습이 필요하지 않은 경우) 일부 단계가 여러 번 반복될 수 있습니다(예: 데이터 처리 ).

디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation)

지난 10년 동안, 많은 기업이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 일부 데이터를 수집해야 합니다. 즉, 어떻게든 비즈니스 프로세스를 디지털 형식으로 전환해야 합니다. 이를 **디지털화(digitalization)**라고 하며, 데이터 과학 기술을 사용하여 결정을 안내하고 종종 생산성(또는 비즈니스 피봇(pivot))이 크게 증가하는 **디지털 트랜스포메이션(Digital Transformation)**을 동반합니다.

예를 들어 보겠습니다. 우리가 학생들에게 온라인으로 제공하는 데이터 과학 과정(예를 들어 현재 이 과정)이 있고 이를 개선하기 위해 데이터 과학을 사용하려고 한다고 가정해 보겠습니다. 어떻게 할 수 있습니까?

우리는 "무엇을 디지털화할 수 있는가?"라고 생각하는 것으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간과 획득한 지식을 측정하는 것입니다(예를 들어, 각 모듈의 끝에 객관식 테스트를 제공함으로). 모든 학생의 완료 시간을 평균화하여 어떤 모듈이 학생들에게 가장 많은 문제를 일으키는지 찾아내고 이를 단순화하기 위해 노력할 수 있습니다.

모듈의 길이가 다를 수 있으므로 이 접근 방식이 이상적이지 않다고 주장할 수 있습니다. 시간을 모듈의 길이(문자 수)로 나누고 대신 해당 값을 비교하는 것이 더 공정할 수 있습니다.

객관식 시험의 결과를 분석하기 시작하면 학생들이 잘 이해하지 못하는 특정 개념을 찾아 내용을 개선할 수 있습니다. 그렇게 하려면 각 질문이 특정 개념이나 지식 덩어리에 매핑되는 방식으로 테스트를 설계해야 합니다.

더 복잡하게 하려면 학생의 연령 범주에 대해 각 모듈에 소요된 시간을 표시할 수 있습니다. 일부 연령 범주의 경우 모듈을 완료하는 데 부적절하게 오랜 시간이 걸리거나 학생들이 특정 지점에서 중도 탈락한다는 것을 알 수 있습니다. 이를 통해 모듈에 대한 권장 연령을 제공하고 잘못된 기대로 인한 사람들의 불만을 최소화할 수 있습니다.

🚀 챌린지

이 챌린지에서는 텍스트에서 데이터 과학 분야와 관련된 개념을 찾으려고 합니다. 데이터 과학에 대한 Wikipedia 기사를 가져와 텍스트를 다운로드 및 처리한 다음 다음과 같은 워드 클라우드를 구축해봅시다.

notebook.ipynb에서 코드를 읽어보세요. 코드를 실행할 수 있고, 실시간으로 모든 데이터 변환을 어떻게 수행하는 지 확인할 수 있습니다.

주피터 노트북(Jupyter Notebook)에서 코드를 어떻게 실행하는 지 잘 모른다면, 이 기사를 읽어보세요.

강의 후 퀴즈

과제

Task 1: 빅 데이터 및 머신러닝 분야에 대한 관련 개념을 찾기 위해 위의 코드를 수정합니다.
Task 2: 데이터 과학 시나리오에 대해 생각하기

크레딧

강의를 제작한 분: Dmitry Soshnikov

17 KiB

Raw Blame History

데이터 과학(Data Science) 정의

Pre-lecture quiz

데이터란 무엇인가?

데이터 과학(data science)란 무엇인가?

기타 관련 분야

데이터 유형

데이터를 얻을 수 있는 곳

데이터로 할 수 있는 일

디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation)

🚀 챌린지

강의 후 퀴즈

과제

크레딧

17 KiB Raw Blame History

데이터 과학(Data Science) 정의

Pre-lecture quiz

데이터란 무엇인가?

데이터 과학(data science)란 무엇인가?

기타 관련 분야

데이터 유형

데이터를 얻을 수 있는 곳

데이터로 할 수 있는 일

디지털화(Digitalization) 및 디지털 트랜스포메이션(Digital Transformation)

🚀 챌린지

강의 후 퀴즈

과제

크레딧

17 KiB

Raw Blame History