You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ko/1-Introduction/01-defining-data-science
leestott c32bb6bc1a
🌐 Update translations via Co-op Translator
4 weeks ago
..
solution 🌐 Update translations via Co-op Translator 4 weeks ago
README.md 🌐 Update translations via Co-op Translator 4 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

데이터 과학 정의하기

 Sketchnote by (@sketchthedocs)
데이터 과학 정의하기 - Sketchnote by @nitya

데이터 과학 정의하기 비디오

강의 전 퀴즈

데이터란 무엇인가?

우리의 일상생활은 데이터로 가득 차 있습니다. 지금 읽고 있는 이 텍스트도 데이터입니다. 스마트폰에 저장된 친구들의 전화번호 목록, 시계에 표시된 현재 시간도 데이터입니다. 인간은 돈을 세거나 친구에게 편지를 쓰는 등 자연스럽게 데이터를 다루며 살아갑니다.

하지만 컴퓨터가 발명되면서 데이터는 훨씬 더 중요한 역할을 하게 되었습니다. 컴퓨터의 주요 역할은 계산을 수행하는 것이지만, 이를 위해서는 데이터가 필요합니다. 따라서 컴퓨터가 데이터를 저장하고 처리하는 방식을 이해해야 합니다.

인터넷이 등장하면서 컴퓨터의 데이터 처리 장치로서의 역할이 더욱 커졌습니다. 생각해보면, 우리는 이제 실제 계산보다는 데이터 처리와 통신을 위해 컴퓨터를 더 많이 사용합니다. 친구에게 이메일을 쓰거나 인터넷에서 정보를 검색할 때, 우리는 데이터를 생성하고, 저장하고, 전송하며 조작하고 있는 것입니다.

마지막으로 컴퓨터를 실제 계산 목적으로 사용한 적이 언제였는지 기억나시나요?

데이터 과학이란 무엇인가?

위키피디아에 따르면, 데이터 과학구조화된 데이터와 비구조화된 데이터에서 지식과 통찰을 추출하고, 이를 다양한 응용 분야에 적용하는 과학적 방법을 사용하는 학문 분야로 정의됩니다.

이 정의는 데이터 과학의 다음과 같은 중요한 측면을 강조합니다:

  • 데이터 과학의 주요 목표는 데이터를 통해 지식을 추출하는 것입니다. 즉, 데이터를 이해하고, 숨겨진 관계를 발견하며, 모델을 구축하는 것입니다.
  • 데이터 과학은 확률과 통계와 같은 과학적 방법을 사용합니다. 사실, 데이터 과학이라는 용어가 처음 등장했을 때, 일부 사람들은 데이터 과학이 통계학의 새로운 멋진 이름일 뿐이라고 주장했습니다. 하지만 오늘날 데이터 과학은 훨씬 더 넓은 분야로 자리 잡았습니다.
  • 얻어진 지식은 실질적인 통찰을 제공해야 합니다. 즉, 실제 비즈니스 상황에 적용할 수 있는 실용적인 통찰이어야 합니다.
  • 우리는 구조화된 데이터비구조화된 데이터 모두를 다룰 수 있어야 합니다. 데이터의 다양한 유형에 대해서는 이 과정에서 나중에 다시 논의할 것입니다.
  • 응용 분야는 중요한 개념이며, 데이터 과학자는 종종 금융, 의학, 마케팅 등 문제 도메인에 대한 일정 수준의 전문 지식이 필요합니다.

데이터 과학의 또 다른 중요한 측면은 데이터가 컴퓨터를 사용하여 어떻게 수집되고, 저장되고, 처리될 수 있는지를 연구한다는 점입니다. 통계학이 수학적 기초를 제공한다면, 데이터 과학은 수학적 개념을 실제로 데이터에서 통찰을 도출하는 데 적용합니다.

짐 그레이에게 귀속된 한 가지 관점은 데이터 과학을 별도의 과학 패러다임으로 보는 것입니다:

  • 경험적: 관찰과 실험 결과에 주로 의존
  • 이론적: 기존 과학 지식에서 새로운 개념 도출
  • 계산적: 계산 실험을 기반으로 새로운 원리 발견
  • 데이터 기반: 데이터에서 관계와 패턴 발견

관련 분야

데이터는 어디에나 존재하기 때문에, 데이터 과학 자체도 매우 광범위하며 여러 다른 학문과 연결됩니다.

데이터의 유형

앞서 언급했듯이, 데이터는 어디에나 존재합니다. 단지 올바른 방식으로 이를 포착하면 됩니다! 데이터는 구조화된 데이터비구조화된 데이터로 구분할 수 있습니다. 구조화된 데이터는 일반적으로 표나 여러 개의 표 형태로 잘 정리된 형태로 표현되며, 비구조화된 데이터는 단순히 파일 모음일 뿐입니다. 때로는 반구조화된 데이터도 언급되는데, 이는 일정한 구조를 가지지만 그 구조가 크게 다를 수 있는 데이터를 말합니다.

구조화된 데이터 반구조화된 데이터 비구조화된 데이터
사람들의 전화번호 목록 링크가 포함된 위키피디아 페이지 백과사전 브리태니커의 텍스트
지난 20년 동안 매 분마다 건물 내 모든 방의 온도 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 회사 문서가 저장된 파일 공유
건물에 들어오는 모든 사람들의 나이와 성별 데이터 인터넷 페이지 감시 카메라의 원본 비디오 피드

데이터를 얻는 방법

데이터를 얻을 수 있는 출처는 매우 다양하며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처 몇 가지를 살펴보겠습니다:

  • 구조화된 데이터
    • 사물인터넷(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 난방과 조명을 자동으로 제어하여 비용을 최소화할 수 있습니다.
    • 설문조사: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다.
    • 행동 분석: 예를 들어, 사용자가 사이트를 얼마나 깊이 탐색하는지, 사이트를 떠나는 일반적인 이유가 무엇인지 이해하는 데 도움을 줄 수 있습니다.
  • 비구조화된 데이터
    • 텍스트: 텍스트는 전체적인 감정 점수를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰을 제공할 수 있습니다.
    • 이미지 또는 비디오: 감시 카메라의 비디오는 도로의 교통량을 추정하고, 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
    • 웹 서버 로그: 사이트의 어떤 페이지가 가장 자주 방문되었는지, 얼마나 오래 머물렀는지 이해하는 데 사용할 수 있습니다.
  • 반구조화된 데이터
    • 소셜 네트워크 그래프: 사용자 성격과 정보를 전파하는 잠재적 효과를 파악하는 데 유용한 데이터 소스가 될 수 있습니다.
    • 파티에서 찍은 사진 모음을 통해 그룹 동역학 데이터를 추출하고, 사람들이 서로 사진을 찍은 관계 그래프를 구축할 수 있습니다.

다양한 데이터 출처를 알게 되면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.

데이터로 할 수 있는 일

데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다:

물론, 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 데이터가 이미 데이터베이스에 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또는 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).

디지털화와 디지털 전환

지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 깨닫기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 디지털화라고 합니다. 이 데이터를 활용하여 데이터 과학 기법을 적용하면 생산성이 크게 향상되거나(심지어 비즈니스 전환도 가능) 디지털 전환을 이룰 수 있습니다.

예를 들어, 학생들에게 온라인으로 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 사용하고자 한다면 어떻게 할 수 있을까요?

우리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈이 끝난 후 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다. 모듈의 길이가 서로 다를 수 있기 때문에 이 접근 방식이 최적이 아니라고 주장할 수도 있습니다. 모듈의 길이(문자 수 기준)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다. 다지선다형 테스트 결과를 분석하기 시작할 때, 학생들이 이해하기 어려워하는 개념을 파악하고 그 정보를 활용해 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다.

더 복잡하게 접근하고 싶다면, 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서는 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령별 추천을 제공하고, 잘못된 기대에서 오는 불만을 최소화할 수 있습니다.

🚀 도전 과제

이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 기사를 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어볼 것입니다:

데이터 과학 워드 클라우드

notebook.ipynb를 방문하여 코드를 살펴보세요. 코드를 실행해보며 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.

주피터 노트북에서 코드를 실행하는 방법을 모른다면, 이 글을 참고하세요.

강의 후 퀴즈

과제

크레딧

이 강의는 Dmitry Soshnikov♥️를 담아 작성했습니다.

면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.