You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

8.7 KiB

데이터의 종류

이미 언급했듯이, 데이터는 어디에나 존재합니다. 우리는 단지 올바른 방식으로 데이터를 포착하기만 하면 됩니다! 데이터를 구조화된 데이터비구조화된 데이터로 구분하는 것이 유용합니다. 구조화된 데이터는 일반적으로 잘 정리된 형태로 표현되며, 종종 테이블이나 여러 테이블로 나타납니다. 반면, 비구조화된 데이터는 단순히 파일들의 모음일 뿐입니다. 때로는 반구조화된 데이터에 대해 이야기할 수도 있는데, 이는 일정한 구조를 가지고 있지만 그 구조가 크게 다를 수 있습니다.

구조화된 데이터 반구조화된 데이터 비구조화된 데이터
사람들의 전화번호 목록 링크가 포함된 위키백과 페이지 브리태니커 백과사전의 텍스트
지난 20년 동안 매 분마다 건물의 모든 방의 온도 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 회사 문서가 저장된 파일 공유
건물에 들어오는 모든 사람들의 나이와 성별 데이터 인터넷 페이지 감시 카메라의 원본 비디오 피드

데이터를 얻는 방법

데이터를 얻을 수 있는 많은 출처가 있으며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처를 몇 가지 언급해 보겠습니다:

  • 구조화된 데이터
    • 사물인터넷(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 비용을 최소화하기 위해 난방과 조명을 자동으로 제어할 수 있습니다.
    • 설문조사: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다.
    • 행동 분석: 예를 들어, 사용자가 웹사이트를 얼마나 깊이 탐색하는지, 그리고 사이트를 떠나는 일반적인 이유를 이해하는 데 도움을 줄 수 있습니다.
  • 비구조화된 데이터
    • 텍스트: 전체적인 감정 점수를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰력을 제공할 수 있습니다.
    • 이미지 또는 비디오: 감시 카메라의 비디오는 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
    • 웹 서버 로그: 사이트에서 가장 자주 방문되는 페이지와 방문 시간 등을 이해하는 데 사용할 수 있습니다.
  • 반구조화된 데이터
    • 소셜 네트워크 그래프: 사용자 성격과 정보를 전파하는 데 있어 잠재적인 효과에 대한 데이터를 제공할 수 있습니다.
    • 파티에서 찍은 사진 모음을 통해 그룹 역학 데이터를 추출하고, 서로 사진을 찍은 사람들의 그래프를 구축할 수 있습니다.

다양한 데이터 출처를 알고 있다면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.

데이터로 할 수 있는 일

데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다:

물론 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 이미 데이터베이스에 데이터가 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또는 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).

디지털화와 디지털 전환

지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 디지털화라고 합니다. 이 데이터를 활용하여 데이터 과학 기술을 적용하면 생산성이 크게 향상되거나 비즈니스 방향 전환이 이루어질 수 있습니다. 이를 디지털 전환이라고 합니다.

예를 들어, 온라인으로 학생들에게 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 활용하고자 한다면 어떻게 할 수 있을까요?

우리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈 끝에 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다. 모듈의 길이가 다를 수 있기 때문에 이 접근 방식이 이상적이지 않다고 주장할 수도 있습니다. 모듈의 길이(문자 수)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다. 다중 선택 테스트 결과를 분석하기 시작하면 학생들이 이해하기 어려워하는 개념을 파악하고, 그 정보를 활용하여 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다.

더 복잡하게 접근하고 싶다면 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서는 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령 추천을 제공하고, 잘못된 기대에서 오는 불만족을 최소화할 수 있습니다.

🚀 도전 과제

이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어볼 것입니다:

데이터 과학 워드 클라우드

notebook.ipynb를 방문하여 코드를 읽어보세요. 코드를 실행하고 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.

Jupyter Notebook에서 코드를 실행하는 방법을 모른다면, 이 글을 참고하세요.

강의 후 퀴즈

과제

크레딧

이 강의는 Dmitry Soshnikov♥️를 담아 작성했습니다.


면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.