8.7 KiB
데이터의 종류
이미 언급했듯이, 데이터는 어디에나 존재합니다. 우리는 단지 올바른 방식으로 데이터를 포착하기만 하면 됩니다! 데이터를 구조화된 데이터와 비구조화된 데이터로 구분하는 것이 유용합니다. 구조화된 데이터는 일반적으로 잘 정리된 형태로 표현되며, 종종 테이블이나 여러 테이블로 나타납니다. 반면, 비구조화된 데이터는 단순히 파일들의 모음일 뿐입니다. 때로는 반구조화된 데이터에 대해 이야기할 수도 있는데, 이는 일정한 구조를 가지고 있지만 그 구조가 크게 다를 수 있습니다.
구조화된 데이터 | 반구조화된 데이터 | 비구조화된 데이터 |
---|---|---|
사람들의 전화번호 목록 | 링크가 포함된 위키백과 페이지 | 브리태니커 백과사전의 텍스트 |
지난 20년 동안 매 분마다 건물의 모든 방의 온도 | 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 | 회사 문서가 저장된 파일 공유 |
건물에 들어오는 모든 사람들의 나이와 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원본 비디오 피드 |
데이터를 얻는 방법
데이터를 얻을 수 있는 많은 출처가 있으며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처를 몇 가지 언급해 보겠습니다:
- 구조화된 데이터
- 사물인터넷(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 비용을 최소화하기 위해 난방과 조명을 자동으로 제어할 수 있습니다.
- 설문조사: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다.
- 행동 분석: 예를 들어, 사용자가 웹사이트를 얼마나 깊이 탐색하는지, 그리고 사이트를 떠나는 일반적인 이유를 이해하는 데 도움을 줄 수 있습니다.
- 비구조화된 데이터
- 텍스트: 전체적인 감정 점수를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰력을 제공할 수 있습니다.
- 이미지 또는 비디오: 감시 카메라의 비디오는 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다.
- 웹 서버 로그: 사이트에서 가장 자주 방문되는 페이지와 방문 시간 등을 이해하는 데 사용할 수 있습니다.
- 반구조화된 데이터
- 소셜 네트워크 그래프: 사용자 성격과 정보를 전파하는 데 있어 잠재적인 효과에 대한 데이터를 제공할 수 있습니다.
- 파티에서 찍은 사진 모음을 통해 그룹 역학 데이터를 추출하고, 서로 사진을 찍은 사람들의 그래프를 구축할 수 있습니다.
다양한 데이터 출처를 알고 있다면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다.
데이터로 할 수 있는 일
데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다:
물론 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 이미 데이터베이스에 데이터가 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또는 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리).
디지털화와 디지털 전환
지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 디지털화라고 합니다. 이 데이터를 활용하여 데이터 과학 기술을 적용하면 생산성이 크게 향상되거나 비즈니스 방향 전환이 이루어질 수 있습니다. 이를 디지털 전환이라고 합니다.
예를 들어, 온라인으로 학생들에게 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 활용하고자 한다면 어떻게 할 수 있을까요?
우리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈 끝에 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다. 모듈의 길이가 다를 수 있기 때문에 이 접근 방식이 이상적이지 않다고 주장할 수도 있습니다. 모듈의 길이(문자 수)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다. 다중 선택 테스트 결과를 분석하기 시작하면 학생들이 이해하기 어려워하는 개념을 파악하고, 그 정보를 활용하여 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다.
더 복잡하게 접근하고 싶다면 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서는 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령 추천을 제공하고, 잘못된 기대에서 오는 불만족을 최소화할 수 있습니다.
🚀 도전 과제
이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어볼 것입니다:
notebook.ipynb
를 방문하여 코드를 읽어보세요. 코드를 실행하고 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다.
Jupyter Notebook에서 코드를 실행하는 방법을 모른다면, 이 글을 참고하세요.
강의 후 퀴즈
과제
- 과제 1: 위 코드를 수정하여 빅 데이터와 머신 러닝 분야와 관련된 개념을 찾아보세요.
- 과제 2: 데이터 과학 시나리오에 대해 생각해보기
크레딧
이 강의는 Dmitry Soshnikov가 ♥️를 담아 작성했습니다.
면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.