## 데이터의 종류 이미 언급했듯이, 데이터는 어디에나 존재합니다. 우리는 단지 올바른 방식으로 데이터를 포착하기만 하면 됩니다! 데이터를 **구조화된 데이터**와 **비구조화된 데이터**로 구분하는 것이 유용합니다. 구조화된 데이터는 일반적으로 잘 정리된 형태로 표현되며, 종종 테이블이나 여러 테이블로 나타납니다. 반면, 비구조화된 데이터는 단순히 파일들의 모음일 뿐입니다. 때로는 **반구조화된 데이터**에 대해 이야기할 수도 있는데, 이는 일정한 구조를 가지고 있지만 그 구조가 크게 다를 수 있습니다. | 구조화된 데이터 | 반구조화된 데이터 | 비구조화된 데이터 | | -------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------- | ------------------------------------- | | 사람들의 전화번호 목록 | 링크가 포함된 위키백과 페이지 | 브리태니커 백과사전의 텍스트 | | 지난 20년 동안 매 분마다 건물의 모든 방의 온도 | 저자, 출판 날짜, 초록이 포함된 JSON 형식의 과학 논문 모음 | 회사 문서가 저장된 파일 공유 | | 건물에 들어오는 모든 사람들의 나이와 성별 데이터 | 인터넷 페이지 | 감시 카메라의 원본 비디오 피드 | ## 데이터를 얻는 방법 데이터를 얻을 수 있는 많은 출처가 있으며, 이를 모두 나열하는 것은 불가능합니다! 하지만 일반적인 데이터 출처를 몇 가지 언급해 보겠습니다: * **구조화된 데이터** - **사물인터넷**(IoT): 온도 센서나 압력 센서와 같은 다양한 센서에서 데이터를 제공하며, 유용한 데이터를 많이 제공합니다. 예를 들어, 사무실 건물이 IoT 센서로 장착되어 있다면, 비용을 최소화하기 위해 난방과 조명을 자동으로 제어할 수 있습니다. - **설문조사**: 구매 후 또는 웹사이트 방문 후 사용자에게 설문조사를 요청하여 데이터를 수집합니다. - **행동 분석**: 예를 들어, 사용자가 웹사이트를 얼마나 깊이 탐색하는지, 그리고 사이트를 떠나는 일반적인 이유를 이해하는 데 도움을 줄 수 있습니다. * **비구조화된 데이터** - **텍스트**: 전체적인 **감정 점수**를 얻거나 키워드와 의미를 추출하는 등 풍부한 통찰력을 제공할 수 있습니다. - **이미지** 또는 **비디오**: 감시 카메라의 비디오는 도로의 교통량을 추정하고 잠재적인 교통 체증에 대해 사람들에게 알리는 데 사용할 수 있습니다. - 웹 서버 **로그**: 사이트에서 가장 자주 방문되는 페이지와 방문 시간 등을 이해하는 데 사용할 수 있습니다. * **반구조화된 데이터** - **소셜 네트워크** 그래프: 사용자 성격과 정보를 전파하는 데 있어 잠재적인 효과에 대한 데이터를 제공할 수 있습니다. - 파티에서 찍은 사진 모음을 통해 **그룹 역학** 데이터를 추출하고, 서로 사진을 찍은 사람들의 그래프를 구축할 수 있습니다. 다양한 데이터 출처를 알고 있다면, 데이터 과학 기술을 적용하여 상황을 더 잘 이해하고 비즈니스 프로세스를 개선할 수 있는 다양한 시나리오를 생각해볼 수 있습니다. ## 데이터로 할 수 있는 일 데이터 과학에서는 데이터 여정의 다음 단계를 중점적으로 다룹니다: 물론 실제 데이터에 따라 일부 단계는 생략될 수 있습니다(예: 이미 데이터베이스에 데이터가 있는 경우 또는 모델 훈련이 필요하지 않은 경우). 또는 일부 단계는 여러 번 반복될 수 있습니다(예: 데이터 처리). ## 디지털화와 디지털 전환 지난 10년 동안 많은 기업들이 비즈니스 결정을 내릴 때 데이터의 중요성을 이해하기 시작했습니다. 데이터 과학 원칙을 비즈니스 운영에 적용하려면 먼저 데이터를 수집해야 합니다. 즉, 비즈니스 프로세스를 디지털 형태로 변환해야 합니다. 이를 **디지털화**라고 합니다. 이 데이터를 활용하여 데이터 과학 기술을 적용하면 생산성이 크게 향상되거나 비즈니스 방향 전환이 이루어질 수 있습니다. 이를 **디지털 전환**이라고 합니다. 예를 들어, 온라인으로 학생들에게 제공되는 데이터 과학 강의(이 강의처럼)가 있다고 가정하고, 이를 개선하기 위해 데이터 과학을 활용하고자 한다면 어떻게 할 수 있을까요? 우리는 "무엇을 디지털화할 수 있을까?"라는 질문으로 시작할 수 있습니다. 가장 간단한 방법은 각 학생이 각 모듈을 완료하는 데 걸리는 시간을 측정하고, 각 모듈 끝에 다지선다형 테스트를 통해 얻은 지식을 측정하는 것입니다. 모든 학생의 평균 완료 시간을 계산하면, 학생들에게 가장 어려움을 주는 모듈을 찾아내고 이를 간소화하는 작업을 할 수 있습니다. 모듈의 길이가 다를 수 있기 때문에 이 접근 방식이 이상적이지 않다고 주장할 수도 있습니다. 모듈의 길이(문자 수)로 시간을 나누고, 그 값을 비교하는 것이 아마도 더 공정할 것입니다. 다중 선택 테스트 결과를 분석하기 시작하면 학생들이 이해하기 어려워하는 개념을 파악하고, 그 정보를 활용하여 콘텐츠를 개선할 수 있습니다. 이를 위해 각 질문이 특정 개념이나 지식의 일부와 연결되도록 테스트를 설계해야 합니다. 더 복잡하게 접근하고 싶다면 각 모듈에 소요된 시간을 학생들의 연령대와 비교해볼 수 있습니다. 특정 연령대에서는 모듈을 완료하는 데 지나치게 오랜 시간이 걸리거나, 완료하기 전에 중도 포기하는 경우를 발견할 수 있습니다. 이를 통해 모듈에 대한 연령 추천을 제공하고, 잘못된 기대에서 오는 불만족을 최소화할 수 있습니다. ## 🚀 도전 과제 이번 도전 과제에서는 텍스트를 분석하여 데이터 과학 분야와 관련된 개념을 찾아보겠습니다. 데이터 과학에 대한 위키피디아 글을 가져와 텍스트를 처리한 후, 아래와 같은 워드 클라우드를 만들어볼 것입니다: ![데이터 과학 워드 클라우드](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.ko.png) [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore')를 방문하여 코드를 읽어보세요. 코드를 실행하고 데이터 변환이 실시간으로 어떻게 이루어지는지 확인할 수도 있습니다. > Jupyter Notebook에서 코드를 실행하는 방법을 모른다면, [이 글](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)을 참고하세요. ## [강의 후 퀴즈](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## 과제 * **과제 1**: 위 코드를 수정하여 **빅 데이터**와 **머신 러닝** 분야와 관련된 개념을 찾아보세요. * **과제 2**: [데이터 과학 시나리오에 대해 생각해보기](assignment.md) ## 크레딧 이 강의는 [Dmitry Soshnikov](http://soshnikov.com)가 ♥️를 담아 작성했습니다. --- **면책 조항**: 이 문서는 AI 번역 서비스 [Co-op Translator](https://github.com/Azure/co-op-translator)를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.