You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ko/1-Introduction/03-defining-data/README.md

9.9 KiB

데이터 정의

 Sketchnote by (@sketchthedocs)
데이터 정의 - 스케치노트 by @nitya

데이터는 발견을 하고 정보에 기반한 결정을 내리기 위해 사용되는 사실, 정보, 관찰 및 측정값입니다. 데이터 포인트는 데이터셋 내의 단일 데이터 단위이며, 데이터셋은 이러한 데이터 포인트들의 모음입니다. 데이터셋은 다양한 형식과 구조로 제공될 수 있으며, 일반적으로 데이터의 출처나 데이터가 어디에서 왔는지에 따라 달라집니다. 예를 들어, 회사의 월별 수익은 스프레드시트에 있을 수 있지만 스마트워치에서 수집된 시간별 심박수 데이터는 JSON 형식일 수 있습니다. 데이터 과학자들은 데이터셋 내에서 다양한 유형의 데이터를 다루는 경우가 많습니다.

이 강의는 데이터의 특성과 출처에 따라 데이터를 식별하고 분류하는 데 중점을 둡니다.

강의 전 퀴즈

데이터가 설명되는 방식

원시 데이터

원시 데이터는 출처에서 처음 수집된 상태 그대로의 데이터로, 분석되거나 정리되지 않은 상태입니다. 데이터셋에서 무슨 일이 일어나고 있는지 이해하려면, 사람이 이해할 수 있고 추가 분석을 위해 사용할 기술도 이해할 수 있는 형식으로 정리되어야 합니다. 데이터셋의 구조는 데이터가 어떻게 조직되어 있는지를 설명하며, 구조화된 데이터, 비구조화된 데이터, 반구조화된 데이터로 분류될 수 있습니다. 이러한 구조 유형은 출처에 따라 다르지만 궁극적으로 이 세 가지 범주 중 하나에 속합니다.

정량적 데이터

정량적 데이터는 데이터셋 내의 수치적 관찰값으로, 일반적으로 분석, 측정 및 수학적으로 사용할 수 있습니다. 정량적 데이터의 예로는 국가의 인구, 사람의 키, 회사의 분기별 수익 등이 있습니다. 추가 분석을 통해 정량적 데이터는 예를 들어 대기질 지수(AQI)의 계절적 경향을 발견하거나 일반적인 근무일의 러시아워 교통량 확률을 추정하는 데 사용할 수 있습니다.

정성적 데이터

정성적 데이터는 범주형 데이터라고도 하며, 정량적 데이터의 관찰값처럼 객관적으로 측정할 수 없는 데이터입니다. 일반적으로 제품이나 프로세스의 품질을 포착하는 주관적인 데이터의 다양한 형식입니다. 때로는 정성적 데이터가 숫자로 표현되지만, 일반적으로 수학적으로 사용되지 않습니다. 예를 들어, 전화번호나 타임스탬프가 이에 해당합니다. 정성적 데이터의 예로는 비디오 댓글, 자동차의 제조사와 모델, 가장 친한 친구의 좋아하는 색깔 등이 있습니다. 정성적 데이터는 소비자가 가장 좋아하는 제품을 이해하거나 구직 신청서에서 인기 있는 키워드를 식별하는 데 사용할 수 있습니다.

구조화된 데이터

구조화된 데이터는 행과 열로 구성된 데이터로, 각 행은 동일한 열 집합을 가집니다. 열은 특정 유형의 값을 나타내며, 해당 값이 무엇을 나타내는지 설명하는 이름으로 식별됩니다. 행은 실제 값을 포함합니다. 열에는 종종 값이 열을 정확히 나타내도록 보장하기 위해 특정 규칙이나 제한이 적용됩니다. 예를 들어, 고객의 전화번호를 포함한 스프레드시트에서 각 행은 반드시 전화번호를 가져야 하며, 전화번호에는 알파벳 문자가 포함되지 않아야 합니다. 전화번호 열에는 비어 있지 않고 숫자만 포함되도록 하는 규칙이 적용될 수 있습니다.

구조화된 데이터의 장점은 다른 구조화된 데이터와 연관될 수 있도록 조직될 수 있다는 점입니다. 그러나 데이터가 특정 방식으로 조직되도록 설계되었기 때문에 전체 구조를 변경하는 데 많은 노력이 필요할 수 있습니다. 예를 들어, 고객 스프레드시트에 비어 있을 수 없는 이메일 열을 추가하려면, 데이터셋의 기존 고객 행에 이 값을 어떻게 추가할지 결정해야 합니다.

구조화된 데이터의 예: 스프레드시트, 관계형 데이터베이스, 전화번호, 은행 명세서

비구조화된 데이터

비구조화된 데이터는 일반적으로 행과 열로 분류할 수 없으며, 특정 형식이나 규칙을 따르지 않습니다. 비구조화된 데이터는 구조에 대한 제한이 적기 때문에 구조화된 데이터셋에 비해 새로운 정보를 추가하기가 더 쉽습니다. 예를 들어, 2분마다 기압 데이터를 수집하는 센서가 온도를 측정하고 기록할 수 있는 업데이트를 받았다면, 비구조화된 데이터에서는 기존 데이터를 변경할 필요가 없습니다. 그러나 이러한 데이터 유형을 분석하거나 조사하는 데 시간이 더 걸릴 수 있습니다. 예를 들어, 과학자가 센서 데이터에서 지난달의 평균 온도를 찾으려 하지만, 센서가 고장났음을 나타내기 위해 일부 데이터에 "e"를 기록한 것을 발견한다면, 데이터가 불완전하다는 것을 의미합니다.

비구조화된 데이터의 예: 텍스트 파일, 문자 메시지, 비디오 파일

반구조화된 데이터

반구조화된 데이터는 구조화된 데이터와 비구조화된 데이터의 특징을 결합한 데이터입니다. 일반적으로 행과 열 형식에 맞지 않지만, 구조화된 것으로 간주될 수 있는 방식으로 조직되며, 고정된 형식이나 규칙을 따를 수 있습니다. 구조는 출처에 따라 다르며, 잘 정의된 계층 구조에서 새로운 정보를 쉽게 통합할 수 있는 더 유연한 구조까지 다양합니다. 메타데이터는 데이터가 어떻게 조직되고 저장되는지를 결정하는 데 도움을 주는 지표이며, 데이터 유형에 따라 다양한 이름을 가집니다. 메타데이터의 일반적인 이름으로는 태그, 요소, 엔터티, 속성 등이 있습니다. 예를 들어, 일반적인 이메일 메시지는 제목, 본문, 수신자 집합을 가지며, 발신자나 발송 시점에 따라 조직될 수 있습니다.

반구조화된 데이터의 예: HTML, CSV 파일, JavaScript Object Notation (JSON)

데이터의 출처

데이터 출처는 데이터가 생성된 초기 위치 또는 "존재하는" 위치를 의미하며, 데이터가 수집된 방법과 시점에 따라 달라집니다. 사용자가 생성한 데이터는 1차 데이터로 알려져 있으며, 일반적인 용도로 데이터를 수집한 출처에서 가져온 데이터는 2차 데이터로 간주됩니다. 예를 들어, 열대우림에서 관찰을 수집하는 과학자 그룹은 1차 데이터로 간주되며, 이 데이터를 다른 과학자들과 공유하기로 결정하면 이를 사용하는 사람들에게는 2차 데이터로 간주됩니다.

데이터베이스는 일반적인 출처이며, 데이터베이스 관리 시스템을 통해 데이터를 호스팅하고 유지 관리합니다. 사용자는 쿼리라는 명령을 사용하여 데이터를 탐색합니다. 파일은 오디오, 이미지, 비디오 파일뿐만 아니라 Excel과 같은 스프레드시트도 데이터 출처가 될 수 있습니다. 인터넷은 데이터베이스와 파일이 모두 포함될 수 있는 데이터 호스팅의 일반적인 위치입니다. 애플리케이션 프로그래밍 인터페이스(API)는 프로그래머가 인터넷을 통해 외부 사용자와 데이터를 공유할 수 있는 방법을 만들도록 허용하며, 웹 스크래핑은 웹 페이지에서 데이터를 추출하는 과정입니다. 데이터 작업 강의에서는 다양한 데이터 출처를 사용하는 방법에 대해 다룹니다.

결론

이 강의에서 우리는 다음을 배웠습니다:

  • 데이터란 무엇인가
  • 데이터가 어떻게 설명되는가
  • 데이터가 어떻게 분류되고 범주화되는가
  • 데이터를 어디에서 찾을 수 있는가

🚀 도전 과제

Kaggle은 공개 데이터셋의 훌륭한 출처입니다. 데이터셋 검색 도구를 사용하여 흥미로운 데이터셋을 찾아보고 다음 기준으로 3-5개의 데이터셋을 분류하세요:

  • 데이터가 정량적인가, 정성적인가?
  • 데이터가 구조화되었는가, 비구조화되었는가, 반구조화되었는가?

강의 후 퀴즈

복습 및 자습

  • Microsoft Learn의 데이터 분류하기라는 유닛은 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터에 대한 자세한 설명을 제공합니다.

과제

데이터셋 분류하기

면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.