You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ko/1-Introduction/03-defining-data
leestott ddda89c203
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago

README.md

데이터 정의하기

 Sketchnote by (@sketchthedocs)
데이터 정의하기 - Sketchnote by @nitya

데이터는 발견을 하고 정보에 기반한 결정을 지원하기 위해 사용되는 사실, 정보, 관찰 및 측정값입니다. 데이터 포인트는 데이터셋 내에서 단일 단위의 데이터이며, 데이터셋은 데이터 포인트의 모음입니다. 데이터셋은 다양한 형식과 구조로 제공될 수 있으며, 일반적으로 데이터의 출처 또는 데이터가 어디에서 왔는지에 따라 달라집니다. 예를 들어, 회사의 월별 수익은 스프레드시트에 있을 수 있지만 스마트워치에서 수집된 시간별 심박수 데이터는 JSON 형식일 수 있습니다. 데이터 과학자들은 데이터셋 내에서 다양한 유형의 데이터를 다루는 경우가 흔합니다.

이 강의는 데이터의 특성과 출처에 따라 데이터를 식별하고 분류하는 데 중점을 둡니다.

강의 전 퀴즈

데이터가 설명되는 방식

원시 데이터

원시 데이터는 초기 상태에서 출처로부터 온 데이터로, 분석되거나 조직되지 않은 상태입니다. 데이터셋에서 무슨 일이 일어나고 있는지 이해하려면, 인간과 데이터를 추가로 분석하는 데 사용할 기술이 이해할 수 있는 형식으로 조직되어야 합니다. 데이터셋의 구조는 데이터가 어떻게 조직되어 있는지를 설명하며, 구조화된 데이터, 비구조화된 데이터, 반구조화된 데이터로 분류될 수 있습니다. 이러한 구조 유형은 출처에 따라 다르지만 궁극적으로 이 세 가지 범주에 속합니다.

정량적 데이터

정량적 데이터는 데이터셋 내에서 수치적 관찰값이며, 일반적으로 분석, 측정 및 수학적으로 사용할 수 있습니다. 정량적 데이터의 예로는 국가의 인구, 사람의 키, 회사의 분기별 수익 등이 있습니다. 추가 분석을 통해 정량적 데이터는 대기질 지수(AQI)의 계절적 추세를 발견하거나 일반적인 근무일의 러시아워 교통 확률을 추정하는 데 사용할 수 있습니다.

정성적 데이터

정성적 데이터는 범주형 데이터라고도 하며, 정량적 데이터의 관찰값처럼 객관적으로 측정할 수 없는 데이터입니다. 일반적으로 제품이나 프로세스의 품질을 포착하는 다양한 형식의 주관적 데이터입니다. 때로는 정성적 데이터가 숫자로 표현되지만 일반적으로 수학적으로 사용되지 않습니다. 예를 들어 전화번호나 타임스탬프가 이에 해당합니다. 정성적 데이터의 예로는 비디오 댓글, 자동차의 제조사와 모델, 가장 친한 친구의 좋아하는 색상이 있습니다. 정성적 데이터는 소비자가 가장 좋아하는 제품을 이해하거나 구직 신청서에서 인기 있는 키워드를 식별하는 데 사용할 수 있습니다.

구조화된 데이터

구조화된 데이터는 행과 열로 조직된 데이터로, 각 행은 동일한 열 집합을 가집니다. 열은 특정 유형의 값을 나타내며, 값이 무엇을 나타내는지 설명하는 이름으로 식별됩니다. 행은 실제 값을 포함합니다. 열은 값이 열을 정확히 나타내도록 특정 규칙이나 제한을 가질 수 있습니다. 예를 들어, 고객의 스프레드시트에서 각 행은 전화번호를 가져야 하며, 전화번호는 알파벳 문자를 포함하지 않아야 합니다. 전화번호 열에 규칙을 적용하여 비어 있지 않고 숫자만 포함되도록 할 수 있습니다.

구조화된 데이터의 장점은 다른 구조화된 데이터와 연관될 수 있도록 조직될 수 있다는 점입니다. 그러나 데이터가 특정 방식으로 조직되도록 설계되었기 때문에 전체 구조를 변경하는 데 많은 노력이 필요할 수 있습니다. 예를 들어, 고객 스프레드시트에 비어 있을 수 없는 이메일 열을 추가하려면 기존 고객 행에 이러한 값을 추가하는 방법을 찾아야 합니다.

구조화된 데이터의 예: 스프레드시트, 관계형 데이터베이스, 전화번호, 은행 명세서

비구조화된 데이터

비구조화된 데이터는 일반적으로 행과 열로 분류할 수 없으며, 형식이나 따를 규칙을 포함하지 않습니다. 비구조화된 데이터는 구조화된 데이터셋에 비해 구조에 대한 제한이 적기 때문에 새로운 정보를 추가하기가 더 쉽습니다. 예를 들어, 2분마다 기압 데이터를 캡처하는 센서가 온도를 측정하고 기록할 수 있도록 업데이트를 받았다면, 비구조화된 데이터라면 기존 데이터를 변경할 필요가 없습니다. 그러나 이러한 유형의 데이터를 분석하거나 조사하는 데 시간이 더 걸릴 수 있습니다. 예를 들어, 과학자가 센서 데이터에서 지난달 평균 온도를 찾고 싶어 하지만 센서가 고장났음을 나타내기 위해 일부 기록된 데이터에 "e"를 기록한 경우, 데이터가 불완전하다는 것을 발견할 수 있습니다.

비구조화된 데이터의 예: 텍스트 파일, 문자 메시지, 비디오 파일

반구조화된 데이터

반구조화된 데이터는 구조화된 데이터와 비구조화된 데이터의 특징을 결합한 데이터입니다. 일반적으로 행과 열 형식에 맞지 않지만 구조화된 것으로 간주될 수 있는 방식으로 조직되며, 고정된 형식이나 규칙을 따를 수 있습니다. 구조는 출처에 따라 다르며, 잘 정의된 계층 구조에서 새로운 정보를 쉽게 통합할 수 있는 더 유연한 구조까지 다양합니다. 메타데이터는 데이터가 어떻게 조직되고 저장되는지를 결정하는 데 도움을 주는 지표이며, 데이터 유형에 따라 다양한 이름을 가집니다. 메타데이터의 일반적인 이름으로는 태그, 요소, 엔티티, 속성이 있습니다. 예를 들어, 일반적인 이메일 메시지는 제목, 본문, 수신자 집합을 가지며, 발신자나 발송 시점에 따라 조직될 수 있습니다.

반구조화된 데이터의 예: HTML, CSV 파일, JavaScript Object Notation (JSON)

데이터의 출처

데이터 출처는 데이터가 생성된 초기 위치 또는 "존재하는" 위치를 의미하며, 수집된 방법과 시점에 따라 달라집니다. 사용자가 생성한 데이터는 기본 데이터로 알려져 있으며, 일반적인 사용을 위해 데이터를 수집한 출처에서 제공된 데이터는 보조 데이터로 간주됩니다. 예를 들어, 열대우림에서 관찰을 수집하는 과학자 그룹은 기본 데이터로 간주되며, 이를 다른 과학자들과 공유하기로 결정하면 이를 사용하는 사람들에게는 보조 데이터로 간주됩니다.

데이터베이스는 일반적인 출처이며, 데이터베이스 관리 시스템을 통해 데이터를 호스팅하고 유지 관리하며, 사용자는 쿼리라는 명령을 사용하여 데이터를 탐색합니다. 파일은 오디오, 이미지, 비디오 파일뿐만 아니라 Excel과 같은 스프레드시트로 데이터 출처가 될 수 있습니다. 인터넷은 데이터베이스와 파일을 포함하여 데이터를 호스팅하는 일반적인 위치입니다. 애플리케이션 프로그래밍 인터페이스(API)는 프로그래머가 인터넷을 통해 외부 사용자와 데이터를 공유하는 방법을 만들 수 있도록 하며, 웹 스크래핑은 웹 페이지에서 데이터를 추출하는 과정입니다. 데이터 작업하기 강의는 다양한 데이터 출처를 사용하는 방법에 중점을 둡니다.

결론

이 강의에서 우리는 다음을 배웠습니다:

  • 데이터란 무엇인가
  • 데이터가 어떻게 설명되는가
  • 데이터가 어떻게 분류되고 범주화되는가
  • 데이터를 어디에서 찾을 수 있는가

🚀 도전

Kaggle은 공개 데이터셋의 훌륭한 출처입니다. 데이터셋 검색 도구를 사용하여 흥미로운 데이터셋을 찾아 다음 기준으로 3-5개의 데이터셋을 분류하세요:

  • 데이터가 정량적인가, 정성적인가?
  • 데이터가 구조화된 데이터, 비구조화된 데이터, 반구조화된 데이터인가?

강의 후 퀴즈

복습 및 자기 학습

  • Microsoft Learn의 Classify your Data 유닛은 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터에 대한 자세한 설명을 제공합니다.

과제

데이터셋 분류하기


면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있으나, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서를 해당 언어로 작성된 상태에서 권위 있는 자료로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.