parent
a195296adc
commit
8c266962d0
@ -0,0 +1,31 @@
|
||||
# 과제: 데이터 사이언스 시나리오
|
||||
|
||||
이 첫 번째 과제에서는 실제 프로세스 또는 여러 문제 영역의 문제에 대해 생각하고 데이터 사이언스 프로세스를 사용하여 이를 개선할 수 있는 방법에 대해 생각해 보도록 요청합니다. 다음에 대해 생각해 보십시오.
|
||||
|
||||
1. 어떤 데이터를 수집할 수 있습니까?
|
||||
1. 어떻게 모을 것인가?
|
||||
1. 데이터를 어떻게 저장하시겠습니까? 데이터가 얼마나 클 것 같습니까?
|
||||
1. 이 데이터에서 얻을 수 있는 통찰력은 무엇입니까? 데이터를 기반으로 어떤 결정을 내릴 수 있습니까?
|
||||
|
||||
3가지 다른 문제/프로세스에 대해 생각하고 각 문제 영역에 대해 위의 각 요점을 설명하십시오.
|
||||
|
||||
다음은 생각을 시작할 수 있는 몇 가지 문제 영역과 문제입니다.
|
||||
|
||||
1. 학교에서 아이들의 교육 과정을 개선하기 위해 데이터를 어떻게 사용할 수 있습니까?
|
||||
1. 대유행 기간 동안 예방 접종을 통제하기 위해 데이터를 어떻게 사용할 수 있습니까?
|
||||
1. 직장에서 생산성을 유지하기 위해 데이터를 어떻게 사용할 수 있습니까?
|
||||
## 지침
|
||||
|
||||
다음 표를 채우십시오(필요한 경우 제안된 문제 도메인을 자신의 도메인으로 대체).
|
||||
|
||||
| 문제 도메인 | 문제 | 수집할 데이터 | 데이터를 저장하는 방법 | 우리가 내릴 수 있는 통찰력/결정|
|
||||
|----------------|---------|-----------------------|-----------------------|--------------------------------------|
|
||||
| 교육 | | | | |
|
||||
| 예방 접종 | | | | |
|
||||
| 생산성 | | | | |
|
||||
|
||||
## 기준표
|
||||
|
||||
모범 | 충분 | 개선 필요
|
||||
--- | --- | -- |
|
||||
합리적인 데이터 소스, 데이터 저장 방법 및 모든 도메인 영역에 대한 가능한 결정/통찰력을 식별할 수 있습니다. | 솔루션의 일부 측면이 상세하지 않고, 데이터 저장이 논의되지 않고, 적어도 2개의 문제 영역이 설명되어 있습니다. | 데이터 솔루션의 일부만 설명되고 하나의 문제 영역만 고려됩니다.
|
@ -0,0 +1,21 @@
|
||||
## 데이터 윤리 사례 연구 작성
|
||||
|
||||
## 지침
|
||||
|
||||
다양한 [데이터 윤리 과제](README?id=_2-ethics-challenges)에 대해 배웠고 실제 컨텍스트의 데이터 윤리 과제를 반영하는 [사례 연구](README?id=_3-case-studies)의 몇 가지 예를 보았습니다.
|
||||
|
||||
이 과제에서는 자신의 경험이나 친숙한 관련 실제 상황에서 데이터 윤리 문제를 반영하는 사례 연구를 작성합니다. 다음 단계를 따르세요.
|
||||
|
||||
1. `데이터 윤리 과제 선택`. [수업 예시](README?id=_2-ethics-challenges)를 보거나 [Deon 체크리스트](https://deon.drivedata.org/examples/)와 같은 온라인 예시를 탐색하여 영감을 얻으십시오.
|
||||
|
||||
2. `실제 사례 설명`. 이러한 특정 문제가 발생한 상황(헤드라인, 연구 연구 등) 또는 경험했던(지역 커뮤니티) 상황에 대해 생각해 보십시오. 문제와 관련된 데이터 윤리 질문에 대해 생각하고 이 문제로 인해 발생하는 잠재적인 피해 또는 의도하지 않은 결과에 대해 논의합니다. 보너스 포인트: 이 문제의 부정적인 영향을 제거하거나 완화하기 위해 여기에 적용될 수 있는 잠재적 솔루션 또는 프로세스에 대해 생각하십시오.
|
||||
|
||||
3. `관련 자료 목록 제공`. 하나 이상의 리소스(기사 링크, 개인 블로그 게시물 또는 이미지, 온라인 연구 논문 등)를 공유하여 이것이 실제 발생했음을 증명합니다. 보너스 포인트: 사고로 인한 잠재적 피해 및 결과를 보여주는 리소스를 공유하거나 재발을 방지하기 위해 취한 긍정적인 조치를 강조합니다.
|
||||
|
||||
|
||||
|
||||
## 기준표
|
||||
|
||||
모범 | 충분 | 개선 필요
|
||||
--- | --- | -- |
|
||||
하나 이상의 데이터 윤리 문제가 식별됩니다. <br/> <br/> 사례 연구는 그 도전을 반영하는 실제 사건을 명확하게 설명하고 그로 인해 야기된 바람직하지 않은 결과 또는 피해를 강조합니다. <br/><br/> 이 문제가 발생했음을 증명하는 연결된 리소스가 하나 이상 있습니다. | 하나의 데이터 윤리 과제가 식별됩니다. <br/><br/> 적어도 하나의 관련 피해 또는 결과가 간략하게 논의됩니다. <br/><br/> 그러나 논의가 제한적이거나 실제 발생에 대한 증거가 부족합니다. | 데이터 챌린지가 식별됩니다. <br/><br/> 그러나 설명이나 리소스가 문제를 적절하게 반영하지 않거나 실제 상황임을 증명하지 못합니다. |
|
@ -0,0 +1,65 @@
|
||||
# 데이터셋 분류
|
||||
|
||||
## 지침
|
||||
|
||||
이 과제의 프롬프트에 따라 다음 데이터 타입 중 하나로 데이터를 식별하고 분류합니다.
|
||||
|
||||
**구조 유형**: 구조화, 반구조화 또는 비구조화
|
||||
|
||||
**값 유형**: 정성적 또는 정량적
|
||||
|
||||
**소스 유형**: Primary 또는 Secondary
|
||||
|
||||
1. 회사가 인수되었고, 현재 모회사가 있습니다. 데이터 과학자들은 모회사로부터 고객 전화번호 스프레드시트를 받았습니다.
|
||||
|
||||
구조 유형:
|
||||
|
||||
값 유형:
|
||||
|
||||
소스 유형:
|
||||
|
||||
---
|
||||
|
||||
2. 스마트 워치는 착용자로부터 심박수 데이터를 수집하고 있으며 원시 데이터는 JSON 형식입니다.
|
||||
|
||||
구조 유형:
|
||||
|
||||
값 유형:
|
||||
|
||||
소스 유형:
|
||||
|
||||
---
|
||||
|
||||
3. CSV 파일에 저장된 직원 사기의 직장 설문 조사.
|
||||
|
||||
구조 유형:
|
||||
|
||||
값 유형:
|
||||
|
||||
소스 유형:
|
||||
|
||||
---
|
||||
|
||||
4. 천체 물리학자들은 우주 탐사선에 의해 수집된 은하 데이터베이스에 접근하고 있습니다. 데이터에는 각 은하에 있는 행성의 수가 포함됩니다.
|
||||
|
||||
구조 유형:
|
||||
|
||||
값 유형:
|
||||
|
||||
소스 유형:
|
||||
|
||||
---
|
||||
|
||||
5. 개인 금융 앱은 API를 사용하여 사용자의 금융 계정에 연결하여 순자산을 계산합니다. 행과 열 형식으로 모든 거래를 볼 수 있으며 스프레드시트와 유사하게 보입니다.
|
||||
|
||||
구조 유형:
|
||||
|
||||
값 유형:
|
||||
|
||||
소스 유형:
|
||||
|
||||
## 기준표
|
||||
|
||||
모범 | 충분 | 개선 필요
|
||||
--- | --- | -- |
|
||||
모든 구조, 값 및 소스를 올바르게 식별 |모든 구조, 값 및 소스를 3개 모두 올바르게 식별|2개 이하의 모든 구조, 값 및 소스를 올바르게 식별|
|
@ -0,0 +1,30 @@
|
||||
# 소당뇨병 연구
|
||||
|
||||
이 과제에서 우리는 [여기](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html)에서 가져온 당뇨병 환자의 작은 데이터셋으로 작업할 것입니다.
|
||||
|
||||
| | AGE | SEX | BMI | BP | S1 | S2 | S3 | S4 | S5 | S6 | Y |
|
||||
|---|-----|-----|-----|----|----|----|----|----|----|----|----|
|
||||
| 0 | 59 | 2 | 32.1 | 101. | 157 | 93.2 | 38.0 | 4. | 4.8598 | 87 | 151 |
|
||||
| 1 | 48 | 1 | 21.6 | 87.0 | 183 | 103.2 | 70. | 3. | 3.8918 | 69 | 75 |
|
||||
| 2 | 72 | 2 | 30.5 | 93.0 | 156 | 93.6 | 41.0 | 4.0 | 4. | 85 | 141 |
|
||||
| ... | ... | ... | ... | ...| ...| ...| ...| ...| ...| ...| ... |
|
||||
|
||||
## 지침
|
||||
|
||||
* jupyter notebook 환경에서 [과제노트](assignment.ipynb) 열기
|
||||
* notebook 에 나열된 모든 작업, 즉:
|
||||
|
||||
[ ] 모든 값의 평균값과 분산 계산
|
||||
|
||||
[ ] 성별에 따른 BMI, BP 및 Y에 대한 플롯 상자 그림
|
||||
|
||||
[ ] 연령, 성별, BMI 및 Y 변수의 분포는 무엇입니까?
|
||||
|
||||
[ ] 다른 변수와 질병 진행 사이의 상관 관계 테스트(Y)
|
||||
|
||||
[ ] 당뇨병 진행 정도가 남녀 간에 다르다는 가설 검정
|
||||
## 기준표
|
||||
|
||||
모범 | 충분 | 개선 필요
|
||||
--- | --- | -- |
|
||||
필요한 모든 작업이 완료되고 그래픽으로 설명 및 설명 되어 있음 | 대부분의 작업이 완료되었으며 그래프 및/또는 얻은 값의 설명이나 요약이 누락되었습니다. | 평균/분산 계산 및 기본 도표와 같은 기본 작업만 완료되어 있으며 데이터에서 결론이 내려지지 않습니다.
|
@ -0,0 +1,10 @@
|
||||
# 시장 조사
|
||||
|
||||
## 지침
|
||||
|
||||
이 학습에서는 몇 가지 중요한 클라우드 제공자가 있다는 것을 배웠습니다. 시장 조사를 통해 각각이 데이터 과학자에게 무엇을 제공할 수 있는지 알아보세요. 제공하는 것들이 비교될 수 있습니까? 3개 이상의 클라우드 제공업체가 제공하는 서비스를 설명하는 문서를 작성하십시오.
|
||||
## 기준표
|
||||
|
||||
모범 | 충분 | 개선 필요
|
||||
--- | --- | -- |
|
||||
한 페이지짜리 문서에서는 세 가지 클라우드 제공업체의 데이터 과학 제품에 대해 설명하고 이를 구분합니다. | 더 짧은 논문이 제시됩니다 | 분석을 완료하지 않고 논문을 발표함
|
@ -0,0 +1,11 @@
|
||||
# Azure ML의 로우 코드/노 코드 데이터 사이언스 프로젝트
|
||||
|
||||
## 지침
|
||||
|
||||
Azure ML 플랫폼을 사용하여 로우 코드/노 코드 방식으로 모델을 학습, 배포 및 사용하는 방법을 보았습니다. 이제 다른 모델을 훈련하고 배포하고 소비하는 데 사용할 수 있는 일부 데이터를 찾아보십시오. [Kaggle](https://kaggle.com) 및 [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-40229-cxa&ocid=AID3041109)에서 데이터셋을 찾을 수 있습니다.
|
||||
|
||||
## 기준표
|
||||
|
||||
| 모범 | 충분 | 개선 필요 |
|
||||
|----------|----------|-------|
|
||||
|데이터를 업로드할 때 필요한 경우 피처(feature) 타입 변경을 처리했습니다. 필요한 경우 데이터도 정리했습니다. AutoML을 통해 데이터셋에 대한 교육을 실행하고 모델 설명을 확인했습니다. 최고의 모델을 배포했고 사용할 수 있었습니다. | 데이터를 업로드할 때 필요한 경우 피처(feature) 타입 변경을 처리했습니다. AutoML을 통해 데이터셋에 대한 교육을 실행하고 최상의 모델을 배포하여 사용할 수 있었습니다. | AutoML에서 훈련한 최고의 모델을 배포했으며 이를 사용할 수 있었습니다. |
|
@ -0,0 +1,11 @@
|
||||
# Azure ML SDK를 사용한 데이터 사이언스 프로젝트
|
||||
|
||||
## 지침
|
||||
|
||||
Azure ML 플랫폼을 사용하여 Azure ML SDK로 모델을 학습, 배포 및 사용하는 방법을 살펴보았습니다. 이제 다른 모델을 학습하고 배포하고 소비하는 데 사용할 수 있는 일부 데이터를 찾아보십시오. [Kaggle](https://kaggle.com) 및 [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-40229-cxa&ocid=AID3041109)에서 데이터 셋을 찾을 수 있습니다.
|
||||
|
||||
## 기준표
|
||||
|
||||
| 모범 | 충분 | 개선 필요 |
|
||||
|----------|----------|-------|
|
||||
|AutoML 구성을 수행할 때 사용할 수 있는 매개변수를 확인하기 위해 SDK 문서를 살펴보았습니다. Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행하고 모델 설명을 확인했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. | Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행하고 모델 설명을 확인했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. | Azure ML SDK를 사용하여 AutoML을 통해 데이터 셋에 대한 교육을 실행했습니다. 최고의 모델을 배포했고 Azure ML SDK를 통해 사용할 수 있었습니다. |
|
Loading…
Reference in new issue