ko: add Chapter 5 README & edit Chapter 1 README

pull/157/head
sonia-comp 3 years ago
parent 6362fd37ff
commit a195296adc

@ -2,7 +2,7 @@
|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/04-Statistics-Probability.png)|
|:---:|
| 통계 및 확률 - _[@nitya](https://twitter.com/nitya)_의 스케치노트 |
| 통계 및 확률 - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
통계 및 확률 이론은 데이터 과학과 매우 관련성이 높은 수학 영역입니다. 수학에 대한 깊은 지식이 없어도 데이터로 작업하는 것은 가능하지만 최소한 몇 가지 기본 개념은 알고 있는 것이 좋습니다. 이 장에서 통계 및 확률을 시작하는 데 도움이 되는 간단한 소개를 제공합니다.
@ -165,7 +165,7 @@
신뢰하지 않는 경우 구간이 겹치는 것을 볼 수 있습니다. 이것은 1루수가 2루수보다 높다는 우리의 가설을 증명합니다.
보다 공식적으로, 우리가 해결하는 문제는 **두 개의 확률 분포가 동일한지** 또는 최소한 동일한 매개변수를 갖는지 확인하는 것입니다. 분포에 따라 다른 테스트를 사용해야 합니다. 분포가 정상이라는 것을 안다면 **[Student t-test](https://en.wikipedia.org/wiki/Student%27s_t-test)**를 적용할 수 있습니다.
보다 공식적으로, 우리가 해결하는 문제는 **두 개의 확률 분포가 동일한지** 또는 최소한 동일한 매개변수를 갖는지 확인하는 것입니다. 분포에 따라 다른 테스트를 사용해야 합니다. 분포가 정상이라는 것을 안다면 **[Student t-test](https://en.wikipedia.org/wiki/Student%27s_t-test)** 를 적용할 수 있습니다.
스튜던트 t-검정에서는 분산을 고려하여 평균 간의 차이를 나타내는 소위 **t-값**을 계산합니다. t-값은 **학생 분포**를 따르며, 이를 통해 주어진 신뢰 수준 **p**에 대한 임계값을 얻을 수 있습니다(이는 계산하거나 숫자 표에서 조회할 수 있음). 그런 다음 t-값을 이 임계값과 비교하여 가설을 승인하거나 기각합니다.
@ -250,9 +250,9 @@ print(np.corrcoef(무게, 높이))
확률과 통계는 그 자체로 충분한 가치가 있는 광범위한 주제입니다. 이론에 대해 더 깊이 알고 싶다면 다음 책을 계속 읽어도 좋습니다.
1. 뉴욕대학교의 [Carlos Fernanderz-Graranda](https://cims.nyu.edu/~cfgranda/) 강의노트가 훌륭합니다. [Probability and Statistics for Data Science](https://cims.nyu.edu/ ~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (온라인에서 사용 가능)
1. [피터와 앤드류 브루스. 데이터 과학자를 위한 실용 통계.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R의 샘플 코드](https://github.com/andrewgbruce/statistics -for-data-scientists)].
1. [제임스 D. 밀러. 데이터 과학 통계](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[샘플 코드 R](https://github.com/PacktPublishing/Statistics-for- 데이터 과학)]
1. 뉴욕대학교의 [Carlos Fernanderz-Graranda](https://cims.nyu.edu/~cfgranda/) 강의노트가 훌륭합니다. [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (온라인에서 사용 가능)
1. [피터와 앤드류 브루스. 데이터 과학자를 위한 실용 통계.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R의 샘플 코드](https://github.com/andrewgbruce/statistics-for-data-scientists)].
1. [제임스 D. 밀러. 데이터 과학 통계](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[샘플 코드 R](https://github.com/PacktPublishing/Statistics-for-Data-Science)]
## 과제

@ -0,0 +1,99 @@
# 클라우드에서의 데이터 사이언스 소개
|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/17-DataScience-Cloud.png)|
|:---:|
| 클라우드의 데이터 사이언스: 소개 - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
이 강의에서는 클라우드의 기본 원칙을 배운 다음 클라우드 서비스를 사용하여 데이터 사이언스 프로젝트를 실행하는 것이 왜 흥미로운지 알게 되고, 클라우드에서 실행되는 데이터 사이언스 프로젝트들 중 몇가지 예시를 보게 될 것이다.
## [강의전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/32)
## 클라우드란?
클라우드 또는 클라우드 컴퓨팅은 인터넷을 통해 인프라에서 호스팅되는 다양한 종량제 컴퓨팅 서비스를 제공하는 것입니다. 서비스에는 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석 및 지능형 서비스와 같은 솔루션이 포함됩니다.
일반적으로 다음과 같이 퍼블릭, 프라이빗 및 하이브리드 클라우드를 구분합니다.
* 퍼블릭 클라우드: 퍼블릭 클라우드는 인터넷을 통해 대중에게 컴퓨팅 리소스를 제공하는 타사 클라우드 서비스 제공업체가 소유하고 운영합니다.
* 프라이빗 클라우드: 단일 기업이나 조직에서 독점적으로 사용하는 클라우드 컴퓨팅 자원을 말하며, 사설망에서 서비스와 인프라를 유지 관리합니다.
* 하이브리드 클라우드: 하이브리드 클라우드는 퍼블릭 클라우드와 프라이빗 클라우드를 결합한 시스템입니다. 사용자는 온프레미스 데이터 센터를 선택하는 동시에 데이터와 애플리케이션을 하나 이상의 퍼블릭 클라우드에서 실행할 수 있습니다.
대부분의 클라우드 컴퓨팅 서비스는 IaaS(Infrastructure as a Service), PaaS(Platform as a Service) 및 SaaS(Software as a Service)의 세 가지 범주로 나뉩니다.
* IaaS(Infrastructure as a Service): 사용자는 서버 및 가상 머신(VM), 스토리지, 네트워크, 운영 체제와 같은 IT 인프라를 임대합니다.
* PaaS(Platform as a Service): 사용자는 소프트웨어 애플리케이션을 개발, 테스트, 제공 및 관리하기 위한 환경을 임대합니다. 사용자는 개발에 필요한 서버, 스토리지, 네트워크 및 데이터베이스의 기본 인프라를 설정하거나 관리하는 것에 대해 걱정할 필요가 없습니다.
* SaaS(Software as a Service): 사용자는 주문형 및 일반적으로 구독 기반으로 인터넷을 통해 소프트웨어 응용 프로그램에 액세스할 수 있습니다. 사용자는 소프트웨어 업그레이드 및 보안 패치와 같은 유지 관리, 기본 인프라 또는 소프트웨어 애플리케이션의 호스팅 및 관리에 대해 걱정할 필요가 없습니다.
가장 큰 클라우드 제공업체로는 Amazon Web Services, Google Cloud Platform 및 Microsoft Azure가 있습니다.
## 데이터 사이언스을 위해 클라우드를 선택하는 이유는 무엇입니까?
개발자와 IT 전문가는 다음을 비롯한 여러 가지 이유로 클라우드와 함께 작업하기로 결정했습니다.
* 혁신: 클라우드 공급자가 만든 혁신적인 서비스를 앱에 직접 통합하여 애플리케이션을 강화할 수 있습니다.
* 유연성: 필요한 서비스에 대해서만 비용을 지불하고 다양한 서비스 중에서 선택할 수 있습니다. 일반적으로 사용한 만큼 지불하고, 진화하는 요구 사항에 따라 서비스를 조정합니다.
* 예산: 하드웨어 및 소프트웨어 구입, 현장 데이터 센터 설정 및 실행을 위해 초기 투자를 할 필요가 없으며 사용한 만큼만 비용을 지불하면 됩니다.
* 확장성: 리소스는 프로젝트의 요구 사항에 따라 확장될 수 있습니다. 즉, 앱은 주어진 시간에 외부 요인에 적응하여 컴퓨팅 성능, 스토리지 및 대역폭을 어느 정도 사용할 수 있습니다.
* 생산성: 데이터 센터 관리와 같이 다른 사람이 관리할 수 있는 작업에 시간을 할애하지 않고 비즈니스에 집중할 수 있습니다.
* 안정성: 클라우드 컴퓨팅은 데이터를 지속적으로 백업할 수 있는 여러 가지 방법을 제공하며 위기 상황에서도 비즈니스와 서비스를 계속 운영할 수 있도록 재해 복구 계획을 세울 수 있습니다.
* 보안: 프로젝트 보안을 강화하는 정책, 기술 및 제어의 이점을 누릴 수 있습니다.
사람들이 클라우드 서비스를 선택하는 가장 일반적인 이유 중 일부는 다음과 같습니다. 이제 클라우드가 무엇이고 주요 이점이 무엇인지 더 잘 이해했으므로 데이터를 다루는 데이터 과학자 및 개발자의 작업과, 그들이 직면할 수 있는 여러 문제를 클라우드가 어떻게 도울 수 있는지 자세히 살펴보겠습니다.
* 대용량 데이터 저장: 대용량 서버를 구입, 관리 및 보호하는 대신 Azure Cosmos DB, Azure SQL Database 및 Azure Data Lake Storage와 같은 솔루션을 사용하여 클라우드에 직접 데이터를 저장할 수 있습니다.
* 데이터 통합 ​​수행: 데이터 통합은 데이터 수집에서 데이터 변환을 수행할 수 있도록 변환해주는 데이터 사이언스의 필수 부분입니다. 클라우드에서 제공되는 데이터 통합 ​​서비스를 사용하면 Data Factory를 사용하여 다양한 소스의 데이터를 수집, 변환 및 단일 데이터 웨어하우스로 통합할 수 있습니다.
* 데이터 처리: 방대한 양의 데이터를 처리하려면 많은 컴퓨팅 성능이 필요하며 모든 사람이 그에 적합한 강력한 시스템에 액세스할 수 있는 것은 아닙니다. 그래서 많은 사람들이 클라우드의 엄청난 컴퓨팅 성능을 직접 활용하여 솔루션을 실행하고 배포하는 방법을 선택합니다.
* 데이터 분석 서비스 사용: 데이터를 실행 가능한 통찰력으로 전환하는 데 도움이 되는 Azure Synapse Analytics, Azure Stream Analytics 및 Azure Databricks와 같은 클라우드 서비스가 있습니다.
* 기계 학습 및 데이터 인텔리전스(data intelligence) 서비스 사용: 처음부터 시작하는 대신 AzureML과 같은 서비스와 함께 클라우드 공급자가 제공하는 기계 학습 알고리즘을 사용할 수 있습니다. 또한 음성을 텍스트로 변환, 텍스트를 음성으로 변환, 컴퓨터 비전 등과 같은 인지 서비스를 사용할 수 있습니다.
## 클라우드 데이터 사이언스의 예
몇 가지 시나리오를 살펴봄으로 더 확실히 이해해봅시다.
### 실시간 소셜 미디어 감성 분석
기계 학습을 시작하는 사람들이 일반적으로 연구하는 시나리오인 실시간 소셜 미디어 감정 분석부터 시작하겠습니다.
뉴스 미디어 웹사이트를 운영 중이고 실시간 데이터를 활용하여 독자들이 어떤 콘텐츠에 관심을 가질 수 있는지 이해하고 싶다고 가정해 보겠습니다. 이에 대해 자세히 알아보기 위해, 독자와 관련된 주제에 대해, Twitter 출판물의 데이터에 대한 실시간 감정 분석을 수행하는 프로그램을 구축할 수 있습니다.
주요 지표는 특정 주제(해시태그)에 대한 트윗의 양과 특정 주제에 대한 감정 분석을 수행하는 분석 도구를 사용하여 설정한 감정입니다.
이 프로젝트를 만드는 데 필요한 단계는 다음과 같습니다.
* Twitter에서 데이터를 수집할 스트리밍 입력을 위한 이벤트 허브 만들기
* Twitter 스트리밍 API를 호출할 Twitter 클라이언트 애플리케이션 구성 및 시작
* Stream Analytics 작업 만들기
* 작업 입력 및 쿼리 지정
* 출력 싱크 생성 및 작업 출력 지정
* Job 실행
전체 프로세스를 보려면 [문서](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-40229-cxa&ocid)를 확인하세요. =AID30411099).
### 과학 논문 분석
이 커리큘럼의 저자 중 한 명인 [Dmitry Soshnikov](http://soshnikov.com)가 만든 프로젝트의 또 다른 예를 들어보겠습니다.
Dmitry는 COVID 논문을 분석하는 도구를 만들었습니다. 이 프로젝트를 검토하면 과학 논문에서 지식을 추출하고 통찰력을 얻으며 연구자가 효율적인 방식으로 방대한 논문 컬렉션을 탐색하는 데 도움이 되는 도구를 만드는 방법을 알 수 있습니다.
이를 위해 사용된 다양한 단계를 살펴보겠습니다.
* [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-40229-cxa&ocid=AID3041109)로 정보 추출 및 전처리
* [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-40229-cxa&ocid=AID3041109)을 사용하여 처리 병렬화
* [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-40229-cxa&ocid=AID3041109)로 정보 저장 및 조회
* Power BI를 사용하여 데이터 탐색 및 시각화를 위한 대화형 대시보드 만들기
전체 과정을 보려면 [Dmitry의 블로그](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/)를 방문하세요.
보시다시피 클라우드 서비스를 다양한 방식으로 활용하여 데이터 사이언스을 수행할 수 있습니다.
## 각주
출처:
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
## 강의 후 퀴즈
[강의 후 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/33)
## 과제
[시장조사](../assignment.md)

@ -0,0 +1,338 @@
# 클라우드의 데이터 과학: "로우 코드(Low code)/노 코드(No code)" 방식
|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/18-DataScience-Cloud.png)|
|:---:|
| 클라우드의 데이터 과학: 로우 코드 - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
목차:
- [클라우드의 데이터 과학: "로우 코드/노 코드" 방식](#data-science-in-the-cloud-the-low-codeno-code-way)
- [강의 전 퀴즈](#pre-lecture-quiz)
- [1. 서론](#1-introduction)
- [1.1 Azure Machine Learning이란?](#11-azure-machine-learning이란?)
- [1.2 심부전 예측 프로젝트:](#12-the-the-the-heart-failure-prediction-project)
- [1.3 심부전 데이터 셋:](#13-the-heart-failure-dataset)
- [2. Azure ML Studio에서 모델의 로우 코드/노 코드 교육](#2-low-codeno-code-training-of-a-model-in-azure-ml-studio)
- [2.1 Azure ML 워크스페이스 만들기](#21-create-an-azure-ml-workspace)
- [2.2 컴퓨팅 리소스](#22-compute-resources)
- [2.2.1 컴퓨팅 리소스에 적합한 옵션 선택](#221-choosing-the-right-options-for-your-compute-resources)
- [2.2.2 컴퓨팅 클러스터 생성](#222-creating-a-compute-cluster)
- [2.3 데이터 셋 불러오기](#23-loading-the-dataset)
- [2.4 AutoML을 사용한 로우 코드/노 코드 교육](#24-low-codeno-code-training-with-automl)
- [삼. 로우 코드/노 코드 모델 배포 및 엔드포인트 소비](#3-low-codeno-code-model-deployment-and-endpoint-consumption)
- [3.1 모델 배포](#31-model-deployment)
- [3.2 엔드포인트 소비](#32-endpoint-consumption)
- [🚀챌린지](#-챌린지)
- [강의후퀴즈](#강의후퀴즈)
- [리뷰&자습](#리뷰--자습)
- [과제](#과제)
## [강의전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/34)
## 1. 소개
### 1.1 Azure 기계 학습(Machine Learning)이란 무엇입니까?
Azure 클라우드 플랫폼은 새로운 솔루션에 생명을 불어넣는 데 도움이 되도록 설계된 200개 이상의 제품 및 클라우드 서비스입니다.
데이터 사이언티스트는 데이터를 탐색하고 전처리하며 다양한 유형의 모델 학습 알고리즘을 시도하여 정확한 모델을 생성하는 데 많은 노력을 기울입니다. 이러한 작업은 시간이 많이 걸리고 종종 값비싼 컴퓨팅 하드웨어를 비효율적으로 사용합니다.
[Azure ML](https://docs.microsoft.com/azure/machine-learning/overview-what-is-azure-machine-learning?WT.mc_id=academic-40229-cxa&ocid=AID3041109)은 클라우드 기반 Azure에서 기계 학습 솔루션을 구축하고 운영하기 위한 플랫폼입니다. 여기에는 데이터 사이언티스트가 데이터를 준비하고, 모델을 훈련하고, 예측 서비스를 게시하고, 사용량을 모니터링하는 데 도움이 되는 다양한 기능이 포함되어 있습니다. 가장 중요한 것은 훈련 모델과 관련된 많은 시간 소모적인 작업을 자동화하여 효율성을 높이는 데 도움이 된다는 것입니다. 또한 효과적으로 확장되는 클라우드 기반 컴퓨팅 리소스를 사용하여 실제로 사용할 때만 비용을 발생시키면서 대량의 데이터를 처리할 수 있습니다.
Azure ML은 개발자와 데이터 사이언티스트가 기계 학습 워크플로에 필요한 모든 도구를 제공합니다. 여기에는 다음이 포함됩니다.
- **Azure Machine Learning Studio**: 모델 학습(training), 배포, 자동화, 추적 및 자산 관리를 위한 로우 코드 및 노 코드 옵션을 위한 Azure Machine Learning의 웹 포털입니다. 스튜디오는 원활한 경험을 위해 Azure Machine Learning SDK와 통합됩니다.
- **Jupyter Notebooks**: ML 모델을 빠르게 프로토타이핑하고 테스트합니다.
- **Azure Machine Learning Designer**: 모듈을 끌어다 놓아 실험을 빌드한 다음 로우 코드 환경에서 파이프라인을 배포할 수 있습니다.
- **AutoML(자동 머신 러닝 UI)** : 머신 러닝 모델 개발의 반복 작업을 자동화하여 모델 품질을 유지하면서 높은 확장성, 효율성 및 생산성을 갖춘 ML 모델을 구축할 수 있습니다.
- **Data Labelling**: 데이터에 자동으로 레이블을 지정하는 보조 ML 도구입니다.
- **Visual Studio Code용 기계 학습 확장**: ML 프로젝트 빌드 및 관리를 위한 모든 기능을 갖춘 개발 환경을 제공합니다.
- **기계 학습 CLI**: CLI 환경에서 Azure ML 리소스를 관리하기 위한 명령을 제공합니다.
- **PyTorch, TensorFlow, Scikit-learn 등과 같은 오픈 소스 프레임워크와의 통합**은 종단 간 기계 학습 프로세스를 교육, 배포 및 관리하기 위한 것입니다.
- **MLflow**: 기계 학습 실험의 수명 주기를 관리하기 위한 오픈 소스 라이브러리입니다. **MLFlow 추적**은 실험 환경에 관계없이 학습 실행 지표 및 모델 아티팩트를 기록하고 추적하는 MLflow의 구성 요소입니다.
### 1.2 심부전 예측 프로젝트:
프로젝트를 만들고 구축하는 것이 당신의 기술과 지식을 시험하는 가장 좋은 방법이라는 데는 의심의 여지가 없습니다. 이 단원에서는 Azure ML Studio에서 다음 스키마에 표시된 것처럼 로우 코드/노 코드 및 Azure ML SDK를 통해 심부전 발작을 예측하기 위한 데이터 과학 프로젝트를 빌드하는 두 가지 다른 방법을 탐색할 것입니다.
![프로젝트 스키마](../images/project-schema.PNG)
각 방법에는 장단점이 있습니다. 로우 코드/노 코드 방식은 코드에 대한 사전 지식 없이 GUI(그래픽 사용자 인터페이스)와 상호 작용하기 때문에 시작하기가 더 쉽습니다. 이 방법을 사용하면 프로젝트의 실행 가능성을 빠르게 테스트하고 POC(개념 증명)를 생성할 수 있습니다. 그러나 프로젝트가 성장하고 프로덕션 준비가 되어야 하기 때문에 GUI를 통해 리소스를 생성하는 것은 불가능합니다. 리소스 생성에서 모델 배포에 이르기까지 모든 것을 프로그래밍 방식으로 자동화해야 합니다. 이때 Azure ML SDK를 사용하는 방법을 아는 것이 중요합니다.
| | Low code/No code | Azure ML SDK |
|-------------------|------------------|---------------------------|
| 코드 전문성 | 필요하지 않음 | 필요함 |
| 개발 시간 | 빠르고 쉽다 | 코드 전문성에 따라 다름 |
| 생산 준비 완료 | No | Yes |
### 1.3 심부전 데이터셋:
심혈관 질환(CVD)은 전 세계 사망 원인 1위이며 전 세계 사망의 31%를 차지합니다. 흡연, 건강에 해로운 식단 및 비만, 신체 활동 부족 및 유해한 알코올 사용과 같은 환경 및 행동 위험 요인을 추정 모델의 특성으로 사용할 수 있습니다. CVD 발병 확률을 추정할 수 있다는 것은 고위험군에 대한 공격을 예방하는 데 매우 유용할 수 있습니다.
Kaggle은 이 프로젝트에 사용할 [Heart Failure dataset](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data)를 공개했습니다. 지금 데이터셋를 다운로드할 수 있습니다. 이것은 13개의 열(12개의 기능과 1개의 대상 변수)과 299개의 행이 있는 테이블 형식 데이터 셋입니다.
| | 변수 이름 | 타입 | 설명 | 예시 |
|----|---------------------------|-----------------|-----------------------------------------------------------|-------------------|
| 1 | 나이 | numerical | 환자의 나이 | 25 |
| 2 | 빈혈증 | boolean | 적혈구 또는 헤모글로빈 감소 | 0 or 1 |
| 3 | 크레아티닌_포스포키나제(creatinine_phosphokinase) | numerical | 혈액 내 CPK 효소 수치 | 542 |
| 4 | 당뇨병 | boolean | 환자에게 당뇨병이 있는 경우 | 0 or 1 |
| 5 | 사출_분수(ejection_fraction) | numerical | 수축할 때마다 심장에서 나가는 혈액의 비율 | 45 |
| 6 | 고혈압 | boolean | 환자에게 고혈압이 있는 경우 | 0 or 1 |
| 7 | 혈소판 | numerical | 혈액 내 혈소판 | 149000 |
| 8 | 혈청 크레아티닌 | numerical | 혈액 내 혈청 크레아티닌 수치 | 0.5 |
| 9 | 혈청 나트륨 | numerical | 혈액 내 혈청 나트륨 수치 | jun |
| 10 | 성별 | boolean | 여자 또는 남자 | 0 or 1 |
| 11 | 흡연 | boolean | 환자의 흡연 여부 | 0 or 1 |
| 12 | 시간 | numerical | 추적 기간 (days) | 4 |
|----|---------------------------|-----------------|-----------------------------------------------------------|-------------------|
| 21 | DEATH_EVENT [Target] | boolean | 추적관찰 기간 동안 환자가 사망한 경우 | 0 or 1 |
데이터 셋이 있으면 Azure에서 프로젝트를 시작할 수 있습니다.
## 2. Azure ML Studio에서 모델의 로우 코드/노 코드 학습(Training)
### 2.1 Azure ML 워크스페이스 만들기
Azure ML에서 모델을 학습시키려면 먼저 Azure ML 워크스페이스를 만들어야 합니다. 워크스페이스는 Azure Machine Learning의 최상위 리소스로, Azure Machine Learning을 사용할 때 만드는 모든 아티팩트를 작업할 수 있는 중앙 집중식 장소를 제공합니다. 작업 공간은 로그, 메트릭, 출력 및 스크립트의 스냅샷을 포함하여 모든 훈련 실행의 기록을 유지합니다. 이 정보를 사용하여 최상의 모델을 생성하는 훈련 실행을 결정합니다. [자세히 알아보기](https://docs.microsoft.com/azure/machine-learning/concept-workspace?WT.mc_id=academic-40229-cxa&ocid=AID3041109)
운영 체제와 호환되는 최신 브라우저를 사용하는 것이 좋습니다. 다음 브라우저가 지원됩니다.
- Microsoft Edge(새로운 Microsoft Edge, 최신 버전. Microsoft Edge 레거시 아님)
- Safari(최신 버전, Mac 전용)
- 크롬(최신 버전)
- 파이어폭스(최신 버전)
Azure Machine Learning을 사용하려면 Azure 구독에서 워크스페이스을 만듭니다. 그런 다음 이 작업 공간을 사용하여 머신 러닝 워크로드와 관련된 데이터, 컴퓨팅 리소스, 코드, 모델 및 기타 아티팩트를 관리할 수 있습니다.
> **_참고:_** 구독에 Azure Machine Learning 워크스페이스가 있는 한 Azure 구독에 데이터 저장에 대해 소액의 요금이 청구되므로 더 이상 사용하지 않을 때는 Azure Machine Learning 워크스페이스을 삭제하는 것이 좋습니다.
1. Azure 구독과 연결된 Microsoft 자격 증명을 사용하여 [Azure Portal](https://ms.portal.azure.com/)에 로그인합니다.
2. **+리소스 생성**을 선택합니다.
![작업공간-1](../images/workspace-1.PNG)
Machine Learning을 검색하고 Machine Learning 타일을 선택합니다.
![작업공간-2](../images/workspace-2.PNG)
만들기 버튼을 클릭하세요
![작업공간-3](../images/workspace-3.PNG)
다음과 같이 설정을 입력합니다.
- 구독: Azure 구독
- 리소스 그룹: 리소스 그룹 생성 또는 선택
- 작업 공간 이름: 작업 공간의 고유한 이름을 입력합니다.
- 지역: 가장 가까운 지리적 지역을 선택합니다.
- 스토리지 계정: 워크스페이스에 대해 생성될 기본 새 스토리지 계정을 기록해 둡니다.
- Key Vault: 워크스페이스에 대해 생성될 기본 새 Key Vault를 확인합니다.
- 애플리케이션 인사이트: 작업 공간에 대해 생성될 기본 새 애플리케이션 인사이트 리소스를 확인합니다.
- 컨테이너 레지스트리: 없음(컨테이너에 모델을 처음 배포할 때 자동으로 생성됨)
![작업공간-4](../images/workspace-4.PNG)
- 만들기 + 리뷰 클릭 후 만들기 버튼 클릭
3. 작업 공간이 생성될 때까지 기다립니다(몇 분 정도 소요될 수 있음). 그런 다음 포털로 이동하십시오. Machine Learning Azure 서비스를 통해 찾을 수 있습니다.
4. 워크스페이스에 대한 개요 페이지에서 Azure Machine Learning Studio를 시작하고(또는 새 브라우저 탭을 열고 https://ml.azure.com으로 이동) Microsoft 계정을 사용하여 Azure Machine Learning Studio에 로그인합니다. 메시지가 표시되면 Azure 디렉터리 및 구독과 Azure Machine Learning 워크스페이스을 선택합니다.
![작업공간-5](../images/workspace-5.PNG)
5. Azure Machine Learning Studio에서 왼쪽 상단의 ☰ 아이콘을 토글하여 인터페이스의 다양한 페이지를 봅니다. 이 페이지를 사용하여 워크스페이스의 리소스를 관리할 수 있습니다.
![작업공간-6](../images/workspace-6.PNG)
Azure Portal을 사용하여 워크스페이스을 관리할 수 있지만 데이터 사이언티스트 및 Machine Learning 운영 엔지니어를 위해 Azure Machine Learning Studio는 워크스페이스 리소스를 관리하기 위한 보다 집중적인 사용자 인터페이스를 제공합니다.
### 2.2 컴퓨팅 리소스
컴퓨팅 리소스는 모델 교육 및 데이터 탐색 프로세스를 실행할 수 있는 클라우드 기반 리소스입니다. 생성할 수 있는 컴퓨팅 리소스에는 4가지 종류가 있습니다.
- **컴퓨팅 인스턴스**: 데이터 사이언티스트가 데이터 및 모델 작업에 사용할 수 있는 개발 워크스테이션. 여기에는 가상 머신(VM) 생성 및 노트북 인스턴스 시작이 포함됩니다. 그런 다음 노트북에서 컴퓨터 클러스터를 호출하여 모델을 훈련할 수 있습니다.
- **컴퓨팅 클러스터**: 실험 코드의 주문형 처리를 위한 확장 가능한 VM 클러스터. 모델을 훈련할 때 필요합니다. 컴퓨팅 클러스터는 특수 GPU 또는 CPU 리소스를 사용할 수도 있습니다.
- **추론 클러스터**: 훈련된 모델을 사용하는 예측 서비스의 배포 대상입니다.
- **연결된 컴퓨팅**: Virtual Machines 또는 Azure Databricks 클러스터와 같은 기존 Azure 컴퓨팅 리소스에 대한 링크입니다.
#### 2.2.1 컴퓨팅 리소스에 적합한 옵션 선택
컴퓨팅 리소스를 생성할 때 몇 가지 주요 요소를 고려해야 하며 이러한 선택은 중요한 결정이 될 수 있습니다.
**CPU 또는 GPU가 필요합니까?**
CPU(중앙 처리 장치)는 컴퓨터 프로그램으로 구성된 명령을 실행하는 전자 회로입니다. GPU(Graphics Processing Unit)는 그래픽 관련 코드를 매우 빠른 속도로 실행할 수 있는 특수 전자 회로입니다.
CPU와 GPU 아키텍처의 주요 차이점은 CPU가 광범위한 작업을 빠르게 처리하도록 설계되었지만(CPU 클럭 속도로 측정) 실행할 수 있는 작업의 동시성이 제한된다는 점입니다. GPU는 병렬 컴퓨팅을 위해 설계되었으므로 딥 러닝 작업에서 훨씬 더 좋습니다.
| CPU | GPU |
|-----------------------------------------|-----------------------------|
| 적은 비용 | 비싼 비용 |
| 낮은 레벨의 동시성 | 높은 레벨의 동시성 |
| 딥 러닝 모델 학습 속도가 느림 | 딥러닝에 최적화됨 |
**클러스터 크기**
클러스터가 클수록 비용이 더 많이 들지만 응답성이 향상됩니다. 따라서 시간은 있지만 자금이 충분하지 않다면 작은 클러스터부터 시작해야 합니다. 반대로 돈은 있지만 시간이 많지 않은 경우 더 큰 클러스터에서 시작해야 합니다.
**VM 크기**
시간과 예산 제약에 따라 RAM, 디스크, 코어 수 및 클럭 속도의 크기를 변경할 수 있습니다. 이러한 모든 매개변수를 늘리면 비용이 더 많이 들지만 결과적으로 더 나은 성능을 얻을 수 있습니다.
**전용 또는 낮은 우선 순위 인스턴스 ?**
낮은 우선 순위 인스턴스는 인터럽트 가능함을 의미합니다. 기본적으로 Microsoft Azure는 해당 리소스를 가져와 다른 작업에 할당하여 작업을 중단할 수 있습니다. 전용 인스턴스 또는 인터럽트 불가능은 사용자의 허가 없이 작업이 종료되지 않음을 의미합니다.
인터럽트 가능한 인스턴스가 전용 인스턴스보다 저렴하기 때문에 이것은 시간 대 비용의 또 다른 고려 사항입니다.
#### 2.2.2 컴퓨팅 클러스터 생성
앞서 만든 [Azure ML 워크스페이스](https://ml.azure.com/)에서 컴퓨팅으로 이동하면 방금 논의한 다양한 컴퓨팅 리소스(예: 컴퓨팅 인스턴스, 컴퓨팅 클러스터, 추론 클러스터 및 연결된 컴퓨팅)를 볼 수 있습니다. 이 프로젝트의 경우 모델 학습을 위한 컴퓨팅 클러스터가 필요합니다. Studio에서 "Compute" 메뉴를 클릭한 다음 "Compute 클러스터" 탭을 클릭하고 "+ New" 버튼을 클릭하여 컴퓨팅 클러스터를 생성합니다.
![22](../images/cluster-1.PNG)
1. 옵션을 선택합니다: 전용 vs 낮은 우선 순위, CPU 또는 GPU, VM 크기 및 코어 번호(이 프로젝트의 기본 설정을 유지할 수 있음).
2. 다음 버튼을 클릭합니다.
![23](../images/cluster-2.PNG)
3. 클러스터에 컴퓨팅 이름 지정
4. 최소/최대 노드 수, 축소 전 유휴 시간(초), SSH 액세스 옵션을 선택합니다. 최소 노드 수가 0이면 클러스터가 유휴 상태일 때 비용을 절약할 수 있습니다. 최대 노드 수가 많을수록 훈련이 더 짧아집니다. 권장되는 최대 노드 수는 3입니다.
5. "만들기" 버튼을 클릭합니다. 이 단계는 몇 분 정도 걸릴 수 있습니다.
![29](../images/cluster-3.PNG)
정말 멋지네요! 이제 Compute 클러스터가 있으므로 Azure ML Studio에 데이터를 로드해야 합니다.
### 2.3 데이터 셋 로드
1. 앞서 생성한 [Azure ML 워크스페이스](https://ml.azure.com/)에서 왼쪽 메뉴의 "Datasets"를 클릭하고 "+ Create dataset" 버튼을 클릭하여 데이터셋을 생성합니다. "로컬 파일에서" 옵션을 선택하고 이전에 다운로드한 Kaggle 데이터셋을 선택합니다.
![24](../images/dataset-1.PNG)
2. 데이터셋에 이름, 유형 및 설명을 지정합니다. 다음을 클릭합니다. 파일에서 데이터를 업로드합니다. 다음을 클릭합니다.
![25](../images/dataset-2.PNG)
3. 스키마에서 빈혈, 당뇨병, 고혈압, 성별, 흡연 및 DEATH_EVENT 기능에 대해 데이터 유형을 bool로 변경합니다. 다음을 클릭하고 만들기를 클릭합니다.
![26](../images/dataset-3.PNG)
정말 멋지네요! 이제 데이터 셋이 준비되고 컴퓨팅 클러스터가 생성되었으므로 모델 학습을 시작할 수 있습니다!
### 2.4 AutoML을 사용한 로우 코드/노 코드 학습
전통적인 기계 학습 모델 개발은 리소스 집약적이며 수십 개의 모델을 생성하고 비교하는 데 상당한 도메인 지식과 시간이 필요합니다.
AutoML(자동화된 기계 학습)은 기계 학습 모델 개발의 시간 소모적이고 반복적인 작업을 자동화하는 프로세스입니다. 이를 통해 데이터 사이언티스트, 분석가 및 개발자는 모델 품질을 유지하면서 높은 확장성, 효율성 및 생산성을 갖춘 ML 모델을 구축할 수 있습니다. 프로덕션 준비 ML 모델을 매우 쉽고 효율적으로 얻는 데 걸리는 시간을 줄입니다. [자세히 알아보기](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml?WT.mc_id=academic-40229-cxa&ocid=AID3041109)
1. 앞서 생성한 [Azure ML 워크스페이스](https://ml.azure.com/)에서 왼쪽 메뉴의 "Automated ML"을 클릭하고 방금 업로드한 데이터 셋을 선택합니다. 다음을 클릭합니다.
![27](../images/aml-1.PNG)
2. 새 실험 이름, 대상 열(DEATH_EVENT) 및 생성한 컴퓨팅 클러스터를 입력합니다. 다음을 클릭합니다.
![28](../images/aml-2.PNG)
3. "분류"를 선택하고 마침을 클릭합니다. 이 단계는 컴퓨팅 클러스터 크기에 따라 30분에서 1시간 사이가 소요될 수 있습니다.
![30](../images/aml-3.PNG)
4. 실행이 완료되면 "Automated ML" 탭을 클릭하고 실행을 클릭한 다음 "Best model summary" 카드에서 알고리즘을 클릭합니다.
![31](../images/aml-4.PNG)
여기에서 AutoML이 생성한 최고의 모델에 대한 자세한 설명을 볼 수 있습니다. 모델 탭에서 생성된 다른 모드를 탐색할 수도 있습니다. 설명(미리보기 버튼)에서 모델을 탐색하는 데 몇 분 정도 걸립니다. 사용하려는 모델을 선택했다면(여기서는 autoML이 선택한 최상의 모델을 선택하겠습니다), 배포 방법을 살펴보겠습니다.
## 3. 로우코드/노코드 모델 배포 및 엔드포인트 소비
### 3.1 모델 배포
자동화된 기계 학습 인터페이스를 사용하면 몇 단계만 거치면 최상의 모델을 웹 서비스로 배포할 수 있습니다. 배포는 새로운 데이터를 기반으로 예측하고 잠재적인 기회 영역을 식별할 수 있도록 모델을 통합하는 것입니다. 이 프로젝트의 경우 웹 서비스에 배포한다는 것은 의료 애플리케이션이 모델을 사용하여 환자가 심장마비에 걸릴 위험을 실시간으로 예측할 수 있음을 의미합니다.
베스트 모델 설명에서 "배포" 버튼을 클릭합니다.
![deploy-1](../images/deploy-1.PNG)
15. 이름, 설명, 컴퓨팅 유형(Azure Container Instance)을 지정하고 인증을 활성화하고 배포를 클릭합니다. 이 단계를 완료하는 데 약 20분이 소요될 수 있습니다. 배포 프로세스에는 모델 등록, 리소스 생성 및 웹 서비스용 구성을 포함한 여러 단계가 포함됩니다. 배포 상태 아래에 상태 메시지가 나타납니다. 주기적으로 새로 고침을 선택하여 배포 상태를 확인합니다. 상태가 "정상"일 때 배포되고 실행됩니다.
![배포-2](../images/deploy-2.PNG)
16. 배포가 완료되면 endpoint 탭을 클릭하고 방금 배포한 endpoint를 클릭합니다. 여기에서 엔드포인트에 대해 알아야 할 모든 세부 정보를 찾을 수 있습니다.
![deploy-3](../images/deploy-3.PNG)
정말 멋지네요! 이제 모델이 배포되었으므로 endpoint 사용을 시작할 수 있습니다.
### 3.2 엔드포인트 소비
"소비" 탭을 클릭하십시오. 여기에서 소비 옵션에서 REST 엔드포인트와 python 스크립트를 찾을 수 있습니다. 잠시 시간을 내어 파이썬 코드를 읽으십시오.
이 스크립트는 로컬 시스템에서 직접 실행할 수 있으며 endpoint를 사용합니다.
![35](../images/consumption-1.PNG)
잠시 시간을 내어 다음 두 줄의 코드를 확인하세요.
```python
url = 'http://98e3715f-xxxx-xxxx-xxxx-9ec22d57b796.centralus.azurecontainer.io/score'
api_key = '' # Replace this with the API key for the web service
```
'url' 변수는 소비 탭에 있는 REST endpoint이고 'api_key' 변수는 소비 탭에도 있는 기본 키입니다(인증을 활성화한 경우에만). 이것이 스크립트가 endpoint를 사용할 수 있는 방법입니다.
18. 스크립트를 실행하면 다음 출력이 표시되어야 합니다.
```python
b'"{\\"result\\": [true]}"'
```
이것은 주어진 데이터에 대한 심부전의 예측이 사실임을 의미합니다. 스크립트에서 자동으로 생성된 데이터를 더 자세히 살펴보면 모든 것이 기본적으로 0이고 false이기 때문에 이것은 의미가 있습니다. 다음 입력 샘플을 사용하여 데이터를 변경할 수 있습니다.
```python
data = {
"data":
[
{
'age': "0",
'anaemia': "false",
'creatinine_phosphokinase': "0",
'diabetes': "false",
'ejection_fraction': "0",
'high_blood_pressure': "false",
'platelets': "0",
'serum_creatinine': "0",
'serum_sodium': "0",
'sex': "false",
'smoking': "false",
'time': "0",
},
{
'age': "60",
'anaemia': "false",
'creatinine_phosphokinase': "500",
'diabetes': "false",
'ejection_fraction': "38",
'high_blood_pressure': "false",
'platelets': "260000",
'serum_creatinine': "1.40",
'serum_sodium': "137",
'sex': "false",
'smoking': "false",
'time': "130",
},
],
}
```
스크립트는 다음을 반환해야 합니다.
```python
b'"{\\"result\\": [true, false]}"'
```
축하합니다! 배포된 모델을 사용하고 Azure ML에서 학습시켰습니다!
> **_참고:_** 프로젝트가 끝나면 모든 리소스를 삭제하는 것을 잊지 마십시오.
## 🚀 도전
AutoML이 상위 모델에 대해 생성한 모델 설명 및 세부정보를 자세히 살펴보세요. 최고의 모델이 다른 모델보다 나은 이유를 이해하려고 노력하십시오. 어떤 알고리즘이 비교되었습니까? 이들의 차이점은 무엇인가요? 이 경우 왜 최고 성능이 더 나은가요?
## [강의 후 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/35)
## 복습 및 독학
이 강의에서는 클라우드에서 로우 코드/노 코드 방식으로 심부전 위험을 예측하기 위해 모델을 훈련, 배포 및 사용하는 방법을 배웠습니다. 아직 수행하지 않았다면 AutoML이 상위 모델에 대해 생성한 모델 설명을 더 자세히 살펴보고 최고의 모델이 다른 모델보다 더 나은 이유를 이해하려고 합니다.
로우 코드/노 코드 Auto ML 에 대해 더 알아보고 싶다면 이 [문서](https://docs.microsoft.com/azure/machine-learning/tutorial-first-experiment-automated-ml?WT.mc_id=academic-40229-cxa&ocid=AID3041109)를 읽어보세요.
## 과제
[Azure ML의 로우 코드/코드 없음 데이터 과학 프로젝트](../assignment.md)

@ -0,0 +1,301 @@
# 클라우드의 데이터 사이언스: "Azure ML SDK" 방식
|![ [(@sketchthedocs)의 스케치노트](https://sketchthedocs.dev) ](../../../sketchnotes/19-DataScience-Cloud.png)|
|:---:|
| 클라우드의 데이터 사이언스: Azure ML SDK - _[@nitya](https://twitter.com/nitya)_ 의 스케치노트 |
목차:
- [클라우드의 데이터 사이언스: "Azure ML SDK" 방식](#data-science-in-the-cloud-the-azure-ml-sdk-way)
- [강의 전 퀴즈](#pre-lecture-quiz)
- [1. 서론](#1-서론)
- [1.1 Azure ML SDK란?](#11-what-is-azure-ml-sdk)
- [1.2 심부전예측 프로젝트 및 데이터셋 도입](#12-heart-failure-prediction-project-and-dataset-introduction)
- [2. Azure ML SDK로 모델 학습](#2-training-a-model-with-the-azure-ml-sdk)
- [2.1 Azure ML 작업 영역 만들기](#21-create-an-azure-ml-workspace)
- [2.2 컴퓨팅 인스턴스 생성](#22-create-a-compute-instance)
- [2.3 데이터셋 불러오기](#23-loading-the-dataset)
- [2.4 Notebook 만들기](#24-creating-notebooks)
- [2.5 모델 훈련](#25-training-a-model)
- [2.5.1 설정 작업 공간, 실험, 컴퓨팅 클러스터 및 데이터셋](#251-setup-workspace-experiment-compute-cluster-and-dataset)
- [2.5.2 AutoML 구성 및 교육](#252-automl-configuration-and-training)
- [삼. Azure ML SDK를 사용한 모델 배포 및 끝점 소비](#3-model-deployment-and-endpoint-consumption-with-the-azure-ml-sdk)
- [3.1 베스트 모델 저장](#31-saving-the-best-model)
- [3.2 모델 배포](#32-model-deployment)
- [3.3 엔드포인트 소비](#33-endpoint-consumption)
- [🚀챌린지](#-챌린지)
- [강의후퀴즈](#강의후퀴즈)
- [리뷰&자습](#리뷰--자습)
- [과제](#과제)
## [강의전 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/36)
## 1. 소개
### 1.1 Azure ML SDK란 무엇입니까?
데이터 사이언스자와 AI 개발자는 Azure Machine Learning SDK를 사용하여 Azure Machine Learning 서비스로 기계 학습 워크플로를 빌드하고 실행합니다. Jupyter Notebook, Visual Studio Code 또는 선호하는 Python IDE를 비롯한 모든 Python 환경에서 서비스와 상호 작용할 수 있습니다.
SDK의 주요 영역은 다음과 같습니다.
- 기계 학습 실험에 사용되는 데이터셋의 수명 주기를 탐색, 준비 및 관리합니다.
- 머신 러닝 실험을 모니터링, 로깅 및 구성하기 위한 클라우드 리소스를 관리합니다.
- GPU 가속 모델 교육을 포함하여 로컬에서 또는 클라우드 리소스를 사용하여 모델을 교육합니다.
- 구성 매개변수 및 교육 데이터를 허용하는 자동화된 기계 학습을 사용합니다. 알고리즘과 하이퍼파라미터 설정을 자동으로 반복하여 예측 실행에 가장 적합한 모델을 찾습니다.
- 웹 서비스를 배포하여 훈련된 모델을 모든 애플리케이션에서 사용할 수 있는 RESTful 서비스로 변환합니다.
[Azure Machine Learning SDK에 대해 자세히 알아보기](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-40229-cxa&ocid=AID3041109)
[이전 강의](../../18-Low-Code/README.md)에서 Low code/No code 방식으로 모델을 훈련, 배포 및 소비하는 방법을 살펴보았습니다. 심부전 데이터셋을 사용하여 심부전 예측 모델을 생성했습니다. 이 단원에서는 Azure Machine Learning SDK를 사용하여 똑같은 작업을 수행할 것입니다.
![프로젝트 스키마](../images/project-schema.PNG)
### 1.2 심부전 예측 프로젝트 및 데이터셋 소개
[여기](../../18-Low-Code/README.md)에서 심부전예측 프로젝트 및 데이터셋 소개를 확인하세요.
## 2. Azure ML SDK로 모델 학습
### 2.1 Azure ML 작업 영역 만들기
간단히 하기 위해 우리는 jupyter Notebook에서 작업할 것입니다. 이는 이미 작업 공간과 컴퓨팅 인스턴스가 있음을 의미합니다. 이미 작업 공간이 있는 경우 섹션 2.3 Notebook 생성으로 바로 이동할 수 있습니다.
그렇지 않은 경우 [이전 강의](../../18-Low-Code/README.md)의 **2.1 Azure ML 워크스페이스 만들기** 섹션의 지침에 따라 워크스페이스을 만듭니다.
### 2.2 컴퓨팅 인스턴스 생성
앞서 만든 [Azure ML 워크스페이스](https://ml.azure.com/)에서 컴퓨팅 메뉴로 이동하면 사용 가능한 다양한 컴퓨팅 리소스가 표시됩니다.
![compute-instance-1](../images/compute-instance-1.PNG)
Jupyter Notebook을 프로비저닝할 컴퓨팅 인스턴스를 생성해 보겠습니다.
1. + 새로 만들기 버튼을 클릭합니다.
2. 컴퓨팅 인스턴스에 이름을 지정합니다.
3. CPU 또는 GPU, VM 크기 및 코어 번호 중에서 옵션을 선택합니다.
4. 만들기 버튼을 클릭합니다.
축하합니다. 방금 컴퓨팅 인스턴스를 만들었습니다! 이 컴퓨팅 인스턴스를 사용하여 [Notebook 생성 섹션](#23-creating-notebooks)에서 Notebook을 생성합니다.
### 2.3 데이터셋 로드
아직 데이터셋을 업로드하지 않았다면 **2.3 데이터셋 로드하기** 섹션의 [이전 강의](../../18-Low-Code/README.md)를 참조하세요.
### 2.4 Notebook 만들기
> **_참고:_** 다음 단계에서는 처음부터 새 Notebook을 만들거나 Azure ML Studio에서 [우리가 만든 Notebook](../notebook.ipynb)을 업로드할 수 있습니다. 그것을 업로드하려면 "Notebook" 메뉴를 클릭하고 Notebook을 업로드하십시오.
Notebook은 데이터 사이언스 프로세스에서 정말 중요한 부분입니다. 탐색적 데이터 분석(EDA)을 수행하고, 모델을 훈련하기 위해 컴퓨터 클러스터를 호출하고, 엔드포인트를 배포하기 위해 추론 클러스터를 호출하는 데 사용할 수 있습니다.
Notebook을 생성하려면 jupyter Notebook 인스턴스를 제공하는 컴퓨팅 노드가 필요합니다. [Azure ML 작업 영역](https://ml.azure.com/)으로 돌아가서 Compute 인스턴스를 클릭합니다. 컴퓨팅 인스턴스 목록에서 [이전에 생성한 컴퓨팅 인스턴스](#22-create-a-compute-instance)가 표시되어야 합니다.
1. 애플리케이션 섹션에서 Jupyter 옵션을 클릭합니다.
2. "예, 이해합니다" 상자를 선택하고 계속 버튼을 클릭합니다.
![notebook-1](../images/notebook-1.PNG)
3. 그러면 다음과 같이 jupyter Notebook 인스턴스가 있는 새 브라우저 탭이 열립니다. "새로 만들기" 버튼을 클릭하여 Notebook을 만듭니다.
![notebook-2](../images/notebook-2.PNG)
이제 Notebook이 있으므로 Azure ML SDK를 사용하여 모델 학습을 시작할 수 있습니다.
### 2.5 모델 학습
먼저 궁금한 점이 있으시면 [Azure ML SDK 설명서](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-40229-cxa&ocid=AID3041109)을 참고할 수 있습니다. 여기에는 이 단원에서 보게 될 모듈을 이해하는 데 필요한 모든 정보가 포함되어 있습니다.
#### 2.5.1 작업 공간, 실험, 컴퓨팅 클러스터 및 데이터셋 설정
다음 코드를 사용하여 구성 파일에서 '작업 공간'을 로드해야 합니다.
```python
from azureml.core import Workspace
ws = Workspace.from_config()
```
이것은 작업 공간을 나타내는 '작업 공간' 유형의 개체를 반환합니다. 다음 코드를 사용하여 '실험'을 생성해야 합니다.
```python
from azureml.core import Experiment
experiment_name = 'aml-experiment'
experiment = Experiment(ws, experiment_name)
```
작업 공간에서 실험을 가져오거나 생성하려면 실험 이름을 사용하여 실험을 요청합니다. 실험 이름은 3-36자여야 하며 문자 또는 숫자로 시작해야 하며 문자, 숫자, 밑줄 및 대시만 포함할 수 있습니다. 작업 공간에 실험이 없으면 새 실험이 생성됩니다.
이제 다음 코드를 사용하여 훈련을 위한 컴퓨팅 클러스터를 생성해야 합니다. 이 단계는 몇 분 정도 걸릴 수 있습니다.
```python
from azureml.core.compute import AmlCompute
aml_name = "heart-f-cluster"
try:
aml_compute = AmlCompute(ws, aml_name)
print('Found existing AML compute context.')
except:
print('Creating new AML compute context.')
aml_config = AmlCompute.provisioning_configuration(vm_size = "Standard_D2_v2", min_nodes=1, max_nodes=3)
aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config)
aml_compute.wait_for_completion(show_output = True)
cts = ws.compute_targets
compute_target = cts[aml_name]
```
다음과 같은 방법으로 데이터셋 이름을 사용하여 작업 공간에서 데이터셋을 가져올 수 있습니다.
```python
dataset = ws.datasets['heart-failure-records']
df = dataset.to_pandas_dataframe()
df.describe()
```
#### 2.5.2 AutoML 구성 및 교육
AutoML 구성을 설정하려면 [AutoMLConfig 클래스](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-40229-cxa&ocid=AID3041109)를 사용하세요.
문서에 설명된 대로 가지고 놀 수 있는 많은 매개변수가 있습니다. 이 프로젝트에서는 다음 매개변수를 사용합니다.
- `experiment_timeout_minutes`: 실험이 자동으로 중지되고 결과가 자동으로 제공되기 전에 실행할 수 있는 최대 시간(분)
- `max_concurrent_iterations`: 실험에 허용되는 최대 동시 학습 반복 횟수입니다.
- `primary_metric`: 실험 상태를 결정하는 데 사용되는 기본 측정항목입니다.
- `compute_target`: 자동화된 기계 학습 실험을 실행할 Azure 기계 학습 계산 대상입니다.
- `task`: 실행할 작업의 유형입니다. 값은 해결할 자동화된 ML 문제 유형에 따라 '분류', '회귀' 또는 '예측'일 수 있습니다.
- `training_data`: 실험 내에서 사용할 훈련 데이터입니다. 여기에는 훈련 기능과 레이블 열(선택적으로 샘플 가중치 열)이 모두 포함되어야 합니다.
- `label_column_name`: 레이블 열의 이름입니다.
- `경로`: Azure Machine Learning 프로젝트 폴더의 전체 경로입니다.
- `enable_early_stopping`: 단기간에 점수가 오르지 않을 경우 조기종료 가능 여부.
- `featurization`: 피처링 단계를 자동으로 수행할지 여부 또는 사용자 정의 기능화(featurization)를 사용해야 하는지 여부를 나타내는 표시기(indicator)입니다.
- `debug_log`: 디버그 정보를 기록할 로그 파일입니다.
```python
from azureml.train.automl import AutoMLConfig
project_folder = './aml-project'
automl_settings = {
"experiment_timeout_minutes": 20,
"max_concurrent_iterations": 3,
"primary_metric" : 'AUC_weighted'
}
automl_config = AutoMLConfig(compute_target=compute_target,
task = "classification",
training_data=dataset,
label_column_name="DEATH_EVENT",
path = project_folder,
enable_early_stopping= True,
featurization= 'auto',
debug_log = "automl_errors.log",
**automl_settings
)
```
이제 구성이 설정되었으므로 다음 코드를 사용하여 모델을 훈련할 수 있습니다. 이 단계는 클러스터 크기에 따라 최대 1시간이 소요될 수 있습니다.
```python
remote_run = experiment.submit(automl_config)
```
RunDetails 위젯을 실행하여 다양한 실험을 표시할 수 있습니다.
```python
from azureml.widgets import RunDetails
RunDetails(remote_run).show()
```
## 3. Azure ML SDK를 사용한 모델 배포 및 엔드포인트 사용
### 3.1 최고의 모델 저장
[AutoMLRun](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?WT.mc_id=academic-40229-cxa&ocid=AID3041109)타입 중 하나인 `remote_run` 객체. 이 객체에는 최상의 실행과 해당하는 적합 모델을 반환하는 `get_output()` 메서드가 포함되어 있습니다.
```python
best_run, fitted_model = remote_run.get_output()
```
fit_model을 출력하기만 하면 최상의 모델에 사용된 매개변수를 볼 수 있고 [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-40229-cxa&ocid=AID3041109) 메소드를 사용하여 최상의 모델의 속성을 볼 수 있습니다.
```python
best_run.get_properties()
```
이제 [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-40229-cxa&ocid=AID3041109) 방법을 사용해 모델을 등록해봅시다.
```python
model_name = best_run.properties['model_name']
script_file_name = 'inference/score.py'
best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py')
description = "aml heart failure project sdk"
model = best_run.register_model(model_name = model_name,
model_path = './outputs/',
description = description,
tags = None)
```
### 3.2 모델 배포
최상의 모델이 저장되면 [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) 클래스를 사용하여 배포할 수 있습니다. InferenceConfig는 배포에 사용되는 사용자 지정 환경에 대한 구성 설정을 나타냅니다. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) 클래스는 웹 서비스로 배포된 기계 학습 모델을 나타냅니다. Azure Container Instances의 엔드포인트. 배포된 서비스는 모델, 스크립트 및 관련 파일에서 생성됩니다. 결과 웹 서비스는 REST API가 있는 로드 밸런싱된 HTTP 엔드포인트입니다. 이 API로 데이터를 보내고 모델에서 반환된 예측을 받을 수 있습니다.
모델은 [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-40229-cxa&ocid=AID3041109) 방법을 사용하여 배포됩니다.
```python
from azureml.core.model import InferenceConfig, Model
from azureml.core.webservice import AciWebservice
inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment())
aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1,
memory_gb = 1,
tags = {'type': "automl-heart-failure-prediction"},
description = 'Sample service for AutoML Heart Failure Prediction')
aci_service_name = 'automl-hf-sdk'
aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig)
aci_service.wait_for_deployment(True)
print(aci_service.state)
```
이 과정은 몇 분의 시간이 걸릴 수 있습니다.
### 3.3 Endpoint 소비
샘플 입력을 생성하여 엔드포인트를 사용합니다:
```python
data = {
"data":
[
{
'age': "60",
'anaemia': "false",
'creatinine_phosphokinase': "500",
'diabetes': "false",
'ejection_fraction': "38",
'high_blood_pressure': "false",
'platelets': "260000",
'serum_creatinine': "1.40",
'serum_sodium': "137",
'sex': "false",
'smoking': "false",
'time': "130",
},
],
}
test_sample = str.encode(json.dumps(data))
```
그런 다음 예측을 위해 이 입력을 모델에 보낼 수 있습니다.
```python
response = aci_service.run(input_data=test_sample)
response
```
이것은 `'{"result": [false]}'`를 출력해야 합니다. 이것은 우리가 끝점에 보낸 환자 입력이 예측 '거짓'을 생성했음을 의미합니다.
축하합니다! Azure ML SDK를 사용하여 Azure ML에 배포 및 학습된 모델을 사용했습니다!
> **_참고:_** 프로젝트가 끝나면 모든 리소스를 삭제하는 것을 잊지 마십시오.
## 🚀 도전
SDK를 통해 수행할 수 있는 다른 많은 작업이 있지만 불행히도 이 강의에서 모두 볼 수는 없습니다. 그러나 좋은 소식은 SDK 문서를 훑어보는 방법을 배우면 스스로 많은 시간을 할애할 수 있다는 것입니다. Azure ML SDK 설명서를 살펴보고 파이프라인을 만들 수 있는 'Pipeline' 클래스를 찾으세요. 파이프라인은 워크플로로 실행할 수 있는 단계 모음입니다.
**힌트:** [SDK 설명서](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-40229-cxa&ocid=AID3041109) 로 이동합니다. 검색창에 "파이프라인"과 같은 키워드를 입력합니다. 검색 결과에 `azureml.pipeline.core.Pipeline` 클래스가 있어야 합니다.
## [강의 후 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/37)
## 복습 및 독학
이 단원에서는 클라우드에서 Azure ML SDK를 사용하여 심부전 위험을 예측하기 위해 모델을 학습, 배포 및 사용하는 방법을 배웠습니다. 자세한 내용은 이 [문서](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-40229-cxa&ocid=AID3041109)를 확인하세요. Azure ML SDK에 대해 Azure ML SDK를 사용하여 고유한 모델을 만들어 보세요.
## 과제
[Azure ML SDK를 이용한 Data Science 프로젝트](../assignment.md)

@ -0,0 +1,20 @@
# 클라우드에서의 데이터 과학
![cloud-picture](../images/cloud-picture.jpg)
> [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)의 [Jelleke Vanooteghem](https://unsplash.com/@ilumire)의 사진
빅 데이터로 데이터 과학을 수행할 때 클라우드를 사용하면 판도를 뒤집어 놓을 수 있습니다(game changer). 다음 세 강의에서는 클라우드가 무엇이며 왜 매우 유용할 수 있는지 알아보겠습니다. 우리는 또한 심부전 데이터셋을 탐색하고 누군가가 심부전에 걸릴 확률을 평가하는 데 도움이 되는 모델을 구축할 것입니다. 클라우드의 힘을 사용하여 두 가지 방식으로 모델을 훈련, 배포 및 사용합니다. 첫번째 방법은 로우 코드(Low code)/노 코드(No code) 방식으로 사용자 인터페이스만 사용하는 방법, 두번째 방법으로는 Azure 기계 학습 소프트웨어 개발자 키트(Azure ML SDK)를 사용하는 방법이 있습니다.
![프로젝트 스키마](../19-Azure/images/project-schema.PNG)
### 주제
1. [데이터 사이언스에 클라우드를 사용하는 이유](17-Introduction/README.md)
2. [클라우드에서의 데이터 과학: "Low code/No code" 방식](../18-Low-Code/README.md)
3. [클라우드에서의 데이터 과학: "Azure ML SDK" 방식](../19-Azure/README.md)
### 크레딧
이 수업은 [Maud Levy](https://twitter.com/maudstweets)와 [Tiffany Souterre](https://twitter.com/TiffanySouterre)의 ☁️ 과 💕 로 작성했습니다.
심부전 예측 프로젝트의 데이터 출처는 [Kaggle](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data)의 [Larxel](https://www.kaggle.com/andrewmvd)에게 있습니다. [Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/)에 따라 라이선스가 부여됩니다.
Loading…
Cancel
Save