You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ko/6-Data-Science-In-Wild/20-Real-World-Examples/README.md

19 KiB

현실 세계의 데이터 과학

 Sketchnote by (@sketchthedocs)
현실 세계의 데이터 과학 - 스케치노트 by @nitya

이 학습 여정의 끝에 거의 다다랐습니다!

우리는 데이터 과학과 윤리의 정의로 시작하여, 데이터 분석과 시각화를 위한 다양한 도구와 기술을 탐구하고, 데이터 과학 라이프사이클을 검토했으며, 클라우드 컴퓨팅 서비스를 통해 데이터 과학 워크플로를 확장하고 자동화하는 방법을 살펴보았습니다. 그래서 여러분은 아마 이렇게 생각할지도 모릅니다: "이 모든 학습을 현실 세계의 맥락에 어떻게 연결할 수 있을까?"

이번 강의에서는 산업 전반에서 데이터 과학의 현실 세계 응용 사례를 탐구하고, 연구, 디지털 인문학, 지속 가능성 분야의 구체적인 예를 살펴볼 것입니다. 학생 프로젝트 기회를 살펴보고 학습 여정을 계속할 수 있도록 유용한 자료로 마무리하겠습니다.

강의 전 퀴즈

강의 전 퀴즈

데이터 과학 + 산업

AI의 민주화 덕분에 개발자들은 이제 AI 기반 의사결정과 데이터 기반 인사이트를 사용자 경험 및 개발 워크플로에 설계하고 통합하는 것이 더 쉬워졌습니다. 데이터 과학이 산업 전반에서 현실 세계 응용 사례에 "적용"되는 몇 가지 예를 소개합니다:

  • Google Flu Trends는 데이터 과학을 사용하여 검색어와 독감 경향을 연관시켰습니다. 접근 방식에 결함이 있었지만, 데이터 기반 의료 예측의 가능성과 도전 과제에 대한 인식을 높였습니다.

  • UPS 경로 예측 - UPS가 날씨 조건, 교통 패턴, 배송 기한 등을 고려하여 최적의 배송 경로를 예측하기 위해 데이터 과학과 머신러닝을 사용하는 방법을 설명합니다.

  • NYC 택시 경로 시각화 - 정보공개법을 통해 수집된 데이터를 사용하여 NYC 택시의 하루를 시각화하고, 바쁜 도시를 어떻게 이동하는지, 벌어들이는 수익, 각 24시간 동안의 여행 시간을 이해할 수 있도록 도와줍니다.

  • Uber 데이터 과학 워크벤치 - 매일 수백만 건의 Uber 여행에서 수집된 데이터를 사용하여 가격 책정, 안전, 사기 탐지 및 내비게이션 결정을 지원하는 데이터 분석 도구를 구축합니다.

  • 스포츠 분석 - 예측 분석 (팀 및 선수 분석 - Moneyball을 생각해보세요 - 및 팬 관리)과 데이터 시각화 (팀 및 팬 대시보드, 게임 등)에 초점을 맞추며, 인재 발굴, 스포츠 도박, 재고/장소 관리와 같은 응용 사례를 포함합니다.

  • 은행에서의 데이터 과학 - 금융 산업에서 데이터 과학의 가치를 강조하며, 위험 모델링 및 사기 탐지, 고객 세분화, 실시간 예측 및 추천 시스템에 이르기까지 다양한 응용 사례를 다룹니다. 예측 분석은 또한 신용 점수와 같은 중요한 측정을 추진합니다.

  • 의료에서의 데이터 과학 - 의료 이미징(MRI, X-Ray, CT-Scan 등), 유전체학(DNA 시퀀싱), 약물 개발(위험 평가, 성공 예측), 예측 분석(환자 관리 및 공급 물류), 질병 추적 및 예방 등과 같은 응용 사례를 강조합니다.

현실 세계의 데이터 과학 응용 사례 이미지 출처: Data Flair: 6 Amazing Data Science Applications

이 그림은 데이터 과학 기술을 적용할 수 있는 다른 도메인과 예제를 보여줍니다. 다른 응용 사례를 탐구하고 싶으신가요? 아래의 복습 및 자기 학습 섹션을 확인하세요.

데이터 과학 + 연구

 Sketchnote by (@sketchthedocs)
데이터 과학 & 연구 - 스케치노트 by @nitya

현실 세계 응용 사례는 종종 대규모 산업 사용 사례에 초점을 맞추지만, 연구 응용 사례와 프로젝트는 두 가지 관점에서 유용할 수 있습니다:

  • 혁신 기회 - 차세대 응용 프로그램을 위한 고급 개념의 빠른 프로토타이핑과 사용자 경험 테스트를 탐구합니다.
  • 배포 과제 - 현실 세계 맥락에서 데이터 과학 기술의 잠재적 해악이나 의도하지 않은 결과를 조사합니다.

학생들에게 이러한 연구 프로젝트는 학습과 협업 기회를 제공하여 주제를 더 깊이 이해하고, 관심 분야에서 활동하는 관련 인물이나 팀과의 인식 및 참여를 넓힐 수 있습니다. 그렇다면 연구 프로젝트는 어떤 모습이며, 어떻게 영향을 미칠 수 있을까요?

한 가지 예를 살펴보겠습니다 - Joy Buolamwini(MIT Media Labs)의 MIT Gender Shades Study와 Timnit Gebru(당시 Microsoft Research)의 공동 연구 논문 signature research paper를 중심으로 한 프로젝트입니다.

  • 무엇: 연구 프로젝트의 목표는 _성별과 피부 유형에 따라 자동 얼굴 분석 알고리즘과 데이터 세트에 존재하는 편향을 평가하는 것_이었습니다.
  • 왜: 얼굴 분석은 법 집행, 공항 보안, 채용 시스템 등과 같은 분야에서 사용되며, 부정확한 분류(예: 편향으로 인해)는 영향을 받는 개인이나 그룹에 잠재적인 경제적, 사회적 해악을 초래할 수 있습니다. 편향을 이해하고 제거하거나 완화하는 것은 공정한 사용의 핵심입니다.
  • 어떻게: 연구자들은 기존 벤치마크가 주로 밝은 피부를 가진 피험자를 사용한다는 점을 인식하고, 성별과 피부 유형에 따라 더 균형 잡힌 새로운 데이터 세트(1000개 이상의 이미지)를 큐레이션했습니다. 이 데이터 세트는 Microsoft, IBM 및 Face++의 세 가지 성별 분류 제품의 정확성을 평가하는 데 사용되었습니다.

결과는 전체적으로 분류 정확도가 좋았지만, 다양한 하위 그룹 간의 오류율 차이가 눈에 띄었으며, 여성이나 어두운 피부를 가진 사람들에 대한 오분류가 더 높아 편향을 나타냈습니다.

주요 결과: 데이터 과학에는 더 대표적인 데이터 세트 (균형 잡힌 하위 그룹)와 더 포괄적인 팀 (다양한 배경)이 필요하다는 인식을 높였으며, 이를 통해 AI 솔루션에서 이러한 편향을 조기에 인식하고 제거하거나 완화할 수 있습니다. 이러한 연구 노력은 많은 조직이 책임 있는 AI 원칙과 관행을 정의하여 AI 제품과 프로세스의 공정성을 개선하는 데에도 중요한 역할을 합니다.

Microsoft의 관련 연구 노력에 대해 배우고 싶으신가요?

데이터 과학 + 인문학

 Sketchnote by (@sketchthedocs)
데이터 과학 & 디지털 인문학 - 스케치노트 by @nitya

디지털 인문학은 다음과 같이 정의됩니다: "컴퓨팅 방법과 인문학적 탐구를 결합한 실천과 접근 방식의 모음". Stanford 프로젝트인 _"역사 재부팅"_과 _"시적 사고"_는 디지털 인문학과 데이터 과학의 연계를 보여주며, 네트워크 분석, 정보 시각화, 공간 및 텍스트 분석과 같은 기술을 강조하여 역사적 및 문학적 데이터 세트를 재검토하고 새로운 통찰력과 관점을 도출할 수 있도록 합니다.

이 분야에서 프로젝트를 탐구하고 확장하고 싶으신가요?

"Emily Dickinson and the Meter of Mood"를 확인하세요 - Jen Looper의 훌륭한 예제로, 데이터 과학을 사용하여 익숙한 시를 재검토하고 새로운 맥락에서 그 의미와 저자의 기여를 평가하는 방법을 묻습니다. 예를 들어, 시의 톤이나 감정을 분석하여 시가 작성된 계절을 예측할 수 있을까 - 그리고 이것이 해당 기간 동안 저자의 마음 상태에 대해 무엇을 말해줄까요?

이 질문에 답하기 위해 데이터 과학 라이프사이클의 단계를 따릅니다:

  • 데이터 수집 - 분석을 위한 관련 데이터 세트를 수집합니다. API(예: Poetry DB API)를 사용하거나 웹 페이지를 스크래핑(예: Project Gutenberg)하는 옵션이 포함됩니다.
  • 데이터 정리 - 텍스트를 형식화, 정리 및 단순화하는 방법을 기본 도구(Visual Studio Code 및 Microsoft Excel)를 사용하여 설명합니다.
  • 데이터 분석 - Python 패키지(pandas, numpy, matplotlib 등)를 사용하여 데이터를 조직하고 시각화하기 위해 데이터 세트를 "노트북"에 가져오는 방법을 설명합니다.
  • 감정 분석 - 자동화된 데이터 처리 워크플로를 위한 저코드 도구인 Power Automate를 사용하여 Text Analytics와 같은 클라우드 서비스를 통합하는 방법을 설명합니다.

이 워크플로를 사용하여 시의 감정에 대한 계절적 영향을 탐구하고, 저자에 대한 자신의 관점을 형성할 수 있습니다. 직접 시도해보고, 노트북을 확장하여 다른 질문을 하거나 데이터를 새로운 방식으로 시각화해보세요!

디지털 인문학 툴킷의 일부 도구를 사용하여 이러한 탐구를 진행할 수 있습니다.

데이터 과학 + 지속 가능성

 Sketchnote by (@sketchthedocs)
데이터 과학 & 지속 가능성 - 스케치노트 by @nitya

2030 지속 가능 개발 의제 - 2015년에 모든 유엔 회원국이 채택한 이 의제는 기후 변화의 영향으로부터 지구를 보호하는 것을 포함하여 17개의 목표를 식별합니다. Microsoft 지속 가능성 이니셔티브는 탄소 중립, 물 긍정, 제로 폐기물, 생물 다양성을 포함한 4가지 목표를 중심으로 기술 솔루션을 통해 더 지속 가능한 미래를 지원하고 구축하는 방법을 탐구합니다.

이러한 과제를 확장 가능하고 시기 적절하게 해결하려면 클라우드 규모의 사고와 대규모 데이터가 필요합니다. Planetary Computer 이니셔티브는 데이터 과학자와 개발자를 지원하기 위해 다음 4가지 구성 요소를 제공합니다:

  • 데이터 카탈로그 - 지구 시스템 데이터 페타바이트(무료 및 Azure 호스팅).

  • Planetary API - 사용자들이 공간 및 시간에 걸쳐 관련 데이터를 검색할 수 있도록 지원.

  • 허브 - 과학자들이 대규모 지리 데이터 세트를 처리할 수 있는 관리 환경.

  • 응용 프로그램 - 지속 가능성 인사이트를 위한 사용 사례 및 도구를 소개. 행성 컴퓨터 프로젝트는 현재 미리보기 상태입니다 (2021년 9월 기준) - 데이터 과학을 활용해 지속 가능성 솔루션에 기여하는 방법을 시작해보세요.

  • 탐색을 시작하고 동료들과 연결하려면 액세스 요청을 하세요.

  • 지원되는 데이터셋과 API를 이해하려면 문서 탐색을 해보세요.

  • 생태계 모니터링과 같은 애플리케이션을 탐색하며 애플리케이션 아이디어에 영감을 얻어보세요.

데이터 시각화를 활용해 기후 변화나 산림 파괴와 같은 영역에서 관련 통찰을 드러내거나 증폭시키는 방법을 생각해보세요. 또는 이러한 통찰을 활용해 더 지속 가능한 삶을 위한 행동 변화를 유도하는 새로운 사용자 경험을 창출하는 방법을 고민해보세요.

데이터 과학 + 학생들

우리는 산업과 연구에서의 실제 응용 사례를 논의하고, 디지털 인문학과 지속 가능성에서의 데이터 과학 응용 사례를 탐구했습니다. 그렇다면 데이터 과학 초보자로서 어떻게 기술을 쌓고 전문성을 공유할 수 있을까요?

다음은 여러분에게 영감을 줄 데이터 과학 학생 프로젝트의 예시들입니다.

🚀 도전 과제

초보자에게 적합한 데이터 과학 프로젝트를 추천하는 기사를 찾아보세요 - 예를 들어 이 50가지 주제 영역, 이 21가지 프로젝트 아이디어, 또는 소스 코드가 포함된 16가지 프로젝트를 참고해 분해하고 재구성해보세요. 그리고 학습 여정을 블로그에 기록하고 여러분의 통찰을 모두와 공유하는 것을 잊지 마세요.

강의 후 퀴즈

강의 후 퀴즈

복습 및 자기 학습

더 많은 사용 사례를 탐구하고 싶으신가요? 다음은 관련된 몇 가지 기사들입니다:

과제

행성 컴퓨터 데이터셋 탐색

면책 조항:
이 문서는 AI 번역 서비스 Co-op Translator를 사용하여 번역되었습니다. 정확성을 위해 최선을 다하고 있지만, 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원본 문서의 원어 버전을 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문적인 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 책임을 지지 않습니다.