16 KiB
후기: 실제 세계의 머신 러닝
스케치노트: Tomomi Imura
이 커리큘럼에서는 데이터를 학습용으로 준비하고 머신 러닝 모델을 만드는 다양한 방법을 배웠습니다. 고전적인 회귀, 군집화, 분류, 자연어 처리, 시계열 모델을 연속적으로 구축했습니다. 축하합니다! 이제 이 모든 것이 무엇을 위한 것인지 궁금할 수 있습니다... 이러한 모델들이 실제 세계에서 어떻게 사용되는지 궁금할 수 있습니다.
산업계에서 AI, 특히 딥러닝을 활용하는 것에 많은 관심이 있지만, 고전적인 머신 러닝 모델도 여전히 가치 있는 응용 프로그램을 가지고 있습니다. 오늘날에도 이러한 응용 프로그램 중 일부를 사용하고 있을지도 모릅니다! 이 강의에서는 8개의 다양한 산업 및 주제 분야가 이러한 유형의 모델을 사용하여 애플리케이션을 더 성능 좋고, 신뢰할 수 있으며, 지능적이고, 사용자에게 가치 있게 만드는 방법을 탐구할 것입니다.
강의 전 퀴즈
💰 금융
금융 부문은 머신 러닝을 활용할 수 있는 많은 기회를 제공합니다. 이 분야의 많은 문제는 ML을 사용하여 모델링하고 해결할 수 있습니다.
신용 카드 사기 탐지
이 과정에서 k-means 군집화에 대해 배웠지만, 이를 신용 카드 사기 문제 해결에 어떻게 사용할 수 있을까요?
k-means 군집화는 이상치 탐지라는 신용 카드 사기 탐지 기법에서 유용합니다. 데이터 세트에 대한 관찰에서 벗어난 이상치 또는 편차는 신용 카드가 정상적으로 사용되고 있는지 아니면 비정상적인 일이 일어나고 있는지를 알려줄 수 있습니다. 아래 링크된 논문에서 보여지듯이, k-means 군집화 알고리즘을 사용하여 신용 카드 데이터를 정렬하고 각 거래를 얼마나 이상치로 보이는지에 따라 군집에 할당할 수 있습니다. 그런 다음 사기 거래와 합법 거래를 평가할 수 있습니다. 참고자료
자산 관리
자산 관리에서는 개인이나 회사가 고객을 대신하여 투자를 관리합니다. 그들의 일은 장기적으로 자산을 유지하고 성장시키는 것이므로 성과가 좋은 투자를 선택하는 것이 중요합니다.
특정 투자가 어떻게 성과를 내는지 평가하는 한 가지 방법은 통계적 회귀를 사용하는 것입니다. 선형 회귀는 펀드가 어떤 기준에 비해 어떻게 성과를 내는지 이해하는 데 유용한 도구입니다. 또한 회귀 결과가 통계적으로 유의미한지, 즉 고객의 투자에 얼마나 영향을 미치는지 추론할 수 있습니다. 추가 위험 요소를 고려하는 다중 회귀를 사용하여 분석을 확장할 수도 있습니다. 특정 펀드에 대해 회귀를 사용하여 성과를 평가하는 방법에 대한 예는 아래 논문을 참조하세요. 참고자료
🎓 교육
교육 부문은 ML을 적용할 수 있는 매우 흥미로운 분야입니다. 시험이나 에세이에서 부정행위를 감지하거나 채점 과정에서 의도적이든 아니든 편향을 관리하는 등의 흥미로운 문제들이 있습니다.
학생 행동 예측
온라인 공개 강좌 제공자인 Coursera는 많은 엔지니어링 결정을 논의하는 훌륭한 기술 블로그를 운영하고 있습니다. 이 사례 연구에서, 그들은 낮은 NPS(순 추천 지수) 평가와 코스 유지율 또는 이탈 간의 상관 관계를 탐구하기 위해 회귀선을 그렸습니다. 참고자료
편향 완화
철자 및 문법 오류를 검사하는 쓰기 도우미인 Grammarly는 제품 전반에 걸쳐 정교한 자연어 처리 시스템을 사용합니다. 그들은 기계 학습에서 성별 편향을 다루는 방법에 대한 흥미로운 사례 연구를 기술 블로그에 게시했습니다. 이는 우리의 공정성 소개 강의에서 배운 내용과 관련이 있습니다. 참고자료
👜 소매
소매 부문은 고객 여정을 개선하고 재고를 최적화하는 등 다양한 측면에서 ML을 활용할 수 있습니다.
고객 여정 개인화
가구와 같은 홈 상품을 판매하는 Wayfair에서는 고객이 자신의 취향과 필요에 맞는 제품을 찾는 것이 중요합니다. 이 기사에서 회사의 엔지니어들은 ML과 NLP를 사용하여 "고객에게 적합한 결과를 제공"하는 방법을 설명합니다. 특히, 그들의 Query Intent Engine은 엔티티 추출, 분류기 학습, 자산 및 의견 추출, 고객 리뷰에 대한 감정 태그를 사용하여 구축되었습니다. 이는 온라인 소매에서 NLP가 어떻게 작동하는지에 대한 고전적인 사용 사례입니다. 참고자료
재고 관리
의류를 소비자에게 배송하는 박스 서비스인 StitchFix와 같은 혁신적이고 민첩한 회사는 추천 및 재고 관리를 위해 ML에 크게 의존합니다. 그들의 스타일링 팀은 실제로 상품 팀과 협력합니다: "우리의 데이터 과학자 중 한 명이 유전 알고리즘을 가지고 실험하여 오늘날 존재하지 않는 성공적인 의류를 예측했습니다. 우리는 그것을 상품 팀에 가져갔고 이제 그들은 그것을 도구로 사용할 수 있습니다." 참고자료
🏥 의료
의료 부문은 연구 작업을 최적화하고 환자 재입원 또는 질병 확산 방지와 같은 물류 문제를 해결하기 위해 ML을 활용할 수 있습니다.
임상 시험 관리
임상 시험에서의 독성은 약 제조업체에게 주요한 관심사입니다. 얼마나 많은 독성이 허용될 수 있을까요? 이 연구에서는 다양한 임상 시험 방법을 분석하여 임상 시험 결과를 예측하는 새로운 접근 방식을 개발했습니다. 특히, 랜덤 포레스트를 사용하여 약물 그룹을 구별할 수 있는 분류기를 생성할 수 있었습니다. 참고자료
병원 재입원 관리
병원 치료는 비용이 많이 들며, 특히 환자를 재입원시켜야 할 때 더욱 그렇습니다. 이 논문에서는 군집화 알고리즘을 사용하여 재입원 가능성을 예측하는 회사를 다룹니다. 이러한 군집은 분석가가 "공통 원인을 공유할 수 있는 재입원 그룹을 발견"하는 데 도움이 됩니다. 참고자료
질병 관리
최근의 팬데믹은 머신 러닝이 질병 확산을 막는 데 어떻게 도움이 될 수 있는지를 분명히 보여주었습니다. 이 기사에서는 ARIMA, 로지스틱 곡선, 선형 회귀 및 SARIMA의 사용을 인식할 수 있습니다. "이 작업은 이 바이러스의 확산 속도를 계산하고 사망, 회복 및 확인된 사례를 예측하여 더 잘 준비하고 생존할 수 있도록 돕기 위한 시도입니다." 참고자료
🌲 생태 및 그린 테크
자연과 생태는 동물과 자연 간의 상호작용이 중요한 민감한 시스템으로 구성됩니다. 이러한 시스템을 정확하게 측정하고 산불이나 동물 개체수 감소와 같은 일이 발생할 때 적절하게 대응하는 것이 중요합니다.
산림 관리
이전 강의에서 강화 학습에 대해 배웠습니다. 이는 자연에서 패턴을 예측하는 데 매우 유용할 수 있습니다. 특히, 산불 및 침입 종의 확산과 같은 생태 문제를 추적하는 데 사용할 수 있습니다. 캐나다에서는 연구자들이 위성 이미지를 사용하여 강화 학습을 통해 산불 역학 모델을 구축했습니다. 혁신적인 "공간 확산 과정(SSP)"을 사용하여 산불을 "경관의 모든 셀에서 에이전트로" 상상했습니다. "화재가 특정 위치에서 특정 시간에 취할 수 있는 행동 세트에는 북쪽, 남쪽, 동쪽, 서쪽으로 확산하거나 확산하지 않는 것이 포함됩니다."
이 접근 방식은 해당 마코프 결정 프로세스(MDP)의 동적 특성이 즉각적인 산불 확산에 대한 알려진 함수이기 때문에 일반적인 RL 설정을 역전시킵니다." 이 그룹이 사용한 고전 알고리즘에 대한 자세한 내용은 아래 링크에서 확인할 수 있습니다. 참고자료
동물의 움직임 감지
딥러닝은 동물의 움직임을 시각적으로 추적하는 데 혁신을 일으켰지만 (여기서 자신의 북극곰 추적기를 구축할 수 있습니다), 고전적인 ML도 이 작업에서 여전히 중요한 역할을 합니다.
농장 동물의 움직임을 추적하는 센서와 IoT는 이러한 유형의 시각 처리 기술을 사용하지만, 더 기본적인 ML 기술은 데이터를 전처리하는 데 유용합니다. 예를 들어, 이 논문에서는 다양한 분류기 알고리즘을 사용하여 양의 자세를 모니터링하고 분석했습니다. 335페이지에서 ROC 곡선을 확인할 수 있습니다. 참고자료
⚡️ 에너지 관리
시계열 예측 수업에서 공급과 수요를 이해하여 마을의 수익을 창출하는 스마트 주차 미터 개념을 도입했습니다. 이 기사는 클러스터링, 회귀 및 시계열 예측을 결합하여 아일랜드의 스마트 미터링을 기반으로 미래 에너지 사용을 예측하는 방법을 자세히 설명합니다. 참고자료
💼 보험
보험 부문은 실행 가능하고 최적화된 금융 및 보험 모델을 구축하고 최적화하는 데 ML을 사용합니다.
변동성 관리
생명 보험 제공자인 MetLife는 그들의 금융 모델에서 변동성을 분석하고 완화하는 방법을 공개적으로 설명합니다. 이 기사에서는 이진 및 서열 분류 시각화를 확인할 수 있습니다. 또한 예측 시각화도 발견할 수 있습니다. 참고자료
🎨 예술, 문화, 문학
예술, 예를 들어 저널리즘에서는 많은 흥미로운 문제들이 있습니다. 가짜 뉴스를 감지하는 것은 사람들의 의견에 영향을 미치고 심지어 민주주의를 무너뜨리는 것으로 입증되었기 때문에 큰 문제입니다. 박물관도 유물 간의 연결을 찾거나 자원 계획에서 ML을 사용하는 등 많은 이점을 얻을 수 있습니다.
가짜 뉴스 감지
오늘날의 미디어에서 가짜 뉴스를 감지하는 것은 고양이와 쥐의 게임이 되었습니다. 이 기사에서 연구자들은 우리가 공부한 여러 ML 기법을 결합한 시스템을 테스트하고 최상의 모델을 배포할 수 있다고 제안합니다: "이 시스템은 데이터를 통해 특징을 추출하기 위해 자연어 처리를 기반으로 하며, 그런 다음 이 특징들은 나이브 베이즈, 서포트 벡터 머신 (SVM), 랜덤 포레스트 (RF), 확률적 경사 하강법 (SGD), 로지스틱 회귀 (LR)와 같은 머신 러닝 분류기를 훈련하는 데 사용됩니다." 참고자료
이 기사는 다양한 ML 도메인을 결합하여 가짜 뉴스의 확산을 막고 실제 피해를 방지할 수 있는 흥미로운 결과를 도출할 수 있음을 보여줍니다. 이 경우, COVID 치료에 대한 소문이 폭력적인 군중을 선동한 것이 동기가 되었습니다.
박물관 ML
박물관은 컬렉션을 카탈로그화하고 디지털화하며 유물 간의 연결을 찾는 것이 기술 발전과 함께 점점 더 쉬워지면서 AI 혁명의 최전선에 있습니다. In Codice Ratio와 같은 프로젝트는 바티칸 기록 보관소와 같은 접근 불가능한 컬렉션의 신비를 풀어주는 데 도움이 되고 있습니다. 하지만, 박물관의 비즈니스 측면도 ML 모델의 혜택을 받습니다.
예를 들어, 시카고 아트 인스티튜트는 관객들이 무엇에 관심이 있고 언제 전시회를 방문할지 예측하는 모델을 구축했습니다. 목표는 사용자가 박물관을 방문할 때마다 개인화되고 최적화된 방문 경험을 제공하는 것입니다. "2017 회계 연도 동안, 모델은 출석률과 입장료를 1% 이내의 정확도로 예측했습니다."라고 시카고 아트 인스티튜트의 수석 부사장인 Andrew Simnick는 말합니다. Reference
🏷 마케팅
고객 세분화
가장 효과적인 마케팅 전략은 다양한 그룹에 기반하여 고객을 다르게 타겟팅하는 것입니다. 이 기사에서는 클러스터링 알고리즘의 사용을 통해 차별화된 마케팅을 지원하는 방법을 다룹니다. 차별화된 마케팅은 기업이 브랜드 인지도를 높이고, 더 많은 고객에게 도달하며, 더 많은 수익을 창출하는 데 도움이 됩니다. Reference
🚀 도전 과제
이 커리큘럼에서 배운 기술들 중 일부를 활용하는 또 다른 분야를 찾아보고, 그 분야가 어떻게 ML을 사용하는지 알아보세요.
강의 후 퀴즈
복습 및 자습
Wayfair 데이터 과학 팀은 회사에서 ML을 어떻게 사용하는지에 대한 여러 흥미로운 비디오를 가지고 있습니다. 한번 살펴보는 것도 좋습니다!
과제
면책 조항: 이 문서는 기계 기반 AI 번역 서비스를 사용하여 번역되었습니다. 정확성을 위해 노력하지만 자동 번역에는 오류나 부정확성이 포함될 수 있습니다. 원어로 작성된 원본 문서를 권위 있는 출처로 간주해야 합니다. 중요한 정보의 경우, 전문 인간 번역을 권장합니다. 이 번역 사용으로 인해 발생하는 오해나 잘못된 해석에 대해 당사는 책임을 지지 않습니다.