|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง
![]() |
---|
วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง - Sketchnote โดย @nitya |
เราใกล้จะถึงจุดสิ้นสุดของการเรียนรู้นี้แล้ว!
เราเริ่มต้นด้วยการนิยามวิทยาศาสตร์ข้อมูลและจริยธรรม สำรวจเครื่องมือและเทคนิคต่าง ๆ สำหรับการวิเคราะห์และการแสดงผลข้อมูล ทบทวนวงจรชีวิตของวิทยาศาสตร์ข้อมูล และดูวิธีการขยายและทำงานอัตโนมัติด้วยบริการคลาวด์ คุณอาจสงสัยว่า: "แล้วเราจะนำสิ่งที่เรียนรู้ทั้งหมดนี้ไปใช้ในบริบทของโลกจริงได้อย่างไร?"
ในบทเรียนนี้ เราจะสำรวจการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในอุตสาหกรรมต่าง ๆ และเจาะลึกตัวอย่างเฉพาะในด้านการวิจัย มนุษยศาสตร์ดิจิทัล และความยั่งยืน นอกจากนี้ยังมีโอกาสสำหรับโครงการนักศึกษา และปิดท้ายด้วยแหล่งข้อมูลที่เป็นประโยชน์เพื่อช่วยให้คุณเดินหน้าต่อไปในเส้นทางการเรียนรู้ของคุณ!
แบบทดสอบก่อนเรียน
แบบทดสอบก่อนเรียน
วิทยาศาสตร์ข้อมูล + อุตสาหกรรม
ด้วยการทำให้ AI เข้าถึงได้ง่ายขึ้น นักพัฒนาจึงสามารถออกแบบและผสานการตัดสินใจที่ขับเคลื่อนด้วย AI และข้อมูลเชิงลึกเข้าสู่ประสบการณ์ผู้ใช้และกระบวนการพัฒนาได้ง่ายขึ้น ตัวอย่างบางส่วนของการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในโลกแห่งความจริงในอุตสาหกรรมมีดังนี้:
-
Google Flu Trends ใช้วิทยาศาสตร์ข้อมูลเพื่อเชื่อมโยงคำค้นหากับแนวโน้มไข้หวัดใหญ่ แม้ว่าจะมีข้อบกพร่อง แต่ก็ช่วยสร้างความตระหนักถึงความเป็นไปได้ (และความท้าทาย) ของการคาดการณ์ด้านสุขภาพที่ขับเคลื่อนด้วยข้อมูล
-
UPS Routing Predictions - อธิบายว่า UPS ใช้วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องเพื่อคาดการณ์เส้นทางที่เหมาะสมที่สุดสำหรับการจัดส่ง โดยคำนึงถึงสภาพอากาศ การจราจร กำหนดเวลาส่งมอบ และอื่น ๆ
-
NYC Taxicab Route Visualization - ข้อมูลที่รวบรวมโดยใช้ กฎหมายเสรีภาพในการเข้าถึงข้อมูล ช่วยให้เห็นภาพการทำงานของแท็กซี่ในนิวยอร์กซิตี้ในแต่ละวัน ช่วยให้เราเข้าใจวิธีการเดินทาง รายได้ และระยะเวลาของการเดินทางในแต่ละ 24 ชั่วโมง
-
Uber Data Science Workbench - ใช้ข้อมูลจากการเดินทางของ Uber หลายล้านครั้งต่อวัน (เช่น จุดรับ-ส่ง ระยะเวลาเส้นทางที่นิยม) เพื่อสร้างเครื่องมือวิเคราะห์ข้อมูลที่ช่วยในเรื่องการกำหนดราคา ความปลอดภัย การตรวจจับการฉ้อโกง และการตัดสินใจด้านการนำทาง
-
Sports Analytics - มุ่งเน้นไปที่ การวิเคราะห์เชิงพยากรณ์ (การวิเคราะห์ทีมและผู้เล่น เช่น Moneyball และการจัดการแฟนคลับ) และ การแสดงผลข้อมูล (แดชบอร์ดทีมและแฟน เกม ฯลฯ) โดยมีการประยุกต์ใช้ เช่น การสรรหาผู้เล่น การพนันกีฬา และการจัดการสถานที่/สินค้าคงคลัง
-
วิทยาศาสตร์ข้อมูลในธนาคาร - เน้นคุณค่าของวิทยาศาสตร์ข้อมูลในอุตสาหกรรมการเงิน เช่น การสร้างแบบจำลองความเสี่ยง การตรวจจับการฉ้อโกง การแบ่งกลุ่มลูกค้า การพยากรณ์แบบเรียลไทม์ และระบบแนะนำ การวิเคราะห์เชิงพยากรณ์ยังช่วยขับเคลื่อนมาตรการสำคัญ เช่น คะแนนเครดิต
-
วิทยาศาสตร์ข้อมูลในด้านสุขภาพ - เน้นการประยุกต์ใช้ เช่น การถ่ายภาพทางการแพทย์ (MRI, X-Ray, CT-Scan) จีโนมิกส์ (การถอดรหัส DNA) การพัฒนายา (การประเมินความเสี่ยง การคาดการณ์ความสำเร็จ) การวิเคราะห์เชิงพยากรณ์ (การดูแลผู้ป่วยและโลจิสติกส์) การติดตามและป้องกันโรค ฯลฯ
เครดิตภาพ: Data Flair: 6 Amazing Data Science Applications
ภาพนี้แสดงโดเมนและตัวอย่างอื่น ๆ ของการประยุกต์ใช้เทคนิควิทยาศาสตร์ข้อมูล ต้องการสำรวจการประยุกต์ใช้อื่น ๆ หรือไม่? ดูที่ส่วน Review & Self Study ด้านล่าง
วิทยาศาสตร์ข้อมูล + การวิจัย
![]() |
---|
วิทยาศาสตร์ข้อมูล & การวิจัย - Sketchnote โดย @nitya |
ในขณะที่การประยุกต์ใช้ในโลกแห่งความจริงมักมุ่งเน้นไปที่กรณีการใช้งานในอุตสาหกรรมในระดับใหญ่ การประยุกต์ใช้และโครงการวิจัยสามารถมีประโยชน์ในสองมุมมอง:
- โอกาสในการสร้างนวัตกรรม - สำรวจการสร้างต้นแบบแนวคิดขั้นสูงอย่างรวดเร็วและการทดสอบประสบการณ์ผู้ใช้สำหรับแอปพลิเคชันยุคหน้า
- ความท้าทายในการปรับใช้ - ตรวจสอบอันตรายที่อาจเกิดขึ้นหรือผลกระทบที่ไม่ได้ตั้งใจของเทคโนโลยีวิทยาศาสตร์ข้อมูลในบริบทของโลกจริง
สำหรับนักศึกษา โครงการวิจัยเหล่านี้สามารถให้โอกาสในการเรียนรู้และการทำงานร่วมกันที่ช่วยเพิ่มความเข้าใจในหัวข้อ และขยายการรับรู้และการมีส่วนร่วมกับบุคคลหรือทีมที่เกี่ยวข้องในพื้นที่ที่สนใจ
ตัวอย่างหนึ่งคือ MIT Gender Shades Study โดย Joy Buolamwini (MIT Media Labs) พร้อมกับ งานวิจัยสำคัญ ที่ร่วมเขียนโดย Timnit Gebru (ขณะนั้นอยู่ที่ Microsoft Research) ซึ่งมุ่งเน้นไปที่:
- อะไร: วัตถุประสงค์ของโครงการวิจัยคือ ประเมินอคติที่มีอยู่ในอัลกอริทึมและชุดข้อมูลการวิเคราะห์ใบหน้าอัตโนมัติ โดยพิจารณาจากเพศและสีผิว
- ทำไม: การวิเคราะห์ใบหน้าใช้ในบริบทต่าง ๆ เช่น การบังคับใช้กฎหมาย ความปลอดภัยในสนามบิน ระบบการจ้างงาน ฯลฯ ซึ่งการจำแนกที่ไม่ถูกต้อง (เช่น เนื่องจากอคติ) อาจก่อให้เกิดอันตรายทางเศรษฐกิจและสังคมต่อบุคคลหรือกลุ่มที่ได้รับผลกระทบ การทำความเข้าใจ (และกำจัดหรือบรรเทา) อคติเป็นกุญแจสำคัญในการใช้งานอย่างเป็นธรรม
- อย่างไร: นักวิจัยตระหนักว่ามาตรฐานที่มีอยู่ใช้ตัวอย่างที่มีผิวสีอ่อนเป็นส่วนใหญ่ และได้สร้างชุดข้อมูลใหม่ (ภาพกว่า 1,000 ภาพ) ที่ สมดุลมากขึ้น ตามเพศและสีผิว ชุดข้อมูลนี้ถูกใช้เพื่อประเมินความแม่นยำของผลิตภัณฑ์การจำแนกเพศสามรายการ (จาก Microsoft, IBM และ Face++)
ผลการวิจัยแสดงให้เห็นว่าแม้ความแม่นยำโดยรวมจะดี แต่มีความแตกต่างที่สังเกตได้ในอัตราความผิดพลาดระหว่างกลุ่มย่อยต่าง ๆ โดยมี การระบุเพศผิดพลาด สูงกว่าในผู้หญิงหรือบุคคลที่มีผิวสีเข้ม ซึ่งบ่งชี้ถึงอคติ
ผลลัพธ์สำคัญ: สร้างความตระหนักว่าวิทยาศาสตร์ข้อมูลต้องการ ชุดข้อมูลที่เป็นตัวแทนมากขึ้น (กลุ่มย่อยที่สมดุล) และ ทีมงานที่ครอบคลุมมากขึ้น (ภูมิหลังที่หลากหลาย) เพื่อรับรู้และกำจัดหรือบรรเทาอคติเหล่านี้ในโซลูชัน AI ตั้งแต่เนิ่น ๆ
ต้องการเรียนรู้เกี่ยวกับความพยายามวิจัยที่เกี่ยวข้องใน Microsoft หรือไม่?
- ดู โครงการวิจัยของ Microsoft ในด้านปัญญาประดิษฐ์
- สำรวจโครงการนักศึกษาจาก Microsoft Research Data Science Summer School
- ดูโครงการ Fairlearn และ Responsible AI
วิทยาศาสตร์ข้อมูล + มนุษยศาสตร์
![]() |
---|
วิทยาศาสตร์ข้อมูล & มนุษยศาสตร์ดิจิทัล - Sketchnote โดย @nitya |
มนุษยศาสตร์ดิจิทัล ถูกนิยาม ว่าเป็น "การรวบรวมแนวปฏิบัติและวิธีการที่ผสมผสานวิธีการคำนวณเข้ากับการสืบค้นเชิงมนุษยศาสตร์" โครงการของ Stanford เช่น "rebooting history" และ "poetic thinking" แสดงให้เห็นถึงความเชื่อมโยงระหว่าง มนุษยศาสตร์ดิจิทัลและวิทยาศาสตร์ข้อมูล โดยเน้นเทคนิค เช่น การวิเคราะห์เครือข่าย การแสดงผลข้อมูล การวิเคราะห์เชิงพื้นที่และข้อความ ที่ช่วยให้เราทบทวนชุดข้อมูลทางประวัติศาสตร์และวรรณกรรมเพื่อค้นพบมุมมองใหม่ ๆ
ต้องการสำรวจและขยายโครงการในพื้นที่นี้หรือไม่?
ดูตัวอย่าง "Emily Dickinson and the Meter of Mood" จาก Jen Looper ที่ถามว่าเราสามารถใช้วิทยาศาสตร์ข้อมูลเพื่อทบทวนบทกวีที่คุ้นเคยและประเมินความหมายใหม่ได้อย่างไร ตัวอย่างเช่น เราสามารถคาดการณ์ฤดูกาลที่บทกวีถูกเขียนขึ้นโดยการวิเคราะห์โทนหรืออารมณ์ได้หรือไม่ และสิ่งนี้บอกอะไรเราเกี่ยวกับสภาพจิตใจของผู้เขียนในช่วงเวลานั้น?
เพื่อหาคำตอบ เราจะปฏิบัติตามขั้นตอนของวงจรชีวิตวิทยาศาสตร์ข้อมูล:
การเก็บรวบรวมข้อมูล
- เพื่อรวบรวมชุดข้อมูลที่เกี่ยวข้องสำหรับการวิเคราะห์ ตัวเลือกได้แก่การใช้ API (เช่น Poetry DB API) หรือการดึงข้อมูลจากเว็บ (เช่น Project Gutenberg) โดยใช้เครื่องมืออย่าง Scrapyการทำความสะอาดข้อมูล
- อธิบายวิธีการจัดรูปแบบ ขจัดสิ่งรบกวน และทำให้ข้อความง่ายขึ้นโดยใช้เครื่องมือพื้นฐาน เช่น Visual Studio Code และ Microsoft Excelการวิเคราะห์ข้อมูล
- อธิบายวิธีการนำเข้าชุดข้อมูลเข้าสู่ "Notebooks" เพื่อการวิเคราะห์โดยใช้แพ็กเกจ Python (เช่น pandas, numpy และ matplotlib) เพื่อจัดระเบียบและแสดงผลข้อมูลการวิเคราะห์อารมณ์
- อธิบายวิธีการผสานบริการคลาวด์ เช่น Text Analytics โดยใช้เครื่องมือแบบ low-code เช่น Power Automate สำหรับกระบวนการประมวลผลข้อมูลอัตโนมัติ
ด้วยกระบวนการนี้ เราสามารถสำรวจผลกระทบของฤดูกาลต่ออารมณ์ของบทกวี และช่วยให้เราสร้างมุมมองของเราเองเกี่ยวกับผู้เขียน ลองทำด้วยตัวคุณเอง - จากนั้นขยายโน้ตบุ๊กเพื่อถามคำถามอื่น ๆ หรือแสดงผลข้อมูลในรูปแบบใหม่!
คุณสามารถใช้เครื่องมือบางส่วนใน Digital Humanities toolkit เพื่อดำเนินการสำรวจในแนวทางนี้
วิทยาศาสตร์ข้อมูล + ความยั่งยืน
![]() |
---|
วิทยาศาสตร์ข้อมูล & ความยั่งยืน - Sketchnote โดย @nitya |
วาระ 2030 เพื่อการพัฒนาที่ยั่งยืน - ซึ่งได้รับการยอมรับจากสมาชิกสหประชาชาติทั้งหมดในปี 2015 - ระบุเป้าหมาย 17 ข้อ รวมถึงเป้าหมายที่มุ่งเน้นไปที่ การปกป้องโลก จากการเสื่อมโทรมและผลกระทบของการเปลี่ยนแปลงสภาพภูมิอากาศ โครงการ Microsoft Sustainability สนับสนุนเป้าหมายเหล่านี้โดยสำรวจวิธีที่โซลูชันเทคโนโลยีสามารถสนับสนุนและสร้างอนาคตที่ยั่งยืนมากขึ้น โดยมุ่งเน้นที่ 4 เป้าหมาย ได้แก่ การลดคาร์บอน การเพิ่มน้ำ การลดของเสียให้เป็นศูนย์ และการเพิ่มความหลากหลายทางชีวภาพภายในปี 2030
การจัดการกับความท้าทายเหล่านี้ในลักษณะที่ขยายขนาดได้และทันเวลาต้องการการคิดในระดับคลาวด์และข้อมูลขนาดใหญ่ โครงการ Planetary Computer มี 4 องค์ประกอบเพื่อช่วยนักวิทยาศาสตร์ข้อมูลและนักพัฒนาในความพยายามนี้:
-
Data Catalog - มีข้อมูลระบบโลกในระดับเพตะไบต์ (ฟรีและโฮสต์บน Azure)
-
Planetary API - ช่วยให้ผู้ใช้ค้นหาข้อมูลที่เกี่ยวข้องในเชิงพื้นที่และเวลา
-
Hub - สภาพแวดล้อมที่มีการจัดการสำหรับนักวิทยาศาสตร์ในการประมวลผลชุดข้อมูลเชิงพื้นที่ขนาดใหญ่
-
Applications - แสดงกรณีการใช้ง โครงการ Planetary Computer กำลังอยู่ในช่วงพรีวิว (ณ เดือนกันยายน 2021) - นี่คือวิธีที่คุณสามารถเริ่มต้นมีส่วนร่วมในการแก้ปัญหาด้านความยั่งยืนด้วยวิทยาศาสตร์ข้อมูล
-
ขอสิทธิ์การเข้าถึง เพื่อเริ่มต้นการสำรวจและเชื่อมต่อกับเพื่อนร่วมงาน
-
สำรวจเอกสาร เพื่อทำความเข้าใจชุดข้อมูลและ API ที่รองรับ
-
สำรวจแอปพลิเคชัน เช่น Ecosystem Monitoring เพื่อหาแรงบันดาลใจสำหรับไอเดียแอปพลิเคชัน
ลองคิดดูว่าคุณสามารถใช้การแสดงผลข้อมูลเพื่อเปิดเผยหรือขยายข้อมูลเชิงลึกที่เกี่ยวข้องในด้านต่างๆ เช่น การเปลี่ยนแปลงสภาพภูมิอากาศและการตัดไม้ทำลายป่าได้อย่างไร หรือคิดดูว่าข้อมูลเชิงลึกเหล่านี้สามารถนำไปใช้สร้างประสบการณ์ผู้ใช้ใหม่ๆ ที่กระตุ้นให้เกิดการเปลี่ยนแปลงพฤติกรรมเพื่อการใช้ชีวิตที่ยั่งยืนมากขึ้นได้อย่างไร
วิทยาศาสตร์ข้อมูล + นักศึกษา
เราได้พูดถึงการใช้งานในโลกจริงในอุตสาหกรรมและการวิจัย และได้สำรวจตัวอย่างการใช้งานวิทยาศาสตร์ข้อมูลในด้านมนุษยศาสตร์ดิจิทัลและความยั่งยืน แล้วคุณจะสามารถพัฒนาทักษะและแบ่งปันความเชี่ยวชาญของคุณในฐานะผู้เริ่มต้นด้านวิทยาศาสตร์ข้อมูลได้อย่างไร?
นี่คือตัวอย่างโครงการวิทยาศาสตร์ข้อมูลสำหรับนักศึกษาเพื่อสร้างแรงบันดาลใจให้คุณ
- MSR Data Science Summer School พร้อม GitHub projects ที่สำรวจหัวข้อต่างๆ เช่น:
- การแปลงวัฒนธรรมวัสดุเป็นดิจิทัล: การสำรวจการกระจายทางเศรษฐกิจและสังคมใน Sirkap - จาก Ornella Altunyan และทีมที่ Claremont โดยใช้ ArcGIS StoryMaps
🚀 ความท้าทาย
ค้นหาบทความที่แนะนำโครงการวิทยาศาสตร์ข้อมูลที่เหมาะสำหรับผู้เริ่มต้น เช่น 50 หัวข้อ หรือ 21 ไอเดียโครงการ หรือ 16 โครงการพร้อมโค้ดต้นฉบับ ที่คุณสามารถวิเคราะห์และปรับเปลี่ยนได้ และอย่าลืมเขียนบล็อกเกี่ยวกับการเรียนรู้ของคุณและแบ่งปันข้อมูลเชิงลึกกับพวกเราทุกคน
แบบทดสอบหลังการบรรยาย
แบบทดสอบหลังการบรรยาย
การทบทวนและการศึกษาด้วยตนเอง
ต้องการสำรวจกรณีการใช้งานเพิ่มเติมหรือไม่? นี่คือบทความที่เกี่ยวข้องบางส่วน:
- 17 การใช้งานและตัวอย่างวิทยาศาสตร์ข้อมูล - กรกฎาคม 2021
- 11 การใช้งานวิทยาศาสตร์ข้อมูลที่น่าทึ่งในโลกจริง - พฤษภาคม 2021
- วิทยาศาสตร์ข้อมูลในโลกจริง - คอลเลกชันบทความ
- 12 การใช้งานวิทยาศาสตร์ข้อมูลในโลกจริงพร้อมตัวอย่าง - พฤษภาคม 2024
- วิทยาศาสตร์ข้อมูลใน: การศึกษา, การเกษตร, การเงิน, ภาพยนตร์, การดูแลสุขภาพ และอื่นๆ
งานที่ได้รับมอบหมาย
สำรวจชุดข้อมูล Planetary Computer
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้