|
4 weeks ago | |
---|---|---|
.. | ||
README.md | 4 weeks ago | |
assignment.md | 4 weeks ago |
README.md
วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง
![]() |
---|
วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง - Sketchnote โดย @nitya |
เราใกล้จะถึงจุดสิ้นสุดของการเดินทางแห่งการเรียนรู้นี้แล้ว!
เราเริ่มต้นด้วยการนิยามวิทยาศาสตร์ข้อมูลและจริยธรรม สำรวจเครื่องมือและเทคนิคต่าง ๆ สำหรับการวิเคราะห์และการแสดงผลข้อมูล ทบทวนวงจรชีวิตของวิทยาศาสตร์ข้อมูล และดูวิธีการขยายและทำงานอัตโนมัติของเวิร์กโฟลว์วิทยาศาสตร์ข้อมูลด้วยบริการคลาวด์ คุณอาจสงสัยว่า "แล้วเราจะนำสิ่งที่เรียนรู้ทั้งหมดนี้ไปใช้ในบริบทของโลกแห่งความจริงได้อย่างไร?"
ในบทเรียนนี้ เราจะสำรวจการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในอุตสาหกรรมต่าง ๆ และเจาะลึกตัวอย่างเฉพาะในบริบทของการวิจัย มนุษยศาสตร์ดิจิทัล และความยั่งยืน เราจะดูโอกาสในโครงการนักศึกษาและสรุปด้วยแหล่งข้อมูลที่เป็นประโยชน์เพื่อช่วยให้คุณเดินหน้าต่อไปในเส้นทางการเรียนรู้ของคุณ!
แบบทดสอบก่อนการบรรยาย
วิทยาศาสตร์ข้อมูล + อุตสาหกรรม
ด้วยการทำให้ AI เข้าถึงได้ง่ายขึ้น นักพัฒนาจึงสามารถออกแบบและผสานการตัดสินใจที่ขับเคลื่อนด้วย AI และข้อมูลเชิงลึกที่ขับเคลื่อนด้วยข้อมูลเข้าสู่ประสบการณ์ผู้ใช้และเวิร์กโฟลว์การพัฒนาได้ง่ายขึ้น ต่อไปนี้คือตัวอย่างบางส่วนของการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในโลกแห่งความจริงในอุตสาหกรรมต่าง ๆ:
-
Google Flu Trends ใช้วิทยาศาสตร์ข้อมูลเพื่อเชื่อมโยงคำค้นหากับแนวโน้มของไข้หวัด แม้ว่าวิธีการนี้จะมีข้อบกพร่อง แต่ก็ช่วยเพิ่มความตระหนักถึงความเป็นไปได้ (และความท้าทาย) ของการคาดการณ์ด้านสุขภาพที่ขับเคลื่อนด้วยข้อมูล
-
UPS Routing Predictions - อธิบายว่า UPS ใช้วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องเพื่อคาดการณ์เส้นทางที่เหมาะสมที่สุดสำหรับการจัดส่ง โดยคำนึงถึงสภาพอากาศ รูปแบบการจราจร กำหนดเวลาการจัดส่ง และอื่น ๆ
-
NYC Taxicab Route Visualization - ข้อมูลที่รวบรวมโดยใช้ กฎหมายเสรีภาพในการเข้าถึงข้อมูล ช่วยให้เห็นภาพหนึ่งวันในชีวิตของแท็กซี่ในนิวยอร์กซิตี้ ช่วยให้เราเข้าใจว่าพวกเขานำทางในเมืองที่วุ่นวายอย่างไร รายได้ที่พวกเขาได้รับ และระยะเวลาของการเดินทางในแต่ละช่วง 24 ชั่วโมง
-
Uber Data Science Workbench - ใช้ข้อมูล (เกี่ยวกับสถานที่รับและส่ง ระยะเวลาการเดินทาง เส้นทางที่นิยม ฯลฯ) ที่รวบรวมจากการเดินทางของ Uber หลายล้านครั้ง ต่อวัน เพื่อสร้างเครื่องมือวิเคราะห์ข้อมูลที่ช่วยในเรื่องการกำหนดราคา ความปลอดภัย การตรวจจับการฉ้อโกง และการตัดสินใจด้านการนำทาง
-
Sports Analytics - มุ่งเน้นไปที่ การวิเคราะห์เชิงพยากรณ์ (การวิเคราะห์ทีมและผู้เล่น - เช่น Moneyball - และการจัดการแฟนคลับ) และ การแสดงผลข้อมูล (แดชบอร์ดทีมและแฟน เกม ฯลฯ) ด้วยการประยุกต์ใช้ เช่น การสรรหาผู้มีความสามารถ การพนันกีฬา และการจัดการสินค้าคงคลัง/สถานที่จัดงาน
-
วิทยาศาสตร์ข้อมูลในธนาคาร - เน้นคุณค่าของวิทยาศาสตร์ข้อมูลในอุตสาหกรรมการเงินด้วยการประยุกต์ใช้ตั้งแต่การสร้างแบบจำลองความเสี่ยงและการตรวจจับการฉ้อโกง ไปจนถึงการแบ่งกลุ่มลูกค้า การคาดการณ์แบบเรียลไทม์ และระบบแนะนำ การวิเคราะห์เชิงพยากรณ์ยังขับเคลื่อนมาตรการสำคัญ เช่น คะแนนเครดิต
-
วิทยาศาสตร์ข้อมูลในด้านสุขภาพ - เน้นการประยุกต์ใช้ เช่น การถ่ายภาพทางการแพทย์ (เช่น MRI, X-Ray, CT-Scan) จีโนมิกส์ (การจัดลำดับ DNA) การพัฒนายา (การประเมินความเสี่ยง การคาดการณ์ความสำเร็จ) การวิเคราะห์เชิงพยากรณ์ (การดูแลผู้ป่วยและโลจิสติกส์การจัดหา) การติดตามและป้องกันโรค ฯลฯ
เครดิตภาพ: Data Flair: 6 Amazing Data Science Applications
ภาพนี้แสดงโดเมนและตัวอย่างอื่น ๆ สำหรับการประยุกต์ใช้เทคนิควิทยาศาสตร์ข้อมูล ต้องการสำรวจการประยุกต์ใช้อื่น ๆ หรือไม่? ดูที่ส่วน Review & Self Study ด้านล่าง
วิทยาศาสตร์ข้อมูล + การวิจัย
![]() |
---|
วิทยาศาสตร์ข้อมูล & การวิจัย - Sketchnote โดย @nitya |
ในขณะที่การประยุกต์ใช้ในโลกแห่งความจริงมักมุ่งเน้นไปที่กรณีการใช้งานในอุตสาหกรรมในระดับใหญ่ การประยุกต์ใช้และโครงการ การวิจัย สามารถเป็นประโยชน์จากสองมุมมอง:
- โอกาสในการสร้างนวัตกรรม - สำรวจการสร้างต้นแบบอย่างรวดเร็วของแนวคิดขั้นสูงและการทดสอบประสบการณ์ผู้ใช้สำหรับแอปพลิเคชันรุ่นถัดไป
- ความท้าทายในการปรับใช้ - ตรวจสอบอันตรายที่อาจเกิดขึ้นหรือผลกระทบที่ไม่ได้ตั้งใจของเทคโนโลยีวิทยาศาสตร์ข้อมูลในบริบทของโลกแห่งความจริง
สำหรับนักศึกษา โครงการวิจัยเหล่านี้สามารถให้โอกาสในการเรียนรู้และการทำงานร่วมกันที่ช่วยปรับปรุงความเข้าใจในหัวข้อ และขยายความตระหนักและการมีส่วนร่วมกับบุคคลหรือทีมที่เกี่ยวข้องในพื้นที่ที่สนใจ
ตัวอย่างหนึ่งคือ MIT Gender Shades Study โดย Joy Buolamwini (MIT Media Labs) พร้อม งานวิจัยสำคัญ ที่ร่วมเขียนโดย Timnit Gebru (ขณะนั้นอยู่ที่ Microsoft Research) ซึ่งมุ่งเน้นไปที่:
- อะไร: วัตถุประสงค์ของโครงการวิจัยคือ ประเมินอคติที่มีอยู่ในอัลกอริทึมและชุดข้อมูลการวิเคราะห์ใบหน้าอัตโนมัติ ตามเพศและประเภทผิว
- ทำไม: การวิเคราะห์ใบหน้าใช้ในบริบทต่าง ๆ เช่น การบังคับใช้กฎหมาย ความปลอดภัยในสนามบิน ระบบการจ้างงาน และอื่น ๆ ซึ่งการจัดประเภทที่ไม่ถูกต้อง (เช่น เนื่องจากอคติ) อาจก่อให้เกิดอันตรายทางเศรษฐกิจและสังคมต่อบุคคลหรือกลุ่มที่ได้รับผลกระทบ การทำความเข้าใจ (และกำจัดหรือบรรเทา) อคติเป็นกุญแจสำคัญในความเป็นธรรมในการใช้งาน
- อย่างไร: นักวิจัยตระหนักว่ามาตรฐานที่มีอยู่ใช้ตัวอย่างที่มีผิวสีอ่อนเป็นส่วนใหญ่ และได้รวบรวมชุดข้อมูลใหม่ (ภาพกว่า 1,000 ภาพ) ที่ สมดุลมากขึ้น ตามเพศและประเภทผิว ชุดข้อมูลนี้ถูกใช้เพื่อประเมินความแม่นยำของผลิตภัณฑ์การจัดประเภทเพศสามรายการ (จาก Microsoft, IBM และ Face++)
ผลลัพธ์แสดงให้เห็นว่าแม้ความแม่นยำโดยรวมจะดี แต่มีความแตกต่างที่สังเกตได้ในอัตราความผิดพลาดระหว่างกลุ่มย่อยต่าง ๆ โดย การระบุเพศผิดพลาด สูงกว่าในผู้หญิงหรือบุคคลที่มีผิวสีเข้ม ซึ่งบ่งชี้ถึงอคติ
ผลลัพธ์สำคัญ: เพิ่มความตระหนักว่าวิทยาศาสตร์ข้อมูลต้องการ ชุดข้อมูลที่เป็นตัวแทนมากขึ้น (กลุ่มย่อยที่สมดุล) และ ทีมที่ครอบคลุมมากขึ้น (ภูมิหลังที่หลากหลาย) เพื่อรับรู้และกำจัดหรือบรรเทาอคติเหล่านี้ในโซลูชัน AI ตั้งแต่เนิ่น ๆ
ต้องการเรียนรู้เกี่ยวกับความพยายามวิจัยที่เกี่ยวข้องใน Microsoft หรือไม่?
- ดู โครงการวิจัยของ Microsoft ในด้านปัญญาประดิษฐ์
- สำรวจโครงการนักศึกษาจาก Microsoft Research Data Science Summer School
- ดูโครงการ Fairlearn และ Responsible AI
วิทยาศาสตร์ข้อมูล + มนุษยศาสตร์
![]() |
---|
วิทยาศาสตร์ข้อมูล & มนุษยศาสตร์ดิจิทัล - Sketchnote โดย @nitya |
มนุษยศาสตร์ดิจิทัล ถูกนิยาม ว่าเป็น "การรวบรวมแนวปฏิบัติและวิธีการที่ผสมผสานวิธีการคำนวณกับการสืบสวนทางมนุษยศาสตร์" โครงการ Stanford เช่น "rebooting history" และ "poetic thinking" แสดงให้เห็นถึงความเชื่อมโยงระหว่าง มนุษยศาสตร์ดิจิทัลและวิทยาศาสตร์ข้อมูล - โดยเน้นเทคนิค เช่น การวิเคราะห์เครือข่าย การแสดงข้อมูลเชิงพื้นที่และข้อความ ที่ช่วยให้เราทบทวนชุดข้อมูลทางประวัติศาสตร์และวรรณกรรมเพื่อค้นพบมุมมองใหม่ ๆ
ต้องการสำรวจและขยายโครงการในพื้นที่นี้หรือไม่?
ดู "Emily Dickinson and the Meter of Mood" - ตัวอย่างที่ยอดเยี่ยมจาก Jen Looper ที่ตั้งคำถามว่าเราสามารถใช้วิทยาศาสตร์ข้อมูลเพื่อทบทวนบทกวีที่คุ้นเคยและประเมินความหมายและผลงานของผู้เขียนในบริบทใหม่ได้อย่างไร ตัวอย่างเช่น เราสามารถคาดการณ์ฤดูกาลที่บทกวีถูกเขียนขึ้นโดยการวิเคราะห์โทนหรืออารมณ์ของมันได้หรือไม่ - และสิ่งนี้บอกอะไรเราเกี่ยวกับสภาพจิตใจของผู้เขียนในช่วงเวลานั้น?
เพื่อหาคำตอบ เราจะปฏิบัติตามขั้นตอนของวงจรชีวิตวิทยาศาสตร์ข้อมูล:
การเก็บรวบรวมข้อมูล
- เพื่อรวบรวมชุดข้อมูลที่เกี่ยวข้องสำหรับการวิเคราะห์ ตัวเลือกได้แก่การใช้ API (เช่น Poetry DB API) หรือการดึงข้อมูลจากหน้าเว็บ (เช่น Project Gutenberg) โดยใช้เครื่องมืออย่าง Scrapyการทำความสะอาดข้อมูล
- อธิบายวิธีการจัดรูปแบบ ขจัดสิ่งรบกวน และทำให้ข้อความง่ายขึ้นโดยใช้เครื่องมือพื้นฐาน เช่น Visual Studio Code และ Microsoft Excelการวิเคราะห์ข้อมูล
- อธิบายวิธีการนำเข้าชุดข้อมูลเข้าสู่ "Notebooks" เพื่อการวิเคราะห์โดยใช้แพ็กเกจ Python (เช่น pandas, numpy และ matplotlib) เพื่อจัดระเบียบและแสดงข้อมูลการวิเคราะห์อารมณ์
- อธิบายวิธีการผสานบริการคลาวด์ เช่น Text Analytics โดยใช้เครื่องมือแบบ low-code เช่น Power Automate สำหรับเวิร์กโฟลว์การประมวลผลข้อมูลอัตโนมัติ
ด้วยเวิร์กโฟลว์นี้ เราสามารถสำรวจผลกระทบของฤดูกาลต่ออารมณ์ของบทกวี และช่วยให้เราสร้างมุมมองของเราเองเกี่ยวกับผู้เขียน ลองทำด้วยตัวคุณเอง - จากนั้นขยายโน้ตบุ๊กเพื่อถามคำถามอื่น ๆ หรือแสดงข้อมูลในรูปแบบใหม่!
คุณสามารถใช้เครื่องมือบางอย่างใน Digital Humanities toolkit เพื่อดำเนินการสำรวจเหล่านี้
วิทยาศาสตร์ข้อมูล + ความยั่งยืน
![]() |
---|
วิทยาศาสตร์ข้อมูล & ความยั่งยืน - Sketchnote โดย @nitya |
วาระ 2030 เพื่อการพัฒนาที่ยั่งยืน - ซึ่งได้รับการรับรองโดยสมาชิกสหประชาชาติทั้งหมดในปี 2015 - ระบุเป้าหมาย 17 ข้อ รวมถึงเป้าหมายที่มุ่งเน้นไปที่ การปกป้องโลก จากการเสื่อมโทรมและผลกระทบของการเปลี่ยนแปลงสภาพภูมิอากาศ โครงการ Microsoft Sustainability สนับสนุนเป้าหมายเหล่านี้โดยสำรวจวิธีที่โซลูชันเทคโนโลยีสามารถสนับสนุนและสร้างอนาคตที่ยั่งยืนมากขึ้น โดยมุ่งเน้นไปที่ 4 เป้าหมาย - การลดคาร์บอน การเพิ่มน้ำ การลดของเสียให้เป็นศูนย์ และความหลากหลายทางชีวภาพภายในปี 2030
การจัดการกับความท้าทายเหล่านี้ในลักษณะที่ปรับขยายได้และทันเวลาต้องการการคิดในระดับคลาวด์และข้อมูลขนาดใหญ่ โครงการ Planetary Computer มี 4 องค์ประกอบเพื่อช่วยนักวิทยาศาสตร์ข้อมูลและนักพัฒนาในความพยายามนี้:
-
Data Catalog - มีข้อมูลระบบโลกในระดับเพตะไบต์ โครงการ Planetary Computer อยู่ในช่วงพรีวิว (ณ เดือนกันยายน 2021) - นี่คือวิธีที่คุณสามารถเริ่มต้นมีส่วนร่วมในการแก้ปัญหาด้านความยั่งยืนด้วยวิทยาศาสตร์ข้อมูล
-
ขอสิทธิ์การเข้าถึง เพื่อเริ่มต้นการสำรวจและเชื่อมต่อกับเพื่อนร่วมงาน
-
สำรวจเอกสารประกอบ เพื่อทำความเข้าใจชุดข้อมูลและ API ที่รองรับ
-
สำรวจแอปพลิเคชัน เช่น Ecosystem Monitoring เพื่อหาแรงบันดาลใจสำหรับไอเดียแอปพลิเคชัน
ลองคิดดูว่าคุณสามารถใช้การแสดงผลข้อมูลเพื่อเปิดเผยหรือขยายข้อมูลเชิงลึกที่เกี่ยวข้องในด้านต่างๆ เช่น การเปลี่ยนแปลงสภาพภูมิอากาศและการตัดไม้ทำลายป่าได้อย่างไร หรือคิดดูว่าข้อมูลเชิงลึกเหล่านี้สามารถนำไปใช้สร้างประสบการณ์ผู้ใช้ใหม่ๆ ที่กระตุ้นการเปลี่ยนแปลงพฤติกรรมเพื่อการใช้ชีวิตที่ยั่งยืนมากขึ้นได้อย่างไร
วิทยาศาสตร์ข้อมูล + นักศึกษา
เราได้พูดถึงการใช้งานในโลกจริงในอุตสาหกรรมและการวิจัย และได้สำรวจตัวอย่างการใช้งานวิทยาศาสตร์ข้อมูลในมนุษยศาสตร์ดิจิทัลและความยั่งยืน แล้วคุณจะสามารถพัฒนาทักษะและแบ่งปันความเชี่ยวชาญของคุณในฐานะผู้เริ่มต้นด้านวิทยาศาสตร์ข้อมูลได้อย่างไร?
นี่คือตัวอย่างโครงการวิทยาศาสตร์ข้อมูลสำหรับนักศึกษาเพื่อสร้างแรงบันดาลใจให้คุณ
- MSR Data Science Summer School พร้อม GitHub projects ที่สำรวจหัวข้อต่างๆ เช่น:
- การแปลงวัฒนธรรมวัสดุเป็นดิจิทัล: การสำรวจการกระจายทางเศรษฐกิจและสังคมใน Sirkap - จาก Ornella Altunyan และทีมงานที่ Claremont โดยใช้ ArcGIS StoryMaps
🚀 ความท้าทาย
ค้นหาบทความที่แนะนำโครงการวิทยาศาสตร์ข้อมูลที่เหมาะสำหรับผู้เริ่มต้น เช่น 50 หัวข้อ หรือ 21 ไอเดียโครงการ หรือ 16 โครงการพร้อมโค้ดต้นฉบับ ที่คุณสามารถแยกส่วนและปรับแต่งได้ และอย่าลืมเขียนบล็อกเกี่ยวกับการเรียนรู้ของคุณและแบ่งปันข้อมูลเชิงลึกกับพวกเราทุกคน
แบบทดสอบหลังการบรรยาย
การทบทวนและการศึกษาด้วยตนเอง
ต้องการสำรวจกรณีการใช้งานเพิ่มเติมหรือไม่? นี่คือตัวอย่างบทความที่เกี่ยวข้อง:
- 17 การใช้งานและตัวอย่างวิทยาศาสตร์ข้อมูล - กรกฎาคม 2021
- 11 การใช้งานวิทยาศาสตร์ข้อมูลที่น่าทึ่งในโลกจริง - พฤษภาคม 2021
- วิทยาศาสตร์ข้อมูลในโลกจริง - คอลเลกชันบทความ
- วิทยาศาสตร์ข้อมูลใน: การศึกษา, การเกษตร, การเงิน, ภาพยนตร์ และอื่นๆ
งานที่ได้รับมอบหมาย
สำรวจชุดข้อมูล Planetary Computer
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้