You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

34 KiB

วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง

 Sketchnote โดย (@sketchthedocs)
วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง - Sketchnote โดย @nitya

เราใกล้จะถึงจุดสิ้นสุดของการเรียนรู้นี้แล้ว!

เราเริ่มต้นด้วยการนิยามวิทยาศาสตร์ข้อมูลและจริยธรรม สำรวจเครื่องมือและเทคนิคต่าง ๆ สำหรับการวิเคราะห์และการแสดงผลข้อมูล ทบทวนวงจรชีวิตของวิทยาศาสตร์ข้อมูล และดูวิธีการขยายและทำงานอัตโนมัติด้วยบริการคลาวด์ คุณอาจสงสัยว่า: "แล้วเราจะนำสิ่งที่เรียนรู้ทั้งหมดนี้ไปใช้ในบริบทของโลกจริงได้อย่างไร?"

ในบทเรียนนี้ เราจะสำรวจการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในอุตสาหกรรมต่าง ๆ และเจาะลึกตัวอย่างเฉพาะในด้านการวิจัย มนุษยศาสตร์ดิจิทัล และความยั่งยืน นอกจากนี้ยังมีโอกาสสำหรับโครงการนักศึกษา และปิดท้ายด้วยแหล่งข้อมูลที่เป็นประโยชน์เพื่อช่วยให้คุณเดินหน้าต่อไปในเส้นทางการเรียนรู้ของคุณ!

แบบทดสอบก่อนเรียน

แบบทดสอบก่อนเรียน

วิทยาศาสตร์ข้อมูล + อุตสาหกรรม

ด้วยการทำให้ AI เข้าถึงได้ง่ายขึ้น นักพัฒนาจึงสามารถออกแบบและผสานการตัดสินใจที่ขับเคลื่อนด้วย AI และข้อมูลเชิงลึกเข้าสู่ประสบการณ์ผู้ใช้และกระบวนการพัฒนาได้ง่ายขึ้น ตัวอย่างบางส่วนของการประยุกต์ใช้วิทยาศาสตร์ข้อมูลในโลกแห่งความจริงในอุตสาหกรรมมีดังนี้:

  • Google Flu Trends ใช้วิทยาศาสตร์ข้อมูลเพื่อเชื่อมโยงคำค้นหากับแนวโน้มไข้หวัดใหญ่ แม้ว่าจะมีข้อบกพร่อง แต่ก็ช่วยสร้างความตระหนักถึงความเป็นไปได้ (และความท้าทาย) ของการคาดการณ์ด้านสุขภาพที่ขับเคลื่อนด้วยข้อมูล

  • UPS Routing Predictions - อธิบายว่า UPS ใช้วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องเพื่อคาดการณ์เส้นทางที่เหมาะสมที่สุดสำหรับการจัดส่ง โดยคำนึงถึงสภาพอากาศ การจราจร กำหนดเวลาส่งมอบ และอื่น ๆ

  • NYC Taxicab Route Visualization - ข้อมูลที่รวบรวมโดยใช้ กฎหมายเสรีภาพในการเข้าถึงข้อมูล ช่วยให้เห็นภาพการทำงานของแท็กซี่ในนิวยอร์กซิตี้ในแต่ละวัน ช่วยให้เราเข้าใจวิธีการเดินทาง รายได้ และระยะเวลาของการเดินทางในแต่ละ 24 ชั่วโมง

  • Uber Data Science Workbench - ใช้ข้อมูลจากการเดินทางของ Uber หลายล้านครั้งต่อวัน (เช่น จุดรับ-ส่ง ระยะเวลาเส้นทางที่นิยม) เพื่อสร้างเครื่องมือวิเคราะห์ข้อมูลที่ช่วยในเรื่องการกำหนดราคา ความปลอดภัย การตรวจจับการฉ้อโกง และการตัดสินใจด้านการนำทาง

  • Sports Analytics - มุ่งเน้นไปที่ การวิเคราะห์เชิงพยากรณ์ (การวิเคราะห์ทีมและผู้เล่น เช่น Moneyball และการจัดการแฟนคลับ) และ การแสดงผลข้อมูล (แดชบอร์ดทีมและแฟน เกม ฯลฯ) โดยมีการประยุกต์ใช้ เช่น การสรรหาผู้เล่น การพนันกีฬา และการจัดการสถานที่/สินค้าคงคลัง

  • วิทยาศาสตร์ข้อมูลในธนาคาร - เน้นคุณค่าของวิทยาศาสตร์ข้อมูลในอุตสาหกรรมการเงิน เช่น การสร้างแบบจำลองความเสี่ยง การตรวจจับการฉ้อโกง การแบ่งกลุ่มลูกค้า การพยากรณ์แบบเรียลไทม์ และระบบแนะนำ การวิเคราะห์เชิงพยากรณ์ยังช่วยขับเคลื่อนมาตรการสำคัญ เช่น คะแนนเครดิต

  • วิทยาศาสตร์ข้อมูลในด้านสุขภาพ - เน้นการประยุกต์ใช้ เช่น การถ่ายภาพทางการแพทย์ (MRI, X-Ray, CT-Scan) จีโนมิกส์ (การถอดรหัส DNA) การพัฒนายา (การประเมินความเสี่ยง การคาดการณ์ความสำเร็จ) การวิเคราะห์เชิงพยากรณ์ (การดูแลผู้ป่วยและโลจิสติกส์) การติดตามและป้องกันโรค ฯลฯ

การประยุกต์ใช้วิทยาศาสตร์ข้อมูลในโลกแห่งความจริง เครดิตภาพ: Data Flair: 6 Amazing Data Science Applications

ภาพนี้แสดงโดเมนและตัวอย่างอื่น ๆ ของการประยุกต์ใช้เทคนิควิทยาศาสตร์ข้อมูล ต้องการสำรวจการประยุกต์ใช้อื่น ๆ หรือไม่? ดูที่ส่วน Review & Self Study ด้านล่าง

วิทยาศาสตร์ข้อมูล + การวิจัย

 Sketchnote โดย (@sketchthedocs)
วิทยาศาสตร์ข้อมูล & การวิจัย - Sketchnote โดย @nitya

ในขณะที่การประยุกต์ใช้ในโลกแห่งความจริงมักมุ่งเน้นไปที่กรณีการใช้งานในอุตสาหกรรมในระดับใหญ่ การประยุกต์ใช้และโครงการวิจัยสามารถมีประโยชน์ในสองมุมมอง:

  • โอกาสในการสร้างนวัตกรรม - สำรวจการสร้างต้นแบบแนวคิดขั้นสูงอย่างรวดเร็วและการทดสอบประสบการณ์ผู้ใช้สำหรับแอปพลิเคชันยุคหน้า
  • ความท้าทายในการปรับใช้ - ตรวจสอบอันตรายที่อาจเกิดขึ้นหรือผลกระทบที่ไม่ได้ตั้งใจของเทคโนโลยีวิทยาศาสตร์ข้อมูลในบริบทของโลกจริง

สำหรับนักศึกษา โครงการวิจัยเหล่านี้สามารถให้โอกาสในการเรียนรู้และการทำงานร่วมกันที่ช่วยเพิ่มความเข้าใจในหัวข้อ และขยายการรับรู้และการมีส่วนร่วมกับบุคคลหรือทีมที่เกี่ยวข้องในพื้นที่ที่สนใจ

ตัวอย่างหนึ่งคือ MIT Gender Shades Study โดย Joy Buolamwini (MIT Media Labs) พร้อมกับ งานวิจัยสำคัญ ที่ร่วมเขียนโดย Timnit Gebru (ขณะนั้นอยู่ที่ Microsoft Research) ซึ่งมุ่งเน้นไปที่:

  • อะไร: วัตถุประสงค์ของโครงการวิจัยคือ ประเมินอคติที่มีอยู่ในอัลกอริทึมและชุดข้อมูลการวิเคราะห์ใบหน้าอัตโนมัติ โดยพิจารณาจากเพศและสีผิว
  • ทำไม: การวิเคราะห์ใบหน้าใช้ในบริบทต่าง ๆ เช่น การบังคับใช้กฎหมาย ความปลอดภัยในสนามบิน ระบบการจ้างงาน ฯลฯ ซึ่งการจำแนกที่ไม่ถูกต้อง (เช่น เนื่องจากอคติ) อาจก่อให้เกิดอันตรายทางเศรษฐกิจและสังคมต่อบุคคลหรือกลุ่มที่ได้รับผลกระทบ การทำความเข้าใจ (และกำจัดหรือบรรเทา) อคติเป็นกุญแจสำคัญในการใช้งานอย่างเป็นธรรม
  • อย่างไร: นักวิจัยตระหนักว่ามาตรฐานที่มีอยู่ใช้ตัวอย่างที่มีผิวสีอ่อนเป็นส่วนใหญ่ และได้สร้างชุดข้อมูลใหม่ (ภาพกว่า 1,000 ภาพ) ที่ สมดุลมากขึ้น ตามเพศและสีผิว ชุดข้อมูลนี้ถูกใช้เพื่อประเมินความแม่นยำของผลิตภัณฑ์การจำแนกเพศสามรายการ (จาก Microsoft, IBM และ Face++)

ผลการวิจัยแสดงให้เห็นว่าแม้ความแม่นยำโดยรวมจะดี แต่มีความแตกต่างที่สังเกตได้ในอัตราความผิดพลาดระหว่างกลุ่มย่อยต่าง ๆ โดยมี การระบุเพศผิดพลาด สูงกว่าในผู้หญิงหรือบุคคลที่มีผิวสีเข้ม ซึ่งบ่งชี้ถึงอคติ

ผลลัพธ์สำคัญ: สร้างความตระหนักว่าวิทยาศาสตร์ข้อมูลต้องการ ชุดข้อมูลที่เป็นตัวแทนมากขึ้น (กลุ่มย่อยที่สมดุล) และ ทีมงานที่ครอบคลุมมากขึ้น (ภูมิหลังที่หลากหลาย) เพื่อรับรู้และกำจัดหรือบรรเทาอคติเหล่านี้ในโซลูชัน AI ตั้งแต่เนิ่น ๆ

ต้องการเรียนรู้เกี่ยวกับความพยายามวิจัยที่เกี่ยวข้องใน Microsoft หรือไม่?

วิทยาศาสตร์ข้อมูล + มนุษยศาสตร์

 Sketchnote โดย (@sketchthedocs)
วิทยาศาสตร์ข้อมูล & มนุษยศาสตร์ดิจิทัล - Sketchnote โดย @nitya

มนุษยศาสตร์ดิจิทัล ถูกนิยาม ว่าเป็น "การรวบรวมแนวปฏิบัติและวิธีการที่ผสมผสานวิธีการคำนวณเข้ากับการสืบค้นเชิงมนุษยศาสตร์" โครงการของ Stanford เช่น "rebooting history" และ "poetic thinking" แสดงให้เห็นถึงความเชื่อมโยงระหว่าง มนุษยศาสตร์ดิจิทัลและวิทยาศาสตร์ข้อมูล โดยเน้นเทคนิค เช่น การวิเคราะห์เครือข่าย การแสดงผลข้อมูล การวิเคราะห์เชิงพื้นที่และข้อความ ที่ช่วยให้เราทบทวนชุดข้อมูลทางประวัติศาสตร์และวรรณกรรมเพื่อค้นพบมุมมองใหม่ ๆ

ต้องการสำรวจและขยายโครงการในพื้นที่นี้หรือไม่?

ดูตัวอย่าง "Emily Dickinson and the Meter of Mood" จาก Jen Looper ที่ถามว่าเราสามารถใช้วิทยาศาสตร์ข้อมูลเพื่อทบทวนบทกวีที่คุ้นเคยและประเมินความหมายใหม่ได้อย่างไร ตัวอย่างเช่น เราสามารถคาดการณ์ฤดูกาลที่บทกวีถูกเขียนขึ้นโดยการวิเคราะห์โทนหรืออารมณ์ได้หรือไม่ และสิ่งนี้บอกอะไรเราเกี่ยวกับสภาพจิตใจของผู้เขียนในช่วงเวลานั้น?

เพื่อหาคำตอบ เราจะปฏิบัติตามขั้นตอนของวงจรชีวิตวิทยาศาสตร์ข้อมูล:

  • การเก็บรวบรวมข้อมูล - เพื่อรวบรวมชุดข้อมูลที่เกี่ยวข้องสำหรับการวิเคราะห์ ตัวเลือกได้แก่การใช้ API (เช่น Poetry DB API) หรือการดึงข้อมูลจากเว็บ (เช่น Project Gutenberg) โดยใช้เครื่องมืออย่าง Scrapy
  • การทำความสะอาดข้อมูล - อธิบายวิธีการจัดรูปแบบ ขจัดสิ่งรบกวน และทำให้ข้อความง่ายขึ้นโดยใช้เครื่องมือพื้นฐาน เช่น Visual Studio Code และ Microsoft Excel
  • การวิเคราะห์ข้อมูล - อธิบายวิธีการนำเข้าชุดข้อมูลเข้าสู่ "Notebooks" เพื่อการวิเคราะห์โดยใช้แพ็กเกจ Python (เช่น pandas, numpy และ matplotlib) เพื่อจัดระเบียบและแสดงผลข้อมูล
  • การวิเคราะห์อารมณ์ - อธิบายวิธีการผสานบริการคลาวด์ เช่น Text Analytics โดยใช้เครื่องมือแบบ low-code เช่น Power Automate สำหรับกระบวนการประมวลผลข้อมูลอัตโนมัติ

ด้วยกระบวนการนี้ เราสามารถสำรวจผลกระทบของฤดูกาลต่ออารมณ์ของบทกวี และช่วยให้เราสร้างมุมมองของเราเองเกี่ยวกับผู้เขียน ลองทำด้วยตัวคุณเอง - จากนั้นขยายโน้ตบุ๊กเพื่อถามคำถามอื่น ๆ หรือแสดงผลข้อมูลในรูปแบบใหม่!

คุณสามารถใช้เครื่องมือบางส่วนใน Digital Humanities toolkit เพื่อดำเนินการสำรวจในแนวทางนี้

วิทยาศาสตร์ข้อมูล + ความยั่งยืน

 Sketchnote โดย (@sketchthedocs)
วิทยาศาสตร์ข้อมูล & ความยั่งยืน - Sketchnote โดย @nitya

วาระ 2030 เพื่อการพัฒนาที่ยั่งยืน - ซึ่งได้รับการยอมรับจากสมาชิกสหประชาชาติทั้งหมดในปี 2015 - ระบุเป้าหมาย 17 ข้อ รวมถึงเป้าหมายที่มุ่งเน้นไปที่ การปกป้องโลก จากการเสื่อมโทรมและผลกระทบของการเปลี่ยนแปลงสภาพภูมิอากาศ โครงการ Microsoft Sustainability สนับสนุนเป้าหมายเหล่านี้โดยสำรวจวิธีที่โซลูชันเทคโนโลยีสามารถสนับสนุนและสร้างอนาคตที่ยั่งยืนมากขึ้น โดยมุ่งเน้นที่ 4 เป้าหมาย ได้แก่ การลดคาร์บอน การเพิ่มน้ำ การลดของเสียให้เป็นศูนย์ และการเพิ่มความหลากหลายทางชีวภาพภายในปี 2030

การจัดการกับความท้าทายเหล่านี้ในลักษณะที่ขยายขนาดได้และทันเวลาต้องการการคิดในระดับคลาวด์และข้อมูลขนาดใหญ่ โครงการ Planetary Computer มี 4 องค์ประกอบเพื่อช่วยนักวิทยาศาสตร์ข้อมูลและนักพัฒนาในความพยายามนี้:

  • Data Catalog - มีข้อมูลระบบโลกในระดับเพตะไบต์ (ฟรีและโฮสต์บน Azure)

  • Planetary API - ช่วยให้ผู้ใช้ค้นหาข้อมูลที่เกี่ยวข้องในเชิงพื้นที่และเวลา

  • Hub - สภาพแวดล้อมที่มีการจัดการสำหรับนักวิทยาศาสตร์ในการประมวลผลชุดข้อมูลเชิงพื้นที่ขนาดใหญ่

  • Applications - แสดงกรณีการใช้ง โครงการ Planetary Computer กำลังอยู่ในช่วงพรีวิว (ณ เดือนกันยายน 2021) - นี่คือวิธีที่คุณสามารถเริ่มต้นมีส่วนร่วมในการแก้ปัญหาด้านความยั่งยืนด้วยวิทยาศาสตร์ข้อมูล

  • ขอสิทธิ์การเข้าถึง เพื่อเริ่มต้นการสำรวจและเชื่อมต่อกับเพื่อนร่วมงาน

  • สำรวจเอกสาร เพื่อทำความเข้าใจชุดข้อมูลและ API ที่รองรับ

  • สำรวจแอปพลิเคชัน เช่น Ecosystem Monitoring เพื่อหาแรงบันดาลใจสำหรับไอเดียแอปพลิเคชัน

ลองคิดดูว่าคุณสามารถใช้การแสดงผลข้อมูลเพื่อเปิดเผยหรือขยายข้อมูลเชิงลึกที่เกี่ยวข้องในด้านต่างๆ เช่น การเปลี่ยนแปลงสภาพภูมิอากาศและการตัดไม้ทำลายป่าได้อย่างไร หรือคิดดูว่าข้อมูลเชิงลึกเหล่านี้สามารถนำไปใช้สร้างประสบการณ์ผู้ใช้ใหม่ๆ ที่กระตุ้นให้เกิดการเปลี่ยนแปลงพฤติกรรมเพื่อการใช้ชีวิตที่ยั่งยืนมากขึ้นได้อย่างไร

วิทยาศาสตร์ข้อมูล + นักศึกษา

เราได้พูดถึงการใช้งานในโลกจริงในอุตสาหกรรมและการวิจัย และได้สำรวจตัวอย่างการใช้งานวิทยาศาสตร์ข้อมูลในด้านมนุษยศาสตร์ดิจิทัลและความยั่งยืน แล้วคุณจะสามารถพัฒนาทักษะและแบ่งปันความเชี่ยวชาญของคุณในฐานะผู้เริ่มต้นด้านวิทยาศาสตร์ข้อมูลได้อย่างไร?

นี่คือตัวอย่างโครงการวิทยาศาสตร์ข้อมูลสำหรับนักศึกษาเพื่อสร้างแรงบันดาลใจให้คุณ

🚀 ความท้าทาย

ค้นหาบทความที่แนะนำโครงการวิทยาศาสตร์ข้อมูลที่เหมาะสำหรับผู้เริ่มต้น เช่น 50 หัวข้อ หรือ 21 ไอเดียโครงการ หรือ 16 โครงการพร้อมโค้ดต้นฉบับ ที่คุณสามารถวิเคราะห์และปรับเปลี่ยนได้ และอย่าลืมเขียนบล็อกเกี่ยวกับการเรียนรู้ของคุณและแบ่งปันข้อมูลเชิงลึกกับพวกเราทุกคน

แบบทดสอบหลังการบรรยาย

แบบทดสอบหลังการบรรยาย

การทบทวนและการศึกษาด้วยตนเอง

ต้องการสำรวจกรณีการใช้งานเพิ่มเติมหรือไม่? นี่คือบทความที่เกี่ยวข้องบางส่วน:

งานที่ได้รับมอบหมาย

สำรวจชุดข้อมูล Planetary Computer


ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้