15 KiB
การนิยามวิทยาศาสตร์ข้อมูล
![]() |
---|
การนิยามวิทยาศาสตร์ข้อมูล - Sketchnote โดย @nitya |
แบบทดสอบก่อนการบรรยาย
ข้อมูลคืออะไร?
ในชีวิตประจำวันของเรา เราถูกล้อมรอบด้วยข้อมูลอยู่ตลอดเวลา ข้อความที่คุณกำลังอ่านอยู่นี้ก็คือข้อมูล รายชื่อเบอร์โทรศัพท์ของเพื่อนในสมาร์ทโฟนของคุณก็เป็นข้อมูล เช่นเดียวกับเวลาปัจจุบันที่แสดงอยู่บนหน้าปัดนาฬิกาของคุณ ในฐานะมนุษย์ เรามีการจัดการกับข้อมูลโดยธรรมชาติ เช่น การนับเงินที่เรามี หรือการเขียนจดหมายถึงเพื่อน
อย่างไรก็ตาม ข้อมูลมีความสำคัญมากขึ้นเมื่อมีการสร้างคอมพิวเตอร์ขึ้นมา บทบาทหลักของคอมพิวเตอร์คือการคำนวณ แต่พวกมันต้องการข้อมูลเพื่อทำงาน ดังนั้นเราจึงต้องเข้าใจว่าคอมพิวเตอร์จัดเก็บและประมวลผลข้อมูลอย่างไร
เมื่ออินเทอร์เน็ตเกิดขึ้น บทบาทของคอมพิวเตอร์ในฐานะอุปกรณ์จัดการข้อมูลก็เพิ่มขึ้น หากคุณลองคิดดู เราใช้คอมพิวเตอร์มากขึ้นเรื่อย ๆ สำหรับการประมวลผลและการสื่อสารข้อมูล มากกว่าการคำนวณจริง ๆ เมื่อเราเขียนอีเมลถึงเพื่อน หรือค้นหาข้อมูลบางอย่างบนอินเทอร์เน็ต เรากำลังสร้าง จัดเก็บ ส่งต่อ และจัดการข้อมูล
คุณจำครั้งสุดท้ายที่คุณใช้คอมพิวเตอร์เพื่อคำนวณอะไรบางอย่างได้หรือไม่?
วิทยาศาสตร์ข้อมูลคืออะไร?
ใน Wikipedia วิทยาศาสตร์ข้อมูล ถูกนิยามว่าเป็น สาขาวิทยาศาสตร์ที่ใช้วิธีการทางวิทยาศาสตร์เพื่อดึงความรู้และข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และนำความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้จากข้อมูลไปใช้ในหลากหลายโดเมนการประยุกต์ใช้
นิยามนี้เน้นถึงแง่มุมสำคัญของวิทยาศาสตร์ข้อมูลดังนี้:
- เป้าหมายหลักของวิทยาศาสตร์ข้อมูลคือการ ดึงความรู้ จากข้อมูล หรือพูดอีกอย่างคือการ ทำความเข้าใจ ข้อมูล ค้นหาความสัมพันธ์ที่ซ่อนอยู่ และสร้าง โมเดล
- วิทยาศาสตร์ข้อมูลใช้ วิธีการทางวิทยาศาสตร์ เช่น ความน่าจะเป็นและสถิติ ในความเป็นจริง เมื่อคำว่า วิทยาศาสตร์ข้อมูล ถูกนำเสนอครั้งแรก บางคนโต้แย้งว่าวิทยาศาสตร์ข้อมูลเป็นเพียงชื่อใหม่ที่ดูหรูหราของสถิติ แต่ในปัจจุบันเห็นได้ชัดว่าสาขานี้กว้างกว่านั้นมาก
- ความรู้ที่ได้ควรถูกนำไปใช้เพื่อสร้าง ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้ เช่น ข้อมูลเชิงลึกที่สามารถนำไปใช้ในสถานการณ์ทางธุรกิจจริง
- เราควรสามารถจัดการกับข้อมูลทั้งที่มี โครงสร้าง และ ไม่มีโครงสร้าง เราจะกลับมาพูดถึงประเภทของข้อมูลในภายหลังในหลักสูตรนี้
- โดเมนการประยุกต์ใช้ เป็นแนวคิดที่สำคัญ และนักวิทยาศาสตร์ข้อมูลมักต้องการความเชี่ยวชาญในระดับหนึ่งในโดเมนปัญหา เช่น การเงิน การแพทย์ การตลาด เป็นต้น
อีกแง่มุมที่สำคัญของวิทยาศาสตร์ข้อมูลคือการศึกษาว่าข้อมูลสามารถถูกรวบรวม จัดเก็บ และดำเนินการด้วยคอมพิวเตอร์ได้อย่างไร ในขณะที่สถิติให้รากฐานทางคณิตศาสตร์ วิทยาศาสตร์ข้อมูลนำแนวคิดทางคณิตศาสตร์ไปใช้จริงเพื่อดึงข้อมูลเชิงลึกจากข้อมูล
หนึ่งในวิธีการ (ที่เชื่อมโยงกับ Jim Gray) ในการมองวิทยาศาสตร์ข้อมูลคือการพิจารณาว่าเป็นกระบวนทัศน์แยกต่างหากของวิทยาศาสตร์:
- เชิงประจักษ์ ซึ่งเราพึ่งพาการสังเกตและผลลัพธ์ของการทดลองเป็นหลัก
- เชิงทฤษฎี ที่แนวคิดใหม่ ๆ เกิดขึ้นจากความรู้ทางวิทยาศาสตร์ที่มีอยู่
- เชิงคำนวณ ที่เราค้นพบหลักการใหม่ ๆ จากการทดลองทางคอมพิวเตอร์
- ขับเคลื่อนด้วยข้อมูล โดยอิงจากการค้นพบความสัมพันธ์และรูปแบบในข้อมูล
สาขาอื่นที่เกี่ยวข้อง
เนื่องจากข้อมูลมีอยู่ทุกที่ วิทยาศาสตร์ข้อมูลจึงเป็นสาขาที่กว้างขวาง ซึ่งเกี่ยวข้องกับหลายสาขาวิชาอื่น ๆ คุณอาจโต้แย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวที่แตกต่างกัน อาจจะยุติธรรมกว่าถ้าหากแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน เมื่อเราเริ่มวิเคราะห์ผลของแบบทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ เพื่อทำเช่นนั้น เราจำเป็นต้องออกแบบแบบทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ
หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียนได้ เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนเลิกเรียนก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด
🚀 ความท้าทาย
ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud ที่มีลักษณะดังนี้:
ไปที่ notebook.ipynb
เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลแบบเรียลไทม์ได้อย่างไร
หากคุณไม่ทราบวิธีการรันโค้ดใน Jupyter Notebook ลองดู บทความนี้
แบบทดสอบหลังการบรรยาย
งานที่ได้รับมอบหมาย
- งานที่ 1: แก้ไขโค้ดด้านบนเพื่อค้นหาแนวคิดที่เกี่ยวข้องกับสาขา Big Data และ Machine Learning
- งานที่ 2: คิดเกี่ยวกับสถานการณ์ในวิทยาศาสตร์ข้อมูล
เครดิต
บทเรียนนี้ถูกเขียนขึ้นด้วย ♥️ โดย Dmitry Soshnikov
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้