You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

15 KiB

การนิยามวิทยาศาสตร์ข้อมูล

 Sketchnote โดย (@sketchthedocs)
การนิยามวิทยาศาสตร์ข้อมูล - Sketchnote โดย @nitya

วิดีโอการนิยามวิทยาศาสตร์ข้อมูล

แบบทดสอบก่อนการบรรยาย

ข้อมูลคืออะไร?

ในชีวิตประจำวันของเรา เราถูกล้อมรอบด้วยข้อมูลอยู่ตลอดเวลา ข้อความที่คุณกำลังอ่านอยู่นี้ก็คือข้อมูล รายชื่อเบอร์โทรศัพท์ของเพื่อนในสมาร์ทโฟนของคุณก็เป็นข้อมูล เช่นเดียวกับเวลาปัจจุบันที่แสดงอยู่บนหน้าปัดนาฬิกาของคุณ ในฐานะมนุษย์ เรามีการจัดการกับข้อมูลโดยธรรมชาติ เช่น การนับเงินที่เรามี หรือการเขียนจดหมายถึงเพื่อน

อย่างไรก็ตาม ข้อมูลมีความสำคัญมากขึ้นเมื่อมีการสร้างคอมพิวเตอร์ขึ้นมา บทบาทหลักของคอมพิวเตอร์คือการคำนวณ แต่พวกมันต้องการข้อมูลเพื่อทำงาน ดังนั้นเราจึงต้องเข้าใจว่าคอมพิวเตอร์จัดเก็บและประมวลผลข้อมูลอย่างไร

เมื่ออินเทอร์เน็ตเกิดขึ้น บทบาทของคอมพิวเตอร์ในฐานะอุปกรณ์จัดการข้อมูลก็เพิ่มขึ้น หากคุณลองคิดดู เราใช้คอมพิวเตอร์มากขึ้นเรื่อย ๆ สำหรับการประมวลผลและการสื่อสารข้อมูล มากกว่าการคำนวณจริง ๆ เมื่อเราเขียนอีเมลถึงเพื่อน หรือค้นหาข้อมูลบางอย่างบนอินเทอร์เน็ต เรากำลังสร้าง จัดเก็บ ส่งต่อ และจัดการข้อมูล

คุณจำครั้งสุดท้ายที่คุณใช้คอมพิวเตอร์เพื่อคำนวณอะไรบางอย่างได้หรือไม่?

วิทยาศาสตร์ข้อมูลคืออะไร?

ใน Wikipedia วิทยาศาสตร์ข้อมูล ถูกนิยามว่าเป็น สาขาวิทยาศาสตร์ที่ใช้วิธีการทางวิทยาศาสตร์เพื่อดึงความรู้และข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และนำความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้จากข้อมูลไปใช้ในหลากหลายโดเมนการประยุกต์ใช้

นิยามนี้เน้นถึงแง่มุมสำคัญของวิทยาศาสตร์ข้อมูลดังนี้:

  • เป้าหมายหลักของวิทยาศาสตร์ข้อมูลคือการ ดึงความรู้ จากข้อมูล หรือพูดอีกอย่างคือการ ทำความเข้าใจ ข้อมูล ค้นหาความสัมพันธ์ที่ซ่อนอยู่ และสร้าง โมเดล
  • วิทยาศาสตร์ข้อมูลใช้ วิธีการทางวิทยาศาสตร์ เช่น ความน่าจะเป็นและสถิติ ในความเป็นจริง เมื่อคำว่า วิทยาศาสตร์ข้อมูล ถูกนำเสนอครั้งแรก บางคนโต้แย้งว่าวิทยาศาสตร์ข้อมูลเป็นเพียงชื่อใหม่ที่ดูหรูหราของสถิติ แต่ในปัจจุบันเห็นได้ชัดว่าสาขานี้กว้างกว่านั้นมาก
  • ความรู้ที่ได้ควรถูกนำไปใช้เพื่อสร้าง ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้ เช่น ข้อมูลเชิงลึกที่สามารถนำไปใช้ในสถานการณ์ทางธุรกิจจริง
  • เราควรสามารถจัดการกับข้อมูลทั้งที่มี โครงสร้าง และ ไม่มีโครงสร้าง เราจะกลับมาพูดถึงประเภทของข้อมูลในภายหลังในหลักสูตรนี้
  • โดเมนการประยุกต์ใช้ เป็นแนวคิดที่สำคัญ และนักวิทยาศาสตร์ข้อมูลมักต้องการความเชี่ยวชาญในระดับหนึ่งในโดเมนปัญหา เช่น การเงิน การแพทย์ การตลาด เป็นต้น

อีกแง่มุมที่สำคัญของวิทยาศาสตร์ข้อมูลคือการศึกษาว่าข้อมูลสามารถถูกรวบรวม จัดเก็บ และดำเนินการด้วยคอมพิวเตอร์ได้อย่างไร ในขณะที่สถิติให้รากฐานทางคณิตศาสตร์ วิทยาศาสตร์ข้อมูลนำแนวคิดทางคณิตศาสตร์ไปใช้จริงเพื่อดึงข้อมูลเชิงลึกจากข้อมูล

หนึ่งในวิธีการ (ที่เชื่อมโยงกับ Jim Gray) ในการมองวิทยาศาสตร์ข้อมูลคือการพิจารณาว่าเป็นกระบวนทัศน์แยกต่างหากของวิทยาศาสตร์:

  • เชิงประจักษ์ ซึ่งเราพึ่งพาการสังเกตและผลลัพธ์ของการทดลองเป็นหลัก
  • เชิงทฤษฎี ที่แนวคิดใหม่ ๆ เกิดขึ้นจากความรู้ทางวิทยาศาสตร์ที่มีอยู่
  • เชิงคำนวณ ที่เราค้นพบหลักการใหม่ ๆ จากการทดลองทางคอมพิวเตอร์
  • ขับเคลื่อนด้วยข้อมูล โดยอิงจากการค้นพบความสัมพันธ์และรูปแบบในข้อมูล

สาขาอื่นที่เกี่ยวข้อง

เนื่องจากข้อมูลมีอยู่ทุกที่ วิทยาศาสตร์ข้อมูลจึงเป็นสาขาที่กว้างขวาง ซึ่งเกี่ยวข้องกับหลายสาขาวิชาอื่น ๆ คุณอาจโต้แย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวที่แตกต่างกัน อาจจะยุติธรรมกว่าถ้าหากแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน เมื่อเราเริ่มวิเคราะห์ผลของแบบทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ เพื่อทำเช่นนั้น เราจำเป็นต้องออกแบบแบบทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ

หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียนได้ เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนเลิกเรียนก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด

🚀 ความท้าทาย

ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud ที่มีลักษณะดังนี้:

Word Cloud for Data Science

ไปที่ notebook.ipynb เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลแบบเรียลไทม์ได้อย่างไร

หากคุณไม่ทราบวิธีการรันโค้ดใน Jupyter Notebook ลองดู บทความนี้

แบบทดสอบหลังการบรรยาย

งานที่ได้รับมอบหมาย

เครดิต

บทเรียนนี้ถูกเขียนขึ้นด้วย ♥️ โดย Dmitry Soshnikov


ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้