You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

82 lines
15 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a76ab694b1534fa57981311975660bfe",
"translation_date": "2025-09-06T12:20:27+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "th"
}
-->
## การนิยามวิทยาศาสตร์ข้อมูล
| ![ Sketchnote โดย [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) |
| :----------------------------------------------------------------------------------------------------: |
| การนิยามวิทยาศาสตร์ข้อมูล - _Sketchnote โดย [@nitya](https://twitter.com/nitya)_ |
---
[![วิดีโอการนิยามวิทยาศาสตร์ข้อมูล](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.th.png)](https://youtu.be/beZ7Mb_oz9I)
## [แบบทดสอบก่อนการบรรยาย](https://ff-quizzes.netlify.app/en/ds/quiz/0)
## ข้อมูลคืออะไร?
ในชีวิตประจำวันของเรา เราถูกล้อมรอบด้วยข้อมูลอยู่ตลอดเวลา ข้อความที่คุณกำลังอ่านอยู่นี้ก็คือข้อมูล รายชื่อเบอร์โทรศัพท์ของเพื่อนในสมาร์ทโฟนของคุณก็เป็นข้อมูล เช่นเดียวกับเวลาปัจจุบันที่แสดงอยู่บนหน้าปัดนาฬิกาของคุณ ในฐานะมนุษย์ เรามีการจัดการกับข้อมูลโดยธรรมชาติ เช่น การนับเงินที่เรามี หรือการเขียนจดหมายถึงเพื่อน
อย่างไรก็ตาม ข้อมูลมีความสำคัญมากขึ้นเมื่อมีการสร้างคอมพิวเตอร์ขึ้นมา บทบาทหลักของคอมพิวเตอร์คือการคำนวณ แต่พวกมันต้องการข้อมูลเพื่อทำงาน ดังนั้นเราจึงต้องเข้าใจว่าคอมพิวเตอร์จัดเก็บและประมวลผลข้อมูลอย่างไร
เมื่ออินเทอร์เน็ตเกิดขึ้น บทบาทของคอมพิวเตอร์ในฐานะอุปกรณ์จัดการข้อมูลก็เพิ่มขึ้น หากคุณลองคิดดู เราใช้คอมพิวเตอร์มากขึ้นเรื่อย ๆ สำหรับการประมวลผลและการสื่อสารข้อมูล มากกว่าการคำนวณจริง ๆ เมื่อเราเขียนอีเมลถึงเพื่อน หรือค้นหาข้อมูลบางอย่างบนอินเทอร์เน็ต เรากำลังสร้าง จัดเก็บ ส่งต่อ และจัดการข้อมูล
> คุณจำครั้งสุดท้ายที่คุณใช้คอมพิวเตอร์เพื่อคำนวณอะไรบางอย่างได้หรือไม่?
## วิทยาศาสตร์ข้อมูลคืออะไร?
ใน [Wikipedia](https://en.wikipedia.org/wiki/Data_science) **วิทยาศาสตร์ข้อมูล** ถูกนิยามว่าเป็น *สาขาวิทยาศาสตร์ที่ใช้วิธีการทางวิทยาศาสตร์เพื่อดึงความรู้และข้อมูลเชิงลึกจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และนำความรู้และข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้จากข้อมูลไปใช้ในหลากหลายโดเมนการประยุกต์ใช้*
นิยามนี้เน้นถึงแง่มุมสำคัญของวิทยาศาสตร์ข้อมูลดังนี้:
* เป้าหมายหลักของวิทยาศาสตร์ข้อมูลคือการ **ดึงความรู้** จากข้อมูล หรือพูดอีกอย่างคือการ **ทำความเข้าใจ** ข้อมูล ค้นหาความสัมพันธ์ที่ซ่อนอยู่ และสร้าง **โมเดล**
* วิทยาศาสตร์ข้อมูลใช้ **วิธีการทางวิทยาศาสตร์** เช่น ความน่าจะเป็นและสถิติ ในความเป็นจริง เมื่อคำว่า *วิทยาศาสตร์ข้อมูล* ถูกนำเสนอครั้งแรก บางคนโต้แย้งว่าวิทยาศาสตร์ข้อมูลเป็นเพียงชื่อใหม่ที่ดูหรูหราของสถิติ แต่ในปัจจุบันเห็นได้ชัดว่าสาขานี้กว้างกว่านั้นมาก
* ความรู้ที่ได้ควรถูกนำไปใช้เพื่อสร้าง **ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้** เช่น ข้อมูลเชิงลึกที่สามารถนำไปใช้ในสถานการณ์ทางธุรกิจจริง
* เราควรสามารถจัดการกับข้อมูลทั้งที่มี **โครงสร้าง** และ **ไม่มีโครงสร้าง** เราจะกลับมาพูดถึงประเภทของข้อมูลในภายหลังในหลักสูตรนี้
* **โดเมนการประยุกต์ใช้** เป็นแนวคิดที่สำคัญ และนักวิทยาศาสตร์ข้อมูลมักต้องการความเชี่ยวชาญในระดับหนึ่งในโดเมนปัญหา เช่น การเงิน การแพทย์ การตลาด เป็นต้น
> อีกแง่มุมที่สำคัญของวิทยาศาสตร์ข้อมูลคือการศึกษาว่าข้อมูลสามารถถูกรวบรวม จัดเก็บ และดำเนินการด้วยคอมพิวเตอร์ได้อย่างไร ในขณะที่สถิติให้รากฐานทางคณิตศาสตร์ วิทยาศาสตร์ข้อมูลนำแนวคิดทางคณิตศาสตร์ไปใช้จริงเพื่อดึงข้อมูลเชิงลึกจากข้อมูล
หนึ่งในวิธีการ (ที่เชื่อมโยงกับ [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) ในการมองวิทยาศาสตร์ข้อมูลคือการพิจารณาว่าเป็นกระบวนทัศน์แยกต่างหากของวิทยาศาสตร์:
* **เชิงประจักษ์** ซึ่งเราพึ่งพาการสังเกตและผลลัพธ์ของการทดลองเป็นหลัก
* **เชิงทฤษฎี** ที่แนวคิดใหม่ ๆ เกิดขึ้นจากความรู้ทางวิทยาศาสตร์ที่มีอยู่
* **เชิงคำนวณ** ที่เราค้นพบหลักการใหม่ ๆ จากการทดลองทางคอมพิวเตอร์
* **ขับเคลื่อนด้วยข้อมูล** โดยอิงจากการค้นพบความสัมพันธ์และรูปแบบในข้อมูล
## สาขาอื่นที่เกี่ยวข้อง
เนื่องจากข้อมูลมีอยู่ทุกที่ วิทยาศาสตร์ข้อมูลจึงเป็นสาขาที่กว้างขวาง ซึ่งเกี่ยวข้องกับหลายสาขาวิชาอื่น ๆ
คุณอาจโต้แย้งได้ว่าวิธีนี้ไม่ใช่วิธีที่เหมาะสมที่สุด เพราะโมดูลอาจมีความยาวที่แตกต่างกัน อาจจะยุติธรรมกว่าถ้าหากแบ่งเวลาโดยพิจารณาจากความยาวของโมดูล (ในจำนวนตัวอักษร) แล้วเปรียบเทียบค่าที่ได้แทน
เมื่อเราเริ่มวิเคราะห์ผลของแบบทดสอบแบบปรนัย เราสามารถพยายามระบุแนวคิดที่นักเรียนมีปัญหาในการทำความเข้าใจ และใช้ข้อมูลนั้นเพื่อปรับปรุงเนื้อหาได้ เพื่อทำเช่นนั้น เราจำเป็นต้องออกแบบแบบทดสอบในลักษณะที่แต่ละคำถามเชื่อมโยงกับแนวคิดหรือส่วนความรู้เฉพาะ
หากเราต้องการทำให้ซับซ้อนยิ่งขึ้น เราสามารถวางแผนเปรียบเทียบเวลาที่ใช้ในแต่ละโมดูลกับกลุ่มอายุของนักเรียนได้ เราอาจพบว่าในบางกลุ่มอายุใช้เวลานานเกินไปในการทำโมดูลให้เสร็จ หรือว่านักเรียนเลิกเรียนก่อนที่จะทำเสร็จ สิ่งนี้สามารถช่วยให้เราแนะนำอายุที่เหมาะสมสำหรับโมดูล และลดความไม่พอใจของผู้คนจากความคาดหวังที่ผิดพลาด
## 🚀 ความท้าทาย
ในความท้าทายนี้ เราจะพยายามค้นหาแนวคิดที่เกี่ยวข้องกับสาขาวิทยาศาสตร์ข้อมูล (Data Science) โดยการดูจากข้อความ เราจะนำบทความจาก Wikipedia เกี่ยวกับวิทยาศาสตร์ข้อมูลมาดาวน์โหลดและประมวลผลข้อความ จากนั้นสร้าง Word Cloud ที่มีลักษณะดังนี้:
![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.th.png)
ไปที่ [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') เพื่ออ่านโค้ด คุณยังสามารถรันโค้ดและดูว่ามันทำการแปลงข้อมูลแบบเรียลไทม์ได้อย่างไร
> หากคุณไม่ทราบวิธีการรันโค้ดใน Jupyter Notebook ลองดู [บทความนี้](https://soshnikov.com/education/how-to-execute-notebooks-from-github/)
## [แบบทดสอบหลังการบรรยาย](https://ff-quizzes.netlify.app/en/ds/quiz/1)
## งานที่ได้รับมอบหมาย
* **งานที่ 1**: แก้ไขโค้ดด้านบนเพื่อค้นหาแนวคิดที่เกี่ยวข้องกับสาขา **Big Data** และ **Machine Learning**
* **งานที่ 2**: [คิดเกี่ยวกับสถานการณ์ในวิทยาศาสตร์ข้อมูล](assignment.md)
## เครดิต
บทเรียนนี้ถูกเขียนขึ้นด้วย ♥️ โดย [Dmitry Soshnikov](http://soshnikov.com)
---
**ข้อจำกัดความรับผิดชอบ**:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้