# การกำหนดข้อมูล |![ Sketchnote โดย [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/03-DefiningData.png)| |:---:| |การกำหนดข้อมูล - _Sketchnote โดย [@nitya](https://twitter.com/nitya)_ | ข้อมูลคือข้อเท็จจริง, ข้อมูล, การสังเกต และการวัดผลที่ใช้ในการค้นพบและสนับสนุนการตัดสินใจที่มีข้อมูลประกอบ จุดข้อมูลคือหน่วยเดียวของข้อมูลในชุดข้อมูล ซึ่งเป็นการรวบรวมจุดข้อมูล ชุดข้อมูลอาจมีรูปแบบและโครงสร้างที่แตกต่างกัน และมักจะขึ้นอยู่กับแหล่งที่มา หรือที่มาของข้อมูล ตัวอย่างเช่น รายได้รายเดือนของบริษัทอาจอยู่ในสเปรดชีต แต่ข้อมูลอัตราการเต้นของหัวใจรายชั่วโมงจากสมาร์ทวอทช์อาจอยู่ในรูปแบบ [JSON](https://stackoverflow.com/a/383699) เป็นเรื่องปกติที่นักวิทยาศาสตร์ข้อมูลจะทำงานกับข้อมูลประเภทต่าง ๆ ภายในชุดข้อมูล บทเรียนนี้มุ่งเน้นไปที่การระบุและจัดประเภทข้อมูลตามลักษณะและแหล่งที่มาของข้อมูล ## [แบบทดสอบก่อนเรียน](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4) ## วิธีการอธิบายข้อมูล ### ข้อมูลดิบ ข้อมูลดิบคือข้อมูลที่มาจากแหล่งที่มาในสถานะเริ่มต้นและยังไม่ได้รับการวิเคราะห์หรือจัดระเบียบ เพื่อให้เข้าใจสิ่งที่เกิดขึ้นกับชุดข้อมูล จำเป็นต้องจัดระเบียบให้อยู่ในรูปแบบที่มนุษย์และเทคโนโลยีที่ใช้วิเคราะห์สามารถเข้าใจได้ โครงสร้างของชุดข้อมูลอธิบายวิธีการจัดระเบียบและสามารถจัดประเภทเป็นข้อมูลที่มีโครงสร้าง, ไม่มีโครงสร้าง และกึ่งโครงสร้าง ประเภทของโครงสร้างเหล่านี้จะแตกต่างกันไปตามแหล่งที่มา แต่ท้ายที่สุดจะอยู่ในสามประเภทนี้ ### ข้อมูลเชิงปริมาณ ข้อมูลเชิงปริมาณคือการสังเกตเชิงตัวเลขภายในชุดข้อมูล และมักจะสามารถวิเคราะห์, วัดผล และใช้ในทางคณิตศาสตร์ ตัวอย่างของข้อมูลเชิงปริมาณ ได้แก่ ประชากรของประเทศ, ความสูงของบุคคล หรือรายได้รายไตรมาสของบริษัท ด้วยการวิเคราะห์เพิ่มเติม ข้อมูลเชิงปริมาณสามารถใช้ค้นหาแนวโน้มตามฤดูกาลของดัชนีคุณภาพอากาศ (AQI) หรือประมาณความน่าจะเป็นของการจราจรในชั่วโมงเร่งด่วนในวันทำงานทั่วไป ### ข้อมูลเชิงคุณภาพ ข้อมูลเชิงคุณภาพ หรือที่รู้จักกันในชื่อข้อมูลเชิงหมวดหมู่ คือข้อมูลที่ไม่สามารถวัดผลได้อย่างเป็นกลางเหมือนการสังเกตข้อมูลเชิงปริมาณ โดยทั่วไปแล้วจะเป็นข้อมูลเชิงอัตวิสัยในรูปแบบต่าง ๆ ที่จับคุณภาพของบางสิ่ง เช่น ผลิตภัณฑ์หรือกระบวนการ บางครั้งข้อมูลเชิงคุณภาพเป็นตัวเลข แต่ไม่ได้นำมาใช้ในทางคณิตศาสตร์ เช่น หมายเลขโทรศัพท์หรือเวลาประทับ ตัวอย่างของข้อมูลเชิงคุณภาพ ได้แก่ ความคิดเห็นในวิดีโอ, ยี่ห้อและรุ่นของรถ หรือสีโปรดของเพื่อนสนิท ข้อมูลเชิงคุณภาพสามารถใช้เพื่อทำความเข้าใจว่าผู้บริโภคชอบผลิตภัณฑ์ใดมากที่สุด หรือระบุคำสำคัญยอดนิยมในเรซูเม่สมัครงาน ### ข้อมูลที่มีโครงสร้าง ข้อมูลที่มีโครงสร้างคือข้อมูลที่จัดระเบียบเป็นแถวและคอลัมน์ โดยที่แต่ละแถวจะมีชุดคอลัมน์เดียวกัน คอลัมน์แสดงค่าของประเภทเฉพาะและจะถูกระบุด้วยชื่อที่อธิบายว่าค่าแสดงถึงอะไร ในขณะที่แถวมีค่าจริง คอลัมน์มักจะมีชุดกฎหรือข้อจำกัดเฉพาะเกี่ยวกับค่า เพื่อให้มั่นใจว่าค่าแสดงถึงคอลัมน์ได้อย่างถูกต้อง ตัวอย่างเช่น ลองนึกภาพสเปรดชีตของลูกค้าที่แต่ละแถวต้องมีหมายเลขโทรศัพท์ และหมายเลขโทรศัพท์จะไม่มีตัวอักษร อาจมีกฎที่ใช้กับคอลัมน์หมายเลขโทรศัพท์เพื่อให้แน่ใจว่าไม่มีช่องว่างและมีเพียงตัวเลขเท่านั้น ข้อดีของข้อมูลที่มีโครงสร้างคือสามารถจัดระเบียบในลักษณะที่สามารถเชื่อมโยงกับข้อมูลที่มีโครงสร้างอื่น ๆ ได้ อย่างไรก็ตาม เนื่องจากข้อมูลถูกออกแบบให้จัดระเบียบในลักษณะเฉพาะ การเปลี่ยนแปลงโครงสร้างโดยรวมอาจต้องใช้ความพยายามมาก ตัวอย่างเช่น การเพิ่มคอลัมน์อีเมลในสเปรดชีตลูกค้าที่ไม่สามารถว่างเปล่าได้ หมายความว่าคุณต้องหาวิธีเพิ่มค่าลงในแถวที่มีอยู่ของลูกค้าในชุดข้อมูล ตัวอย่างของข้อมูลที่มีโครงสร้าง: สเปรดชีต, ฐานข้อมูลเชิงสัมพันธ์, หมายเลขโทรศัพท์, รายการเดินบัญชีธนาคาร ### ข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่ไม่มีโครงสร้างมักไม่สามารถจัดหมวดหมู่เป็นแถวหรือคอลัมน์ และไม่มีรูปแบบหรือชุดกฎที่ต้องปฏิบัติตาม เนื่องจากข้อมูลที่ไม่มีโครงสร้างมีข้อจำกัดน้อยกว่าในโครงสร้าง จึงง่ายต่อการเพิ่มข้อมูลใหม่เมื่อเปรียบเทียบกับชุดข้อมูลที่มีโครงสร้าง หากเซ็นเซอร์ที่จับข้อมูลความดันบรรยากาศทุก ๆ 2 นาทีได้รับการอัปเดตที่อนุญาตให้วัดและบันทึกอุณหภูมิ ก็ไม่จำเป็นต้องเปลี่ยนแปลงข้อมูลที่มีอยู่หากเป็นข้อมูลที่ไม่มีโครงสร้าง อย่างไรก็ตาม อาจทำให้การวิเคราะห์หรือการตรวจสอบข้อมูลประเภทนี้ใช้เวลานานขึ้น ตัวอย่างเช่น นักวิทยาศาสตร์ที่ต้องการหาค่าเฉลี่ยอุณหภูมิของเดือนก่อนจากข้อมูลเซ็นเซอร์ แต่พบว่าเซ็นเซอร์บันทึก "e" ในข้อมูลบางส่วนเพื่อระบุว่าเซ็นเซอร์เสียแทนที่จะเป็นตัวเลขทั่วไป ซึ่งหมายความว่าข้อมูลไม่สมบูรณ์ ตัวอย่างของข้อมูลที่ไม่มีโครงสร้าง: ไฟล์ข้อความ, ข้อความ, ไฟล์วิดีโอ ### ข้อมูลกึ่งโครงสร้าง ข้อมูลกึ่งโครงสร้างมีคุณสมบัติที่ทำให้เป็นการผสมผสานระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง โดยทั่วไปจะไม่เป็นไปตามรูปแบบของแถวและคอลัมน์ แต่มีการจัดระเบียบในลักษณะที่ถือว่าเป็นข้อมูลที่มีโครงสร้าง และอาจปฏิบัติตามรูปแบบหรือชุดกฎที่กำหนดไว้ โครงสร้างจะแตกต่างกันไปตามแหล่งที่มา เช่น ลำดับชั้นที่กำหนดไว้อย่างดีไปจนถึงสิ่งที่ยืดหยุ่นมากขึ้นที่ช่วยให้สามารถรวมข้อมูลใหม่ได้ง่าย เมตาดาต้าคือตัวบ่งชี้ที่ช่วยตัดสินใจว่าข้อมูลถูกจัดระเบียบและจัดเก็บอย่างไร และจะมีชื่อเรียกต่าง ๆ ตามประเภทของข้อมูล ชื่อทั่วไปสำหรับเมตาดาต้า ได้แก่ แท็ก, องค์ประกอบ, เอนทิตี และแอตทริบิวต์ ตัวอย่างเช่น ข้อความอีเมลทั่วไปจะมีหัวเรื่อง, เนื้อหา และชุดผู้รับ และสามารถจัดระเบียบตามผู้ส่งหรือเวลาที่ส่ง ตัวอย่างของข้อมูลกึ่งโครงสร้าง: HTML, ไฟล์ CSV, JavaScript Object Notation (JSON) ## แหล่งข้อมูล แหล่งข้อมูลคือสถานที่เริ่มต้นที่ข้อมูลถูกสร้างขึ้น หรือที่ที่ข้อมูล "อยู่" และจะแตกต่างกันไปตามวิธีการและเวลาที่รวบรวม ข้อมูลที่สร้างโดยผู้ใช้เรียกว่าข้อมูลปฐมภูมิ ในขณะที่ข้อมูลทุติยภูมิมาจากแหล่งที่รวบรวมข้อมูลเพื่อการใช้งานทั่วไป ตัวอย่างเช่น กลุ่มนักวิทยาศาสตร์ที่รวบรวมการสังเกตในป่าฝนจะถือว่าเป็นข้อมูลปฐมภูมิ และหากพวกเขาตัดสินใจแบ่งปันกับนักวิทยาศาสตร์คนอื่น ๆ จะถือว่าเป็นข้อมูลทุติยภูมิสำหรับผู้ที่ใช้มัน ฐานข้อมูลเป็นแหล่งข้อมูลทั่วไปและอาศัยระบบจัดการฐานข้อมูลเพื่อโฮสต์และดูแลข้อมูล โดยที่ผู้ใช้ใช้คำสั่งที่เรียกว่าคำสั่งค้นหาเพื่อสำรวจข้อมูล ไฟล์ในฐานะแหล่งข้อมูลสามารถเป็นไฟล์เสียง, รูปภาพ และวิดีโอ รวมถึงสเปรดชีต เช่น Excel แหล่งข้อมูลทางอินเทอร์เน็ตเป็นสถานที่ทั่วไปสำหรับการโฮสต์ข้อมูล ซึ่งสามารถพบได้ทั้งฐานข้อมูลและไฟล์ ส่วนอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน หรือที่รู้จักกันในชื่อ API ช่วยให้นักพัฒนาสร้างวิธีการแบ่งปันข้อมูลกับผู้ใช้ภายนอกผ่านอินเทอร์เน็ต ในขณะที่กระบวนการดึงข้อมูลจากเว็บเพจเรียกว่าการดึงข้อมูลจากเว็บ [บทเรียนในหัวข้อการทำงานกับข้อมูล](../../../../../../../../../2-Working-With-Data) มุ่งเน้นไปที่วิธีการใช้แหล่งข้อมูลต่าง ๆ ## สรุป ในบทเรียนนี้เราได้เรียนรู้: - ข้อมูลคืออะไร - วิธีการอธิบายข้อมูล - วิธีการจัดประเภทและจัดหมวดหมู่ข้อมูล - สถานที่ที่สามารถพบข้อมูลได้ ## 🚀 ความท้าทาย Kaggle เป็นแหล่งข้อมูลเปิดที่ยอดเยี่ยม ใช้ [เครื่องมือค้นหาชุดข้อมูล](https://www.kaggle.com/datasets) เพื่อค้นหาชุดข้อมูลที่น่าสนใจและจัดประเภทชุดข้อมูล 3-5 ชุดด้วยเกณฑ์นี้: - ข้อมูลเป็นเชิงปริมาณหรือเชิงคุณภาพ? - ข้อมูลเป็นแบบมีโครงสร้าง, ไม่มีโครงสร้าง หรือกึ่งโครงสร้าง? ## [แบบทดสอบหลังเรียน](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5) ## ทบทวนและศึกษาด้วยตนเอง - หน่วย Microsoft Learn ที่มีชื่อว่า [Classify your Data](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data) มีการอธิบายรายละเอียดเกี่ยวกับข้อมูลที่มีโครงสร้าง, กึ่งโครงสร้าง และไม่มีโครงสร้าง ## งานที่ได้รับมอบหมาย [การจัดประเภทชุดข้อมูล](assignment.md) --- **ข้อจำกัดความรับผิดชอบ**: เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้