You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/th/1-Introduction/03-defining-data/README.md

20 KiB

การกำหนดข้อมูล

 Sketchnote โดย (@sketchthedocs)
การกำหนดข้อมูล - Sketchnote โดย @nitya

ข้อมูลคือข้อเท็จจริง, ข้อมูล, การสังเกต และการวัดผลที่ถูกใช้เพื่อค้นพบสิ่งใหม่ ๆ และสนับสนุนการตัดสินใจที่มีข้อมูลประกอบ จุดข้อมูลคือหน่วยเดียวของข้อมูลในชุดข้อมูล ซึ่งเป็นการรวบรวมจุดข้อมูล ชุดข้อมูลอาจมีรูปแบบและโครงสร้างที่แตกต่างกัน และมักจะขึ้นอยู่กับแหล่งที่มา หรือที่มาของข้อมูล ตัวอย่างเช่น รายได้รายเดือนของบริษัทอาจอยู่ในรูปแบบสเปรดชีต แต่ข้อมูลอัตราการเต้นของหัวใจรายชั่วโมงจากสมาร์ทวอทช์อาจอยู่ในรูปแบบ JSON เป็นเรื่องปกติที่นักวิทยาศาสตร์ข้อมูลจะทำงานกับข้อมูลประเภทต่าง ๆ ภายในชุดข้อมูลเดียวกัน

บทเรียนนี้มุ่งเน้นไปที่การระบุและจัดประเภทข้อมูลตามลักษณะและแหล่งที่มาของข้อมูล

แบบทดสอบก่อนเรียน

วิธีการอธิบายข้อมูล

ข้อมูลดิบ

ข้อมูลดิบคือข้อมูลที่มาจากแหล่งที่มาในสภาพเริ่มต้นและยังไม่ได้รับการวิเคราะห์หรือจัดระเบียบ เพื่อให้เข้าใจสิ่งที่เกิดขึ้นในชุดข้อมูล จำเป็นต้องจัดระเบียบข้อมูลให้อยู่ในรูปแบบที่มนุษย์และเทคโนโลยีที่ใช้วิเคราะห์สามารถเข้าใจได้ โครงสร้างของชุดข้อมูลอธิบายถึงวิธีการจัดระเบียบและสามารถจัดประเภทเป็นข้อมูลที่มีโครงสร้าง, ไม่มีโครงสร้าง และกึ่งโครงสร้าง ประเภทของโครงสร้างเหล่านี้จะแตกต่างกันไปตามแหล่งที่มา แต่สุดท้ายจะอยู่ในสามประเภทนี้

ข้อมูลเชิงปริมาณ

ข้อมูลเชิงปริมาณคือการสังเกตเชิงตัวเลขภายในชุดข้อมูล และมักจะสามารถวิเคราะห์, วัดผล และใช้ในทางคณิตศาสตร์ ตัวอย่างของข้อมูลเชิงปริมาณ ได้แก่ ประชากรของประเทศ, ความสูงของบุคคล หรือรายได้รายไตรมาสของบริษัท ด้วยการวิเคราะห์เพิ่มเติม ข้อมูลเชิงปริมาณสามารถใช้ค้นหาแนวโน้มตามฤดูกาลของดัชนีคุณภาพอากาศ (AQI) หรือประมาณความน่าจะเป็นของการจราจรในชั่วโมงเร่งด่วนในวันทำงานทั่วไป

ข้อมูลเชิงคุณภาพ

ข้อมูลเชิงคุณภาพ หรือที่รู้จักกันในชื่อข้อมูลเชิงหมวดหมู่ คือข้อมูลที่ไม่สามารถวัดผลได้อย่างเป็นวัตถุวิสัยเหมือนการสังเกตข้อมูลเชิงปริมาณ โดยทั่วไปแล้วจะเป็นข้อมูลเชิงอัตวิสัยในรูปแบบต่าง ๆ ที่จับคุณภาพของบางสิ่ง เช่น ผลิตภัณฑ์หรือกระบวนการ บางครั้งข้อมูลเชิงคุณภาพเป็นตัวเลข แต่ไม่ได้ถูกใช้ในทางคณิตศาสตร์ เช่น หมายเลขโทรศัพท์หรือเวลาประทับ ตัวอย่างของข้อมูลเชิงคุณภาพ ได้แก่ ความคิดเห็นในวิดีโอ, ยี่ห้อและรุ่นของรถ หรือสีโปรดของเพื่อนสนิท ข้อมูลเชิงคุณภาพสามารถใช้เพื่อทำความเข้าใจว่าผลิตภัณฑ์ใดที่ผู้บริโภคชื่นชอบมากที่สุด หรือระบุคำสำคัญยอดนิยมในประวัติการสมัครงาน

ข้อมูลที่มีโครงสร้าง

ข้อมูลที่มีโครงสร้างคือข้อมูลที่ถูกจัดระเบียบในรูปแบบแถวและคอลัมน์ โดยที่แต่ละแถวจะมีชุดคอลัมน์เดียวกัน คอลัมน์แสดงค่าของประเภทเฉพาะและจะถูกระบุด้วยชื่อที่อธิบายว่าค่าแสดงถึงอะไร ในขณะที่แถวมีค่าจริง คอลัมน์มักจะมีชุดกฎหรือข้อจำกัดเฉพาะเกี่ยวกับค่า เพื่อให้แน่ใจว่าค่าแสดงถึงคอลัมน์อย่างถูกต้อง ตัวอย่างเช่น ลองนึกภาพสเปรดชีตของลูกค้า โดยที่แต่ละแถวต้องมีหมายเลขโทรศัพท์ และหมายเลขโทรศัพท์จะไม่มีตัวอักษร อาจมีกฎที่ใช้กับคอลัมน์หมายเลขโทรศัพท์เพื่อให้แน่ใจว่าไม่มีช่องว่างและมีเพียงตัวเลขเท่านั้น

ข้อดีของข้อมูลที่มีโครงสร้างคือสามารถจัดระเบียบในลักษณะที่สามารถเชื่อมโยงกับข้อมูลที่มีโครงสร้างอื่น ๆ ได้ อย่างไรก็ตาม เนื่องจากข้อมูลถูกออกแบบมาให้จัดระเบียบในรูปแบบเฉพาะ การเปลี่ยนแปลงโครงสร้างโดยรวมอาจใช้ความพยายามมาก ตัวอย่างเช่น การเพิ่มคอลัมน์อีเมลในสเปรดชีตลูกค้าที่ไม่สามารถว่างเปล่าได้ หมายความว่าคุณต้องหาวิธีเพิ่มค่าลงในแถวที่มีอยู่ของลูกค้าในชุดข้อมูล

ตัวอย่างของข้อมูลที่มีโครงสร้าง: สเปรดชีต, ฐานข้อมูลเชิงสัมพันธ์, หมายเลขโทรศัพท์, รายการเดินบัญชีธนาคาร

ข้อมูลที่ไม่มีโครงสร้าง

ข้อมูลที่ไม่มีโครงสร้างมักไม่สามารถจัดหมวดหมู่เป็นแถวหรือคอลัมน์ และไม่มีรูปแบบหรือชุดกฎที่ต้องปฏิบัติตาม เนื่องจากข้อมูลที่ไม่มีโครงสร้างมีข้อจำกัดน้อยกว่าในโครงสร้าง จึงง่ายต่อการเพิ่มข้อมูลใหม่เมื่อเปรียบเทียบกับชุดข้อมูลที่มีโครงสร้าง หากเซ็นเซอร์ที่จับข้อมูลความดันบรรยากาศทุก ๆ 2 นาทีได้รับการอัปเดตที่อนุญาตให้วัดและบันทึกอุณหภูมิ ก็ไม่จำเป็นต้องเปลี่ยนแปลงข้อมูลที่มีอยู่หากเป็นข้อมูลที่ไม่มีโครงสร้าง อย่างไรก็ตาม อาจทำให้การวิเคราะห์หรือการตรวจสอบข้อมูลประเภทนี้ใช้เวลานานขึ้น ตัวอย่างเช่น นักวิทยาศาสตร์ที่ต้องการหาค่าเฉลี่ยอุณหภูมิของเดือนก่อนจากข้อมูลเซ็นเซอร์ แต่พบว่าเซ็นเซอร์บันทึก "e" ในข้อมูลบางส่วนเพื่อระบุว่าเซ็นเซอร์เสียแทนที่จะเป็นตัวเลขทั่วไป ซึ่งหมายความว่าข้อมูลไม่สมบูรณ์

ตัวอย่างของข้อมูลที่ไม่มีโครงสร้าง: ไฟล์ข้อความ, ข้อความ, ไฟล์วิดีโอ

ข้อมูลกึ่งโครงสร้าง

ข้อมูลกึ่งโครงสร้างมีลักษณะที่ทำให้เป็นการผสมผสานระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง โดยทั่วไปจะไม่เป็นไปตามรูปแบบของแถวและคอลัมน์ แต่ถูกจัดระเบียบในลักษณะที่ถือว่าเป็นข้อมูลที่มีโครงสร้าง และอาจปฏิบัติตามรูปแบบหรือชุดกฎที่กำหนด โครงสร้างจะแตกต่างกันไปตามแหล่งที่มา เช่น ลำดับชั้นที่กำหนดไว้อย่างดี ไปจนถึงสิ่งที่ยืดหยุ่นมากขึ้นที่อนุญาตให้เพิ่มข้อมูลใหม่ได้ง่าย เมตาดาต้าคือตัวบ่งชี้ที่ช่วยตัดสินใจว่าข้อมูลถูกจัดระเบียบและจัดเก็บอย่างไร และจะมีชื่อเรียกต่าง ๆ ตามประเภทของข้อมูล ชื่อทั่วไปสำหรับเมตาดาต้า ได้แก่ แท็ก, องค์ประกอบ, เอนทิตี และแอตทริบิวต์ ตัวอย่างเช่น ข้อความอีเมลทั่วไปจะมีหัวเรื่อง, เนื้อหา และชุดผู้รับ และสามารถจัดระเบียบตามผู้ส่งหรือเวลาที่ส่ง

ตัวอย่างของข้อมูลกึ่งโครงสร้าง: HTML, ไฟล์ CSV, JavaScript Object Notation (JSON)

แหล่งข้อมูล

แหล่งข้อมูลคือสถานที่เริ่มต้นที่ข้อมูลถูกสร้างขึ้น หรือที่ที่ข้อมูล "อยู่" และจะแตกต่างกันไปตามวิธีการและเวลาที่ข้อมูลถูกเก็บรวบรวม ข้อมูลที่ถูกสร้างขึ้นโดยผู้ใช้เรียกว่าข้อมูลปฐมภูมิ ในขณะที่ข้อมูลทุติยภูมิมาจากแหล่งที่รวบรวมข้อมูลเพื่อการใช้งานทั่วไป ตัวอย่างเช่น กลุ่มนักวิทยาศาสตร์ที่รวบรวมการสังเกตในป่าฝนจะถือว่าเป็นข้อมูลปฐมภูมิ และหากพวกเขาตัดสินใจแบ่งปันข้อมูลกับนักวิทยาศาสตร์คนอื่น ๆ ข้อมูลนั้นจะถือว่าเป็นข้อมูลทุติยภูมิสำหรับผู้ที่ใช้มัน

ฐานข้อมูลเป็นแหล่งข้อมูลทั่วไปและอาศัยระบบจัดการฐานข้อมูลเพื่อโฮสต์และดูแลข้อมูล โดยที่ผู้ใช้ใช้คำสั่งที่เรียกว่าคำสั่งค้นหาเพื่อสำรวจข้อมูล ไฟล์ในฐานะแหล่งข้อมูลสามารถเป็นไฟล์เสียง, รูปภาพ และวิดีโอ รวมถึงสเปรดชีต เช่น Excel แหล่งข้อมูลทางอินเทอร์เน็ตเป็นสถานที่ทั่วไปสำหรับการโฮสต์ข้อมูล โดยที่ฐานข้อมูลและไฟล์สามารถพบได้ อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน หรือที่รู้จักกันในชื่อ API อนุญาตให้นักพัฒนาโปรแกรมสร้างวิธีการแบ่งปันข้อมูลกับผู้ใช้ภายนอกผ่านอินเทอร์เน็ต ในขณะที่กระบวนการดึงข้อมูลจากเว็บเพจเรียกว่าการดึงข้อมูลจากเว็บ บทเรียนในหัวข้อการทำงานกับข้อมูล มุ่งเน้นไปที่วิธีการใช้แหล่งข้อมูลต่าง ๆ

สรุป

ในบทเรียนนี้เราได้เรียนรู้:

  • ข้อมูลคืออะไร
  • วิธีการอธิบายข้อมูล
  • วิธีการจัดประเภทและจัดหมวดหมู่ข้อมูล
  • สถานที่ที่สามารถพบข้อมูลได้

🚀 ความท้าทาย

Kaggle เป็นแหล่งข้อมูลเปิดที่ยอดเยี่ยม ใช้ เครื่องมือค้นหาชุดข้อมูล เพื่อค้นหาชุดข้อมูลที่น่าสนใจ และจัดประเภทชุดข้อมูล 3-5 ชุดด้วยเกณฑ์นี้:

  • ข้อมูลเป็นเชิงปริมาณหรือเชิงคุณภาพ?
  • ข้อมูลเป็นแบบมีโครงสร้าง, ไม่มีโครงสร้าง หรือกึ่งโครงสร้าง?

แบบทดสอบหลังเรียน

ทบทวนและศึกษาด้วยตนเอง

  • หน่วย Microsoft Learn ที่ชื่อว่า Classify your Data มีการอธิบายรายละเอียดเกี่ยวกับข้อมูลที่มีโครงสร้าง, กึ่งโครงสร้าง และไม่มีโครงสร้าง

งานที่ได้รับมอบหมาย

การจัดประเภทชุดข้อมูล


ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้