You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/th/4-Data-Science-Lifecycle/15-analyzing
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

วงจรชีวิตของวิทยาศาสตร์ข้อมูล: การวิเคราะห์

 สเก็ตโน้ตโดย (@sketchthedocs)
วงจรชีวิตของวิทยาศาสตร์ข้อมูล: การวิเคราะห์ - สเก็ตโน้ตโดย @nitya

แบบทดสอบก่อนเรียน

การวิเคราะห์ในวงจรชีวิตของข้อมูลช่วยยืนยันว่าข้อมูลสามารถตอบคำถามที่ตั้งไว้หรือแก้ปัญหาเฉพาะได้ ขั้นตอนนี้ยังมุ่งเน้นไปที่การยืนยันว่าโมเดลสามารถตอบคำถามและแก้ปัญหาเหล่านี้ได้อย่างถูกต้อง บทเรียนนี้เน้นที่การวิเคราะห์ข้อมูลเชิงสำรวจ (Exploratory Data Analysis หรือ EDA) ซึ่งเป็นเทคนิคสำหรับการกำหนดคุณลักษณะและความสัมพันธ์ภายในข้อมูล และสามารถใช้เตรียมข้อมูลสำหรับการสร้างโมเดล

เราจะใช้ชุดข้อมูลตัวอย่างจาก Kaggle เพื่อแสดงให้เห็นว่าสามารถนำไปใช้กับ Python และไลบรารี Pandas ได้อย่างไร ชุดข้อมูลนี้ประกอบด้วยจำนวนคำทั่วไปที่พบในอีเมล โดยแหล่งที่มาของอีเมลเหล่านี้เป็นแบบไม่ระบุชื่อ ใช้ notebook ในไดเรกทอรีนี้เพื่อทำตาม

การวิเคราะห์ข้อมูลเชิงสำรวจ

ขั้นตอนการเก็บข้อมูลในวงจรชีวิตคือการได้มาซึ่งข้อมูล รวมถึงปัญหาและคำถามที่เกี่ยวข้อง แต่เราจะรู้ได้อย่างไรว่าข้อมูลสามารถช่วยสนับสนุนผลลัพธ์สุดท้ายได้?
จำไว้ว่า นักวิทยาศาสตร์ข้อมูลอาจถามคำถามต่อไปนี้เมื่อพวกเขาได้รับข้อมูล:

  • ฉันมีข้อมูลเพียงพอที่จะแก้ปัญหานี้หรือไม่?
  • ข้อมูลมีคุณภาพที่ยอมรับได้สำหรับปัญหานี้หรือไม่?
  • หากฉันค้นพบข้อมูลเพิ่มเติมผ่านข้อมูลนี้ เราควรพิจารณาเปลี่ยนแปลงหรือกำหนดเป้าหมายใหม่หรือไม่?

การวิเคราะห์ข้อมูลเชิงสำรวจเป็นกระบวนการทำความรู้จักกับข้อมูล และสามารถใช้ตอบคำถามเหล่านี้ รวมถึงระบุความท้าทายในการทำงานกับชุดข้อมูล มาดูเทคนิคบางอย่างที่ใช้ในการบรรลุเป้าหมายนี้กัน

การทำโปรไฟล์ข้อมูล สถิติเชิงพรรณนา และ Pandas

เราจะประเมินได้อย่างไรว่ามีข้อมูลเพียงพอที่จะแก้ปัญหานี้? การทำโปรไฟล์ข้อมูลสามารถสรุปและรวบรวมข้อมูลทั่วไปเกี่ยวกับชุดข้อมูลของเราได้ผ่านเทคนิคของสถิติเชิงพรรณนา การทำโปรไฟล์ข้อมูลช่วยให้เราเข้าใจสิ่งที่มีอยู่ และสถิติเชิงพรรณนาช่วยให้เราเข้าใจว่ามีสิ่งเหล่านี้มากน้อยเพียงใด

ในบทเรียนก่อนหน้านี้ เราได้ใช้ Pandas เพื่อให้ข้อมูลสถิติเชิงพรรณนาบางอย่างด้วยฟังก์ชัน describe() ซึ่งให้ข้อมูลจำนวนสูงสุดและต่ำสุด ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน และควอไทล์ในข้อมูลเชิงตัวเลข การใช้สถิติเชิงพรรณนา เช่น ฟังก์ชัน describe() สามารถช่วยคุณประเมินว่ามีข้อมูลมากน้อยเพียงใด และคุณต้องการข้อมูลเพิ่มเติมหรือไม่

การสุ่มตัวอย่างและการสืบค้นข้อมูล

การสำรวจทุกอย่างในชุดข้อมูลขนาดใหญ่อาจใช้เวลานานมาก และมักเป็นงานที่ปล่อยให้คอมพิวเตอร์ทำ อย่างไรก็ตาม การสุ่มตัวอย่างเป็นเครื่องมือที่มีประโยชน์ในการทำความเข้าใจข้อมูล และช่วยให้เราเข้าใจได้ดีขึ้นว่ามีอะไรอยู่ในชุดข้อมูลและมันแสดงถึงอะไร ด้วยตัวอย่างข้อมูล คุณสามารถใช้ความน่าจะเป็นและสถิติเพื่อสรุปผลทั่วไปเกี่ยวกับข้อมูลของคุณ แม้ว่าจะไม่มีกฎที่กำหนดไว้ว่าคุณควรสุ่มตัวอย่างข้อมูลมากน้อยเพียงใด แต่สิ่งสำคัญคือต้องทราบว่ายิ่งคุณสุ่มตัวอย่างข้อมูลมากเท่าใด คุณก็ยิ่งสามารถสรุปผลทั่วไปเกี่ยวกับข้อมูลได้แม่นยำมากขึ้นเท่านั้น

Pandas มีฟังก์ชัน sample() ในไลบรารี ซึ่งคุณสามารถส่งอาร์กิวเมนต์ว่าต้องการตัวอย่างแบบสุ่มจำนวนเท่าใด

การสืบค้นข้อมูลทั่วไปสามารถช่วยคุณตอบคำถามและทฤษฎีทั่วไปที่คุณอาจมีได้ ในทางตรงกันข้ามกับการสุ่มตัวอย่าง การสืบค้นช่วยให้คุณควบคุมและมุ่งเน้นไปที่ส่วนเฉพาะของข้อมูลที่คุณมีคำถามเกี่ยวกับมัน
ฟังก์ชัน query() ในไลบรารี Pandas ช่วยให้คุณเลือกคอลัมน์และรับคำตอบง่ายๆ เกี่ยวกับข้อมูลผ่านแถวที่ดึงมา

การสำรวจด้วยการสร้างภาพ

คุณไม่จำเป็นต้องรอจนกว่าข้อมูลจะถูกทำความสะอาดและวิเคราะห์อย่างละเอียดเพื่อเริ่มสร้างภาพข้อมูล ในความเป็นจริง การมีตัวแทนภาพในขณะที่สำรวจสามารถช่วยระบุรูปแบบ ความสัมพันธ์ และปัญหาในข้อมูลได้ นอกจากนี้ การสร้างภาพยังเป็นวิธีการสื่อสารกับผู้ที่ไม่ได้มีส่วนร่วมในการจัดการข้อมูล และสามารถเป็นโอกาสในการแบ่งปันและชี้แจงคำถามเพิ่มเติมที่ไม่ได้รับการแก้ไขในขั้นตอนการเก็บข้อมูล ดู ส่วนเกี่ยวกับการสร้างภาพข้อมูล เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการยอดนิยมในการสำรวจด้วยภาพ

การสำรวจเพื่อระบุความไม่สอดคล้องกัน

หัวข้อทั้งหมดในบทเรียนนี้สามารถช่วยระบุค่าที่หายไปหรือไม่สอดคล้องกัน แต่ Pandas มีฟังก์ชันที่ช่วยตรวจสอบบางส่วน เช่น isna() หรือ isnull() ซึ่งสามารถตรวจสอบค่าที่หายไปได้ สิ่งสำคัญอย่างหนึ่งของการสำรวจค่าที่หายไปในข้อมูลของคุณคือการสำรวจว่าทำไมมันถึงเป็นแบบนั้นตั้งแต่แรก สิ่งนี้สามารถช่วยคุณตัดสินใจว่าจะ ดำเนินการอย่างไรเพื่อแก้ไขปัญหาเหล่านี้

แบบทดสอบหลังเรียน

งานที่ได้รับมอบหมาย

การสำรวจเพื่อหาคำตอบ


ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้