# บทนำสู่วงจรชีวิตของวิทยาศาสตร์ข้อมูล |![ สเก็ตช์โน้ตโดย [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/14-DataScience-Lifecycle.png)| |:---:| | บทนำสู่วงจรชีวิตของวิทยาศาสตร์ข้อมูล - _สเก็ตช์โน้ตโดย [@nitya](https://twitter.com/nitya)_ | ## [แบบทดสอบก่อนเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/26) ถึงจุดนี้ คุณอาจตระหนักแล้วว่าวิทยาศาสตร์ข้อมูลเป็นกระบวนการ กระบวนการนี้สามารถแบ่งออกเป็น 5 ขั้นตอน: - การเก็บข้อมูล - การประมวลผล - การวิเคราะห์ - การสื่อสาร - การบำรุงรักษา บทเรียนนี้จะเน้นที่ 3 ส่วนของวงจรชีวิต: การเก็บข้อมูล การประมวลผล และการบำรุงรักษา ![แผนภาพของวงจรชีวิตวิทยาศาสตร์ข้อมูล](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.th.jpg) > ภาพโดย [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) ## การเก็บข้อมูล ขั้นตอนแรกของวงจรชีวิตมีความสำคัญมาก เนื่องจากขั้นตอนถัดไปจะขึ้นอยู่กับขั้นตอนนี้ มันเป็นการรวมสองขั้นตอนเข้าด้วยกัน: การได้มาซึ่งข้อมูลและการกำหนดวัตถุประสงค์และปัญหาที่ต้องแก้ไข การกำหนดเป้าหมายของโครงการจะต้องมีความเข้าใจในบริบทของปัญหาหรือคำถามอย่างลึกซึ้ง ก่อนอื่นเราต้องระบุและเข้าถึงผู้ที่ต้องการแก้ปัญหา อาจเป็นผู้มีส่วนได้ส่วนเสียในธุรกิจหรือผู้สนับสนุนโครงการ ซึ่งสามารถช่วยระบุว่าใครหรืออะไรจะได้รับประโยชน์จากโครงการนี้ รวมถึงสิ่งที่พวกเขาต้องการและเหตุผล เป้าหมายที่กำหนดไว้อย่างดีควรสามารถวัดผลและระบุผลลัพธ์ที่ยอมรับได้ คำถามที่นักวิทยาศาสตร์ข้อมูลอาจถาม: - ปัญหานี้เคยถูกแก้ไขมาก่อนหรือไม่? มีการค้นพบอะไรบ้าง? - ทุกคนเข้าใจวัตถุประสงค์และเป้าหมายหรือไม่? - มีความคลุมเครือหรือไม่ และจะลดความคลุมเครือนั้นได้อย่างไร? - มีข้อจำกัดอะไรบ้าง? - ผลลัพธ์สุดท้ายจะมีลักษณะอย่างไร? - มีทรัพยากร (เวลา คน เครื่องมือคำนวณ) เพียงพอหรือไม่? ขั้นตอนถัดไปคือการระบุ รวบรวม และสำรวจข้อมูลที่จำเป็นเพื่อให้บรรลุเป้าหมายที่กำหนดไว้ ในขั้นตอนการได้มานี้ นักวิทยาศาสตร์ข้อมูลต้องประเมินปริมาณและคุณภาพของข้อมูลด้วย ซึ่งต้องมีการสำรวจข้อมูลเพื่อยืนยันว่าข้อมูลที่ได้มานั้นจะสนับสนุนการบรรลุผลลัพธ์ที่ต้องการ คำถามที่นักวิทยาศาสตร์ข้อมูลอาจถามเกี่ยวกับข้อมูล: - ข้อมูลใดที่มีอยู่แล้วสำหรับฉัน? - ใครเป็นเจ้าของข้อมูลนี้? - มีข้อกังวลด้านความเป็นส่วนตัวหรือไม่? - ข้อมูลเพียงพอสำหรับแก้ปัญหานี้หรือไม่? - ข้อมูลมีคุณภาพที่ยอมรับได้สำหรับปัญหานี้หรือไม่? - หากค้นพบข้อมูลเพิ่มเติมจากข้อมูลนี้ ควรพิจารณาเปลี่ยนแปลงหรือกำหนดเป้าหมายใหม่หรือไม่? ## การประมวลผล ขั้นตอนการประมวลผลในวงจรชีวิตมุ่งเน้นไปที่การค้นหารูปแบบในข้อมูลและการสร้างแบบจำลอง เทคนิคบางอย่างที่ใช้ในขั้นตอนนี้ต้องใช้วิธีการทางสถิติเพื่อค้นหารูปแบบ โดยทั่วไปแล้วจะเป็นงานที่น่าเบื่อสำหรับมนุษย์เมื่อจัดการกับชุดข้อมูลขนาดใหญ่ และจะพึ่งพาคอมพิวเตอร์เพื่อช่วยเร่งกระบวนการ ขั้นตอนนี้ยังเป็นจุดที่วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง (Machine Learning) มาบรรจบกัน ดังที่คุณได้เรียนรู้ในบทเรียนแรก การเรียนรู้ของเครื่องคือกระบวนการสร้างแบบจำลองเพื่อทำความเข้าใจกับข้อมูล แบบจำลองเป็นตัวแทนของความสัมพันธ์ระหว่างตัวแปรในข้อมูลที่ช่วยทำนายผลลัพธ์ เทคนิคทั่วไปที่ใช้ในขั้นตอนนี้ครอบคลุมในหลักสูตร ML for Beginners สามารถติดตามลิงก์เพื่อเรียนรู้เพิ่มเติม: - [การจัดหมวดหมู่ (Classification)](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): การจัดระเบียบข้อมูลเป็นหมวดหมู่เพื่อการใช้งานที่มีประสิทธิภาพมากขึ้น - [การจัดกลุ่ม (Clustering)](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): การจัดกลุ่มข้อมูลที่มีความคล้ายคลึงกัน - [การถดถอย (Regression)](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): การหาความสัมพันธ์ระหว่างตัวแปรเพื่อทำนายหรือคาดการณ์ค่า ## การบำรุงรักษา ในแผนภาพของวงจรชีวิต คุณอาจสังเกตเห็นว่าการบำรุงรักษาอยู่ระหว่างการเก็บข้อมูลและการประมวลผล การบำรุงรักษาเป็นกระบวนการต่อเนื่องในการจัดการ จัดเก็บ และรักษาความปลอดภัยของข้อมูลตลอดกระบวนการของโครงการ และควรได้รับการพิจารณาตลอดทั้งโครงการ ### การจัดเก็บข้อมูล การพิจารณาว่าจะจัดเก็บข้อมูลอย่างไรและที่ไหนสามารถส่งผลต่อค่าใช้จ่ายในการจัดเก็บ รวมถึงประสิทธิภาพของการเข้าถึงข้อมูล การตัดสินใจเหล่านี้อาจไม่ได้ทำโดยนักวิทยาศาสตร์ข้อมูลเพียงคนเดียว แต่พวกเขาอาจต้องเลือกวิธีการทำงานกับข้อมูลตามวิธีการจัดเก็บ นี่คือแง่มุมบางประการของระบบจัดเก็บข้อมูลสมัยใหม่ที่อาจส่งผลต่อการตัดสินใจ: **ในสถานที่ (On premise) กับนอกสถานที่ (Off premise) กับคลาวด์สาธารณะหรือส่วนตัว** ในสถานที่หมายถึงการโฮสต์และจัดการข้อมูลบนอุปกรณ์ของคุณเอง เช่น การเป็นเจ้าของเซิร์ฟเวอร์ที่มีฮาร์ดไดรฟ์สำหรับจัดเก็บข้อมูล ในขณะที่นอกสถานที่พึ่งพาอุปกรณ์ที่คุณไม่ได้เป็นเจ้าของ เช่น ศูนย์ข้อมูล คลาวด์สาธารณะเป็นตัวเลือกยอดนิยมสำหรับการจัดเก็บข้อมูลที่ไม่ต้องการความรู้เกี่ยวกับวิธีหรือสถานที่จัดเก็บข้อมูลอย่างแน่ชัด โดย "สาธารณะ" หมายถึงโครงสร้างพื้นฐานพื้นฐานที่ใช้ร่วมกันโดยทุกคนที่ใช้คลาวด์ องค์กรบางแห่งมีนโยบายความปลอดภัยที่เข้มงวดซึ่งกำหนดให้พวกเขาต้องเข้าถึงอุปกรณ์ที่โฮสต์ข้อมูลได้อย่างสมบูรณ์ และจะพึ่งพาคลาวด์ส่วนตัวที่ให้บริการคลาวด์ของตนเอง คุณจะได้เรียนรู้เพิ่มเติมเกี่ยวกับข้อมูลในคลาวด์ใน [บทเรียนถัดไป](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud) **ข้อมูลเย็น (Cold data) กับข้อมูลร้อน (Hot data)** เมื่อฝึกอบรมแบบจำลองของคุณ คุณอาจต้องการข้อมูลการฝึกอบรมเพิ่มเติม หากคุณพอใจกับแบบจำลองของคุณแล้ว ข้อมูลเพิ่มเติมจะมาถึงเพื่อให้แบบจำลองทำหน้าที่ของมันได้ ในกรณีใดก็ตาม ค่าใช้จ่ายในการจัดเก็บและเข้าถึงข้อมูลจะเพิ่มขึ้นเมื่อคุณสะสมข้อมูลมากขึ้น การแยกข้อมูลที่ไม่ค่อยได้ใช้งาน หรือที่เรียกว่าข้อมูลเย็น ออกจากข้อมูลที่เข้าถึงบ่อย หรือข้อมูลร้อน อาจเป็นตัวเลือกการจัดเก็บข้อมูลที่ถูกกว่าผ่านฮาร์ดแวร์หรือบริการซอฟต์แวร์ หากต้องการเข้าถึงข้อมูลเย็น อาจใช้เวลานานกว่าเมื่อเทียบกับข้อมูลร้อน ### การจัดการข้อมูล เมื่อคุณทำงานกับข้อมูล คุณอาจค้นพบว่าข้อมูลบางส่วนจำเป็นต้องได้รับการทำความสะอาดโดยใช้เทคนิคบางอย่างที่ครอบคลุมในบทเรียนเกี่ยวกับ [การเตรียมข้อมูล](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) เพื่อสร้างแบบจำลองที่แม่นยำ เมื่อมีข้อมูลใหม่เข้ามา จะต้องใช้แอปพลิเคชันเดียวกันเพื่อรักษาความสม่ำเสมอในคุณภาพ โครงการบางโครงการจะเกี่ยวข้องกับการใช้เครื่องมืออัตโนมัติสำหรับการทำความสะอาด การรวมข้อมูล และการบีบอัดก่อนที่ข้อมูลจะถูกย้ายไปยังตำแหน่งสุดท้าย Azure Data Factory เป็นตัวอย่างหนึ่งของเครื่องมือเหล่านี้ ### การรักษาความปลอดภัยของข้อมูล หนึ่งในเป้าหมายหลักของการรักษาความปลอดภัยข้อมูลคือการทำให้แน่ใจว่าผู้ที่ทำงานกับข้อมูลสามารถควบคุมสิ่งที่ถูกรวบรวมและบริบทที่ใช้ได้ การรักษาความปลอดภัยข้อมูลเกี่ยวข้องกับการจำกัดการเข้าถึงเฉพาะผู้ที่ต้องการข้อมูลเท่านั้น การปฏิบัติตามกฎหมายและข้อบังคับในท้องถิ่น รวมถึงการรักษามาตรฐานทางจริยธรรม ดังที่ครอบคลุมใน [บทเรียนจริยธรรม](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics) นี่คือสิ่งที่ทีมอาจทำโดยคำนึงถึงความปลอดภัย: - ยืนยันว่าข้อมูลทั้งหมดถูกเข้ารหัส - ให้ข้อมูลแก่ลูกค้าเกี่ยวกับวิธีการใช้ข้อมูลของพวกเขา - ลบการเข้าถึงข้อมูลจากผู้ที่ออกจากโครงการ - อนุญาตให้เฉพาะสมาชิกโครงการบางคนแก้ไขข้อมูล ## 🚀 ความท้าทาย มีหลายเวอร์ชันของวงจรชีวิตวิทยาศาสตร์ข้อมูล ซึ่งแต่ละขั้นตอนอาจมีชื่อและจำนวนขั้นตอนที่แตกต่างกัน แต่จะมีกระบวนการเดียวกันที่กล่าวถึงในบทเรียนนี้ สำรวจ [วงจรชีวิต Team Data Science Process](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) และ [กระบวนการมาตรฐานข้ามอุตสาหกรรมสำหรับการทำเหมืองข้อมูล (CRISP-DM)](https://www.datascience-pm.com/crisp-dm-2/) ระบุ 3 ความเหมือนและความแตกต่างระหว่างทั้งสอง |Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)| |--|--| |![วงจรชีวิต Team Data Science](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.th.png) | ![ภาพจาก Data Science Process Alliance](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.th.png) | | ภาพโดย [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | ภาพโดย [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) | ## [แบบทดสอบหลังเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/27) ## ทบทวนและศึกษาด้วยตนเอง การประยุกต์ใช้วงจรชีวิตวิทยาศาสตร์ข้อมูลเกี่ยวข้องกับบทบาทและงานหลายอย่าง ซึ่งบางบทบาทอาจมุ่งเน้นไปที่บางส่วนของแต่ละขั้นตอน Team Data Science Process มีทรัพยากรบางอย่างที่อธิบายประเภทของบทบาทและงานที่ใครบางคนอาจมีในโครงการ * [บทบาทและงานใน Team Data Science Process](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks) * [ดำเนินการงานวิทยาศาสตร์ข้อมูล: การสำรวจ การสร้างแบบจำลอง และการปรับใช้](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks) ## การบ้าน [การประเมินชุดข้อมูล](assignment.md) --- **ข้อจำกัดความรับผิดชอบ**: เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้