# การแนะนำวิทยาศาสตร์ข้อมูลในระบบคลาวด์ |![ Sketchnote โดย [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/17-DataScience-Cloud.png)| |:---:| | วิทยาศาสตร์ข้อมูลในระบบคลาวด์: การแนะนำ - _Sketchnote โดย [@nitya](https://twitter.com/nitya)_ | ในบทเรียนนี้ คุณจะได้เรียนรู้หลักการพื้นฐานของระบบคลาวด์ จากนั้นคุณจะเห็นว่าทำไมการใช้บริการคลาวด์จึงน่าสนใจสำหรับการดำเนินโครงการวิทยาศาสตร์ข้อมูล และเราจะดูตัวอย่างบางส่วนของโครงการวิทยาศาสตร์ข้อมูลที่ดำเนินการในระบบคลาวด์ ## [แบบทดสอบก่อนเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/32) ## ระบบคลาวด์คืออะไร? ระบบคลาวด์ หรือการประมวลผลแบบคลาวด์ คือการให้บริการคอมพิวเตอร์หลากหลายรูปแบบที่คิดค่าบริการตามการใช้งาน ซึ่งโฮสต์อยู่บนโครงสร้างพื้นฐานผ่านอินเทอร์เน็ต บริการเหล่านี้รวมถึงโซลูชันต่างๆ เช่น การจัดเก็บข้อมูล ฐานข้อมูล เครือข่าย ซอฟต์แวร์ การวิเคราะห์ และบริการอัจฉริยะ โดยทั่วไป เรามักแบ่งระบบคลาวด์ออกเป็น 3 ประเภท ได้แก่ คลาวด์สาธารณะ คลาวด์ส่วนตัว และคลาวด์แบบผสม ดังนี้: * **คลาวด์สาธารณะ**: คลาวด์สาธารณะเป็นของและดำเนินการโดยผู้ให้บริการคลาวด์บุคคลที่สาม ซึ่งให้ทรัพยากรคอมพิวเตอร์ผ่านอินเทอร์เน็ตแก่สาธารณะ * **คลาวด์ส่วนตัว**: หมายถึงทรัพยากรการประมวลผลแบบคลาวด์ที่ใช้โดยธุรกิจหรือองค์กรเดียวเท่านั้น โดยมีบริการและโครงสร้างพื้นฐานที่ดูแลบนเครือข่ายส่วนตัว * **คลาวด์แบบผสม**: คลาวด์แบบผสมคือระบบที่รวมคลาวด์สาธารณะและคลาวด์ส่วนตัวเข้าด้วยกัน ผู้ใช้สามารถเลือกใช้ศูนย์ข้อมูลในองค์กร ในขณะเดียวกันก็สามารถให้ข้อมูลและแอปพลิเคชันทำงานบนคลาวด์สาธารณะหนึ่งหรือหลายแห่ง บริการการประมวลผลแบบคลาวด์ส่วนใหญ่แบ่งออกเป็นสามประเภท ได้แก่ โครงสร้างพื้นฐานเป็นบริการ (IaaS), แพลตฟอร์มเป็นบริการ (PaaS) และซอฟต์แวร์เป็นบริการ (SaaS) * **โครงสร้างพื้นฐานเป็นบริการ (IaaS)**: ผู้ใช้เช่าโครงสร้างพื้นฐานด้านไอที เช่น เซิร์ฟเวอร์และเครื่องเสมือน (VMs), การจัดเก็บข้อมูล, เครือข่าย, ระบบปฏิบัติการ * **แพลตฟอร์มเป็นบริการ (PaaS)**: ผู้ใช้เช่าสภาพแวดล้อมสำหรับการพัฒนา ทดสอบ ส่งมอบ และจัดการแอปพลิเคชันซอฟต์แวร์ โดยไม่ต้องกังวลเกี่ยวกับการตั้งค่าหรือการจัดการโครงสร้างพื้นฐานพื้นฐาน เช่น เซิร์ฟเวอร์ การจัดเก็บข้อมูล เครือข่าย และฐานข้อมูลที่จำเป็นสำหรับการพัฒนา * **ซอฟต์แวร์เป็นบริการ (SaaS)**: ผู้ใช้สามารถเข้าถึงแอปพลิเคชันซอฟต์แวร์ผ่านอินเทอร์เน็ตตามความต้องการ และมักจะเป็นแบบสมัครสมาชิก ผู้ใช้ไม่ต้องกังวลเกี่ยวกับการโฮสต์และการจัดการแอปพลิเคชันซอฟต์แวร์ โครงสร้างพื้นฐานพื้นฐาน หรือการบำรุงรักษา เช่น การอัปเกรดซอฟต์แวร์และการแก้ไขปัญหาด้านความปลอดภัย ผู้ให้บริการคลาวด์รายใหญ่ที่สุดบางราย ได้แก่ Amazon Web Services, Google Cloud Platform และ Microsoft Azure ## ทำไมถึงเลือกใช้ระบบคลาวด์สำหรับวิทยาศาสตร์ข้อมูล? นักพัฒนาและผู้เชี่ยวชาญด้านไอทีเลือกทำงานกับระบบคลาวด์ด้วยเหตุผลหลายประการ รวมถึง: * **นวัตกรรม**: คุณสามารถเพิ่มพลังให้กับแอปพลิเคชันของคุณโดยการรวมบริการนวัตกรรมที่สร้างโดยผู้ให้บริการคลาวด์เข้ากับแอปของคุณโดยตรง * **ความยืดหยุ่น**: คุณจ่ายเฉพาะบริการที่คุณต้องการและสามารถเลือกจากบริการที่หลากหลาย โดยทั่วไปคุณจ่ายตามการใช้งานและปรับบริการตามความต้องการที่เปลี่ยนแปลงไป * **งบประมาณ**: คุณไม่จำเป็นต้องลงทุนเริ่มต้นเพื่อซื้อฮาร์ดแวร์และซอฟต์แวร์ ตั้งค่าและดำเนินการศูนย์ข้อมูลในองค์กร คุณสามารถจ่ายเฉพาะสิ่งที่คุณใช้ * **การปรับขนาด**: ทรัพยากรของคุณสามารถปรับขนาดตามความต้องการของโครงการ ซึ่งหมายความว่าแอปของคุณสามารถใช้พลังการประมวลผล การจัดเก็บ และแบนด์วิดท์มากหรือน้อย โดยปรับให้เข้ากับปัจจัยภายนอกในเวลาใดก็ตาม * **ประสิทธิภาพ**: คุณสามารถมุ่งเน้นไปที่ธุรกิจของคุณแทนที่จะเสียเวลาไปกับงานที่สามารถจัดการโดยผู้อื่น เช่น การจัดการศูนย์ข้อมูล * **ความน่าเชื่อถือ**: การประมวลผลแบบคลาวด์มีวิธีการหลายรูปแบบในการสำรองข้อมูลของคุณอย่างต่อเนื่อง และคุณสามารถตั้งค่าแผนการกู้คืนจากภัยพิบัติเพื่อให้ธุรกิจและบริการของคุณดำเนินต่อไปได้ แม้ในช่วงวิกฤต * **ความปลอดภัย**: คุณสามารถได้รับประโยชน์จากนโยบาย เทคโนโลยี และการควบคุมที่ช่วยเสริมความปลอดภัยให้กับโครงการของคุณ นี่เป็นเหตุผลทั่วไปบางประการที่ทำให้ผู้คนเลือกใช้บริการคลาวด์ ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับระบบคลาวด์และประโยชน์หลักของมันแล้ว ลองมาดูงานของนักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่ทำงานกับข้อมูล และวิธีที่ระบบคลาวด์สามารถช่วยพวกเขาแก้ไขปัญหาต่างๆ ที่อาจเผชิญ: * **การจัดเก็บข้อมูลจำนวนมาก**: แทนที่จะซื้อ จัดการ และปกป้องเซิร์ฟเวอร์ขนาดใหญ่ คุณสามารถจัดเก็บข้อมูลของคุณโดยตรงในระบบคลาวด์ ด้วยโซลูชัน เช่น Azure Cosmos DB, Azure SQL Database และ Azure Data Lake Storage * **การรวมข้อมูล**: การรวมข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล ที่ช่วยให้คุณเปลี่ยนจากการรวบรวมข้อมูลไปสู่การดำเนินการ ด้วยบริการการรวมข้อมูลที่มีในระบบคลาวด์ คุณสามารถรวบรวม แปลง และรวมข้อมูลจากแหล่งต่างๆ เข้าสู่คลังข้อมูลเดียว ด้วย Data Factory * **การประมวลผลข้อมูล**: การประมวลผลข้อมูลจำนวนมากต้องการพลังการประมวลผลจำนวนมาก และไม่ใช่ทุกคนที่สามารถเข้าถึงเครื่องที่มีประสิทธิภาพเพียงพอสำหรับสิ่งนั้น ซึ่งเป็นเหตุผลว่าทำไมหลายคนจึงเลือกใช้พลังการประมวลผลมหาศาลของระบบคลาวด์โดยตรงเพื่อดำเนินการและปรับใช้โซลูชันของพวกเขา * **การใช้บริการวิเคราะห์ข้อมูล**: บริการคลาวด์ เช่น Azure Synapse Analytics, Azure Stream Analytics และ Azure Databricks ช่วยให้คุณเปลี่ยนข้อมูลของคุณให้เป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริง * **การใช้บริการแมชชีนเลิร์นนิงและข้อมูลอัจฉริยะ**: แทนที่จะเริ่มต้นจากศูนย์ คุณสามารถใช้อัลกอริทึมแมชชีนเลิร์นนิงที่ผู้ให้บริการคลาวด์นำเสนอ ด้วยบริการ เช่น AzureML คุณยังสามารถใช้บริการค็อกนิทีฟ เช่น การแปลงเสียงเป็นข้อความ การแปลงข้อความเป็นเสียง การมองเห็นด้วยคอมพิวเตอร์ และอื่นๆ ## ตัวอย่างวิทยาศาสตร์ข้อมูลในระบบคลาวด์ ลองทำให้สิ่งนี้เป็นรูปธรรมมากขึ้นโดยดูจากสถานการณ์สองสามตัวอย่าง ### การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์ เราจะเริ่มต้นด้วยสถานการณ์ที่มักถูกศึกษาโดยผู้ที่เริ่มต้นกับแมชชีนเลิร์นนิง: การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์ สมมติว่าคุณดำเนินเว็บไซต์ข่าวและต้องการใช้ข้อมูลสดเพื่อทำความเข้าใจว่าผู้อ่านของคุณสนใจเนื้อหาใดบ้าง เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถสร้างโปรแกรมที่ทำการวิเคราะห์ความรู้สึกแบบเรียลไทม์ของข้อมูลจากการเผยแพร่ใน Twitter ในหัวข้อที่เกี่ยวข้องกับผู้อ่านของคุณ ตัวชี้วัดสำคัญที่คุณจะดูคือปริมาณของทวีตในหัวข้อเฉพาะ (แฮชแท็ก) และความรู้สึก ซึ่งถูกกำหนดโดยใช้เครื่องมือวิเคราะห์ที่ทำการวิเคราะห์ความรู้สึกเกี่ยวกับหัวข้อที่ระบุ ขั้นตอนที่จำเป็นในการสร้างโครงการนี้มีดังนี้: * สร้างฮับเหตุการณ์สำหรับการสตรีมข้อมูลเข้า ซึ่งจะรวบรวมข้อมูลจาก Twitter * กำหนดค่าและเริ่มต้นแอปพลิเคชันไคลเอนต์ Twitter ซึ่งจะเรียก API การสตรีมของ Twitter * สร้างงาน Stream Analytics * ระบุข้อมูลเข้าและคำสั่งค้นหาของงาน * สร้างปลายทางเอาต์พุตและระบุผลลัพธ์ของงาน * เริ่มต้นงาน เพื่อดูขั้นตอนทั้งหมด โปรดดู [เอกสารประกอบ](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099) ### การวิเคราะห์เอกสารวิชาการ ลองดูตัวอย่างอีกหนึ่งโครงการที่สร้างโดย [Dmitry Soshnikov](http://soshnikov.com) หนึ่งในผู้เขียนหลักสูตรนี้ Dmitry สร้างเครื่องมือที่วิเคราะห์เอกสารเกี่ยวกับ COVID โดยการตรวจสอบโครงการนี้ คุณจะเห็นวิธีการสร้างเครื่องมือที่ดึงความรู้จากเอกสารวิชาการ ได้รับข้อมูลเชิงลึก และช่วยนักวิจัยนำทางผ่านคอลเลกชันเอกสารจำนวนมากได้อย่างมีประสิทธิภาพ ลองดูขั้นตอนต่างๆ ที่ใช้ในโครงการนี้: * การดึงและการประมวลผลข้อมูลเบื้องต้นด้วย [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * การใช้ [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) เพื่อประมวลผลแบบขนาน * การจัดเก็บและการค้นหาข้อมูลด้วย [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * สร้างแดชบอร์ดแบบโต้ตอบสำหรับการสำรวจและการแสดงผลข้อมูลด้วย Power BI เพื่อดูขั้นตอนทั้งหมด โปรดเยี่ยมชม [บล็อกของ Dmitry](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) ดังที่คุณเห็น เราสามารถใช้บริการคลาวด์ในหลายวิธีเพื่อดำเนินการวิทยาศาสตร์ข้อมูล ## หมายเหตุท้ายบท แหล่งข้อมูล: * https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109 * https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109 * https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/ ## แบบทดสอบหลังเรียน ## [แบบทดสอบหลังเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/33) ## งานที่ได้รับมอบหมาย [การวิจัยตลาด](assignment.md) --- **ข้อจำกัดความรับผิดชอบ**: เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้