21 KiB
การแนะนำวิทยาศาสตร์ข้อมูลในระบบคลาวด์
![]() |
---|
วิทยาศาสตร์ข้อมูลในระบบคลาวด์: การแนะนำ - Sketchnote โดย @nitya |
ในบทเรียนนี้ คุณจะได้เรียนรู้หลักการพื้นฐานของระบบคลาวด์ จากนั้นคุณจะเห็นว่าทำไมการใช้บริการคลาวด์จึงน่าสนใจสำหรับการดำเนินโครงการวิทยาศาสตร์ข้อมูล และเราจะดูตัวอย่างบางส่วนของโครงการวิทยาศาสตร์ข้อมูลที่ดำเนินการในระบบคลาวด์
แบบทดสอบก่อนเรียน
ระบบคลาวด์คืออะไร?
ระบบคลาวด์ หรือการประมวลผลแบบคลาวด์ คือการให้บริการคอมพิวเตอร์หลากหลายรูปแบบที่คิดค่าบริการตามการใช้งาน ซึ่งโฮสต์อยู่บนโครงสร้างพื้นฐานผ่านอินเทอร์เน็ต บริการเหล่านี้รวมถึงโซลูชันต่างๆ เช่น การจัดเก็บข้อมูล ฐานข้อมูล เครือข่าย ซอฟต์แวร์ การวิเคราะห์ และบริการอัจฉริยะ
โดยทั่วไป เรามักแบ่งระบบคลาวด์ออกเป็น 3 ประเภท ได้แก่ คลาวด์สาธารณะ คลาวด์ส่วนตัว และคลาวด์แบบผสม ดังนี้:
- คลาวด์สาธารณะ: คลาวด์สาธารณะเป็นของและดำเนินการโดยผู้ให้บริการคลาวด์บุคคลที่สาม ซึ่งให้ทรัพยากรคอมพิวเตอร์ผ่านอินเทอร์เน็ตแก่สาธารณะ
- คลาวด์ส่วนตัว: หมายถึงทรัพยากรการประมวลผลแบบคลาวด์ที่ใช้โดยธุรกิจหรือองค์กรเดียวเท่านั้น โดยมีบริการและโครงสร้างพื้นฐานที่ดูแลบนเครือข่ายส่วนตัว
- คลาวด์แบบผสม: คลาวด์แบบผสมคือระบบที่รวมคลาวด์สาธารณะและคลาวด์ส่วนตัวเข้าด้วยกัน ผู้ใช้สามารถเลือกใช้ศูนย์ข้อมูลในองค์กร ในขณะเดียวกันก็สามารถให้ข้อมูลและแอปพลิเคชันทำงานบนคลาวด์สาธารณะหนึ่งหรือหลายแห่ง
บริการการประมวลผลแบบคลาวด์ส่วนใหญ่แบ่งออกเป็นสามประเภท ได้แก่ โครงสร้างพื้นฐานเป็นบริการ (IaaS), แพลตฟอร์มเป็นบริการ (PaaS) และซอฟต์แวร์เป็นบริการ (SaaS)
- โครงสร้างพื้นฐานเป็นบริการ (IaaS): ผู้ใช้เช่าโครงสร้างพื้นฐานด้านไอที เช่น เซิร์ฟเวอร์และเครื่องเสมือน (VMs), การจัดเก็บข้อมูล, เครือข่าย, ระบบปฏิบัติการ
- แพลตฟอร์มเป็นบริการ (PaaS): ผู้ใช้เช่าสภาพแวดล้อมสำหรับการพัฒนา ทดสอบ ส่งมอบ และจัดการแอปพลิเคชันซอฟต์แวร์ โดยไม่ต้องกังวลเกี่ยวกับการตั้งค่าหรือการจัดการโครงสร้างพื้นฐานพื้นฐาน เช่น เซิร์ฟเวอร์ การจัดเก็บข้อมูล เครือข่าย และฐานข้อมูลที่จำเป็นสำหรับการพัฒนา
- ซอฟต์แวร์เป็นบริการ (SaaS): ผู้ใช้สามารถเข้าถึงแอปพลิเคชันซอฟต์แวร์ผ่านอินเทอร์เน็ตตามความต้องการ และมักจะเป็นแบบสมัครสมาชิก ผู้ใช้ไม่ต้องกังวลเกี่ยวกับการโฮสต์และการจัดการแอปพลิเคชันซอฟต์แวร์ โครงสร้างพื้นฐานพื้นฐาน หรือการบำรุงรักษา เช่น การอัปเกรดซอฟต์แวร์และการแก้ไขปัญหาด้านความปลอดภัย
ผู้ให้บริการคลาวด์รายใหญ่ที่สุดบางราย ได้แก่ Amazon Web Services, Google Cloud Platform และ Microsoft Azure
ทำไมถึงเลือกใช้ระบบคลาวด์สำหรับวิทยาศาสตร์ข้อมูล?
นักพัฒนาและผู้เชี่ยวชาญด้านไอทีเลือกทำงานกับระบบคลาวด์ด้วยเหตุผลหลายประการ รวมถึง:
- นวัตกรรม: คุณสามารถเพิ่มพลังให้กับแอปพลิเคชันของคุณโดยการรวมบริการนวัตกรรมที่สร้างโดยผู้ให้บริการคลาวด์เข้ากับแอปของคุณโดยตรง
- ความยืดหยุ่น: คุณจ่ายเฉพาะบริการที่คุณต้องการและสามารถเลือกจากบริการที่หลากหลาย โดยทั่วไปคุณจ่ายตามการใช้งานและปรับบริการตามความต้องการที่เปลี่ยนแปลงไป
- งบประมาณ: คุณไม่จำเป็นต้องลงทุนเริ่มต้นเพื่อซื้อฮาร์ดแวร์และซอฟต์แวร์ ตั้งค่าและดำเนินการศูนย์ข้อมูลในองค์กร คุณสามารถจ่ายเฉพาะสิ่งที่คุณใช้
- การปรับขนาด: ทรัพยากรของคุณสามารถปรับขนาดตามความต้องการของโครงการ ซึ่งหมายความว่าแอปของคุณสามารถใช้พลังการประมวลผล การจัดเก็บ และแบนด์วิดท์มากหรือน้อย โดยปรับให้เข้ากับปัจจัยภายนอกในเวลาใดก็ตาม
- ประสิทธิภาพ: คุณสามารถมุ่งเน้นไปที่ธุรกิจของคุณแทนที่จะเสียเวลาไปกับงานที่สามารถจัดการโดยผู้อื่น เช่น การจัดการศูนย์ข้อมูล
- ความน่าเชื่อถือ: การประมวลผลแบบคลาวด์มีวิธีการหลายรูปแบบในการสำรองข้อมูลของคุณอย่างต่อเนื่อง และคุณสามารถตั้งค่าแผนการกู้คืนจากภัยพิบัติเพื่อให้ธุรกิจและบริการของคุณดำเนินต่อไปได้ แม้ในช่วงวิกฤต
- ความปลอดภัย: คุณสามารถได้รับประโยชน์จากนโยบาย เทคโนโลยี และการควบคุมที่ช่วยเสริมความปลอดภัยให้กับโครงการของคุณ
นี่เป็นเหตุผลทั่วไปบางประการที่ทำให้ผู้คนเลือกใช้บริการคลาวด์ ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับระบบคลาวด์และประโยชน์หลักของมันแล้ว ลองมาดูงานของนักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่ทำงานกับข้อมูล และวิธีที่ระบบคลาวด์สามารถช่วยพวกเขาแก้ไขปัญหาต่างๆ ที่อาจเผชิญ:
- การจัดเก็บข้อมูลจำนวนมาก: แทนที่จะซื้อ จัดการ และปกป้องเซิร์ฟเวอร์ขนาดใหญ่ คุณสามารถจัดเก็บข้อมูลของคุณโดยตรงในระบบคลาวด์ ด้วยโซลูชัน เช่น Azure Cosmos DB, Azure SQL Database และ Azure Data Lake Storage
- การรวมข้อมูล: การรวมข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล ที่ช่วยให้คุณเปลี่ยนจากการรวบรวมข้อมูลไปสู่การดำเนินการ ด้วยบริการการรวมข้อมูลที่มีในระบบคลาวด์ คุณสามารถรวบรวม แปลง และรวมข้อมูลจากแหล่งต่างๆ เข้าสู่คลังข้อมูลเดียว ด้วย Data Factory
- การประมวลผลข้อมูล: การประมวลผลข้อมูลจำนวนมากต้องการพลังการประมวลผลจำนวนมาก และไม่ใช่ทุกคนที่สามารถเข้าถึงเครื่องที่มีประสิทธิภาพเพียงพอสำหรับสิ่งนั้น ซึ่งเป็นเหตุผลว่าทำไมหลายคนจึงเลือกใช้พลังการประมวลผลมหาศาลของระบบคลาวด์โดยตรงเพื่อดำเนินการและปรับใช้โซลูชันของพวกเขา
- การใช้บริการวิเคราะห์ข้อมูล: บริการคลาวด์ เช่น Azure Synapse Analytics, Azure Stream Analytics และ Azure Databricks ช่วยให้คุณเปลี่ยนข้อมูลของคุณให้เป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริง
- การใช้บริการแมชชีนเลิร์นนิงและข้อมูลอัจฉริยะ: แทนที่จะเริ่มต้นจากศูนย์ คุณสามารถใช้อัลกอริทึมแมชชีนเลิร์นนิงที่ผู้ให้บริการคลาวด์นำเสนอ ด้วยบริการ เช่น AzureML คุณยังสามารถใช้บริการค็อกนิทีฟ เช่น การแปลงเสียงเป็นข้อความ การแปลงข้อความเป็นเสียง การมองเห็นด้วยคอมพิวเตอร์ และอื่นๆ
ตัวอย่างวิทยาศาสตร์ข้อมูลในระบบคลาวด์
ลองทำให้สิ่งนี้เป็นรูปธรรมมากขึ้นโดยดูจากสถานการณ์สองสามตัวอย่าง
การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์
เราจะเริ่มต้นด้วยสถานการณ์ที่มักถูกศึกษาโดยผู้ที่เริ่มต้นกับแมชชีนเลิร์นนิง: การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์
สมมติว่าคุณดำเนินเว็บไซต์ข่าวและต้องการใช้ข้อมูลสดเพื่อทำความเข้าใจว่าผู้อ่านของคุณสนใจเนื้อหาใดบ้าง เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถสร้างโปรแกรมที่ทำการวิเคราะห์ความรู้สึกแบบเรียลไทม์ของข้อมูลจากการเผยแพร่ใน Twitter ในหัวข้อที่เกี่ยวข้องกับผู้อ่านของคุณ
ตัวชี้วัดสำคัญที่คุณจะดูคือปริมาณของทวีตในหัวข้อเฉพาะ (แฮชแท็ก) และความรู้สึก ซึ่งถูกกำหนดโดยใช้เครื่องมือวิเคราะห์ที่ทำการวิเคราะห์ความรู้สึกเกี่ยวกับหัวข้อที่ระบุ
ขั้นตอนที่จำเป็นในการสร้างโครงการนี้มีดังนี้:
- สร้างฮับเหตุการณ์สำหรับการสตรีมข้อมูลเข้า ซึ่งจะรวบรวมข้อมูลจาก Twitter
- กำหนดค่าและเริ่มต้นแอปพลิเคชันไคลเอนต์ Twitter ซึ่งจะเรียก API การสตรีมของ Twitter
- สร้างงาน Stream Analytics
- ระบุข้อมูลเข้าและคำสั่งค้นหาของงาน
- สร้างปลายทางเอาต์พุตและระบุผลลัพธ์ของงาน
- เริ่มต้นงาน
เพื่อดูขั้นตอนทั้งหมด โปรดดู เอกสารประกอบ
การวิเคราะห์เอกสารวิชาการ
ลองดูตัวอย่างอีกหนึ่งโครงการที่สร้างโดย Dmitry Soshnikov หนึ่งในผู้เขียนหลักสูตรนี้
Dmitry สร้างเครื่องมือที่วิเคราะห์เอกสารเกี่ยวกับ COVID โดยการตรวจสอบโครงการนี้ คุณจะเห็นวิธีการสร้างเครื่องมือที่ดึงความรู้จากเอกสารวิชาการ ได้รับข้อมูลเชิงลึก และช่วยนักวิจัยนำทางผ่านคอลเลกชันเอกสารจำนวนมากได้อย่างมีประสิทธิภาพ
ลองดูขั้นตอนต่างๆ ที่ใช้ในโครงการนี้:
- การดึงและการประมวลผลข้อมูลเบื้องต้นด้วย Text Analytics for Health
- การใช้ Azure ML เพื่อประมวลผลแบบขนาน
- การจัดเก็บและการค้นหาข้อมูลด้วย Cosmos DB
- สร้างแดชบอร์ดแบบโต้ตอบสำหรับการสำรวจและการแสดงผลข้อมูลด้วย Power BI
เพื่อดูขั้นตอนทั้งหมด โปรดเยี่ยมชม บล็อกของ Dmitry
ดังที่คุณเห็น เราสามารถใช้บริการคลาวด์ในหลายวิธีเพื่อดำเนินการวิทยาศาสตร์ข้อมูล
หมายเหตุท้ายบท
แหล่งข้อมูล:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
แบบทดสอบหลังเรียน
แบบทดสอบหลังเรียน
งานที่ได้รับมอบหมาย
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้