21 KiB

Raw Permalink Blame History

การแนะนำวิทยาศาสตร์ข้อมูลในระบบคลาวด์


วิทยาศาสตร์ข้อมูลในระบบคลาวด์: การแนะนำ - Sketchnote โดย @nitya

ในบทเรียนนี้ คุณจะได้เรียนรู้หลักการพื้นฐานของระบบคลาวด์ จากนั้นคุณจะเห็นว่าทำไมการใช้บริการคลาวด์จึงน่าสนใจสำหรับการดำเนินโครงการวิทยาศาสตร์ข้อมูล และเราจะดูตัวอย่างบางส่วนของโครงการวิทยาศาสตร์ข้อมูลที่ดำเนินการในระบบคลาวด์

แบบทดสอบก่อนเรียน

ระบบคลาวด์คืออะไร?

ระบบคลาวด์ หรือการประมวลผลแบบคลาวด์ คือการให้บริการคอมพิวเตอร์หลากหลายรูปแบบที่คิดค่าบริการตามการใช้งาน ซึ่งโฮสต์อยู่บนโครงสร้างพื้นฐานผ่านอินเทอร์เน็ต บริการเหล่านี้รวมถึงโซลูชันต่างๆ เช่น การจัดเก็บข้อมูล ฐานข้อมูล เครือข่าย ซอฟต์แวร์ การวิเคราะห์ และบริการอัจฉริยะ

โดยทั่วไป เรามักแบ่งระบบคลาวด์ออกเป็น 3 ประเภท ได้แก่ คลาวด์สาธารณะ คลาวด์ส่วนตัว และคลาวด์แบบผสม ดังนี้:

คลาวด์สาธารณะ: คลาวด์สาธารณะเป็นของและดำเนินการโดยผู้ให้บริการคลาวด์บุคคลที่สาม ซึ่งให้ทรัพยากรคอมพิวเตอร์ผ่านอินเทอร์เน็ตแก่สาธารณะ
คลาวด์ส่วนตัว: หมายถึงทรัพยากรการประมวลผลแบบคลาวด์ที่ใช้โดยธุรกิจหรือองค์กรเดียวเท่านั้น โดยมีบริการและโครงสร้างพื้นฐานที่ดูแลบนเครือข่ายส่วนตัว
คลาวด์แบบผสม: คลาวด์แบบผสมคือระบบที่รวมคลาวด์สาธารณะและคลาวด์ส่วนตัวเข้าด้วยกัน ผู้ใช้สามารถเลือกใช้ศูนย์ข้อมูลในองค์กร ในขณะเดียวกันก็สามารถให้ข้อมูลและแอปพลิเคชันทำงานบนคลาวด์สาธารณะหนึ่งหรือหลายแห่ง

บริการการประมวลผลแบบคลาวด์ส่วนใหญ่แบ่งออกเป็นสามประเภท ได้แก่ โครงสร้างพื้นฐานเป็นบริการ (IaaS), แพลตฟอร์มเป็นบริการ (PaaS) และซอฟต์แวร์เป็นบริการ (SaaS)

โครงสร้างพื้นฐานเป็นบริการ (IaaS): ผู้ใช้เช่าโครงสร้างพื้นฐานด้านไอที เช่น เซิร์ฟเวอร์และเครื่องเสมือน (VMs), การจัดเก็บข้อมูล, เครือข่าย, ระบบปฏิบัติการ
แพลตฟอร์มเป็นบริการ (PaaS): ผู้ใช้เช่าสภาพแวดล้อมสำหรับการพัฒนา ทดสอบ ส่งมอบ และจัดการแอปพลิเคชันซอฟต์แวร์ โดยไม่ต้องกังวลเกี่ยวกับการตั้งค่าหรือการจัดการโครงสร้างพื้นฐานพื้นฐาน เช่น เซิร์ฟเวอร์ การจัดเก็บข้อมูล เครือข่าย และฐานข้อมูลที่จำเป็นสำหรับการพัฒนา
ซอฟต์แวร์เป็นบริการ (SaaS): ผู้ใช้สามารถเข้าถึงแอปพลิเคชันซอฟต์แวร์ผ่านอินเทอร์เน็ตตามความต้องการ และมักจะเป็นแบบสมัครสมาชิก ผู้ใช้ไม่ต้องกังวลเกี่ยวกับการโฮสต์และการจัดการแอปพลิเคชันซอฟต์แวร์ โครงสร้างพื้นฐานพื้นฐาน หรือการบำรุงรักษา เช่น การอัปเกรดซอฟต์แวร์และการแก้ไขปัญหาด้านความปลอดภัย

ผู้ให้บริการคลาวด์รายใหญ่ที่สุดบางราย ได้แก่ Amazon Web Services, Google Cloud Platform และ Microsoft Azure

ทำไมถึงเลือกใช้ระบบคลาวด์สำหรับวิทยาศาสตร์ข้อมูล?

นักพัฒนาและผู้เชี่ยวชาญด้านไอทีเลือกทำงานกับระบบคลาวด์ด้วยเหตุผลหลายประการ รวมถึง:

นวัตกรรม: คุณสามารถเพิ่มพลังให้กับแอปพลิเคชันของคุณโดยการรวมบริการนวัตกรรมที่สร้างโดยผู้ให้บริการคลาวด์เข้ากับแอปของคุณโดยตรง
ความยืดหยุ่น: คุณจ่ายเฉพาะบริการที่คุณต้องการและสามารถเลือกจากบริการที่หลากหลาย โดยทั่วไปคุณจ่ายตามการใช้งานและปรับบริการตามความต้องการที่เปลี่ยนแปลงไป
งบประมาณ: คุณไม่จำเป็นต้องลงทุนเริ่มต้นเพื่อซื้อฮาร์ดแวร์และซอฟต์แวร์ ตั้งค่าและดำเนินการศูนย์ข้อมูลในองค์กร คุณสามารถจ่ายเฉพาะสิ่งที่คุณใช้
การปรับขนาด: ทรัพยากรของคุณสามารถปรับขนาดตามความต้องการของโครงการ ซึ่งหมายความว่าแอปของคุณสามารถใช้พลังการประมวลผล การจัดเก็บ และแบนด์วิดท์มากหรือน้อย โดยปรับให้เข้ากับปัจจัยภายนอกในเวลาใดก็ตาม
ประสิทธิภาพ: คุณสามารถมุ่งเน้นไปที่ธุรกิจของคุณแทนที่จะเสียเวลาไปกับงานที่สามารถจัดการโดยผู้อื่น เช่น การจัดการศูนย์ข้อมูล
ความน่าเชื่อถือ: การประมวลผลแบบคลาวด์มีวิธีการหลายรูปแบบในการสำรองข้อมูลของคุณอย่างต่อเนื่อง และคุณสามารถตั้งค่าแผนการกู้คืนจากภัยพิบัติเพื่อให้ธุรกิจและบริการของคุณดำเนินต่อไปได้ แม้ในช่วงวิกฤต
ความปลอดภัย: คุณสามารถได้รับประโยชน์จากนโยบาย เทคโนโลยี และการควบคุมที่ช่วยเสริมความปลอดภัยให้กับโครงการของคุณ

นี่เป็นเหตุผลทั่วไปบางประการที่ทำให้ผู้คนเลือกใช้บริการคลาวด์ ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับระบบคลาวด์และประโยชน์หลักของมันแล้ว ลองมาดูงานของนักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่ทำงานกับข้อมูล และวิธีที่ระบบคลาวด์สามารถช่วยพวกเขาแก้ไขปัญหาต่างๆ ที่อาจเผชิญ:

การจัดเก็บข้อมูลจำนวนมาก: แทนที่จะซื้อ จัดการ และปกป้องเซิร์ฟเวอร์ขนาดใหญ่ คุณสามารถจัดเก็บข้อมูลของคุณโดยตรงในระบบคลาวด์ ด้วยโซลูชัน เช่น Azure Cosmos DB, Azure SQL Database และ Azure Data Lake Storage
การรวมข้อมูล: การรวมข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล ที่ช่วยให้คุณเปลี่ยนจากการรวบรวมข้อมูลไปสู่การดำเนินการ ด้วยบริการการรวมข้อมูลที่มีในระบบคลาวด์ คุณสามารถรวบรวม แปลง และรวมข้อมูลจากแหล่งต่างๆ เข้าสู่คลังข้อมูลเดียว ด้วย Data Factory
การประมวลผลข้อมูล: การประมวลผลข้อมูลจำนวนมากต้องการพลังการประมวลผลจำนวนมาก และไม่ใช่ทุกคนที่สามารถเข้าถึงเครื่องที่มีประสิทธิภาพเพียงพอสำหรับสิ่งนั้น ซึ่งเป็นเหตุผลว่าทำไมหลายคนจึงเลือกใช้พลังการประมวลผลมหาศาลของระบบคลาวด์โดยตรงเพื่อดำเนินการและปรับใช้โซลูชันของพวกเขา
การใช้บริการวิเคราะห์ข้อมูล: บริการคลาวด์ เช่น Azure Synapse Analytics, Azure Stream Analytics และ Azure Databricks ช่วยให้คุณเปลี่ยนข้อมูลของคุณให้เป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริง
การใช้บริการแมชชีนเลิร์นนิงและข้อมูลอัจฉริยะ: แทนที่จะเริ่มต้นจากศูนย์ คุณสามารถใช้อัลกอริทึมแมชชีนเลิร์นนิงที่ผู้ให้บริการคลาวด์นำเสนอ ด้วยบริการ เช่น AzureML คุณยังสามารถใช้บริการค็อกนิทีฟ เช่น การแปลงเสียงเป็นข้อความ การแปลงข้อความเป็นเสียง การมองเห็นด้วยคอมพิวเตอร์ และอื่นๆ

ตัวอย่างวิทยาศาสตร์ข้อมูลในระบบคลาวด์

ลองทำให้สิ่งนี้เป็นรูปธรรมมากขึ้นโดยดูจากสถานการณ์สองสามตัวอย่าง

การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์

เราจะเริ่มต้นด้วยสถานการณ์ที่มักถูกศึกษาโดยผู้ที่เริ่มต้นกับแมชชีนเลิร์นนิง: การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์

สมมติว่าคุณดำเนินเว็บไซต์ข่าวและต้องการใช้ข้อมูลสดเพื่อทำความเข้าใจว่าผู้อ่านของคุณสนใจเนื้อหาใดบ้าง เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถสร้างโปรแกรมที่ทำการวิเคราะห์ความรู้สึกแบบเรียลไทม์ของข้อมูลจากการเผยแพร่ใน Twitter ในหัวข้อที่เกี่ยวข้องกับผู้อ่านของคุณ

ตัวชี้วัดสำคัญที่คุณจะดูคือปริมาณของทวีตในหัวข้อเฉพาะ (แฮชแท็ก) และความรู้สึก ซึ่งถูกกำหนดโดยใช้เครื่องมือวิเคราะห์ที่ทำการวิเคราะห์ความรู้สึกเกี่ยวกับหัวข้อที่ระบุ

ขั้นตอนที่จำเป็นในการสร้างโครงการนี้มีดังนี้:

สร้างฮับเหตุการณ์สำหรับการสตรีมข้อมูลเข้า ซึ่งจะรวบรวมข้อมูลจาก Twitter
กำหนดค่าและเริ่มต้นแอปพลิเคชันไคลเอนต์ Twitter ซึ่งจะเรียก API การสตรีมของ Twitter
สร้างงาน Stream Analytics
ระบุข้อมูลเข้าและคำสั่งค้นหาของงาน
สร้างปลายทางเอาต์พุตและระบุผลลัพธ์ของงาน
เริ่มต้นงาน

เพื่อดูขั้นตอนทั้งหมด โปรดดู เอกสารประกอบ

การวิเคราะห์เอกสารวิชาการ

ลองดูตัวอย่างอีกหนึ่งโครงการที่สร้างโดย Dmitry Soshnikov หนึ่งในผู้เขียนหลักสูตรนี้

Dmitry สร้างเครื่องมือที่วิเคราะห์เอกสารเกี่ยวกับ COVID โดยการตรวจสอบโครงการนี้ คุณจะเห็นวิธีการสร้างเครื่องมือที่ดึงความรู้จากเอกสารวิชาการ ได้รับข้อมูลเชิงลึก และช่วยนักวิจัยนำทางผ่านคอลเลกชันเอกสารจำนวนมากได้อย่างมีประสิทธิภาพ

ลองดูขั้นตอนต่างๆ ที่ใช้ในโครงการนี้:

การดึงและการประมวลผลข้อมูลเบื้องต้นด้วย Text Analytics for Health
การใช้ Azure ML เพื่อประมวลผลแบบขนาน
การจัดเก็บและการค้นหาข้อมูลด้วย Cosmos DB
สร้างแดชบอร์ดแบบโต้ตอบสำหรับการสำรวจและการแสดงผลข้อมูลด้วย Power BI

เพื่อดูขั้นตอนทั้งหมด โปรดเยี่ยมชม บล็อกของ Dmitry

ดังที่คุณเห็น เราสามารถใช้บริการคลาวด์ในหลายวิธีเพื่อดำเนินการวิทยาศาสตร์ข้อมูล

หมายเหตุท้ายบท

แหล่งข้อมูล:

แบบทดสอบหลังเรียน

งานที่ได้รับมอบหมาย

การวิจัยตลาด

ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้

21 KiB Raw Permalink Blame History

การแนะนำวิทยาศาสตร์ข้อมูลในระบบคลาวด์

แบบทดสอบก่อนเรียน

ระบบคลาวด์คืออะไร?

ทำไมถึงเลือกใช้ระบบคลาวด์สำหรับวิทยาศาสตร์ข้อมูล?

ตัวอย่างวิทยาศาสตร์ข้อมูลในระบบคลาวด์

การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์

การวิเคราะห์เอกสารวิชาการ

หมายเหตุท้ายบท

แบบทดสอบหลังเรียน

แบบทดสอบหลังเรียน

งานที่ได้รับมอบหมาย

21 KiB

Raw Permalink Blame History