You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
114 lines
21 KiB
114 lines
21 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "5f8e7cdefa096664ae86f795be571580",
|
|
"translation_date": "2025-09-05T21:24:18+00:00",
|
|
"source_file": "5-Data-Science-In-Cloud/17-Introduction/README.md",
|
|
"language_code": "th"
|
|
}
|
|
-->
|
|
# การแนะนำวิทยาศาสตร์ข้อมูลในระบบคลาวด์
|
|
|
|
| ](../../sketchnotes/17-DataScience-Cloud.png)|
|
|
|:---:|
|
|
| วิทยาศาสตร์ข้อมูลในระบบคลาวด์: การแนะนำ - _Sketchnote โดย [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
ในบทเรียนนี้ คุณจะได้เรียนรู้หลักการพื้นฐานของระบบคลาวด์ จากนั้นคุณจะเห็นว่าทำไมการใช้บริการคลาวด์จึงน่าสนใจสำหรับการดำเนินโครงการวิทยาศาสตร์ข้อมูล และเราจะดูตัวอย่างบางส่วนของโครงการวิทยาศาสตร์ข้อมูลที่ดำเนินการในระบบคลาวด์
|
|
|
|
## [แบบทดสอบก่อนเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/32)
|
|
|
|
## ระบบคลาวด์คืออะไร?
|
|
|
|
ระบบคลาวด์ หรือการประมวลผลแบบคลาวด์ คือการให้บริการคอมพิวเตอร์หลากหลายรูปแบบที่คิดค่าบริการตามการใช้งาน ซึ่งโฮสต์อยู่บนโครงสร้างพื้นฐานผ่านอินเทอร์เน็ต บริการเหล่านี้รวมถึงโซลูชันต่างๆ เช่น การจัดเก็บข้อมูล ฐานข้อมูล เครือข่าย ซอฟต์แวร์ การวิเคราะห์ และบริการอัจฉริยะ
|
|
|
|
โดยทั่วไป เรามักแบ่งระบบคลาวด์ออกเป็น 3 ประเภท ได้แก่ คลาวด์สาธารณะ คลาวด์ส่วนตัว และคลาวด์แบบผสม ดังนี้:
|
|
|
|
* **คลาวด์สาธารณะ**: คลาวด์สาธารณะเป็นของและดำเนินการโดยผู้ให้บริการคลาวด์บุคคลที่สาม ซึ่งให้ทรัพยากรคอมพิวเตอร์ผ่านอินเทอร์เน็ตแก่สาธารณะ
|
|
* **คลาวด์ส่วนตัว**: หมายถึงทรัพยากรการประมวลผลแบบคลาวด์ที่ใช้โดยธุรกิจหรือองค์กรเดียวเท่านั้น โดยมีบริการและโครงสร้างพื้นฐานที่ดูแลบนเครือข่ายส่วนตัว
|
|
* **คลาวด์แบบผสม**: คลาวด์แบบผสมคือระบบที่รวมคลาวด์สาธารณะและคลาวด์ส่วนตัวเข้าด้วยกัน ผู้ใช้สามารถเลือกใช้ศูนย์ข้อมูลในองค์กร ในขณะเดียวกันก็สามารถให้ข้อมูลและแอปพลิเคชันทำงานบนคลาวด์สาธารณะหนึ่งหรือหลายแห่ง
|
|
|
|
บริการการประมวลผลแบบคลาวด์ส่วนใหญ่แบ่งออกเป็นสามประเภท ได้แก่ โครงสร้างพื้นฐานเป็นบริการ (IaaS), แพลตฟอร์มเป็นบริการ (PaaS) และซอฟต์แวร์เป็นบริการ (SaaS)
|
|
|
|
* **โครงสร้างพื้นฐานเป็นบริการ (IaaS)**: ผู้ใช้เช่าโครงสร้างพื้นฐานด้านไอที เช่น เซิร์ฟเวอร์และเครื่องเสมือน (VMs), การจัดเก็บข้อมูล, เครือข่าย, ระบบปฏิบัติการ
|
|
* **แพลตฟอร์มเป็นบริการ (PaaS)**: ผู้ใช้เช่าสภาพแวดล้อมสำหรับการพัฒนา ทดสอบ ส่งมอบ และจัดการแอปพลิเคชันซอฟต์แวร์ โดยไม่ต้องกังวลเกี่ยวกับการตั้งค่าหรือการจัดการโครงสร้างพื้นฐานพื้นฐาน เช่น เซิร์ฟเวอร์ การจัดเก็บข้อมูล เครือข่าย และฐานข้อมูลที่จำเป็นสำหรับการพัฒนา
|
|
* **ซอฟต์แวร์เป็นบริการ (SaaS)**: ผู้ใช้สามารถเข้าถึงแอปพลิเคชันซอฟต์แวร์ผ่านอินเทอร์เน็ตตามความต้องการ และมักจะเป็นแบบสมัครสมาชิก ผู้ใช้ไม่ต้องกังวลเกี่ยวกับการโฮสต์และการจัดการแอปพลิเคชันซอฟต์แวร์ โครงสร้างพื้นฐานพื้นฐาน หรือการบำรุงรักษา เช่น การอัปเกรดซอฟต์แวร์และการแก้ไขปัญหาด้านความปลอดภัย
|
|
|
|
ผู้ให้บริการคลาวด์รายใหญ่ที่สุดบางราย ได้แก่ Amazon Web Services, Google Cloud Platform และ Microsoft Azure
|
|
|
|
## ทำไมถึงเลือกใช้ระบบคลาวด์สำหรับวิทยาศาสตร์ข้อมูล?
|
|
|
|
นักพัฒนาและผู้เชี่ยวชาญด้านไอทีเลือกทำงานกับระบบคลาวด์ด้วยเหตุผลหลายประการ รวมถึง:
|
|
|
|
* **นวัตกรรม**: คุณสามารถเพิ่มพลังให้กับแอปพลิเคชันของคุณโดยการรวมบริการนวัตกรรมที่สร้างโดยผู้ให้บริการคลาวด์เข้ากับแอปของคุณโดยตรง
|
|
* **ความยืดหยุ่น**: คุณจ่ายเฉพาะบริการที่คุณต้องการและสามารถเลือกจากบริการที่หลากหลาย โดยทั่วไปคุณจ่ายตามการใช้งานและปรับบริการตามความต้องการที่เปลี่ยนแปลงไป
|
|
* **งบประมาณ**: คุณไม่จำเป็นต้องลงทุนเริ่มต้นเพื่อซื้อฮาร์ดแวร์และซอฟต์แวร์ ตั้งค่าและดำเนินการศูนย์ข้อมูลในองค์กร คุณสามารถจ่ายเฉพาะสิ่งที่คุณใช้
|
|
* **การปรับขนาด**: ทรัพยากรของคุณสามารถปรับขนาดตามความต้องการของโครงการ ซึ่งหมายความว่าแอปของคุณสามารถใช้พลังการประมวลผล การจัดเก็บ และแบนด์วิดท์มากหรือน้อย โดยปรับให้เข้ากับปัจจัยภายนอกในเวลาใดก็ตาม
|
|
* **ประสิทธิภาพ**: คุณสามารถมุ่งเน้นไปที่ธุรกิจของคุณแทนที่จะเสียเวลาไปกับงานที่สามารถจัดการโดยผู้อื่น เช่น การจัดการศูนย์ข้อมูล
|
|
* **ความน่าเชื่อถือ**: การประมวลผลแบบคลาวด์มีวิธีการหลายรูปแบบในการสำรองข้อมูลของคุณอย่างต่อเนื่อง และคุณสามารถตั้งค่าแผนการกู้คืนจากภัยพิบัติเพื่อให้ธุรกิจและบริการของคุณดำเนินต่อไปได้ แม้ในช่วงวิกฤต
|
|
* **ความปลอดภัย**: คุณสามารถได้รับประโยชน์จากนโยบาย เทคโนโลยี และการควบคุมที่ช่วยเสริมความปลอดภัยให้กับโครงการของคุณ
|
|
|
|
นี่เป็นเหตุผลทั่วไปบางประการที่ทำให้ผู้คนเลือกใช้บริการคลาวด์ ตอนนี้เรามีความเข้าใจที่ดีขึ้นเกี่ยวกับระบบคลาวด์และประโยชน์หลักของมันแล้ว ลองมาดูงานของนักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่ทำงานกับข้อมูล และวิธีที่ระบบคลาวด์สามารถช่วยพวกเขาแก้ไขปัญหาต่างๆ ที่อาจเผชิญ:
|
|
|
|
* **การจัดเก็บข้อมูลจำนวนมาก**: แทนที่จะซื้อ จัดการ และปกป้องเซิร์ฟเวอร์ขนาดใหญ่ คุณสามารถจัดเก็บข้อมูลของคุณโดยตรงในระบบคลาวด์ ด้วยโซลูชัน เช่น Azure Cosmos DB, Azure SQL Database และ Azure Data Lake Storage
|
|
* **การรวมข้อมูล**: การรวมข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล ที่ช่วยให้คุณเปลี่ยนจากการรวบรวมข้อมูลไปสู่การดำเนินการ ด้วยบริการการรวมข้อมูลที่มีในระบบคลาวด์ คุณสามารถรวบรวม แปลง และรวมข้อมูลจากแหล่งต่างๆ เข้าสู่คลังข้อมูลเดียว ด้วย Data Factory
|
|
* **การประมวลผลข้อมูล**: การประมวลผลข้อมูลจำนวนมากต้องการพลังการประมวลผลจำนวนมาก และไม่ใช่ทุกคนที่สามารถเข้าถึงเครื่องที่มีประสิทธิภาพเพียงพอสำหรับสิ่งนั้น ซึ่งเป็นเหตุผลว่าทำไมหลายคนจึงเลือกใช้พลังการประมวลผลมหาศาลของระบบคลาวด์โดยตรงเพื่อดำเนินการและปรับใช้โซลูชันของพวกเขา
|
|
* **การใช้บริการวิเคราะห์ข้อมูล**: บริการคลาวด์ เช่น Azure Synapse Analytics, Azure Stream Analytics และ Azure Databricks ช่วยให้คุณเปลี่ยนข้อมูลของคุณให้เป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริง
|
|
* **การใช้บริการแมชชีนเลิร์นนิงและข้อมูลอัจฉริยะ**: แทนที่จะเริ่มต้นจากศูนย์ คุณสามารถใช้อัลกอริทึมแมชชีนเลิร์นนิงที่ผู้ให้บริการคลาวด์นำเสนอ ด้วยบริการ เช่น AzureML คุณยังสามารถใช้บริการค็อกนิทีฟ เช่น การแปลงเสียงเป็นข้อความ การแปลงข้อความเป็นเสียง การมองเห็นด้วยคอมพิวเตอร์ และอื่นๆ
|
|
|
|
## ตัวอย่างวิทยาศาสตร์ข้อมูลในระบบคลาวด์
|
|
|
|
ลองทำให้สิ่งนี้เป็นรูปธรรมมากขึ้นโดยดูจากสถานการณ์สองสามตัวอย่าง
|
|
|
|
### การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์
|
|
เราจะเริ่มต้นด้วยสถานการณ์ที่มักถูกศึกษาโดยผู้ที่เริ่มต้นกับแมชชีนเลิร์นนิง: การวิเคราะห์ความรู้สึกในโซเชียลมีเดียแบบเรียลไทม์
|
|
|
|
สมมติว่าคุณดำเนินเว็บไซต์ข่าวและต้องการใช้ข้อมูลสดเพื่อทำความเข้าใจว่าผู้อ่านของคุณสนใจเนื้อหาใดบ้าง เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถสร้างโปรแกรมที่ทำการวิเคราะห์ความรู้สึกแบบเรียลไทม์ของข้อมูลจากการเผยแพร่ใน Twitter ในหัวข้อที่เกี่ยวข้องกับผู้อ่านของคุณ
|
|
|
|
ตัวชี้วัดสำคัญที่คุณจะดูคือปริมาณของทวีตในหัวข้อเฉพาะ (แฮชแท็ก) และความรู้สึก ซึ่งถูกกำหนดโดยใช้เครื่องมือวิเคราะห์ที่ทำการวิเคราะห์ความรู้สึกเกี่ยวกับหัวข้อที่ระบุ
|
|
|
|
ขั้นตอนที่จำเป็นในการสร้างโครงการนี้มีดังนี้:
|
|
|
|
* สร้างฮับเหตุการณ์สำหรับการสตรีมข้อมูลเข้า ซึ่งจะรวบรวมข้อมูลจาก Twitter
|
|
* กำหนดค่าและเริ่มต้นแอปพลิเคชันไคลเอนต์ Twitter ซึ่งจะเรียก API การสตรีมของ Twitter
|
|
* สร้างงาน Stream Analytics
|
|
* ระบุข้อมูลเข้าและคำสั่งค้นหาของงาน
|
|
* สร้างปลายทางเอาต์พุตและระบุผลลัพธ์ของงาน
|
|
* เริ่มต้นงาน
|
|
|
|
เพื่อดูขั้นตอนทั้งหมด โปรดดู [เอกสารประกอบ](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099)
|
|
|
|
### การวิเคราะห์เอกสารวิชาการ
|
|
ลองดูตัวอย่างอีกหนึ่งโครงการที่สร้างโดย [Dmitry Soshnikov](http://soshnikov.com) หนึ่งในผู้เขียนหลักสูตรนี้
|
|
|
|
Dmitry สร้างเครื่องมือที่วิเคราะห์เอกสารเกี่ยวกับ COVID โดยการตรวจสอบโครงการนี้ คุณจะเห็นวิธีการสร้างเครื่องมือที่ดึงความรู้จากเอกสารวิชาการ ได้รับข้อมูลเชิงลึก และช่วยนักวิจัยนำทางผ่านคอลเลกชันเอกสารจำนวนมากได้อย่างมีประสิทธิภาพ
|
|
|
|
ลองดูขั้นตอนต่างๆ ที่ใช้ในโครงการนี้:
|
|
|
|
* การดึงและการประมวลผลข้อมูลเบื้องต้นด้วย [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
* การใช้ [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) เพื่อประมวลผลแบบขนาน
|
|
* การจัดเก็บและการค้นหาข้อมูลด้วย [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
* สร้างแดชบอร์ดแบบโต้ตอบสำหรับการสำรวจและการแสดงผลข้อมูลด้วย Power BI
|
|
|
|
เพื่อดูขั้นตอนทั้งหมด โปรดเยี่ยมชม [บล็อกของ Dmitry](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/)
|
|
|
|
ดังที่คุณเห็น เราสามารถใช้บริการคลาวด์ในหลายวิธีเพื่อดำเนินการวิทยาศาสตร์ข้อมูล
|
|
|
|
## หมายเหตุท้ายบท
|
|
|
|
แหล่งข้อมูล:
|
|
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
|
|
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
|
|
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
|
|
|
|
## แบบทดสอบหลังเรียน
|
|
|
|
## [แบบทดสอบหลังเรียน](https://ff-quizzes.netlify.app/en/ds/quiz/33)
|
|
|
|
## งานที่ได้รับมอบหมาย
|
|
|
|
[การวิจัยตลาด](assignment.md)
|
|
|
|
---
|
|
|
|
**ข้อจำกัดความรับผิดชอบ**:
|
|
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราจะไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้ |