21 KiB
Khoa học Dữ liệu cho Người mới bắt đầu - Một Chương trình Học
Azure Cloud Advocates tại Microsoft rất vui mừng giới thiệu một chương trình học kéo dài 10 tuần, gồm 20 bài học về Khoa học Dữ liệu. Mỗi bài học bao gồm các câu hỏi kiểm tra trước và sau bài học, hướng dẫn chi tiết để hoàn thành bài học, giải pháp và bài tập. Phương pháp học dựa trên dự án của chúng tôi cho phép bạn học thông qua việc thực hành, một cách hiệu quả để các kỹ năng mới được ghi nhớ lâu dài.
Chân thành cảm ơn các tác giả: Jasmine Greenaway, Dmitry Soshnikov, Nitya Narasimhan, Jalen McGee, Jen Looper, Maud Levy, Tiffany Souterre, Christopher Harrison.
🙏 Đặc biệt cảm ơn 🙏 các Đại sứ Sinh viên Microsoft là tác giả, người đánh giá và đóng góp nội dung, đặc biệt là Aaryan Arora, Aditya Garg, Alondra Sanchez, Ankita Singh, Anupam Mishra, Arpita Das, ChhailBihari Dubey, Dibri Nsofor, Dishita Bhasin, Majd Safi, Max Blum, Miguel Correa, Mohamma Iftekher (Iftu) Ebne Jalal, Nawrin Tabassum, Raymond Wangsa Putra, Rohit Yadav, Samridhi Sharma, Sanya Sinha, Sheena Narula, Tauqeer Ahmad, Yogendrasingh Pawar, Vidushi Gupta, Jasleen Sondhi
![]() |
---|
Khoa học Dữ liệu cho Người mới bắt đầu - Sketchnote bởi @nitya |
🌐 Hỗ trợ Đa ngôn ngữ
Được hỗ trợ qua GitHub Action (Tự động & Luôn cập nhật)
French | Spanish | German | Russian | Arabic | Persian (Farsi) | Urdu | Chinese (Simplified) | Chinese (Traditional, Macau) | Chinese (Traditional, Hong Kong) | Chinese (Traditional, Taiwan) | Japanese | Korean | Hindi | Bengali | Marathi | Nepali | Punjabi (Gurmukhi) | Portuguese (Portugal) | Portuguese (Brazil) | Italian | Polish | Turkish | Greek | Thai | Swedish | Danish | Norwegian | Finnish | Dutch | Hebrew | Vietnamese | Indonesian | Malay | Tagalog (Filipino) | Swahili | Hungarian | Czech | Slovak | Romanian | Bulgarian | Serbian (Cyrillic) | Croatian | Slovenian | Ukrainian | Burmese (Myanmar)
Nếu bạn muốn có thêm các ngôn ngữ được hỗ trợ, danh sách các ngôn ngữ có sẵn ở đây
Tham gia Cộng đồng của Chúng tôi
Bạn là sinh viên?
Hãy bắt đầu với các tài nguyên sau:
- Trang Hub Sinh viên Tại đây, bạn sẽ tìm thấy các tài nguyên cho người mới bắt đầu, các gói dành cho sinh viên và thậm chí là cách để nhận voucher chứng chỉ miễn phí. Đây là một trang bạn nên đánh dấu và kiểm tra thường xuyên vì nội dung được cập nhật ít nhất hàng tháng.
- Đại sứ Sinh viên Microsoft Tham gia cộng đồng toàn cầu của các đại sứ sinh viên, đây có thể là cơ hội để bạn bước vào Microsoft.
Bắt đầu
Giáo viên: chúng tôi đã bao gồm một số gợi ý về cách sử dụng chương trình học này. Chúng tôi rất mong nhận được phản hồi của bạn trong diễn đàn thảo luận của chúng tôi!
Sinh viên: để sử dụng chương trình học này một cách độc lập, hãy fork toàn bộ repo và hoàn thành các bài tập theo cách của bạn, bắt đầu với bài kiểm tra trước bài học. Sau đó, đọc bài giảng và hoàn thành các hoạt động còn lại. Hãy cố gắng tạo các dự án bằng cách hiểu bài học thay vì sao chép mã giải pháp; tuy nhiên, mã giải pháp có sẵn trong thư mục /solutions của mỗi bài học dựa trên dự án. Một ý tưởng khác là thành lập nhóm học tập với bạn bè và cùng nhau học qua nội dung. Để học thêm, chúng tôi khuyến nghị Microsoft Learn.
Gặp gỡ Đội ngũ
Gif bởi Mohit Jaisal
🎥 Nhấp vào hình ảnh trên để xem video về dự án và những người đã tạo ra nó!
Phương pháp giảng dạy
Chúng tôi đã chọn hai nguyên tắc giảng dạy khi xây dựng chương trình học này: đảm bảo rằng nó dựa trên dự án và bao gồm các câu hỏi kiểm tra thường xuyên. Đến cuối loạt bài này, sinh viên sẽ học được các nguyên tắc cơ bản của khoa học dữ liệu, bao gồm các khái niệm đạo đức, chuẩn bị dữ liệu, các cách làm việc khác nhau với dữ liệu, trực quan hóa dữ liệu, phân tích dữ liệu, các trường hợp sử dụng thực tế của khoa học dữ liệu và nhiều hơn nữa.
Ngoài ra, một bài kiểm tra nhẹ nhàng trước lớp giúp sinh viên tập trung vào việc học một chủ đề, trong khi một bài kiểm tra thứ hai sau lớp đảm bảo sự ghi nhớ lâu dài. Chương trình học này được thiết kế để linh hoạt và thú vị, có thể học toàn bộ hoặc từng phần. Các dự án bắt đầu từ đơn giản và trở nên phức tạp hơn vào cuối chu kỳ 10 tuần.
Tìm hiểu Quy tắc ứng xử, Hướng dẫn đóng góp, Hướng dẫn dịch thuật. Chúng tôi rất mong nhận được phản hồi mang tính xây dựng từ bạn!
Mỗi bài học bao gồm:
- Sketchnote (tùy chọn)
- Video bổ sung (tùy chọn)
- Bài kiểm tra khởi động trước bài học
- Bài học viết
- Đối với các bài học dựa trên dự án, hướng dẫn từng bước để xây dựng dự án
- Kiểm tra kiến thức
- Một thử thách
- Tài liệu đọc bổ sung
- Bài tập
- Bài kiểm tra sau bài học
Lưu ý về các bài kiểm tra: Tất cả các bài kiểm tra được chứa trong thư mục Quiz-App, với tổng cộng 40 bài kiểm tra, mỗi bài gồm ba câu hỏi. Chúng được liên kết từ trong các bài học, nhưng ứng dụng kiểm tra có thể chạy cục bộ hoặc triển khai trên Azure; hãy làm theo hướng dẫn trong thư mục
quiz-app
. Các bài kiểm tra đang dần được bản địa hóa.
Các bài học
![]() |
---|
Khoa học Dữ liệu cho Người mới bắt đầu: Lộ trình - Sketchnote của @nitya |
Số bài học | Chủ đề | Nhóm bài học | Mục tiêu học tập | Liên kết bài học | Tác giả |
---|---|---|---|---|---|
01 | Định nghĩa Khoa học Dữ liệu | Giới thiệu | Tìm hiểu các khái niệm cơ bản về khoa học dữ liệu và mối liên hệ của nó với trí tuệ nhân tạo, học máy và dữ liệu lớn. | bài học video | Dmitry |
02 | Đạo đức trong Khoa học Dữ liệu | Giới thiệu | Các khái niệm, thách thức và khung đạo đức dữ liệu. | bài học | Nitya |
03 | Định nghĩa Dữ liệu | Giới thiệu | Cách phân loại dữ liệu và các nguồn dữ liệu phổ biến. | bài học | Jasmine |
04 | Giới thiệu về Thống kê & Xác suất | Giới thiệu | Các kỹ thuật toán học về xác suất và thống kê để hiểu dữ liệu. | bài học video | Dmitry |
05 | Làm việc với Dữ liệu Quan hệ | Làm việc với Dữ liệu | Giới thiệu về dữ liệu quan hệ và các khái niệm cơ bản để khám phá và phân tích dữ liệu quan hệ bằng Ngôn ngữ Truy vấn Có cấu trúc, còn được gọi là SQL (phát âm là “see-quell”). | bài học | Christopher |
06 | Làm việc với Dữ liệu NoSQL | Làm việc với Dữ liệu | Giới thiệu về dữ liệu phi quan hệ, các loại khác nhau của nó và các khái niệm cơ bản để khám phá và phân tích cơ sở dữ liệu tài liệu. | bài học | Jasmine |
07 | Làm việc với Python | Làm việc với Dữ liệu | Các khái niệm cơ bản về sử dụng Python để khám phá dữ liệu với các thư viện như Pandas. Khuyến nghị có kiến thức cơ bản về lập trình Python. | bài học video | Dmitry |
08 | Chuẩn bị Dữ liệu | Làm việc với Dữ liệu | Các chủ đề về kỹ thuật làm sạch và chuyển đổi dữ liệu để xử lý các thách thức như dữ liệu thiếu, không chính xác hoặc không đầy đủ. | bài học | Jasmine |
09 | Trực quan hóa Số lượng | Trực quan hóa Dữ liệu | Tìm hiểu cách sử dụng Matplotlib để trực quan hóa dữ liệu về chim 🦆 | bài học | Jen |
10 | Trực quan hóa Phân phối Dữ liệu | Trực quan hóa Dữ liệu | Trực quan hóa các quan sát và xu hướng trong một khoảng. | bài học | Jen |
11 | Trực quan hóa Tỷ lệ | Trực quan hóa Dữ liệu | Trực quan hóa các tỷ lệ phần trăm rời rạc và nhóm. | bài học | Jen |
12 | Trực quan hóa Mối quan hệ | Trực quan hóa Dữ liệu | Trực quan hóa các kết nối và mối tương quan giữa các tập dữ liệu và các biến của chúng. | bài học | Jen |
13 | Trực quan hóa Có ý nghĩa | Trực quan hóa Dữ liệu | Các kỹ thuật và hướng dẫn để làm cho các trực quan hóa của bạn có giá trị trong việc giải quyết vấn đề và cung cấp thông tin chi tiết hiệu quả. | bài học | Jen |
14 | Giới thiệu về Vòng đời Khoa học Dữ liệu | Vòng đời | Giới thiệu về vòng đời khoa học dữ liệu và bước đầu tiên của nó là thu thập và trích xuất dữ liệu. | bài học | Jasmine |
15 | Phân tích | Vòng đời | Giai đoạn này của vòng đời khoa học dữ liệu tập trung vào các kỹ thuật để phân tích dữ liệu. | bài học | Jasmine |
16 | Truyền đạt | Vòng đời | Giai đoạn này của vòng đời khoa học dữ liệu tập trung vào việc trình bày các thông tin chi tiết từ dữ liệu theo cách giúp người ra quyết định dễ dàng hiểu hơn. | bài học | Jalen |
17 | Khoa học Dữ liệu trên Đám mây | Dữ liệu Đám mây | Chuỗi bài học này giới thiệu khoa học dữ liệu trên đám mây và các lợi ích của nó. | bài học | Tiffany và Maud |
18 | Khoa học Dữ liệu trên Đám mây | Dữ liệu Đám mây | Huấn luyện mô hình bằng các công cụ Low Code. | bài học | Tiffany và Maud |
19 | Khoa học Dữ liệu trên Đám mây | Dữ liệu Đám mây | Triển khai mô hình với Azure Machine Learning Studio. | bài học | Tiffany và Maud |
20 | Khoa học Dữ liệu trong Thực tế | Trong Thực tế | Các dự án khoa học dữ liệu được thúc đẩy trong thế giới thực. | bài học | Nitya |
GitHub Codespaces
Thực hiện các bước sau để mở mẫu này trong Codespace:
- Nhấp vào menu thả xuống Code và chọn tùy chọn Open with Codespaces.
- Chọn + New codespace ở cuối bảng. Để biết thêm thông tin, hãy xem tài liệu GitHub.
VSCode Remote - Containers
Thực hiện các bước sau để mở kho lưu trữ này trong một container bằng máy cục bộ của bạn và VSCode với tiện ích mở rộng VS Code Remote - Containers:
- Nếu đây là lần đầu tiên bạn sử dụng container phát triển, hãy đảm bảo hệ thống của bạn đáp ứng các yêu cầu (ví dụ: đã cài đặt Docker) trong tài liệu bắt đầu.
Để sử dụng kho lưu trữ này, bạn có thể mở kho lưu trữ trong một volume Docker cách ly:
Lưu ý: Ở phía dưới, điều này sẽ sử dụng lệnh Remote-Containers: Clone Repository in Container Volume... để sao chép mã nguồn vào một volume Docker thay vì hệ thống tệp cục bộ. Volumes là cơ chế được ưu tiên để lưu trữ dữ liệu container.
Hoặc mở một phiên bản đã sao chép hoặc tải xuống cục bộ của kho lưu trữ:
- Sao chép kho lưu trữ này vào hệ thống tệp cục bộ của bạn.
- Nhấn F1 và chọn lệnh Remote-Containers: Open Folder in Container....
- Chọn bản sao đã sao chép của thư mục này, đợi container khởi động và thử nghiệm.
Truy cập ngoại tuyến
Bạn có thể chạy tài liệu này ngoại tuyến bằng cách sử dụng Docsify. Fork kho lưu trữ này, cài đặt Docsify trên máy cục bộ của bạn, sau đó trong thư mục gốc của kho lưu trữ này, gõ docsify serve
. Trang web sẽ được phục vụ trên cổng 3000 trên localhost của bạn: localhost:3000
.
Lưu ý, các notebook sẽ không được hiển thị qua Docsify, vì vậy khi bạn cần chạy một notebook, hãy thực hiện riêng trong VS Code với kernel Python.
Các chương trình học khác
Nhóm của chúng tôi sản xuất các chương trình học khác! Hãy xem:
- Generative AI for Beginners
- Generative AI for Beginners .NET
- Generative AI with JavaScript
- Generative AI with Java
- AI for Beginners
- Data Science for Beginners
- ML for Beginners
- Cybersecurity for Beginners
- Web Dev for Beginners
- IoT for Beginners
- XR Development for Beginners
- Mastering GitHub Copilot for Paired Programming
- Mastering GitHub Copilot for C#/.NET Developers
- Choose Your Own Copilot Adventure
Tuyên bố miễn trừ trách nhiệm:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn thông tin chính thức. Đối với các thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp từ con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.