22 KiB

Raw Permalink Blame History

Khoa học dữ liệu trong thế giới thực


Khoa học dữ liệu trong thế giới thực - Sketchnote của @nitya

Chúng ta gần như đã hoàn thành hành trình học tập này!

Chúng ta đã bắt đầu với các định nghĩa về khoa học dữ liệu và đạo đức, khám phá các công cụ và kỹ thuật phân tích và trực quan hóa dữ liệu, xem xét vòng đời khoa học dữ liệu, và tìm hiểu cách mở rộng và tự động hóa quy trình khoa học dữ liệu với các dịch vụ điện toán đám mây. Vậy, bạn có thể đang tự hỏi: "Làm thế nào để áp dụng tất cả những kiến thức này vào các bối cảnh thực tế?"

Trong bài học này, chúng ta sẽ khám phá các ứng dụng thực tế của khoa học dữ liệu trong ngành công nghiệp và đi sâu vào các ví dụ cụ thể trong nghiên cứu, nhân văn số, và bền vững. Chúng ta sẽ xem xét các cơ hội dự án dành cho sinh viên và kết thúc với các tài nguyên hữu ích để giúp bạn tiếp tục hành trình học tập của mình!

Câu hỏi trước bài giảng

Khoa học dữ liệu + Ngành công nghiệp

Nhờ sự phổ biến của AI, các nhà phát triển hiện nay dễ dàng hơn trong việc thiết kế và tích hợp các quyết định dựa trên AI và các thông tin chi tiết dựa trên dữ liệu vào trải nghiệm người dùng và quy trình phát triển. Dưới đây là một vài ví dụ về cách khoa học dữ liệu được "áp dụng" vào các ứng dụng thực tế trong ngành công nghiệp:

Google Flu Trends đã sử dụng khoa học dữ liệu để liên kết các từ khóa tìm kiếm với xu hướng bệnh cúm. Mặc dù phương pháp này có những hạn chế, nó đã nâng cao nhận thức về khả năng (và thách thức) của dự đoán y tế dựa trên dữ liệu.
Dự đoán tuyến đường của UPS - giải thích cách UPS sử dụng khoa học dữ liệu và học máy để dự đoán các tuyến đường tối ưu cho việc giao hàng, bao gồm điều kiện thời tiết, lưu lượng giao thông, thời hạn giao hàng và nhiều yếu tố khác.
Trực quan hóa tuyến đường taxi NYC - dữ liệu thu thập được từ Luật Tự do Thông tin đã giúp trực quan hóa một ngày làm việc của taxi NYC, giúp chúng ta hiểu cách họ di chuyển trong thành phố bận rộn, số tiền họ kiếm được, và thời gian của các chuyến đi trong mỗi khoảng thời gian 24 giờ.
Uber Data Science Workbench - sử dụng dữ liệu (về địa điểm đón & trả khách, thời gian chuyến đi, tuyến đường ưa thích, v.v.) thu thập từ hàng triệu chuyến đi Uber hàng ngày để xây dựng công cụ phân tích dữ liệu hỗ trợ định giá, an toàn, phát hiện gian lận và quyết định điều hướng.
Phân tích thể thao - tập trung vào phân tích dự đoán (phân tích đội và cầu thủ - như Moneyball - và quản lý người hâm mộ) và trực quan hóa dữ liệu (bảng điều khiển đội & người hâm mộ, trò chơi, v.v.) với các ứng dụng như tìm kiếm tài năng, cá cược thể thao và quản lý địa điểm/kho hàng.
Khoa học dữ liệu trong ngân hàng - nhấn mạnh giá trị của khoa học dữ liệu trong ngành tài chính với các ứng dụng từ mô hình rủi ro và phát hiện gian lận, đến phân khúc khách hàng, dự đoán thời gian thực và hệ thống gợi ý. Phân tích dự đoán cũng thúc đẩy các biện pháp quan trọng như điểm tín dụng.
Khoa học dữ liệu trong chăm sóc sức khỏe - nhấn mạnh các ứng dụng như hình ảnh y tế (ví dụ: MRI, X-Ray, CT-Scan), genomics (giải trình tự DNA), phát triển thuốc (đánh giá rủi ro, dự đoán thành công), phân tích dự đoán (chăm sóc bệnh nhân & logistics cung ứng), theo dõi & phòng ngừa bệnh, v.v.

Nguồn hình ảnh: Data Flair: 6 Amazing Data Science Applications

Hình minh họa cho thấy các lĩnh vực và ví dụ khác về việc áp dụng các kỹ thuật khoa học dữ liệu. Muốn khám phá thêm các ứng dụng khác? Hãy xem phần Ôn tập & Tự học bên dưới.

Khoa học dữ liệu + Nghiên cứu


Khoa học dữ liệu & Nghiên cứu - Sketchnote của @nitya

Trong khi các ứng dụng thực tế thường tập trung vào các trường hợp sử dụng trong ngành công nghiệp ở quy mô lớn, các ứng dụng và dự án nghiên cứu có thể hữu ích từ hai góc độ:

cơ hội đổi mới - khám phá việc tạo mẫu nhanh các khái niệm tiên tiến và thử nghiệm trải nghiệm người dùng cho các ứng dụng thế hệ tiếp theo.
thách thức triển khai - điều tra các tác hại tiềm năng hoặc hậu quả không mong muốn của các công nghệ khoa học dữ liệu trong các bối cảnh thực tế.

Đối với sinh viên, các dự án nghiên cứu này có thể cung cấp cả cơ hội học tập và hợp tác, giúp cải thiện sự hiểu biết của bạn về chủ đề, và mở rộng nhận thức cũng như sự tham gia của bạn với những người hoặc nhóm làm việc trong các lĩnh vực quan tâm. Vậy các dự án nghiên cứu trông như thế nào và chúng có thể tạo ra tác động ra sao?

Hãy xem một ví dụ - Nghiên cứu Gender Shades của MIT từ Joy Buolamwini (MIT Media Labs) với một bài báo nghiên cứu nổi bật đồng tác giả với Timnit Gebru (khi đó tại Microsoft Research) tập trung vào:

Cái gì: Mục tiêu của dự án nghiên cứu là đánh giá sự thiên vị trong các thuật toán và tập dữ liệu phân tích khuôn mặt tự động dựa trên giới tính và loại da.
Tại sao: Phân tích khuôn mặt được sử dụng trong các lĩnh vực như thực thi pháp luật, an ninh sân bay, hệ thống tuyển dụng và nhiều lĩnh vực khác - những bối cảnh mà phân loại không chính xác (ví dụ: do thiên vị) có thể gây ra các tác hại kinh tế và xã hội tiềm năng cho các cá nhân hoặc nhóm bị ảnh hưởng. Hiểu (và loại bỏ hoặc giảm thiểu) sự thiên vị là chìa khóa để đảm bảo công bằng trong việc sử dụng.
Cách thực hiện: Các nhà nghiên cứu nhận ra rằng các tiêu chuẩn hiện tại chủ yếu sử dụng các đối tượng có làn da sáng hơn, và đã tạo ra một tập dữ liệu mới (hơn 1000 hình ảnh) cân bằng hơn theo giới tính và loại da. Tập dữ liệu này được sử dụng để đánh giá độ chính xác của ba sản phẩm phân loại giới tính (từ Microsoft, IBM & Face++).

Kết quả cho thấy mặc dù độ chính xác phân loại tổng thể là tốt, có sự khác biệt đáng kể về tỷ lệ lỗi giữa các nhóm con khác nhau - với sai sót phân loại giới tính cao hơn đối với nữ giới hoặc người có làn da tối màu, cho thấy sự thiên vị.

Kết quả chính: Nâng cao nhận thức rằng khoa học dữ liệu cần có các tập dữ liệu đại diện hơn (các nhóm con cân bằng) và các đội ngũ đa dạng hơn (nền tảng phong phú) để nhận ra và loại bỏ hoặc giảm thiểu các thiên vị này sớm hơn trong các giải pháp AI. Các nỗ lực nghiên cứu như thế này cũng đóng vai trò quan trọng trong việc nhiều tổ chức định nghĩa các nguyên tắc và thực hành cho AI có trách nhiệm nhằm cải thiện sự công bằng trong các sản phẩm và quy trình AI của họ.

Muốn tìm hiểu về các nỗ lực nghiên cứu liên quan tại Microsoft?

Xem Các dự án nghiên cứu của Microsoft về Trí tuệ nhân tạo.
Khám phá các dự án sinh viên từ Trường hè Khoa học Dữ liệu của Microsoft Research.
Xem dự án Fairlearn và các sáng kiến AI có trách nhiệm.

Khoa học dữ liệu + Nhân văn


Khoa học dữ liệu & Nhân văn số - Sketchnote của @nitya

Nhân văn số được định nghĩa là "một tập hợp các thực hành và cách tiếp cận kết hợp các phương pháp tính toán với nghiên cứu nhân văn". Các dự án Stanford như "rebooting history" và "poetic thinking" minh họa mối liên kết giữa Nhân văn số và Khoa học dữ liệu - nhấn mạnh các kỹ thuật như phân tích mạng, trực quan hóa thông tin, phân tích không gian và văn bản, giúp chúng ta xem xét lại các tập dữ liệu lịch sử và văn học để rút ra những hiểu biết và góc nhìn mới.

Muốn khám phá và mở rộng một dự án trong lĩnh vực này?

Hãy xem "Emily Dickinson và nhịp điệu của cảm xúc" - một ví dụ tuyệt vời từ Jen Looper đặt câu hỏi làm thế nào chúng ta có thể sử dụng khoa học dữ liệu để xem xét lại thơ ca quen thuộc và đánh giá lại ý nghĩa cũng như đóng góp của tác giả trong các bối cảnh mới. Ví dụ, chúng ta có thể dự đoán mùa mà một bài thơ được sáng tác bằng cách phân tích giọng điệu hoặc cảm xúc của nó không - và điều này nói lên điều gì về trạng thái tâm lý của tác giả trong khoảng thời gian liên quan?

Để trả lời câu hỏi đó, chúng ta làm theo các bước của vòng đời khoa học dữ liệu:

Thu thập dữ liệu - để thu thập một tập dữ liệu phù hợp cho phân tích. Các tùy chọn bao gồm sử dụng API (ví dụ: Poetry DB API) hoặc quét các trang web (ví dụ: Project Gutenberg) bằng các công cụ như Scrapy.
Làm sạch dữ liệu - giải thích cách văn bản có thể được định dạng, làm sạch và đơn giản hóa bằng các công cụ cơ bản như Visual Studio Code và Microsoft Excel.
Phân tích dữ liệu - giải thích cách chúng ta có thể nhập tập dữ liệu vào "Notebooks" để phân tích bằng các gói Python (như pandas, numpy và matplotlib) để tổ chức và trực quan hóa dữ liệu.
Phân tích cảm xúc - giải thích cách chúng ta có thể tích hợp các dịch vụ đám mây như Text Analytics, sử dụng các công cụ low-code như Power Automate cho các quy trình xử lý dữ liệu tự động.

Sử dụng quy trình này, chúng ta có thể khám phá tác động của mùa đối với cảm xúc của các bài thơ, và giúp chúng ta hình thành góc nhìn riêng về tác giả. Hãy thử nghiệm - sau đó mở rộng notebook để đặt các câu hỏi khác hoặc trực quan hóa dữ liệu theo cách mới!

Bạn có thể sử dụng một số công cụ trong Bộ công cụ Nhân văn số để theo đuổi các hướng nghiên cứu này.

Khoa học dữ liệu + Bền vững


Khoa học dữ liệu & Bền vững - Sketchnote của @nitya

Chương trình nghị sự 2030 về Phát triển Bền vững - được tất cả các thành viên Liên Hợp Quốc thông qua vào năm 2015 - xác định 17 mục tiêu bao gồm các mục tiêu tập trung vào Bảo vệ hành tinh khỏi sự suy thoái và tác động của biến đổi khí hậu. Sáng kiến Bền vững của Microsoft hỗ trợ các mục tiêu này bằng cách khám phá cách các giải pháp công nghệ có thể hỗ trợ và xây dựng tương lai bền vững hơn với tập trung vào 4 mục tiêu - trở thành carbon âm, nước dương, không rác thải, và đa dạng sinh học vào năm 2030.

Để giải quyết các thách thức này một cách quy mô và kịp thời, cần có tư duy quy mô đám mây - và dữ liệu lớn. Sáng kiến Máy tính Hành tinh cung cấp 4 thành phần để hỗ trợ các nhà khoa học dữ liệu và nhà phát triển trong nỗ lực này:

Danh mục dữ liệu - với hàng petabyte dữ liệu Hệ thống Trái đất (miễn phí & được lưu trữ trên Azure).
API Máy tính Hành tinh - giúp người dùng tìm kiếm dữ liệu liên quan theo không gian và thời gian.
Hub - môi trường được quản lý cho các nhà khoa học xử lý các tập dữ liệu địa lý lớn.
Ứng dụng - trình bày các trường hợp sử dụng & công cụ để có những hiểu biết về bền vững. Dự án Planetary Computer hiện đang trong giai đoạn xem trước (tính đến tháng 9 năm 2021) - đây là cách bạn có thể bắt đầu đóng góp vào các giải pháp bền vững bằng cách sử dụng khoa học dữ liệu.
Yêu cầu quyền truy cập để bắt đầu khám phá và kết nối với các đồng nghiệp.
Khám phá tài liệu để hiểu các tập dữ liệu và API được hỗ trợ.
Khám phá các ứng dụng như Ecosystem Monitoring để lấy cảm hứng cho các ý tưởng ứng dụng.

Hãy suy nghĩ về cách bạn có thể sử dụng trực quan hóa dữ liệu để làm nổi bật hoặc khuếch đại những hiểu biết liên quan đến các lĩnh vực như biến đổi khí hậu và nạn phá rừng. Hoặc suy nghĩ về cách những hiểu biết này có thể được sử dụng để tạo ra các trải nghiệm người dùng mới nhằm thúc đẩy thay đổi hành vi hướng tới lối sống bền vững hơn.

Khoa học dữ liệu + Sinh viên

Chúng ta đã nói về các ứng dụng thực tế trong ngành công nghiệp và nghiên cứu, và đã khám phá các ví dụ ứng dụng khoa học dữ liệu trong nhân văn số và bền vững. Vậy làm thế nào bạn có thể xây dựng kỹ năng và chia sẻ chuyên môn của mình khi là người mới bắt đầu với khoa học dữ liệu?

Dưới đây là một số ví dụ về các dự án khoa học dữ liệu của sinh viên để truyền cảm hứng cho bạn.

Trường hè Khoa học Dữ liệu MSR với các dự án trên GitHub khám phá các chủ đề như:
- Định kiến chủng tộc trong việc sử dụng vũ lực của cảnh sát | Github
- Độ tin cậy của hệ thống tàu điện ngầm NYC | Github
Số hóa Văn hóa Vật chất: Khám phá phân bố kinh tế-xã hội ở Sirkap - từ Ornella Altunyan và nhóm tại Claremont, sử dụng ArcGIS StoryMaps.

🚀 Thử thách

Tìm kiếm các bài viết gợi ý các dự án khoa học dữ liệu phù hợp cho người mới bắt đầu - như 50 lĩnh vực chủ đề này hoặc 21 ý tưởng dự án này hoặc 16 dự án với mã nguồn này mà bạn có thể phân tích và tái sử dụng. Và đừng quên viết blog về hành trình học tập của bạn và chia sẻ những hiểu biết của bạn với tất cả chúng tôi.

Câu hỏi kiểm tra sau bài giảng

Ôn tập & Tự học

Muốn khám phá thêm các trường hợp sử dụng? Dưới đây là một số bài viết liên quan:

17 Ứng dụng và Ví dụ về Khoa học Dữ liệu - Tháng 7 năm 2021
11 Ứng dụng Khoa học Dữ liệu Đáng Kinh Ngạc trong Thế Giới Thực - Tháng 5 năm 2021
Khoa học Dữ liệu Trong Thế Giới Thực - Bộ sưu tập bài viết
Khoa học Dữ liệu Trong: Giáo dục, Nông nghiệp, Tài chính, Phim ảnh và nhiều lĩnh vực khác.

Bài tập

Khám phá Một Tập Dữ Liệu Planetary Computer

Tuyên bố miễn trừ trách nhiệm:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn thông tin chính thức. Đối với các thông tin quan trọng, khuyến nghị sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.

22 KiB Raw Permalink Blame History