|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
README.md
Data Science sa Tunay na Mundo
![]() |
|---|
| Data Science sa Tunay na Mundo - Sketchnote ni @nitya |
Malapit na tayo sa dulo ng ating pag-aaral!
Nagsimula tayo sa mga depinisyon ng data science at ethics, sinuri ang iba't ibang tools at teknik para sa data analysis at visualization, nirepaso ang lifecycle ng data science, at tiningnan ang scaling at automation ng data science workflows gamit ang cloud computing services. Kaya marahil iniisip mo: "Paano ko maiaangkop ang lahat ng natutunan ko sa mga tunay na sitwasyon?"
Sa araling ito, tatalakayin natin ang mga aplikasyon ng data science sa iba't ibang industriya at susuriin ang mga partikular na halimbawa sa pananaliksik, digital humanities, at sustainability. Titingnan din natin ang mga oportunidad para sa mga proyekto ng mag-aaral at magtatapos sa mga kapaki-pakinabang na resources para ipagpatuloy ang iyong pag-aaral!
Pre-Lecture Quiz
Pre-lecture quiz
Data Science + Industriya
Dahil sa democratization ng AI, mas madali na ngayon para sa mga developer na magdisenyo at mag-integrate ng AI-driven decision-making at data-driven insights sa user experiences at development workflows. Narito ang ilang halimbawa kung paano "inaaplay" ang data science sa mga tunay na aplikasyon sa industriya:
-
Google Flu Trends - ginamit ang data science para i-correlate ang mga search terms sa flu trends. Bagama't may mga kahinaan ang approach, nagbigay ito ng kamalayan sa mga posibilidad (at hamon) ng data-driven healthcare predictions.
-
UPS Routing Predictions - nagpapaliwanag kung paano ginagamit ng UPS ang data science at machine learning para hulaan ang optimal na ruta para sa delivery, isinasaalang-alang ang kondisyon ng panahon, traffic patterns, deadlines ng delivery, at iba pa.
-
NYC Taxicab Route Visualization - ang data na nakuha gamit ang Freedom Of Information Laws ay tumulong sa pag-visualize ng isang araw sa buhay ng mga NYC cabs, na nagpapakita kung paano sila nag-navigate sa abalang lungsod, ang kita nila, at ang tagal ng biyahe sa loob ng bawat 24 na oras.
-
Uber Data Science Workbench - gumagamit ng data (pickup & dropoff locations, tagal ng biyahe, preferred routes, atbp.) mula sa milyon-milyong Uber trips araw-araw para bumuo ng data analytics tool na tumutulong sa pricing, safety, fraud detection, at navigation decisions.
-
Sports Analytics - nakatuon sa predictive analytics (team at player analysis - tulad ng Moneyball - at fan management) at data visualization (team & fan dashboards, games, atbp.) na may aplikasyon tulad ng talent scouting, sports gambling, at inventory/venue management.
-
Data Science sa Banking - binibigyang-diin ang halaga ng data science sa industriya ng pananalapi na may mga aplikasyon mula sa risk modeling at fraud detection, hanggang sa customer segmentation, real-time prediction, at recommender systems. Ang predictive analytics ay nagdadala rin ng mahahalagang sukatan tulad ng credit scores.
-
Data Science sa Healthcare - binibigyang-diin ang mga aplikasyon tulad ng medical imaging (e.g., MRI, X-Ray, CT-Scan), genomics (DNA sequencing), drug development (risk assessment, success prediction), predictive analytics (patient care & supply logistics), disease tracking & prevention, atbp.
Image Credit: Data Flair: 6 Amazing Data Science Applications
Ipinapakita ng figure ang iba pang mga domain at halimbawa ng paggamit ng data science techniques. Gusto mo bang tuklasin ang iba pang aplikasyon? Tingnan ang Review & Self Study na seksyon sa ibaba.
Data Science + Pananaliksik
![]() |
|---|
| Data Science & Pananaliksik - Sketchnote ni @nitya |
Bagama't ang mga tunay na aplikasyon ay madalas na nakatuon sa mga use case sa industriya, ang mga aplikasyon at proyekto sa pananaliksik ay maaaring maging kapaki-pakinabang mula sa dalawang perspektibo:
- oportunidad para sa inobasyon - tuklasin ang mabilis na prototyping ng advanced concepts at testing ng user experiences para sa mga susunod na henerasyon ng aplikasyon.
- mga hamon sa deployment - suriin ang mga potensyal na pinsala o hindi inaasahang epekto ng data science technologies sa mga tunay na sitwasyon.
Para sa mga mag-aaral, ang mga proyektong pananaliksik ay maaaring magbigay ng parehong learning at collaboration opportunities na maaaring magpabuti sa iyong pag-unawa sa paksa, at palawakin ang iyong kamalayan at pakikilahok sa mga kaugnay na tao o team na nagtatrabaho sa mga lugar ng interes. Kaya ano ang hitsura ng mga proyektong pananaliksik at paano ito nakakaapekto?
Tingnan natin ang isang halimbawa - ang MIT Gender Shades Study mula kay Joy Buolamwini (MIT Media Labs) na may signature research paper na co-authored ni Timnit Gebru (noon sa Microsoft Research) na nakatuon sa
- Ano: Ang layunin ng proyekto ay suriin ang bias sa automated facial analysis algorithms at datasets batay sa gender at skin type.
- Bakit: Ang facial analysis ay ginagamit sa mga lugar tulad ng law enforcement, airport security, hiring systems, at iba pa - mga konteksto kung saan ang maling klasipikasyon (hal., dahil sa bias) ay maaaring magdulot ng potensyal na economic at social harms sa mga apektadong indibidwal o grupo. Ang pag-unawa (at pag-aalis o pag-mitigate) ng biases ay mahalaga para sa fairness sa paggamit.
- Paano: Napansin ng mga mananaliksik na ang mga umiiral na benchmarks ay kadalasang gumagamit ng lighter-skinned subjects, kaya gumawa sila ng bagong dataset (1000+ images) na mas balanse batay sa gender at skin type. Ang dataset ay ginamit para suriin ang accuracy ng tatlong gender classification products (mula sa Microsoft, IBM & Face++).
Ipinakita ng resulta na bagama't maganda ang overall classification accuracy, may kapansin-pansing pagkakaiba sa error rates sa pagitan ng iba't ibang subgroups - kung saan mas mataas ang misgendering para sa mga babae o taong may darker skin types, na nagpapahiwatig ng bias.
Mga Pangunahing Resulta: Nagbigay ng kamalayan na ang data science ay nangangailangan ng mas representative datasets (balanseng subgroups) at mas inclusive teams (diverse backgrounds) para ma-recognize at maalis o ma-mitigate ang ganitong biases nang mas maaga sa AI solutions. Ang mga pagsisikap sa pananaliksik tulad nito ay mahalaga rin sa maraming organisasyon sa pagbuo ng mga prinsipyo at praktika para sa responsible AI upang mapabuti ang fairness sa kanilang AI products at processes.
Gusto mo bang matuto tungkol sa mga kaugnay na pagsisikap sa pananaliksik sa Microsoft?
- Tingnan ang Microsoft Research Projects sa Artificial Intelligence.
- Tuklasin ang mga proyekto ng mag-aaral mula sa Microsoft Research Data Science Summer School.
- Tingnan ang Fairlearn na proyekto at Responsible AI na mga inisyatibo.
Data Science + Humanities
![]() |
|---|
| Data Science & Digital Humanities - Sketchnote ni @nitya |
Ang Digital Humanities ay naipaliwanag bilang "isang koleksyon ng mga praktika at approaches na pinagsasama ang computational methods sa humanistic inquiry". Ang mga proyekto ng Stanford tulad ng "rebooting history" at "poetic thinking" ay nagpapakita ng koneksyon sa pagitan ng Digital Humanities at Data Science - binibigyang-diin ang mga teknik tulad ng network analysis, information visualization, spatial at text analysis na makakatulong sa atin na muling suriin ang mga historical at literary datasets para makakuha ng bagong insights at perspektibo.
Gusto mo bang tuklasin at palawakin ang isang proyekto sa larangang ito?
Tingnan ang "Emily Dickinson and the Meter of Mood" - isang mahusay na halimbawa mula kay Jen Looper na nagtatanong kung paano natin magagamit ang data science para muling suriin ang pamilyar na poetry at muling suriin ang kahulugan nito at ang kontribusyon ng may-akda sa bagong konteksto. Halimbawa, maaari ba nating mahulaan ang panahon kung kailan isinulat ang isang tula sa pamamagitan ng pagsusuri sa tono o damdamin nito - at ano ang sinasabi nito tungkol sa estado ng kaisipan ng may-akda sa kaugnay na panahon?
Para sagutin ang tanong na iyon, sundan natin ang mga hakbang ng lifecycle ng data science:
Data Acquisition- para mangolekta ng kaugnay na dataset para sa pagsusuri. Ang mga opsyon ay kinabibilangan ng paggamit ng API (hal., Poetry DB API) o pag-scrape ng mga web page (hal., Project Gutenberg) gamit ang mga tools tulad ng Scrapy.Data Cleaning- nagpapaliwanag kung paano maaaring i-format, i-sanitize, at i-simplify ang text gamit ang mga basic tools tulad ng Visual Studio Code at Microsoft Excel.Data Analysis- nagpapaliwanag kung paano natin maaaring i-import ang dataset sa "Notebooks" para sa pagsusuri gamit ang Python packages (tulad ng pandas, numpy, at matplotlib) para ayusin at i-visualize ang data.Sentiment Analysis- nagpapaliwanag kung paano natin maaaring i-integrate ang cloud services tulad ng Text Analytics, gamit ang low-code tools tulad ng Power Automate para sa automated data processing workflows.
Gamit ang workflow na ito, maaari nating tuklasin ang epekto ng panahon sa damdamin ng mga tula, at tulungan tayong bumuo ng sarili nating perspektibo sa may-akda. Subukan mo ito - pagkatapos ay palawakin ang notebook para magtanong ng iba pang mga tanong o i-visualize ang data sa mga bagong paraan!
Maaari mong gamitin ang ilan sa mga tools sa Digital Humanities toolkit para ipagpatuloy ang mga ganitong uri ng inquiry.
Data Science + Sustainability
![]() |
|---|
| Data Science & Sustainability - Sketchnote ni @nitya |
Ang 2030 Agenda For Sustainable Development - na in-adopt ng lahat ng miyembro ng United Nations noong 2015 - ay nagtatakda ng 17 goals kabilang ang mga nakatuon sa Pagprotekta sa Planet mula sa pagkasira at epekto ng climate change. Ang Microsoft Sustainability na inisyatibo ay sumusuporta sa mga layuning ito sa pamamagitan ng paggalugad ng mga paraan kung paano makakatulong ang mga teknolohiyang solusyon sa pagbuo ng mas sustainable na kinabukasan na may focus sa 4 na layunin - pagiging carbon negative, water positive, zero waste, at bio-diverse pagsapit ng 2030.
Ang pagharap sa mga hamon na ito sa isang scalable at napapanahong paraan ay nangangailangan ng cloud-scale thinking - at malakihang data. Ang Planetary Computer na inisyatibo ay nagbibigay ng 4 na components para tumulong sa mga data scientist at developer sa pagsisikap na ito:
-
Data Catalog - na may petabytes ng Earth Systems data (libre at Azure-hosted).
-
Planetary API - para tumulong sa mga user na maghanap ng kaugnay na data sa iba't ibang lugar at panahon.
-
Hub - managed environment para sa mga scientist na magproseso ng malalaking geospatial datasets.
-
Applications - nagpapakita ng mga use cases at tools para sa sustainability insights. Ang Planetary Computer Project ay kasalukuyang nasa preview (mula Setyembre 2021) - narito kung paano ka makakapagsimula sa pag-aambag sa mga solusyon para sa sustainability gamit ang data science.
-
Humiling ng access upang simulan ang pag-explore at makipag-ugnayan sa mga kapwa mananaliksik.
-
Mag-explore ng dokumentasyon upang maunawaan ang mga suportadong dataset at API.
-
Mag-explore ng mga aplikasyon tulad ng Ecosystem Monitoring para sa inspirasyon sa mga ideya ng aplikasyon.
Pag-isipan kung paano mo magagamit ang data visualization upang ipakita o palakasin ang mga mahalagang insight sa mga larangan tulad ng pagbabago ng klima at deforestation. O pag-isipan kung paano magagamit ang mga insight upang lumikha ng mga bagong karanasan para sa mga gumagamit na magpapasigla sa pagbabago ng ugali para sa mas sustainable na pamumuhay.
Data Science + Mga Mag-aaral
Napag-usapan na natin ang mga aplikasyon sa totoong mundo sa industriya at pananaliksik, at na-explore ang mga halimbawa ng aplikasyon ng data science sa digital humanities at sustainability. Kaya paano mo maitatayo ang iyong mga kakayahan at maibabahagi ang iyong kaalaman bilang mga baguhan sa data science?
Narito ang ilang halimbawa ng mga proyekto ng data science ng mga mag-aaral upang magbigay inspirasyon sa iyo.
- MSR Data Science Summer School na may mga proyekto sa GitHub projects na nag-eexplore ng mga paksa tulad ng:
- Digitizing Material Culture: Exploring socio-economic distributions in Sirkap - mula kay Ornella Altunyan at team sa Claremont, gamit ang ArcGIS StoryMaps.
🚀 Hamon
Maghanap ng mga artikulo na nagrerekomenda ng mga proyekto sa data science na angkop para sa mga baguhan - tulad ng mga 50 paksa o mga 21 ideya ng proyekto o mga 16 proyekto na may source code na maaari mong pag-aralan at i-remix. At huwag kalimutang mag-blog tungkol sa iyong mga learning journey at ibahagi ang iyong mga insight sa aming lahat.
Post-Lecture Quiz
Post-lecture quiz
Review & Self Study
Gusto mo bang mag-explore ng mas maraming use cases? Narito ang ilang mga kaugnay na artikulo:
- 17 Data Science Applications and Examples - Hulyo 2021
- 11 Breathtaking Data Science Applications in Real World - Mayo 2021
- Data Science In The Real World - Koleksyon ng Artikulo
- Data Science Sa: Edukasyon, Agrikultura, Pananalapi, Pelikula at iba pa.
Assignment
Mag-explore ng Dataset ng Planetary Computer
Paunawa:
Ang dokumentong ito ay isinalin gamit ang AI translation service na Co-op Translator. Bagama't sinisikap naming maging tumpak, tandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang katutubong wika ang dapat ituring na opisyal na sanggunian. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na dulot ng paggamit ng pagsasaling ito.



