You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

18 KiB

Duomenų mokslas realiame pasaulyje

 Sketchnote by (@sketchthedocs)
Duomenų mokslas realiame pasaulyje - Sketchnote by @nitya

Mes beveik pasiekėme šios mokymosi kelionės pabaigą!

Pradėjome nuo duomenų mokslo ir etikos apibrėžimų, tyrinėjome įvairius duomenų analizės ir vizualizacijos įrankius bei technikas, peržiūrėjome duomenų mokslo gyvavimo ciklą ir nagrinėjome, kaip mastelį ir automatizaciją galima pasiekti naudojant debesų kompiuterijos paslaugas. Taigi, tikriausiai klausiate savęs: "Kaip tiksliai pritaikyti visus šiuos mokymus realiame pasaulyje?"

Šioje pamokoje nagrinėsime duomenų mokslo taikymą įvairiose pramonės srityse ir gilinsimės į konkrečius pavyzdžius tyrimų, skaitmeninių humanitarinių mokslų ir tvarumo kontekstuose. Aptarsime studentų projektų galimybes ir užbaigsime naudingais ištekliais, kurie padės tęsti mokymosi kelionę!

Prieš paskaitą: testas

Prieš paskaitą: testas

Duomenų mokslas + Pramonė

Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrįstus sprendimus bei duomenimis pagrįstas įžvalgas į vartotojų patirtis ir kūrimo procesus. Štai keletas pavyzdžių, kaip duomenų mokslas "taikomas" realiame pasaulyje įvairiose pramonės srityse:

  • Google Flu Trends naudojo duomenų mokslą, kad susietų paieškos terminus su gripo tendencijomis. Nors metodas turėjo trūkumų, jis atkreipė dėmesį į galimybes (ir iššūkius) prognozuojant sveikatos būklę remiantis duomenimis.

  • UPS maršrutų prognozės - paaiškina, kaip UPS naudoja duomenų mokslą ir mašininį mokymąsi, kad numatytų optimaliausius pristatymo maršrutus, atsižvelgiant į oro sąlygas, eismo modelius, pristatymo terminus ir kt.

  • NYC taksi maršrutų vizualizacija - duomenys, surinkti naudojant Informacijos laisvės įstatymus, padėjo vizualizuoti vieną dieną NYC taksi gyvenime, padėdami suprasti, kaip jie naviguoja užimtame mieste, kiek uždirba ir kiek trunka kelionės per 24 valandas.

  • Uber duomenų mokslo darbo aplinka - naudoja duomenis (apie paėmimo ir išlaipinimo vietas, kelionės trukmę, pageidaujamus maršrutus ir kt.), surinktus iš milijonų Uber kelionių kasdien, kad sukurtų duomenų analizės įrankį, padedantį nustatyti kainas, saugumą, sukčiavimo aptikimą ir navigacijos sprendimus.

  • Sporto analizė - orientuojasi į prognozavimo analizę (komandų ir žaidėjų analizė - pagalvokite apie Moneyball - ir fanų valdymą) bei duomenų vizualizaciją (komandų ir fanų prietaisų skydeliai, žaidimai ir kt.) su taikymu, pvz., talentų paieška, sporto lažybos ir inventoriaus/vietos valdymas.

  • Duomenų mokslas bankininkystėje - pabrėžia duomenų mokslo vertę finansų pramonėje, taikant rizikos modeliavimą, sukčiavimo aptikimą, klientų segmentavimą, realaus laiko prognozes ir rekomendacijų sistemas. Prognozavimo analizė taip pat skatina svarbias priemones, tokias kaip kredito reitingai.

  • Duomenų mokslas sveikatos apsaugoje - pabrėžia taikymą, pvz., medicininį vaizdavimą (pvz., MRT, rentgenas, KT skenavimas), genomiką (DNR sekos nustatymas), vaistų kūrimą (rizikos vertinimas, sėkmės prognozė), prognozavimo analizę (pacientų priežiūra ir tiekimo logistika), ligų stebėjimą ir prevenciją ir kt.

Duomenų mokslo taikymas realiame pasaulyje Vaizdo kreditas: Data Flair: 6 Amazing Data Science Applications

Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite Peržiūra ir savarankiškas mokymasis skyrių žemiau.

Duomenų mokslas + Tyrimai

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir tyrimai - Sketchnote by @nitya

Nors realaus pasaulio taikymas dažnai orientuojasi į pramonės naudojimo atvejus mastu, tyrimų taikymas ir projektai gali būti naudingi iš dviejų perspektyvų:

  • inovacijų galimybės - tirti pažangių koncepcijų greitą prototipavimą ir vartotojų patirties testavimą kitų kartų taikymams.
  • diegimo iššūkiai - tirti galimus žalingus ar netikėtus duomenų mokslo technologijų padarinius realiame pasaulyje.

Studentams šie tyrimų projektai gali suteikti tiek mokymosi, tiek bendradarbiavimo galimybių, kurios gali pagerinti jūsų supratimą apie temą ir praplėsti jūsų sąmoningumą bei įsitraukimą su atitinkamais žmonėmis ar komandomis, dirbančiomis dominančiose srityse. Taigi, kaip atrodo tyrimų projektai ir kaip jie gali turėti įtakos?

Pažvelkime į vieną pavyzdį - MIT Gender Shades Study iš Joy Buolamwini (MIT Media Labs) su reikšmingu tyrimų straipsniu, kurį kartu parašė Timnit Gebru (tuomet Microsoft Research), kuris buvo orientuotas į:

  • Kas: Tyrimo projekto tikslas buvo įvertinti šališkumą automatizuotų veido analizės algoritmų ir duomenų rinkinių pagrindu pagal lytį ir odos tipą.
  • Kodėl: Veido analizė naudojama tokiose srityse kaip teisėsauga, oro uostų saugumas, įdarbinimo sistemos ir kt. - kontekstuose, kur netikslūs klasifikavimai (pvz., dėl šališkumo) gali sukelti ekonominę ir socialinę žalą paveiktiems asmenims ar grupėms. Šališkumo supratimas (ir jo pašalinimas arba mažinimas) yra raktas į teisingumą naudojime.
  • Kaip: Tyrėjai pripažino, kad esami etalonai daugiausia naudojo šviesesnės odos subjektus, ir sukūrė naują duomenų rinkinį (1000+ vaizdų), kuris buvo labiau subalansuotas pagal lytį ir odos tipą. Duomenų rinkinys buvo naudojamas trijų lyties klasifikavimo produktų (Microsoft, IBM ir Face++) tikslumui įvertinti.

Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pastebimas skirtumas klaidų rodikliuose tarp įvairių pogrupių - su neteisingu lyties priskyrimu, kuris buvo didesnis moterims arba asmenims su tamsesnės odos tipais, rodantis šališkumą.

Pagrindiniai rezultatai: Atkreiptas dėmesys, kad duomenų mokslui reikia daugiau reprezentatyvių duomenų rinkinių (subalansuotų pogrupių) ir daugiau įtraukių komandų (įvairių kilmės), kad būtų galima anksčiau atpažinti ir pašalinti arba sumažinti tokius šališkumus AI sprendimuose. Tokie tyrimų pastangos taip pat yra svarbios daugeliui organizacijų, apibrėžiančių principus ir praktikas atsakingam AI, siekiant pagerinti teisingumą jų AI produktuose ir procesuose.

Norite sužinoti apie atitinkamus tyrimų pastangas Microsoft?

Duomenų mokslas + Humanitariniai mokslai

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir skaitmeniniai humanitariniai mokslai - Sketchnote by @nitya

Skaitmeniniai humanitariniai mokslai yra apibrėžti kaip "praktikų ir metodų rinkinys, derinantis skaičiavimo metodus su humanitariniais tyrimais". Stanfordo projektai, tokie kaip "istorijos perkrovimas" ir "poetinis mąstymas", iliustruoja ryšį tarp Skaitmeninių humanitarinių mokslų ir duomenų mokslo - pabrėžiant tokias technikas kaip tinklų analizė, informacijos vizualizacija, erdvinė ir tekstinė analizė, kurios gali padėti mums iš naujo peržiūrėti istorinius ir literatūrinius duomenų rinkinius, kad gautume naujų įžvalgų ir perspektyvų.

Norite tyrinėti ir plėsti projektą šioje srityje?

Peržiūrėkite "Emily Dickinson ir nuotaikos metras" - puikus pavyzdys iš Jen Looper, kuris klausia, kaip galime naudoti duomenų mokslą, kad iš naujo peržiūrėtume pažįstamą poeziją ir iš naujo įvertintume jos prasmę bei autoriaus indėlį naujuose kontekstuose. Pavyzdžiui, ar galime prognozuoti sezoną, kuriame buvo sukurtas eilėraštis, analizuodami jo toną ar nuotaiką - ir ką tai pasakoja apie autoriaus būseną per atitinkamą laikotarpį?

Norėdami atsakyti į šį klausimą, sekame duomenų mokslo gyvavimo ciklo žingsnius:

  • Duomenų gavimas - surinkti atitinkamą duomenų rinkinį analizei. Galimybės apima API naudojimą (pvz., Poetry DB API) arba tinklalapių nuskaitymą (pvz., Project Gutenberg) naudojant įrankius, tokius kaip Scrapy.
  • Duomenų valymas - paaiškina, kaip tekstas gali būti formatuojamas, valomas ir supaprastinamas naudojant pagrindinius įrankius, tokius kaip Visual Studio Code ir Microsoft Excel.
  • Duomenų analizė - paaiškina, kaip dabar galime importuoti duomenų rinkinį į "Notebooks" analizei naudojant Python paketus (pvz., pandas, numpy ir matplotlib), kad organizuotume ir vizualizuotume duomenis.
  • Nuotaikos analizė - paaiškina, kaip galime integruoti debesų paslaugas, tokias kaip Teksto analizė, naudojant mažo kodo įrankius, pvz., Power Automate automatizuotoms duomenų apdorojimo darbo eigoms.

Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių nuotaikai ir padėti mums suformuoti savo perspektyvas apie autorių. Išbandykite patys - tada išplėskite užrašų knygelę, kad užduotumėte kitus klausimus arba vizualizuotumėte duomenis naujais būdais!

Galite naudoti kai kuriuos įrankius iš Skaitmeninių humanitarinių mokslų įrankių rinkinio, kad tęstumėte šias tyrimų kryptis.

Duomenų mokslas + Tvarumas

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir tvarumas - Sketchnote by @nitya

2030 m. Darbotvarkė tvariam vystymuisi - priimta visų Jungtinių Tautų narių 2015 m. - identifikuoja 17 tikslų, įskaitant tuos, kurie orientuojasi į Planetos apsaugą nuo degradacijos ir klimato kaitos poveikio. Microsoft tvarumo iniciatyva palaiko šiuos tikslus, tyrinėdama, kaip technologiniai sprendimai gali padėti kurti tvaresnę ateitį, orientuojantis į 4 tikslus - būti anglies neigiamais, vandens teigiamais, be atliekų ir bioįvairiais iki 2030 m.

Sprendžiant Planetary Computer projektas šiuo metu yra peržiūros stadijoje (nuo 2021 m. rugsėjo) - štai kaip galite pradėti prisidėti prie tvarumo sprendimų naudodami duomenų mokslą.

Pagalvokite, kaip galite naudoti duomenų vizualizaciją, kad atskleistumėte ar sustiprintumėte svarbias įžvalgas tokiose srityse kaip klimato kaita ir miškų naikinimas. Arba apsvarstykite, kaip įžvalgos gali būti panaudotos kuriant naujas vartotojų patirtis, kurios motyvuotų elgesio pokyčius siekiant tvaresnio gyvenimo.

Duomenų mokslas + studentai

Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir tyrimuose, taip pat nagrinėjome duomenų mokslo taikymo pavyzdžius skaitmeninėse humanitarinėse mokslų srityse ir tvarume. Taigi, kaip galite ugdyti savo įgūdžius ir dalintis savo žiniomis kaip pradedantieji duomenų mokslininkai?

Štai keletas duomenų mokslo studentų projektų pavyzdžių, kurie gali jus įkvėpti:

🚀 Iššūkis

Ieškokite straipsnių, kurie rekomenduoja pradedantiesiems tinkamus duomenų mokslo projektus - pavyzdžiui, šias 50 temų sritis arba šias 21 projekto idėją arba šiuos 16 projektų su šaltinio kodu, kuriuos galite išskaidyti ir perkurti. Nepamirškite rašyti tinklaraščio apie savo mokymosi keliones ir dalintis savo įžvalgomis su visais.

Po paskaitos testas

Po paskaitos testas

Apžvalga ir savarankiškas mokymasis

Norite tyrinėti daugiau pritaikymo atvejų? Štai keletas susijusių straipsnių:

Užduotis

Naršykite Planetary Computer duomenų rinkinį


Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo.