You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/README.md

18 KiB

Duomenų mokslas realiame pasaulyje

 Sketchnote by (@sketchthedocs)
Duomenų mokslas realiame pasaulyje - Sketchnote by @nitya

Mes beveik pasiekėme šios mokymosi kelionės pabaigą!

Pradėjome nuo duomenų mokslo ir etikos apibrėžimų, tyrinėjome įvairius duomenų analizės ir vizualizacijos įrankius bei technikas, peržiūrėjome duomenų mokslo gyvavimo ciklą ir aptarėme, kaip mastelį ir automatizaciją galima pasiekti naudojant debesų kompiuterijos paslaugas. Taigi, tikriausiai klausiate savęs: "Kaip tiksliai pritaikyti visus šiuos mokymus realiame pasaulyje?"

Šioje pamokoje nagrinėsime duomenų mokslo taikymą įvairiose pramonės srityse ir gilinsimės į konkrečius pavyzdžius, susijusius su tyrimais, skaitmeninėmis humanitarinėmis mokslų sritimis ir tvarumu. Taip pat aptarsime studentų projektų galimybes ir užbaigsime naudingais ištekliais, kurie padės tęsti mokymosi kelionę!

Prieš paskaitą: testas

Prieš paskaitą: testas

Duomenų mokslas + Pramonė

Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrįstus sprendimus bei duomenimis pagrįstas įžvalgas į vartotojų patirtis ir kūrimo procesus. Štai keletas pavyzdžių, kaip duomenų mokslas "taikomas" realiame pasaulyje įvairiose pramonės srityse:

  • Google Flu Trends naudojo duomenų mokslą, kad susietų paieškos terminus su gripo tendencijomis. Nors metodas turėjo trūkumų, jis atkreipė dėmesį į galimybes (ir iššūkius) prognozuojant sveikatos būklę remiantis duomenimis.

  • UPS maršrutų prognozės - paaiškina, kaip UPS naudoja duomenų mokslą ir mašininį mokymąsi, kad numatytų optimaliausius pristatymo maršrutus, atsižvelgiant į oro sąlygas, eismo modelius, pristatymo terminus ir kt.

  • NYC taksi maršrutų vizualizacija - duomenys, surinkti naudojant Informacijos laisvės įstatymus, padėjo vizualizuoti vieną NYC taksi dieną, leidžiant suprasti, kaip jie naviguoja užimtame mieste, kiek uždirba ir kiek trunka kelionės per 24 valandas.

  • Uber duomenų mokslo darbo aplinka - naudoja duomenis (apie paėmimo ir išlaipinimo vietas, kelionės trukmę, pageidaujamus maršrutus ir kt.), surinktus iš milijonų Uber kelionių kasdien, kad sukurtų duomenų analizės įrankį, padedantį nustatyti kainas, saugumą, sukčiavimo aptikimą ir navigacijos sprendimus.

  • Sporto analitika - orientuojasi į prognozavimo analitiką (komandų ir žaidėjų analizė - pagalvokite apie Moneyball - ir gerbėjų valdymą) bei duomenų vizualizaciją (komandų ir gerbėjų skydeliai, žaidimai ir kt.) su taikymu, kaip talentų paieška, sporto lažybos ir inventoriaus/vietos valdymas.

  • Duomenų mokslas bankininkystėje - pabrėžia duomenų mokslo vertę finansų pramonėje, taikant rizikos modeliavimą, sukčiavimo aptikimą, klientų segmentavimą, realaus laiko prognozes ir rekomendacijų sistemas. Prognozavimo analitika taip pat skatina svarbias priemones, tokias kaip kredito reitingai.

  • Duomenų mokslas sveikatos apsaugoje - pabrėžia taikymą, kaip medicininė vaizdinė analizė (pvz., MRT, rentgenas, CT-skenavimas), genomika (DNR sekos nustatymas), vaistų kūrimas (rizikos vertinimas, sėkmės prognozė), prognozavimo analitika (pacientų priežiūra ir tiekimo logistika), ligų stebėjimas ir prevencija ir kt.

Duomenų mokslo taikymas realiame pasaulyje Vaizdo kreditas: Data Flair: 6 Amazing Data Science Applications

Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite Peržiūra ir savarankiškas mokymasis skyrių žemiau.

Duomenų mokslas + Tyrimai

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir tyrimai - Sketchnote by @nitya

Nors realaus pasaulio taikymas dažnai orientuojasi į pramonės naudojimo atvejus mastu, tyrimų taikymas ir projektai gali būti naudingi iš dviejų perspektyvų:

  • inovacijų galimybės - tyrinėti pažangių koncepcijų greitą prototipavimą ir vartotojų patirties testavimą kitų kartų taikymams.
  • diegimo iššūkiai - tirti galimus žalingus ar netikėtus duomenų mokslo technologijų padarinius realiame pasaulyje.

Studentams šie tyrimų projektai gali suteikti tiek mokymosi, tiek bendradarbiavimo galimybių, kurios gali pagerinti jūsų supratimą apie temą ir praplėsti jūsų sąmoningumą bei įsitraukimą su atitinkamais žmonėmis ar komandomis, dirbančiomis dominančiose srityse. Taigi, kaip atrodo tyrimų projektai ir kaip jie gali turėti įtakos?

Pažvelkime į vieną pavyzdį - MIT Gender Shades Study iš Joy Buolamwini (MIT Media Labs) su reikšmingu tyrimo straipsniu, kurį kartu parašė Timnit Gebru (tuomet Microsoft Research), kuris buvo orientuotas į:

  • Kas: Tyrimo projekto tikslas buvo įvertinti šališkumą automatizuotų veido analizės algoritmų ir duomenų rinkinių pagrindu pagal lytį ir odos tipą.
  • Kodėl: Veido analizė naudojama tokiose srityse kaip teisėsauga, oro uostų saugumas, įdarbinimo sistemos ir kt. - kontekstuose, kur netikslūs klasifikavimai (pvz., dėl šališkumo) gali sukelti ekonominius ir socialinius padarinius paveiktiems asmenims ar grupėms. Šališkumo supratimas (ir jo pašalinimas ar mažinimas) yra raktas į teisingumą naudojime.
  • Kaip: Tyrėjai pastebėjo, kad esami etalonai daugiausia naudojo šviesesnės odos subjektus, ir sukūrė naują duomenų rinkinį (1000+ vaizdų), kuris buvo labiau subalansuotas pagal lytį ir odos tipą. Duomenų rinkinys buvo naudojamas trijų lyties klasifikavimo produktų (Microsoft, IBM ir Face++) tikslumui įvertinti.

Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pastebimas klaidų rodiklių skirtumas tarp įvairių pogrupių - su neteisingu lyties nustatymu, kuris buvo didesnis moterims ar tamsesnės odos tipų asmenims, rodantis šališkumą.

Pagrindiniai rezultatai: Atkreiptas dėmesys, kad duomenų mokslui reikia daugiau reprezentatyvių duomenų rinkinių (subalansuotų pogrupių) ir daugiau įtraukiančių komandų (įvairių kilmės), kad būtų galima anksčiau atpažinti ir pašalinti ar sumažinti tokį šališkumą AI sprendimuose. Tokie tyrimų pastangos taip pat yra svarbios daugeliui organizacijų, apibrėžiančių principus ir praktikas atsakingam AI, siekiant pagerinti teisingumą jų AI produktuose ir procesuose.

Norite sužinoti apie atitinkamus tyrimų pastangas Microsoft?

Duomenų mokslas + Humanitariniai mokslai

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir skaitmeninės humanitarinės mokslų sritys - Sketchnote by @nitya

Skaitmeninės humanitarinės mokslų sritys apibrėžtos kaip "praktikų ir metodų rinkinys, derinantis skaičiavimo metodus su humanitariniais tyrimais". Stanford projektai, tokie kaip "istorijos atnaujinimas" ir "poetinis mąstymas", iliustruoja ryšį tarp Skaitmeninių humanitarinių mokslų ir duomenų mokslo - pabrėžiant technikas, tokias kaip tinklo analizė, informacijos vizualizacija, erdvinė ir teksto analizė, kurios gali padėti mums iš naujo peržiūrėti istorinius ir literatūrinius duomenų rinkinius, kad gautume naujų įžvalgų ir perspektyvų.

Norite tyrinėti ir plėsti projektą šioje srityje?

Peržiūrėkite "Emily Dickinson ir nuotaikos metras" - puikus pavyzdys iš Jen Looper, kuris klausia, kaip galime naudoti duomenų mokslą, kad iš naujo peržiūrėtume pažįstamą poeziją ir įvertintume jos prasmę bei autoriaus indėlį naujuose kontekstuose. Pavyzdžiui, ar galime prognozuoti sezoną, kuriame buvo parašytas eilėraštis, analizuodami jo toną ar nuotaiką - ir ką tai pasakoja apie autoriaus būseną per atitinkamą laikotarpį?

Norėdami atsakyti į šį klausimą, sekame duomenų mokslo gyvavimo ciklo žingsnius:

  • Duomenų gavimas - surinkti tinkamą duomenų rinkinį analizei. Galimybės apima API naudojimą (pvz., Poetry DB API) arba tinklalapių nuskaitymą (pvz., Project Gutenberg) naudojant įrankius, tokius kaip Scrapy.
  • Duomenų valymas - paaiškina, kaip tekstas gali būti formatuojamas, valomas ir supaprastinamas naudojant pagrindinius įrankius, tokius kaip Visual Studio Code ir Microsoft Excel.
  • Duomenų analizė - paaiškina, kaip dabar galime importuoti duomenų rinkinį į "Notebooks" analizei naudojant Python paketus (pvz., pandas, numpy ir matplotlib), kad organizuotume ir vizualizuotume duomenis.
  • Nuotaikos analizė - paaiškina, kaip galime integruoti debesų paslaugas, tokias kaip Teksto analizė, naudojant mažo kodo įrankius, tokius kaip Power Automate automatizuotoms duomenų apdorojimo darbo eigoms.

Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių nuotaikai ir padėti mums suformuoti savo perspektyvas apie autorių. Išbandykite patys - tada išplėskite užrašų knygelę, kad užduotumėte kitus klausimus arba vizualizuotumėte duomenis naujais būdais!

Galite naudoti kai kuriuos įrankius iš Skaitmeninių humanitarinių mokslų įrankių rinkinio, kad tęstumėte šias tyrimų kryptis.

Duomenų mokslas + Tvarumas

 Sketchnote by (@sketchthedocs)
Duomenų mokslas ir tvarumas - Sketchnote by @nitya

2030 m. darbotvarkė tvariam vystymuisi - priimta visų Jungtinių Tautų narių 2015 m. - identifikuoja 17 tikslų, įskaitant tuos, kurie orientuojasi į planetos apsaugą nuo degradacijos ir klimato kaitos poveikio. Microsoft tvarumo iniciatyva palaiko šiuos tikslus, tyrinėdama, kaip technologiniai sprendimai gali padėti kurti tvaresnę ateitį, orientuojantis į 4 tikslus - būti anglies neigiamais, vandens teigiamais, be atliekų ir bioįvairiais iki Planetary Computer projektas šiuo metu yra peržiūros stadijoje (nuo 2021 m. rugsėjo) - štai kaip galite pradėti prisidėti prie tvarumo sprendimų naudodami duomenų mokslą.

Pagalvokite, kaip galite naudoti duomenų vizualizaciją, kad atskleistumėte ar sustiprintumėte svarbias įžvalgas tokiose srityse kaip klimato kaita ir miškų naikinimas. Arba apsvarstykite, kaip įžvalgos gali būti panaudotos kuriant naujas vartotojų patirtis, kurios motyvuotų elgesio pokyčius siekiant tvaresnio gyvenimo.

Duomenų mokslas + studentai

Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir moksliniuose tyrimuose, taip pat nagrinėjome duomenų mokslo taikymo pavyzdžius skaitmeninėse humanitarinėse mokslų srityse ir tvarume. Taigi, kaip galite ugdyti savo įgūdžius ir dalintis savo žiniomis kaip pradedantieji duomenų mokslininkai?

Štai keletas duomenų mokslo studentų projektų pavyzdžių, kurie gali jus įkvėpti:

🚀 Iššūkis

Ieškokite straipsnių, kurie rekomenduoja pradedantiesiems tinkamus duomenų mokslo projektus - pavyzdžiui, šias 50 temų, šias 21 projekto idėją arba šiuos 16 projektų su šaltinio kodu, kuriuos galite analizuoti ir pritaikyti. Nepamirškite rašyti tinklaraščio apie savo mokymosi kelionę ir dalintis savo įžvalgomis su visais.

Po paskaitos testas

Po paskaitos testas

Apžvalga ir savarankiškas mokymasis

Norite tyrinėti daugiau pritaikymo atvejų? Štai keletas susijusių straipsnių:

Užduotis

Tyrinėkite Planetary Computer duomenų rinkinį


Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.