20 KiB
Știința Datelor în Lumea Reală
![]() |
---|
Știința Datelor în Lumea Reală - Sketchnote realizat de @nitya |
Suntem aproape de finalul acestei călătorii de învățare!
Am început cu definițiile științei datelor și eticii, am explorat diverse instrumente și tehnici pentru analiza și vizualizarea datelor, am revizuit ciclul de viață al științei datelor și am analizat scalarea și automatizarea fluxurilor de lucru ale științei datelor cu ajutorul serviciilor de cloud computing. Așadar, probabil te întrebi: "Cum pot aplica toate aceste cunoștințe în contexte reale?"
În această lecție, vom explora aplicațiile reale ale științei datelor în diverse industrii și vom analiza exemple specifice din cercetare, științele umaniste digitale și sustenabilitate. Vom discuta despre oportunitățile pentru proiecte studențești și vom încheia cu resurse utile pentru a-ți continua călătoria de învățare!
Chestionar Pre-Lecție
Știința Datelor + Industrie
Datorită democratizării AI, dezvoltatorii găsesc acum mai ușor să proiecteze și să integreze decizii bazate pe AI și perspective bazate pe date în experiențele utilizatorilor și fluxurile de lucru de dezvoltare. Iată câteva exemple despre cum este aplicată știința datelor în aplicații reale din industrie:
-
Google Flu Trends a utilizat știința datelor pentru a corela termenii de căutare cu tendințele gripei. Deși abordarea a avut defecte, a crescut conștientizarea asupra posibilităților (și provocărilor) predicțiilor bazate pe date în domeniul sănătății.
-
Predicțiile de rutare UPS - explică modul în care UPS folosește știința datelor și învățarea automată pentru a prezice rutele optime de livrare, luând în considerare condițiile meteorologice, traficul, termenele de livrare și altele.
-
Vizualizarea rutelor taxiurilor din NYC - datele colectate prin Legile privind Libertatea Informației au ajutat la vizualizarea unei zile din viața taxiurilor din NYC, ajutându-ne să înțelegem cum navighează prin orașul aglomerat, câți bani câștigă și durata curselor pe parcursul unei perioade de 24 de ore.
-
Uber Data Science Workbench - folosește date (despre locațiile de preluare și destinație, durata curselor, rutele preferate etc.) colectate din milioane de curse Uber zilnic pentru a construi un instrument de analiză a datelor care ajută la stabilirea prețurilor, siguranță, detectarea fraudelor și luarea deciziilor de navigare.
-
Analiza sportivă - se concentrează pe analiza predictivă (analiza echipelor și jucătorilor - gândiți-vă la Moneyball - și managementul fanilor) și vizualizarea datelor (tablouri de bord pentru echipe și fani, jocuri etc.) cu aplicații precum scouting-ul de talente, pariurile sportive și managementul inventarului/locațiilor.
-
Știința Datelor în Bănci - evidențiază valoarea științei datelor în industria financiară, cu aplicații care variază de la modelarea riscurilor și detectarea fraudelor, la segmentarea clienților, predicții în timp real și sisteme de recomandare. Analiza predictivă susține, de asemenea, măsuri critice precum scorurile de credit.
-
Știința Datelor în Sănătate - evidențiază aplicații precum imagistica medicală (de exemplu, RMN, radiografii, tomografii), genomica (secvențierea ADN-ului), dezvoltarea de medicamente (evaluarea riscurilor, predicția succesului), analiza predictivă (îngrijirea pacienților și logistica aprovizionării), urmărirea și prevenirea bolilor etc.
Credit Imagine: Data Flair: 6 Amazing Data Science Applications
Figura arată alte domenii și exemple de aplicare a tehnicilor de știința datelor. Vrei să explorezi alte aplicații? Consultă secțiunea Review & Self Study de mai jos.
Știința Datelor + Cercetare
![]() |
---|
Știința Datelor & Cercetare - Sketchnote realizat de @nitya |
Deși aplicațiile din lumea reală se concentrează adesea pe cazuri de utilizare din industrie la scară largă, aplicațiile și proiectele de cercetare pot fi utile din două perspective:
- oportunități de inovație - explorarea prototipurilor rapide ale conceptelor avansate și testarea experiențelor utilizatorilor pentru aplicațiile generației următoare.
- provocări de implementare - investigarea potențialelor daune sau consecințe neintenționate ale tehnologiilor de știința datelor în contexte reale.
Pentru studenți, aceste proiecte de cercetare pot oferi atât oportunități de învățare, cât și de colaborare, care îți pot îmbunătăți înțelegerea subiectului și îți pot lărgi conștientizarea și implicarea cu persoane sau echipe relevante care lucrează în domenii de interes. Cum arată proiectele de cercetare și cum pot avea impact?
Să analizăm un exemplu - Studiul MIT Gender Shades realizat de Joy Buolamwini (MIT Media Labs) cu un articol de cercetare semnificativ co-autor cu Timnit Gebru (pe atunci la Microsoft Research) care s-a concentrat pe:
- Ce: Obiectivul proiectului de cercetare a fost să evalueze prejudecățile prezente în algoritmii și seturile de date pentru analiza facială automată pe baza genului și tipului de piele.
- De ce: Analiza facială este utilizată în domenii precum aplicarea legii, securitatea aeroportuară, sistemele de angajare și altele - contexte în care clasificările inexacte (de exemplu, din cauza prejudecăților) pot cauza daune economice și sociale potențiale persoanelor sau grupurilor afectate. Înțelegerea (și eliminarea sau atenuarea) prejudecăților este esențială pentru echitate în utilizare.
- Cum: Cercetătorii au recunoscut că reperele existente utilizau predominant subiecți cu piele mai deschisă și au creat un nou set de date (peste 1000 de imagini) care era mai echilibrat în funcție de gen și tip de piele. Setul de date a fost utilizat pentru a evalua acuratețea a trei produse de clasificare a genului (de la Microsoft, IBM și Face++).
Rezultatele au arătat că, deși acuratețea generală a clasificării era bună, exista o diferență notabilă în ratele de eroare între diversele subgrupuri - cu clasificări greșite mai frecvente pentru femei sau persoane cu piele mai închisă, indicând prezența prejudecăților.
Rezultate cheie: Studiul a crescut conștientizarea asupra faptului că știința datelor are nevoie de seturi de date mai reprezentative (subgrupuri echilibrate) și de echipe mai incluzive (cu diverse medii) pentru a recunoaște și elimina sau atenua astfel de prejudecăți mai devreme în soluțiile AI. Eforturile de cercetare precum acesta sunt, de asemenea, esențiale pentru ca multe organizații să definească principii și practici pentru AI responsabilă pentru a îmbunătăți echitatea în produsele și procesele lor AI.
Vrei să afli despre eforturile de cercetare relevante la Microsoft?
- Consultă Proiectele de Cercetare Microsoft în domeniul Inteligenței Artificiale.
- Explorează proiectele studențești din cadrul Școlii de Vară Microsoft Research Data Science.
- Consultă proiectul Fairlearn și inițiativele AI Responsabil.
Știința Datelor + Științele Umaniste
![]() |
---|
Știința Datelor & Științele Umaniste Digitale - Sketchnote realizat de @nitya |
Științele Umaniste Digitale au fost definite drept "o colecție de practici și abordări care combină metode computaționale cu cercetarea umanistă". Proiectele Stanford precum "rebooting history" și "poetic thinking" ilustrează legătura dintre Științele Umaniste Digitale și Știința Datelor - subliniind tehnici precum analiza rețelelor, vizualizarea informațiilor, analiza spațială și textuală care ne pot ajuta să revizităm seturi de date istorice și literare pentru a obține noi perspective și înțelegeri.
Vrei să explorezi și să extinzi un proiect în acest domeniu?
Consultă "Emily Dickinson și Metrul Stării de Spirit" - un exemplu excelent de la Jen Looper care întreabă cum putem folosi știința datelor pentru a revizita poezia familiară și a reevalua semnificația acesteia și contribuțiile autorului în noi contexte. De exemplu, putem prezice anotimpul în care a fost scrisă o poezie analizând tonul sau sentimentul acesteia - și ce ne spune acest lucru despre starea de spirit a autorului în perioada respectivă?
Pentru a răspunde la această întrebare, urmăm pașii ciclului de viață al științei datelor:
Achiziția Datelor
- pentru a colecta un set de date relevant pentru analiză. Opțiunile includ utilizarea unui API (de exemplu, Poetry DB API) sau extragerea paginilor web (de exemplu, Project Gutenberg) folosind instrumente precum Scrapy.Curățarea Datelor
- explică modul în care textul poate fi formatat, curățat și simplificat folosind instrumente de bază precum Visual Studio Code și Microsoft Excel.Analiza Datelor
- explică modul în care putem importa setul de date în "Notebooks" pentru analiză folosind pachete Python (precum pandas, numpy și matplotlib) pentru a organiza și vizualiza datele.Analiza Sentimentului
- explică modul în care putem integra servicii cloud precum Text Analytics, folosind instrumente low-code precum Power Automate pentru fluxuri de lucru automate de procesare a datelor.
Folosind acest flux de lucru, putem explora impactul anotimpurilor asupra sentimentului poeziilor și ne putem forma propriile perspective asupra autorului. Încearcă-l și tu - apoi extinde notebook-ul pentru a pune alte întrebări sau pentru a vizualiza datele în moduri noi!
Poți folosi unele dintre instrumentele din trusa de instrumente pentru Științele Umaniste Digitale pentru a urmări aceste direcții de cercetare.
Știința Datelor + Sustenabilitate
![]() |
---|
Știința Datelor & Sustenabilitate - Sketchnote realizat de @nitya |
Agenda 2030 pentru Dezvoltare Durabilă - adoptată de toți membrii Națiunilor Unite în 2015 - identifică 17 obiective, inclusiv cele care se concentrează pe Protejarea Planetei de degradare și impactul schimbărilor climatice. Inițiativa Microsoft Sustainability sprijină aceste obiective explorând moduri în care soluțiile tehnologice pot susține și construi un viitor mai sustenabil, cu un focalizare pe 4 obiective - să fie negative în privința carbonului, pozitive în privința apei, fără deșeuri și biodiversificate până în 2030.
Abordarea acestor provocări într-un mod scalabil și oportun necesită gândire la scară cloud - și date la scară largă. Inițiativa Planetary Computer oferă 4 componente pentru a ajuta oamenii de știință și dezvoltatorii de date în acest efort:
-
Catalogul de Date - cu petabytes de date despre Sistemele Terestre (gratuite și găzduite pe Azure).
-
Planetary API - pentru a ajuta utilizatorii să caute date relevante în funcție de spațiu și timp.
-
Hub - mediu gestionat pentru oamenii de știință pentru a procesa seturi masive de date geospațiale.
-
Aplicații - prezintă cazuri de utilizare și instrumente pentru perspective asupra sustenabilității. Proiectul Planetary Computer este în faza de previzualizare (din septembrie 2021) - iată cum poți începe să contribui la soluții de sustenabilitate folosind știința datelor.
-
Solicită acces pentru a începe explorarea și a te conecta cu colegii.
-
Explorează documentația pentru a înțelege seturile de date și API-urile suportate.
-
Explorează aplicații precum Ecosystem Monitoring pentru inspirație în dezvoltarea de idei de aplicații.
Gândește-te cum poți utiliza vizualizarea datelor pentru a expune sau amplifica perspective relevante în domenii precum schimbările climatice și defrișările. Sau gândește-te cum pot fi utilizate aceste perspective pentru a crea noi experiențe pentru utilizatori care să motiveze schimbări comportamentale pentru un stil de viață mai sustenabil.
Știința Datelor + Studenți
Am discutat despre aplicații reale în industrie și cercetare și am explorat exemple de aplicații de știința datelor în domeniul umanistic digital și sustenabilitate. Deci, cum îți poți dezvolta abilitățile și împărtăși expertiza ta ca începător în știința datelor?
Iată câteva exemple de proiecte studențești în știința datelor pentru a te inspira.
- Școala de Vară MSR Data Science cu proiecte pe GitHub care explorează subiecte precum:
- Digitalizarea Culturii Materiale: Explorarea distribuțiilor socio-economice în Sirkap - de la Ornella Altunyan și echipa sa de la Claremont, folosind ArcGIS StoryMaps.
🚀 Provocare
Caută articole care recomandă proiecte de știința datelor prietenoase pentru începători - cum ar fi aceste 50 de domenii sau aceste 21 de idei de proiecte sau aceste 16 proiecte cu cod sursă pe care le poți analiza și adapta. Și nu uita să scrii pe blog despre călătoria ta de învățare și să împărtășești perspectivele tale cu noi toți.
Test de evaluare după prelegere
Test de evaluare după prelegere
Recapitulare & Studiu Individual
Vrei să explorezi mai multe cazuri de utilizare? Iată câteva articole relevante:
- 17 Aplicații și Exemple de Știința Datelor - iulie 2021
- 11 Aplicații Uimitoare ale Științei Datelor în Lumea Reală - mai 2021
- Știința Datelor în Lumea Reală - Colecție de articole
- Știința Datelor în: Educație, Agricultură, Finanțe, Filme și altele.
Temă
Explorează un set de date Planetary Computer
Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.