You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

20 KiB

Știința Datelor în Lumea Reală

 Sketchnote de (@sketchthedocs)
Știința Datelor în Lumea Reală - Sketchnote de @nitya

Suntem aproape de finalul acestei călătorii de învățare!

Am început cu definiții ale științei datelor și eticii, am explorat diverse instrumente și tehnici pentru analiza și vizualizarea datelor, am revizuit ciclul de viață al științei datelor și am analizat scalarea și automatizarea fluxurilor de lucru ale științei datelor cu servicii de cloud computing. Așadar, probabil te întrebi: "Cum pot să aplic toate aceste cunoștințe în contexte reale?"

În această lecție, vom explora aplicațiile reale ale științei datelor în industrie și vom analiza exemple specifice în cercetare, umanistică digitală și sustenabilitate. Vom discuta despre oportunități de proiecte pentru studenți și vom încheia cu resurse utile pentru a-ți continua călătoria de învățare!

Chestionar Pre-Lecție

Chestionar pre-lecție

Știința Datelor + Industrie

Datorită democratizării AI, dezvoltatorii găsesc acum mai ușor să proiecteze și să integreze decizii bazate pe AI și perspective bazate pe date în experiențele utilizatorilor și fluxurile de lucru de dezvoltare. Iată câteva exemple despre cum știința datelor este "aplicată" în aplicații reale din industrie:

  • Google Flu Trends a utilizat știința datelor pentru a corela termenii de căutare cu tendințele gripei. Deși abordarea a avut defecte, a crescut conștientizarea posibilităților (și provocărilor) predicțiilor bazate pe date în domeniul sănătății.

  • Predicțiile de rutare UPS - explică modul în care UPS folosește știința datelor și învățarea automată pentru a prezice rute optime de livrare, luând în considerare condițiile meteorologice, traficul, termenele de livrare și altele.

  • Vizualizarea rutelor taxiurilor din NYC - datele colectate folosind Legile Libertății de Informare au ajutat la vizualizarea unei zile din viața taxiurilor din NYC, ajutându-ne să înțelegem cum navighează prin orașul aglomerat, câți bani câștigă și durata călătoriilor pe parcursul fiecărei perioade de 24 de ore.

  • Uber Data Science Workbench - folosește date (despre locațiile de preluare și predare, durata călătoriilor, rutele preferate etc.) colectate din milioane de călătorii Uber zilnic pentru a construi un instrument de analiză a datelor care ajută la stabilirea prețurilor, siguranță, detectarea fraudei și decizii de navigare.

  • Analitica sportivă - se concentrează pe analitica predictivă (analiza echipelor și jucătorilor - gândește-te la Moneyball - și gestionarea fanilor) și vizualizarea datelor (tablouri de bord pentru echipe și fani, jocuri etc.) cu aplicații precum recrutarea de talente, pariurile sportive și gestionarea inventarului/locațiilor.

  • Știința datelor în sectorul bancar - evidențiază valoarea științei datelor în industria financiară, cu aplicații variind de la modelarea riscurilor și detectarea fraudei, la segmentarea clienților, predicții în timp real și sisteme de recomandare. Analitica predictivă susține, de asemenea, măsuri critice precum scorurile de credit.

  • Știința datelor în sănătate - evidențiază aplicații precum imagistica medicală (de exemplu, RMN, radiografie, tomografie), genomica (secvențierea ADN-ului), dezvoltarea medicamentelor (evaluarea riscurilor, predicția succesului), analitica predictivă (îngrijirea pacienților și logistica aprovizionării), urmărirea și prevenirea bolilor etc.

Aplicații ale Științei Datelor în Lumea Reală Credit imagine: Data Flair: 6 Aplicații Uimitoare ale Științei Datelor

Figura arată alte domenii și exemple de aplicare a tehnicilor de știința datelor. Vrei să explorezi alte aplicații? Consultă secțiunea Revizuire & Studiu Individual de mai jos.

Știința Datelor + Cercetare

 Sketchnote de (@sketchthedocs)
Știința Datelor & Cercetare - Sketchnote de @nitya

Deși aplicațiile reale se concentrează adesea pe cazuri de utilizare industriale la scară, aplicațiile și proiectele de cercetare pot fi utile din două perspective:

  • oportunități de inovare - explorarea prototipării rapide a conceptelor avansate și testarea experiențelor utilizatorilor pentru aplicații de generație următoare.
  • provocări de implementare - investigarea potențialelor daune sau consecințe neintenționate ale tehnologiilor de știința datelor în contexte reale.

Pentru studenți, aceste proiecte de cercetare pot oferi atât oportunități de învățare, cât și de colaborare, care pot îmbunătăți înțelegerea subiectului și pot extinde conștientizarea și implicarea cu persoane sau echipe relevante care lucrează în domenii de interes. Cum arată proiectele de cercetare și cum pot avea impact?

Să analizăm un exemplu - MIT Gender Shades Study de Joy Buolamwini (MIT Media Labs) cu un articol de cercetare semnătură co-autor cu Timnit Gebru (pe atunci la Microsoft Research) care s-a concentrat pe:

  • Ce: Obiectivul proiectului de cercetare a fost să evalueze prejudecățile prezente în algoritmii și seturile de date de analiză facială automatizată bazate pe gen și tipul de piele.
  • De ce: Analiza facială este utilizată în domenii precum aplicarea legii, securitatea aeroporturilor, sistemele de angajare și altele - contexte în care clasificările inexacte (de exemplu, din cauza prejudecăților) pot cauza daune economice și sociale potențiale indivizilor sau grupurilor afectate. Înțelegerea (și eliminarea sau atenuarea) prejudecăților este esențială pentru echitate în utilizare.
  • Cum: Cercetătorii au recunoscut că reperele existente utilizau predominant subiecți cu piele mai deschisă și au creat un nou set de date (1000+ imagini) care era mai echilibrat în funcție de gen și tipul de piele. Setul de date a fost utilizat pentru a evalua acuratețea a trei produse de clasificare a genului (de la Microsoft, IBM & Face++).

Rezultatele au arătat că, deși acuratețea generală a clasificării era bună, exista o diferență notabilă în ratele de eroare între diverse subgrupuri - cu clasificări greșite mai frecvente pentru femei sau persoane cu pielea mai închisă, indicând prejudecăți.

Rezultate cheie: A crescut conștientizarea că știința datelor are nevoie de seturi de date mai reprezentative (subgrupuri echilibrate) și de echipe mai incluzive (diverse din punct de vedere al background-ului) pentru a recunoaște și elimina sau atenua astfel de prejudecăți mai devreme în soluțiile AI. Eforturile de cercetare precum acesta sunt, de asemenea, instrumentale în definirea principiilor și practicilor pentru AI responsabil în multe organizații, pentru a îmbunătăți echitatea produselor și proceselor AI.

Vrei să afli despre eforturile de cercetare relevante la Microsoft?

Știința Datelor + Umanistică

 Sketchnote de (@sketchthedocs)
Știința Datelor & Umanistică Digitală - Sketchnote de @nitya

Umanistica Digitală a fost definită ca "o colecție de practici și abordări care combină metode computaționale cu cercetarea umanistică". Proiectele Stanford precum "rebooting history" și "poetic thinking" ilustrează legătura dintre Umanistica Digitală și Știința Datelor - subliniind tehnici precum analiza rețelelor, vizualizarea informațiilor, analiza spațială și textuală care ne pot ajuta să revizităm seturi de date istorice și literare pentru a obține noi perspective și înțelegeri.

Vrei să explorezi și să extinzi un proiect în acest domeniu?

Consultă "Emily Dickinson și Metrul Stării de Spirit" - un exemplu excelent de la Jen Looper care întreabă cum putem folosi știința datelor pentru a revizita poezia familiară și a reevalua semnificația acesteia și contribuțiile autorului în noi contexte. De exemplu, putem prezice sezonul în care a fost scrisă o poezie analizând tonul sau sentimentul acesteia - și ce ne spune acest lucru despre starea de spirit a autorului în perioada respectivă?

Pentru a răspunde la această întrebare, urmăm pașii ciclului de viață al științei datelor:

  • Achiziția Datelor - pentru a colecta un set de date relevant pentru analiză. Opțiunile includ utilizarea unui API (de exemplu, Poetry DB API) sau extragerea paginilor web (de exemplu, Project Gutenberg) folosind instrumente precum Scrapy.
  • Curățarea Datelor - explică modul în care textul poate fi formatat, igienizat și simplificat folosind instrumente de bază precum Visual Studio Code și Microsoft Excel.
  • Analiza Datelor - explică modul în care putem importa setul de date în "Notebooks" pentru analiză folosind pachete Python (precum pandas, numpy și matplotlib) pentru organizarea și vizualizarea datelor.
  • Analiza Sentimentului - explică modul în care putem integra servicii cloud precum Text Analytics, folosind instrumente low-code precum Power Automate pentru fluxuri de lucru automate de procesare a datelor.

Folosind acest flux de lucru, putem explora impactul sezonier asupra sentimentului poeziilor și ne putem forma propriile perspective asupra autorului. Încearcă-l singur - apoi extinde notebook-ul pentru a pune alte întrebări sau pentru a vizualiza datele în moduri noi!

Poți folosi unele dintre instrumentele din trusa de instrumente pentru Umanistica Digitală pentru a urmări aceste direcții de cercetare.

Știința Datelor + Sustenabilitate

 Sketchnote de (@sketchthedocs)
Știința Datelor & Sustenabilitate - Sketchnote de @nitya

Agenda 2030 pentru Dezvoltare Durabilă - adoptată de toți membrii Națiunilor Unite în 2015 - identifică 17 obiective, inclusiv cele care se concentrează pe Protejarea Planetei de degradare și impactul schimbărilor climatice. Inițiativa Microsoft Sustainability susține aceste obiective explorând moduri în care soluțiile tehnologice pot sprijini și construi un viitor mai sustenabil, cu un focalizare pe 4 obiective - să fie negativă din punct de vedere al emisiilor de carbon, pozitivă din punct de vedere al apei, fără deșeuri și biodiversă până în 2030.

Abordarea acestor provocări într-un mod scalabil și oportun necesită gândire la scară cloud - și date la scară largă. Inițiativa Planetary Computer oferă 4 componente pentru a ajuta oamenii de știință și dezvoltatorii în acest efort:

  • Catalogul de Date - cu petabytes de date despre Sistemele Terestre (gratuit și găzduit pe Azure).

  • API-ul Planetary - pentru a ajuta utilizatorii să caute date relevante în funcție de spațiu și timp.

  • Hub - mediu gestionat pentru oamenii de știință pentru a procesa seturi masive de date geospațiale.

  • Aplicații - prezintă cazuri de utilizare și instrumente pentru perspective de sustenabilitate. Proiectul Planetary Computer este în prezent în faza de previzualizare (din septembrie 2021) - iată cum poți începe să contribui la soluții pentru sustenabilitate folosind știința datelor.

  • Solicită acces pentru a începe explorarea și a te conecta cu colegii.

  • Explorează documentația pentru a înțelege seturile de date și API-urile suportate.

  • Explorează aplicații precum Monitorizarea Ecosistemelor pentru inspirație în dezvoltarea de idei de aplicații.

Gândește-te cum poți utiliza vizualizarea datelor pentru a dezvălui sau amplifica perspective relevante în domenii precum schimbările climatice și defrișările. Sau gândește-te cum pot fi utilizate aceste perspective pentru a crea noi experiențe pentru utilizatori care să motiveze schimbări comportamentale pentru un stil de viață mai sustenabil.

Știința Datelor + Studenți

Am discutat despre aplicații din lumea reală în industrie și cercetare și am explorat exemple de aplicații ale științei datelor în domeniul umanisticii digitale și al sustenabilității. Așadar, cum îți poți dezvolta abilitățile și împărtăși expertiza ca începător în știința datelor?

Iată câteva exemple de proiecte studențești în știința datelor pentru a te inspira.

🚀 Provocare

Caută articole care recomandă proiecte de știința datelor prietenoase pentru începători - precum aceste 50 de domenii tematice sau aceste 21 de idei de proiecte sau aceste 16 proiecte cu cod sursă pe care le poți deconstrui și remixa. Și nu uita să scrii pe blog despre călătoriile tale de învățare și să împărtășești perspectivele tale cu noi toți.

Chestionar Post-Lecție

Chestionar post-lecție

Recapitulare & Studiu Individual

Vrei să explorezi mai multe cazuri de utilizare? Iată câteva articole relevante:

Temă

Explorează un Set de Date Planetary Computer


Declinarea responsabilității:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să aveți în vedere că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.