You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ro/1-Introduction/01-defining-data-science
localizeflow[bot] 188a326676
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
solution chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb 🌐 Update translations via Co-op Translator 6 months ago

README.md

Definirea Științei Datelor

 Schiță de (@sketchthedocs)
Definirea Științei Datelor - Schiță de @nitya

Video despre Definirea Științei Datelor

Chestionar înainte de curs

Ce este Datele?

În viața noastră de zi cu zi, suntem înconjurați constant de date. Textul pe care îl citești acum este o dată. Lista de numere de telefon ale prietenilor tăi din smartphone-ul tău este o dată, la fel ca ora curentă afișată pe ceasul tău. Ca ființe umane, operăm în mod natural cu date, numărând banii pe care îi avem sau scriind scrisori prietenilor noștri.

Totuși, datele au devenit mult mai importante odată cu apariția calculatoarelor. Rolul principal al calculatoarelor este de a efectua calcule, dar ele au nevoie de date pentru a funcționa. Astfel, trebuie să înțelegem cum stochează și procesează calculatoarele datele.

Odată cu apariția internetului, rolul calculatoarelor ca dispozitive de gestionare a datelor a crescut. Dacă te gândești, acum folosim calculatoarele din ce în ce mai mult pentru procesarea și comunicarea datelor, mai degrabă decât pentru calcule propriu-zise. Când scriem un e-mail unui prieten sau căutăm informații pe internet - practic creăm, stocăm, transmitem și manipulăm date.

Îți amintești ultima dată când ai folosit calculatoarele pentru a calcula efectiv ceva?

Ce este Știința Datelor?

În Wikipedia, Știința Datelor este definită ca un domeniu științific care utilizează metode științifice pentru a extrage cunoștințe și perspective din date structurate și nestructurate și pentru a aplica cunoștințele și perspectivele acționabile din date într-o gamă largă de domenii de aplicare.

Această definiție subliniază următoarele aspecte importante ale științei datelor:

  • Scopul principal al științei datelor este extracția cunoștințelor din date, cu alte cuvinte - înțelegerea datelor, găsirea unor relații ascunse și construirea unui model.
  • Știința datelor utilizează metode științifice, cum ar fi probabilitatea și statistica. De fapt, când termenul știința datelor a fost introdus pentru prima dată, unii oameni au susținut că știința datelor era doar un nume nou și sofisticat pentru statistică. În prezent, este evident că domeniul este mult mai larg.
  • Cunoștințele obținute ar trebui aplicate pentru a produce perspective acționabile, adică perspective practice pe care le poți aplica în situații reale de afaceri.
  • Ar trebui să fim capabili să operăm atât pe date structurate, cât și pe date nestructurate. Vom reveni să discutăm diferite tipuri de date mai târziu în curs.
  • Domeniul de aplicare este un concept important, iar oamenii de știință în domeniul datelor au nevoie adesea de un anumit grad de expertiză în domeniul problemei, de exemplu: finanțe, medicină, marketing etc.

Un alt aspect important al Științei Datelor este că studiază modul în care datele pot fi colectate, stocate și operate folosind calculatoare. În timp ce statistica ne oferă fundamentele matematice, știința datelor aplică concepte matematice pentru a obține efectiv perspective din date.

Unul dintre modurile (atribuit lui Jim Gray) de a privi știința datelor este să o considerăm un paradigm separat al științei:

  • Empiric, în care ne bazăm în principal pe observații și rezultatele experimentelor
  • Teoretic, unde apar concepte noi din cunoștințele științifice existente
  • Computațional, unde descoperim principii noi bazate pe unele experimente computaționale
  • Bazat pe date, bazat pe descoperirea relațiilor și modelelor în date

Alte Domenii Conexe

Deoarece datele sunt omniprezente, știința datelor este, de asemenea, un domeniu vast, care atinge multe alte discipline.

Baze de date
O considerație critică este cum să stocăm datele, adică cum să le structurăm într-un mod care să permită procesarea mai rapidă. Există diferite tipuri de baze de date care stochează date structurate și nestructurate, pe care le vom analiza în cursul nostru.
Big Data
Adesea trebuie să stocăm și să procesăm cantități foarte mari de date cu o structură relativ simplă. Există abordări și instrumente speciale pentru a stoca acele date într-un mod distribuit pe un cluster de calculatoare și pentru a le procesa eficient.
Învățare Automată
Un mod de a înțelege datele este să construim un model care să poată prezice un rezultat dorit. Dezvoltarea modelelor din date se numește învățare automată. Poți consulta Curriculumul nostru de Învățare Automată pentru Începători pentru a afla mai multe despre acest subiect.
Inteligență Artificială
Un domeniu al învățării automate cunoscut sub numele de inteligență artificială (IA) se bazează, de asemenea, pe date și implică construirea de modele de complexitate ridicată care imită procesele de gândire umană. Metodele IA ne permit adesea să transformăm datele nestructurate (de exemplu, limbajul natural) în perspective structurate.
Vizualizare
Cantitățile mari de date sunt greu de înțeles pentru o ființă umană, dar odată ce creăm vizualizări utile folosind acele date, putem înțelege mai bine datele și putem trage concluzii. Astfel, este important să cunoaștem multe moduri de a vizualiza informațiile - ceva ce vom acoperi în Secțiunea 3 a cursului nostru. Domeniile conexe includ, de asemenea, Infografice și Interacțiunea Om-Calculator în general.

Tipuri de Date

Așa cum am menționat deja, datele sunt peste tot. Trebuie doar să le captăm în mod corespunzător! Este util să facem diferența între datele structurate și cele nestructurate. Primele sunt de obicei reprezentate într-o formă bine structurată, adesea sub formă de tabel sau mai multe tabele, în timp ce celelalte sunt doar o colecție de fișiere. Uneori putem vorbi și despre date semi-structurate, care au un fel de structură ce poate varia considerabil.

Structurate Semi-structurate Nestructurate
Lista persoanelor cu numerele lor de telefon Pagini Wikipedia cu linkuri Textul Enciclopediei Britannica
Temperatura din toate camerele unei clădiri la fiecare minut din ultimii 20 de ani Colecția de lucrări științifice în format JSON cu autori, data publicării și rezumat Flux video brut de la o cameră de supraveghere
Date despre vârsta și genul tuturor persoanelor care intră în clădire Pagini de internet Documente corporative într-un folder

De unde să obții Date

Există multe surse posibile de date, și ar fi imposibil să le enumerăm pe toate! Totuși, să menționăm câteva dintre locurile tipice de unde poți obține date:

  • Structurate
    • Internetul Lucrurilor (IoT), inclusiv date de la diferiți senzori, cum ar fi senzori de temperatură sau presiune, oferă o mulțime de date utile. De exemplu, dacă o clădire de birouri este echipată cu senzori IoT, putem controla automat încălzirea și iluminatul pentru a minimiza costurile.
    • Chestionare pe care le cerem utilizatorilor să le completeze după o achiziție sau după vizitarea unui site web.
    • Analiza comportamentului poate, de exemplu, să ne ajute să înțelegem cât de profund explorează un utilizator un site și care este motivul tipic pentru care părăsește site-ul.
  • Nestructurate
    • Texte pot fi o sursă bogată de perspective, cum ar fi un scor de sentiment general sau extragerea de cuvinte cheie și semnificații semantice.
    • Imagini sau Video. Un videoclip de la o cameră de supraveghere poate fi utilizat pentru a estima traficul pe drum și pentru a informa oamenii despre posibilele ambuteiaje.
    • Jurnale de server web pot fi utilizate pentru a înțelege care pagini ale site-ului nostru sunt cele mai des vizitate și pentru cât timp.
  • Semi-structurate
    • Grafurile de Rețele Sociale pot fi surse excelente de date despre personalitățile utilizatorilor și potențiala eficiență în răspândirea informațiilor.
    • Când avem o mulțime de fotografii de la o petrecere, putem încerca să extragem date despre Dinamica Grupului construind un grafic al persoanelor care fac poze împreună.

Cunoscând diferitele surse posibile de date, poți încerca să te gândești la diferite scenarii în care tehnicile de știință a datelor pot fi aplicate pentru a înțelege mai bine situația și pentru a îmbunătăți procesele de afaceri.

Ce poți face cu Datele

În Știința Datelor, ne concentrăm pe următorii pași ai călătoriei datelor:

1) Achiziția Datelor
Primul pas este colectarea datelor. Deși în multe cazuri poate fi un proces simplu, cum ar fi datele care ajung într-o bază de date dintr-o aplicație web, uneori trebuie să folosim tehnici speciale. De exemplu, datele de la senzorii IoT pot fi copleșitoare, și este o practică bună să folosim puncte de colectare tampon, cum ar fi IoT Hub, pentru a colecta toate datele înainte de procesarea ulterioară.
2) Stocarea Datelor
Stocarea datelor poate fi o provocare, mai ales dacă vorbim despre big data. Când decidem cum să stocăm datele, este logic să anticipăm modul în care am dori să interogăm datele în viitor. Există mai multe moduri în care datele pot fi stocate:
  • O bază de date relațională stochează o colecție de tabele și folosește un limbaj special numit SQL pentru a le interoga. De obicei, tabelele sunt organizate în diferite grupuri numite scheme. În multe cazuri, trebuie să convertim datele din forma originală pentru a se potrivi cu schema.
  • O bază de date NoSQL, cum ar fi CosmosDB, nu impune scheme asupra datelor și permite stocarea datelor mai complexe, de exemplu, documente JSON ierarhice sau grafuri. Totuși, bazele de date NoSQL nu au capacitățile bogate de interogare ale SQL și nu pot impune integritatea referențială, adică regulile privind modul în care datele sunt structurate în tabele și guvernează relațiile dintre tabele.
  • Stocarea în Data Lake este utilizată pentru colecții mari de date în formă brută, nestructurată. Data lakes sunt adesea utilizate cu big data, unde toate datele nu pot încăpea pe o singură mașină și trebuie stocate și procesate de un cluster de servere. Parquet este formatul de date care este adesea utilizat în combinație cu big data.
3) Procesarea Datelor
Aceasta este partea cea mai interesantă a călătoriei datelor, care implică convertirea datelor din forma lor originală într-o formă care poate fi utilizată pentru vizualizare/antrenarea modelului. Când lucrăm cu date nestructurate, cum ar fi text sau imagini, poate fi necesar să utilizăm unele tehnici de IA pentru a extrage caracteristici din date, transformându-le astfel într-o formă structurată.
4) Vizualizare / Perspective Umane
Adesea, pentru a înțelege datele, trebuie să le vizualizăm. Având multe tehnici diferite de vizualizare în arsenalul nostru, putem găsi perspectiva potrivită pentru a obține o înțelegere. Adesea, un om de știință în domeniul datelor trebuie să "se joace cu datele", vizualizându-le de multe ori și căutând relații. De asemenea, putem utiliza tehnici statistice pentru a testa o ipoteză sau pentru a demonstra o corelație între diferite părți ale datelor.
5) Antrenarea unui model predictiv
Deoarece scopul final al științei datelor este de a putea lua decizii bazate pe date, putem dori să utilizăm tehnicile de Învățare Automată pentru a construi un model predictiv. Putem apoi să-l folosim pentru a face predicții utilizând seturi de date noi cu structuri similare.

Desigur, în funcție de datele reale, unii pași ar putea lipsi (de exemplu, atunci când avem deja datele în baza de date sau când nu avem nevoie de antrenarea modelului), sau unii pași ar putea fi repetați de mai multe ori (cum ar fi procesarea datelor).

Digitalizare și Transformare Digitală

În ultimul deceniu, multe afaceri au început să înțeleagă importanța datelor în luarea deciziilor de afaceri. Pentru a aplica principiile științei datelor în conducerea unei afaceri, trebuie mai întâi să colectăm unele date, adică să traducem procesele de afaceri în formă digitală. Acest lucru este cunoscut sub numele de digitalizare. Aplicarea tehnicilor de știință a datelor la aceste date pentru a ghida deciziile poate duce la creșteri semnificative ale productivității (sau chiar la o schimbare a direcției afacerii), numită transformare digitală.

Să luăm un exemplu. Să presupunem că avem un curs de știința datelor (cum este acesta) pe care îl livrăm online studenților și dorim să folosim știința datelor pentru a-l îmbunătăți. Cum putem face acest lucru?

Putem începe prin a ne întreba "Ce poate fi digitalizat?" Cel mai simplu mod ar fi să măsurăm timpul necesar fiecărui student pentru a finaliza fiecare modul și să măsurăm cunoștințele obținute prin oferirea unui test cu opțiuni multiple la sfârșitul fiecărui modul. Calculând media timpului de finalizare pentru toți studenții, putem afla care module cauzează cele mai mari dificultăți pentru studenți și să lucrăm la simplificarea lor.

Ai putea argumenta că această abordare nu este ideală, deoarece modulele pot avea lungimi diferite. Probabil ar fi mai corect să împărțim timpul la lungimea modulului (în număr de caractere) și să comparăm acele valori în schimb.

Când începem să analizăm rezultatele testelor cu răspunsuri multiple, putem încerca să determinăm care sunt conceptele pe care elevii le înțeleg cu dificultate și să folosim aceste informații pentru a îmbunătăți conținutul. Pentru a face acest lucru, trebuie să concepem teste astfel încât fiecare întrebare să corespundă unui anumit concept sau unei unități de cunoștințe.

Dacă dorim să complicăm și mai mult lucrurile, putem reprezenta grafic timpul necesar pentru fiecare modul în funcție de categoria de vârstă a elevilor. Am putea descoperi că pentru unele categorii de vârstă durează un timp nepotrivit de lung pentru a finaliza modulul sau că elevii renunță înainte de a-l termina. Acest lucru ne poate ajuta să oferim recomandări de vârstă pentru modul și să minimizăm nemulțumirea oamenilor cauzată de așteptări greșite.

🚀 Provocare

În această provocare, vom încerca să identificăm concepte relevante pentru domeniul Științei Datelor analizând texte. Vom lua un articol de pe Wikipedia despre Știința Datelor, vom descărca și procesa textul, iar apoi vom construi un nor de cuvinte asemănător cu acesta:

Nor de cuvinte pentru Știința Datelor

Vizitează notebook.ipynb pentru a parcurge codul. Poți, de asemenea, să rulezi codul și să vezi cum efectuează toate transformările de date în timp real.

Dacă nu știi cum să rulezi codul într-un Jupyter Notebook, aruncă o privire la acest articol.

Test de verificare post-lectură

Temele

Credite

Această lecție a fost creată cu ♥️ de Dmitry Soshnikov


Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de oameni. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.