6.9 KiB
Ciclul de viață al științei datelor: Analiza
![]() |
---|
Ciclul de viață al științei datelor: Analiza - Sketchnote de @nitya |
Chestionar înainte de curs
Chestionar înainte de curs
Analiza în cadrul ciclului de viață al datelor confirmă dacă datele pot răspunde la întrebările propuse sau pot rezolva o anumită problemă. Acest pas se concentrează, de asemenea, pe verificarea dacă un model abordează corect aceste întrebări și probleme. Această lecție este axată pe Analiza Exploratorie a Datelor (Exploratory Data Analysis sau EDA), care include tehnici pentru definirea caracteristicilor și relațiilor din cadrul datelor și poate fi utilizată pentru pregătirea datelor pentru modelare.
Vom folosi un set de date exemplu de pe Kaggle pentru a arăta cum poate fi aplicat acest lucru folosind Python și biblioteca Pandas. Acest set de date conține un număr de cuvinte comune găsite în e-mailuri, sursele acestor e-mailuri fiind anonime. Folosiți notebook-ul din acest director pentru a urmări.
Analiza Exploratorie a Datelor
Faza de captare a ciclului de viață este locul unde sunt obținute datele, precum și problemele și întrebările asociate, dar cum știm dacă datele pot sprijini rezultatul final? Reamintiți-vă că un specialist în știința datelor poate pune următoarele întrebări atunci când obține datele:
- Am suficiente date pentru a rezolva această problemă?
- Datele sunt de o calitate acceptabilă pentru această problemă?
- Dacă descopăr informații suplimentare prin aceste date, ar trebui să luăm în considerare schimbarea sau redefinirea obiectivelor?
Analiza Exploratorie a Datelor este procesul de a cunoaște datele și poate fi utilizată pentru a răspunde la aceste întrebări, precum și pentru a identifica provocările lucrului cu setul de date. Să ne concentrăm pe câteva dintre tehnicile utilizate pentru a realiza acest lucru.
Profilarea Datelor, Statistici Descriptive și Pandas
Cum evaluăm dacă avem suficiente date pentru a rezolva această problemă? Profilarea datelor poate rezuma și aduna câteva informații generale despre setul nostru de date prin tehnici de statistici descriptive. Profilarea datelor ne ajută să înțelegem ce este disponibil pentru noi, iar statisticile descriptive ne ajută să înțelegem câte lucruri sunt disponibile.
În câteva lecții anterioare, am folosit Pandas pentru a oferi câteva statistici descriptive cu funcția describe()
. Aceasta oferă numărul de valori, valorile maxime și minime, media, deviația standard și cuantilele pentru datele numerice. Utilizarea statisticilor descriptive, cum ar fi funcția describe()
, vă poate ajuta să evaluați cât de multe date aveți și dacă aveți nevoie de mai multe.
Eșantionare și Interogare
Explorarea întregului set de date mare poate fi foarte consumatoare de timp și este, de obicei, o sarcină lăsată în seama unui computer. Totuși, eșantionarea este un instrument util pentru înțelegerea datelor și ne permite să avem o mai bună înțelegere a ceea ce conține setul de date și ce reprezintă. Cu un eșantion, puteți aplica probabilități și statistici pentru a ajunge la concluzii generale despre datele dvs. Deși nu există o regulă definită despre cât de multe date ar trebui să eșantionați, este important de menționat că, cu cât eșantionați mai multe date, cu atât generalizarea pe care o faceți va fi mai precisă.
Pandas are funcția sample()
în biblioteca sa, unde puteți specifica câte eșantioane aleatorii doriți să primiți și să utilizați.
Interogarea generală a datelor vă poate ajuta să răspundeți la întrebări generale și teorii pe care le aveți. Spre deosebire de eșantionare, interogările vă permit să aveți control și să vă concentrați pe anumite părți ale datelor despre care aveți întrebări. Funcția query()
din biblioteca Pandas vă permite să selectați coloane și să primiți răspunsuri simple despre datele prin rândurile obținute.
Explorarea prin Vizualizări
Nu trebuie să așteptați până când datele sunt complet curățate și analizate pentru a începe să creați vizualizări. De fapt, având o reprezentare vizuală în timpul explorării poate ajuta la identificarea tiparelor, relațiilor și problemelor din date. Mai mult, vizualizările oferă un mijloc de comunicare cu cei care nu sunt implicați în gestionarea datelor și pot fi o oportunitate de a împărtăși și clarifica întrebări suplimentare care nu au fost abordate în etapa de captare. Consultați secțiunea despre Vizualizări pentru a afla mai multe despre câteva modalități populare de explorare vizuală.
Explorarea pentru identificarea inconsistențelor
Toate subiectele din această lecție pot ajuta la identificarea valorilor lipsă sau inconsistente, dar Pandas oferă funcții pentru a verifica unele dintre acestea. isna() sau isnull() pot verifica valorile lipsă. Un aspect important al explorării acestor valori în cadrul datelor dvs. este să explorați de ce au ajuns în această situație. Acest lucru vă poate ajuta să decideți ce acțiuni să luați pentru a le rezolva.
Chestionar înainte de curs
Temă
Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa maternă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.