|
|
5 months ago | |
|---|---|---|
| .. | ||
| README.md | 5 months ago | |
| assignment.md | 5 months ago | |
| notebook.ipynb | 5 months ago | |
README.md
Introducere în ciclul de viață al științei datelor
![]() |
|---|
| Introducere în ciclul de viață al științei datelor - Sketchnote de @nitya |
Chestionar înainte de lecție
Până acum, probabil ai realizat că știința datelor este un proces. Acest proces poate fi împărțit în 5 etape:
- Capturare
- Procesare
- Analiză
- Comunicare
- Menținere
Această lecție se concentrează pe 3 părți ale ciclului de viață: capturare, procesare și menținere.
Fotografie de Berkeley School of Information
Capturare
Prima etapă a ciclului de viață este foarte importantă, deoarece etapele următoare depind de aceasta. Practic, este o combinație a două etape: obținerea datelor și definirea scopului și problemelor care trebuie abordate.
Definirea obiectivelor proiectului va necesita o înțelegere mai profundă a problemei sau întrebării. Mai întâi, trebuie să identificăm și să obținem persoanele care au nevoie ca problema lor să fie rezolvată. Acestea pot fi părți interesate într-o afacere sau sponsori ai proiectului, care pot ajuta la identificarea celor care vor beneficia de acest proiect, precum și ce și de ce au nevoie. Un obiectiv bine definit ar trebui să fie măsurabil și cuantificabil pentru a defini un rezultat acceptabil.
Întrebări pe care un specialist în știința datelor le poate pune:
- A fost abordată această problemă înainte? Ce s-a descoperit?
- Este scopul și obiectivul înțeles de toți cei implicați?
- Există ambiguități și cum pot fi reduse?
- Care sunt constrângerile?
- Cum ar putea arăta rezultatul final?
- Câte resurse (timp, oameni, computaționale) sunt disponibile?
Următorul pas este identificarea, colectarea și, în final, explorarea datelor necesare pentru atingerea acestor obiective definite. În această etapă de achiziție, specialiștii în știința datelor trebuie să evalueze cantitatea și calitatea datelor. Acest lucru necesită o explorare a datelor pentru a confirma că ceea ce a fost obținut va sprijini atingerea rezultatului dorit.
Întrebări pe care un specialist în știința datelor le poate pune despre date:
- Ce date sunt deja disponibile pentru mine?
- Cine deține aceste date?
- Care sunt preocupările legate de confidențialitate?
- Am suficiente date pentru a rezolva această problemă?
- Sunt datele de o calitate acceptabilă pentru această problemă?
- Dacă descopăr informații suplimentare prin aceste date, ar trebui să luăm în considerare schimbarea sau redefinirea obiectivelor?
Procesare
Etapa de procesare a ciclului de viață se concentrează pe descoperirea tiparelor în date, precum și pe modelare. Unele tehnici utilizate în etapa de procesare necesită metode statistice pentru a descoperi tiparele. De obicei, aceasta ar fi o sarcină obositoare pentru un om să o facă cu un set mare de date și se va baza pe computere pentru a accelera procesul. Această etapă este, de asemenea, locul unde știința datelor și învățarea automată se intersectează. Așa cum ai învățat în prima lecție, învățarea automată este procesul de construire a modelelor pentru a înțelege datele. Modelele sunt o reprezentare a relației dintre variabilele din date care ajută la prezicerea rezultatelor.
Tehnici comune utilizate în această etapă sunt acoperite în curriculumul ML pentru Începători. Urmează linkurile pentru a afla mai multe despre ele:
- Clasificare: Organizarea datelor în categorii pentru o utilizare mai eficientă.
- Clustering: Gruparea datelor în grupuri similare.
- Regresie: Determinarea relațiilor dintre variabile pentru a prezice sau prognoza valori.
Menținere
În diagrama ciclului de viață, poate ai observat că menținerea se află între capturare și procesare. Menținerea este un proces continuu de gestionare, stocare și securizare a datelor pe parcursul procesului unui proiect și ar trebui luată în considerare pe întreaga durată a proiectului.
Stocarea datelor
Considerațiile despre cum și unde sunt stocate datele pot influența costul stocării, precum și performanța accesării rapide a datelor. Decizii de acest tip nu sunt probabil luate doar de un specialist în știința datelor, dar acesta poate fi nevoit să facă alegeri despre cum să lucreze cu datele în funcție de modul în care sunt stocate.
Iată câteva aspecte ale sistemelor moderne de stocare a datelor care pot influența aceste alegeri:
On premise vs off premise vs cloud public sau privat
On premise se referă la găzduirea și gestionarea datelor pe echipamentul propriu, cum ar fi deținerea unui server cu hard diskuri care stochează datele, în timp ce off premise se bazează pe echipamente pe care nu le deții, cum ar fi un centru de date. Cloud-ul public este o alegere populară pentru stocarea datelor care nu necesită cunoștințe despre cum sau unde exact sunt stocate datele, unde public se referă la o infrastructură unificată de bază care este partajată de toți cei care folosesc cloud-ul. Unele organizații au politici stricte de securitate care necesită acces complet la echipamentul unde sunt găzduite datele și vor folosi un cloud privat care oferă propriile servicii de cloud. Vei învăța mai multe despre datele în cloud în lecțiile ulterioare.
Date reci vs date fierbinți
Când îți antrenezi modelele, este posibil să ai nevoie de mai multe date de antrenament. Dacă ești mulțumit de modelul tău, mai multe date vor fi necesare pentru ca modelul să-și îndeplinească scopul. În orice caz, costul stocării și accesării datelor va crește pe măsură ce acumulezi mai multe. Separarea datelor rar utilizate, cunoscute sub numele de date reci, de datele accesate frecvent, numite date fierbinți, poate fi o opțiune mai ieftină de stocare a datelor prin hardware sau servicii software. Dacă datele reci trebuie accesate, poate dura puțin mai mult să fie recuperate în comparație cu datele fierbinți.
Gestionarea datelor
Pe măsură ce lucrezi cu date, este posibil să descoperi că unele dintre ele trebuie curățate folosind unele dintre tehnicile acoperite în lecția dedicată pregătirii datelor pentru a construi modele precise. Când sosesc date noi, va fi nevoie de aceleași aplicații pentru a menține consistența calității. Unele proiecte vor implica utilizarea unui instrument automat pentru curățare, agregare și compresie înainte ca datele să fie mutate în locația finală. Azure Data Factory este un exemplu de astfel de instrument.
Securizarea datelor
Unul dintre principalele obiective ale securizării datelor este asigurarea că cei care lucrează cu ele controlează ceea ce este colectat și în ce context este utilizat. Menținerea securității datelor implică limitarea accesului doar la cei care au nevoie de ele, respectarea legilor și reglementărilor locale, precum și menținerea standardelor etice, așa cum este acoperit în lecția despre etică.
Iată câteva lucruri pe care o echipă le poate face având în vedere securitatea:
- Confirmarea că toate datele sunt criptate
- Oferirea de informații clienților despre cum sunt utilizate datele lor
- Eliminarea accesului la date pentru cei care au părăsit proiectul
- Permisiunea doar anumitor membri ai proiectului să modifice datele
🚀 Provocare
Există multe versiuni ale ciclului de viață al științei datelor, unde fiecare etapă poate avea nume diferite și un număr diferit de etape, dar va conține aceleași procese menționate în această lecție.
Explorează ciclul de viață al procesului de echipă pentru știința datelor și standardul inter-industrial pentru procesul de extragere a datelor. Numește 3 asemănări și diferențe între cele două.
| Procesul de echipă pentru știința datelor (TDSP) | Standardul inter-industrial pentru procesul de extragere a datelor (CRISP-DM) |
|---|---|
![]() |
![]() |
| Imagine de Microsoft | Imagine de Data Science Process Alliance |
Chestionar după lecție
Recapitulare și studiu individual
Aplicarea ciclului de viață al științei datelor implică multiple roluri și sarcini, unde unele se pot concentra pe anumite părți ale fiecărei etape. Procesul de echipă pentru știința datelor oferă câteva resurse care explică tipurile de roluri și sarcini pe care cineva le poate avea într-un proiect.
- Roluri și sarcini în procesul de echipă pentru știința datelor
- Executarea sarcinilor de știința datelor: explorare, modelare și implementare
Temă
Declinare de responsabilitate:
Acest document a fost tradus folosind serviciul de traducere AI Co-op Translator. Deși ne străduim să asigurăm acuratețea, vă rugăm să fiți conștienți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa natală ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm responsabilitatea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.



