You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hr/4-Data-Science-Lifecycle/15-analyzing
leestott 8dcd54c138
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Životni ciklus podatkovne znanosti: Analiza

 Sketchnote autor (@sketchthedocs)
Životni ciklus podatkovne znanosti: Analiza - Sketchnote autor @nitya

Kviz prije predavanja

Kviz prije predavanja

Analiza u životnom ciklusu podataka potvrđuje da podaci mogu odgovoriti na postavljena pitanja ili riješiti određeni problem. Ova faza također može biti usmjerena na potvrđivanje da model ispravno odgovara na ta pitanja i probleme. Ova lekcija fokusira se na istraživačku analizu podataka (Exploratory Data Analysis ili EDA), koja uključuje tehnike za definiranje značajki i odnosa unutar podataka te pripremu podataka za modeliranje.

Koristit ćemo primjer skupa podataka s Kagglea kako bismo pokazali kako se to može primijeniti uz pomoć Pythona i biblioteke Pandas. Ovaj skup podataka sadrži brojanje nekih uobičajenih riječi pronađenih u e-mailovima, a izvori tih e-mailova su anonimni. Koristite bilježnicu u ovom direktoriju za praćenje.

Istraživačka analiza podataka

Faza prikupljanja u životnom ciklusu je mjesto gdje se podaci prikupljaju, kao i problemi i pitanja koja treba riješiti, ali kako znamo da podaci mogu podržati krajnji rezultat? Podsjetimo se da podatkovni znanstvenik može postaviti sljedeća pitanja kada dobije podatke:

  • Imam li dovoljno podataka za rješavanje ovog problema?
  • Jesu li podaci prihvatljive kvalitete za ovaj problem?
  • Ako otkrijem dodatne informacije kroz ove podatke, trebamo li razmotriti promjenu ili redefiniranje ciljeva? Istraživačka analiza podataka je proces upoznavanja s podacima i može se koristiti za odgovaranje na ova pitanja, kao i za identificiranje izazova u radu s podacima. Usredotočimo se na neke od tehnika koje se koriste za postizanje ovoga.

Profiliranje podataka, opisna statistika i Pandas

Kako procijeniti imamo li dovoljno podataka za rješavanje ovog problema? Profiliranje podataka može sažeti i prikupiti neke opće informacije o našem skupu podataka kroz tehnike opisne statistike. Profiliranje podataka pomaže nam razumjeti što nam je dostupno, dok opisna statistika pomaže razumjeti koliko toga imamo.

U nekoliko prethodnih lekcija koristili smo Pandas za pružanje opisne statistike pomoću funkcije describe(). Ona pruža brojanje, maksimalne i minimalne vrijednosti, srednju vrijednost, standardnu devijaciju i kvantile za numeričke podatke. Korištenje opisne statistike poput funkcije describe() može vam pomoći procijeniti koliko imate podataka i trebate li ih više.

Uzorkovanje i upiti

Istraživanje svega u velikom skupu podataka može biti vrlo vremenski zahtjevno i obično je zadatak koji se prepušta računalima. Međutim, uzorkovanje je koristan alat za razumijevanje podataka i omogućuje nam bolje razumijevanje onoga što se nalazi u skupu podataka i što on predstavlja. Uz uzorak, možete primijeniti vjerojatnost i statistiku kako biste došli do nekih općih zaključaka o svojim podacima. Iako ne postoji definirano pravilo o tome koliko podataka trebate uzorkovati, važno je napomenuti da što više podataka uzorkujete, to precizniju generalizaciju možete napraviti o podacima. Pandas ima funkciju sample() u svojoj biblioteci, gdje možete proslijediti argument o tome koliko slučajnih uzoraka želite dobiti i koristiti.

Općenito postavljanje upita o podacima može vam pomoći odgovoriti na neka opća pitanja i teorije koje imate. Za razliku od uzorkovanja, upiti vam omogućuju kontrolu i fokusiranje na specifične dijelove podataka o kojima imate pitanja. Funkcija query() u biblioteci Pandas omogućuje vam odabir stupaca i dobivanje jednostavnih odgovora o podacima kroz dohvaćene retke.

Istraživanje pomoću vizualizacija

Ne morate čekati da podaci budu temeljito očišćeni i analizirani kako biste počeli stvarati vizualizacije. Zapravo, vizualni prikaz tijekom istraživanja može pomoći u identificiranju obrazaca, odnosa i problema u podacima. Nadalje, vizualizacije pružaju sredstvo komunikacije s onima koji nisu uključeni u upravljanje podacima i mogu biti prilika za dijeljenje i pojašnjenje dodatnih pitanja koja nisu obrađena u fazi prikupljanja. Pogledajte odjeljak o vizualizacijama kako biste saznali više o nekim popularnim načinima vizualnog istraživanja.

Istraživanje za identifikaciju nedosljednosti

Sve teme u ovoj lekciji mogu pomoći u identificiranju nedostajućih ili nedosljednih vrijednosti, ali Pandas pruža funkcije za provjeru nekih od njih. isna() ili isnull() mogu provjeriti nedostajuće vrijednosti. Jedan važan dio istraživanja ovih vrijednosti unutar vaših podataka je istražiti zašto su one uopće tako završile. To vam može pomoći odlučiti koje korake poduzeti za njihovo rješavanje.

Kviz prije predavanja

Zadatak

Istraživanje za odgovore


Odricanje od odgovornosti:
Ovaj dokument je preveden pomoću AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za nesporazume ili pogrešna tumačenja koja mogu proizaći iz korištenja ovog prijevoda.