You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/hr/4-Data-Science-Lifecycle/15-analyzing
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Životni ciklus podatkovne znanosti: Analiza

 Sketchnote autora (@sketchthedocs)
Životni ciklus podatkovne znanosti: Analiza - Sketchnote autora @nitya

Kviz prije predavanja

Analiza u životnom ciklusu podataka potvrđuje da podaci mogu odgovoriti na postavljena pitanja ili riješiti određeni problem. Ova faza također se može usredotočiti na potvrđivanje da model ispravno rješava ta pitanja i probleme. Ova lekcija fokusira se na istraživačku analizu podataka (Exploratory Data Analysis ili EDA), koja uključuje tehnike za definiranje značajki i odnosa unutar podataka te pripremu podataka za modeliranje.

Koristit ćemo primjer skupa podataka s Kagglea kako bismo pokazali kako se to može primijeniti pomoću Pythona i biblioteke Pandas. Ovaj skup podataka sadrži brojanje nekih uobičajenih riječi pronađenih u e-mailovima, a izvori tih e-mailova su anonimni. Koristite bilježnicu u ovom direktoriju kako biste pratili.

Istraživačka analiza podataka

Faza prikupljanja u životnom ciklusu odnosi se na stjecanje podataka, kao i na probleme i pitanja koja su u fokusu, ali kako znamo da podaci mogu podržati željeni rezultat? Podsjetimo da podatkovni znanstvenik može postaviti sljedeća pitanja kada dobije podatke:

  • Imam li dovoljno podataka za rješavanje ovog problema?
  • Jesu li podaci prihvatljive kvalitete za ovaj problem?
  • Ako otkrijem dodatne informacije kroz ove podatke, trebamo li razmotriti promjenu ili redefiniranje ciljeva?

Istraživačka analiza podataka proces je upoznavanja s podacima i može se koristiti za odgovaranje na ova pitanja, kao i za prepoznavanje izazova u radu s danim skupom podataka. Usredotočimo se na neke od tehnika koje se koriste za postizanje ovoga.

Profiliranje podataka, opisna statistika i Pandas

Kako procijeniti imamo li dovoljno podataka za rješavanje problema? Profiliranje podataka može sažeti i prikupiti neke opće informacije o našem skupu podataka kroz tehnike opisne statistike. Profiliranje podataka pomaže nam razumjeti što nam je dostupno, dok opisna statistika pomaže razumjeti koliko toga imamo.

U nekoliko prethodnih lekcija koristili smo Pandas za pružanje opisne statistike pomoću funkcije describe(). Ova funkcija pruža brojanje, maksimalne i minimalne vrijednosti, srednju vrijednost, standardnu devijaciju i kvantile za numeričke podatke. Korištenje opisne statistike poput funkcije describe() može vam pomoći procijeniti koliko podataka imate i trebate li ih više.

Uzorkovanje i upiti

Istraživanje svega u velikom skupu podataka može biti vrlo dugotrajno i obično je zadatak koji se prepušta računalima. Međutim, uzorkovanje je koristan alat za razumijevanje podataka i omogućuje bolje razumijevanje onoga što se nalazi u skupu podataka i što on predstavlja. Uz uzorak, možete primijeniti vjerojatnost i statistiku kako biste došli do općih zaključaka o svojim podacima. Iako ne postoji definirano pravilo o tome koliko podataka treba uzorkovati, važno je napomenuti da što više podataka uzorkujete, to precizniju generalizaciju možete napraviti.

Pandas ima funkciju sample() u svojoj biblioteci, gdje možete proslijediti argument o tome koliko slučajnih uzoraka želite dobiti i koristiti.

Općenito postavljanje upita podacima može vam pomoći odgovoriti na neka opća pitanja i teorije koje imate. Za razliku od uzorkovanja, upiti vam omogućuju kontrolu i fokusiranje na specifične dijelove podataka o kojima imate pitanja. Funkcija query() u Pandas biblioteci omogućuje vam odabir stupaca i dobivanje jednostavnih odgovora o podacima kroz dohvaćene retke.

Istraživanje pomoću vizualizacija

Ne morate čekati da podaci budu temeljito očišćeni i analizirani kako biste počeli stvarati vizualizacije. Zapravo, vizualni prikazi tijekom istraživanja mogu pomoći u prepoznavanju obrazaca, odnosa i problema u podacima. Nadalje, vizualizacije pružaju način komunikacije s onima koji nisu uključeni u upravljanje podacima i mogu biti prilika za dijeljenje i pojašnjenje dodatnih pitanja koja nisu obrađena u fazi prikupljanja. Pogledajte odjeljak o vizualizacijama kako biste saznali više o nekim popularnim načinima vizualnog istraživanja.

Istraživanje za prepoznavanje nedosljednosti

Sve teme u ovoj lekciji mogu pomoći u prepoznavanju nedostajućih ili nedosljednih vrijednosti, ali Pandas pruža funkcije za provjeru nekih od njih. Funkcije isna() ili isnull() mogu provjeriti nedostajuće vrijednosti. Jedan važan dio istraživanja ovih vrijednosti unutar vaših podataka je istražiti zašto su one uopće nastale. To vam može pomoći odlučiti koje korake poduzeti za njihovo rješavanje.

Kviz nakon predavanja

Zadatak

Istraživanje za odgovore


Odricanje od odgovornosti:
Ovaj dokument je preveden korištenjem AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije proizašle iz korištenja ovog prijevoda.