|
2 weeks ago | |
---|---|---|
.. | ||
R | 3 weeks ago | |
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago | |
notebook-covidspread.ipynb | 3 weeks ago | |
notebook-papers.ipynb | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Rad s Podacima: Python i Pandas Biblioteka
![]() |
---|
Rad s Pythonom - Sketchnote by @nitya |
Iako baze podataka nude vrlo učinkovite načine za pohranu podataka i njihovo pretraživanje pomoću jezika upita, najfleksibilniji način obrade podataka je pisanje vlastitog programa za manipulaciju podacima. U mnogim slučajevima, upit u bazi podataka bio bi učinkovitiji način. Međutim, u nekim slučajevima kada je potrebna složenija obrada podataka, to se ne može lako postići pomoću SQL-a. Obrada podataka može se programirati u bilo kojem programskom jeziku, ali postoje određeni jezici koji su na višoj razini u radu s podacima. Data znanstvenici obično preferiraju jedan od sljedećih jezika:
- Python, opći programski jezik, često se smatra jednim od najboljih izbora za početnike zbog svoje jednostavnosti. Python ima mnogo dodatnih biblioteka koje vam mogu pomoći u rješavanju mnogih praktičnih problema, poput izdvajanja podataka iz ZIP arhive ili pretvaranja slike u sivu skalu. Osim u data znanosti, Python se često koristi i za razvoj weba.
- R je tradicionalni alat razvijen s ciljem statističke obrade podataka. Također sadrži veliku zbirku biblioteka (CRAN), što ga čini dobrim izborom za obradu podataka. Međutim, R nije opći programski jezik i rijetko se koristi izvan područja data znanosti.
- Julia je još jedan jezik razvijen posebno za data znanost. Namijenjen je pružanju bolje performanse od Pythona, što ga čini odličnim alatom za znanstvene eksperimente.
U ovoj lekciji fokusirat ćemo se na korištenje Pythona za jednostavnu obradu podataka. Pretpostavit ćemo osnovno poznavanje jezika. Ako želite dublje istražiti Python, možete se obratiti jednom od sljedećih izvora:
- Naučite Python na zabavan način uz Turtle Graphics i Fraktale - GitHub tečaj za brzi uvod u Python programiranje
- Napravite svoje prve korake s Pythonom Put učenja na Microsoft Learn
Podaci mogu dolaziti u mnogim oblicima. U ovoj lekciji razmotrit ćemo tri oblika podataka - tablični podaci, tekst i slike.
Fokusirat ćemo se na nekoliko primjera obrade podataka, umjesto da vam damo potpuni pregled svih povezanih biblioteka. To će vam omogućiti da steknete osnovnu ideju o tome što je moguće, i ostaviti vas s razumijevanjem gdje pronaći rješenja za svoje probleme kada vam zatrebaju.
Najkorisniji savjet. Kada trebate izvršiti određenu operaciju na podacima, a ne znate kako to učiniti, pokušajte to potražiti na internetu. Stackoverflow obično sadrži mnogo korisnih uzoraka koda u Pythonu za mnoge tipične zadatke.
Pre-lecture quiz
Tablični Podaci i Dataframeovi
Već ste se susreli s tabličnim podacima kada smo govorili o relacijskim bazama podataka. Kada imate puno podataka, i oni su sadržani u mnogim različitim povezanim tablicama, definitivno ima smisla koristiti SQL za rad s njima. Međutim, postoje mnogi slučajevi kada imamo tablicu podataka i trebamo steći neko razumijevanje ili uvid u te podatke, poput distribucije, korelacije između vrijednosti itd. U data znanosti, postoji mnogo slučajeva kada trebamo izvršiti neke transformacije originalnih podataka, praćene vizualizacijom. Oba ta koraka mogu se lako izvršiti pomoću Pythona.
Postoje dvije najkorisnije biblioteke u Pythonu koje vam mogu pomoći u radu s tabličnim podacima:
- Pandas omogućuje manipulaciju tzv. Dataframeovima, koji su analogni relacijskim tablicama. Možete imati imenovane stupce i izvršavati različite operacije na redovima, stupcima i dataframeovima općenito.
- Numpy je biblioteka za rad s tensori, tj. višedimenzionalnim nizovima. Niz ima vrijednosti istog osnovnog tipa i jednostavniji je od dataframea, ali nudi više matematičkih operacija i stvara manje opterećenje.
Postoji i nekoliko drugih biblioteka koje biste trebali znati:
- Matplotlib je biblioteka koja se koristi za vizualizaciju podataka i crtanje grafova
- SciPy je biblioteka s nekim dodatnim znanstvenim funkcijama. Već smo se susreli s ovom bibliotekom kada smo govorili o vjerojatnosti i statistici
Evo dijela koda koji biste obično koristili za uvoz tih biblioteka na početku svog Python programa:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import ... # you need to specify exact sub-packages that you need
Pandas se temelji na nekoliko osnovnih koncepata.
Series
Series je niz vrijednosti, sličan listi ili numpy nizu. Glavna razlika je što series također ima indeks, i kada radimo s series (npr., zbrajamo ih), indeks se uzima u obzir. Indeks može biti jednostavan kao broj retka (to je indeks koji se koristi prema zadanim postavkama pri stvaranju series iz liste ili niza), ili može imati složenu strukturu, poput vremenskog intervala.
Napomena: U pratećem notebooku
notebook.ipynb
nalazi se uvodni kod za Pandas. Ovdje ćemo samo navesti neke primjere, a vi ste svakako dobrodošli provjeriti cijeli notebook.
Razmotrimo primjer: želimo analizirati prodaju našeg kioska za sladoled. Generirat ćemo niz brojeva prodaje (broj prodanih artikala svaki dan) za određeni vremenski period:
start_date = "Jan 1, 2020"
end_date = "Mar 31, 2020"
idx = pd.date_range(start_date,end_date)
print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
Sada pretpostavimo da svaki tjedan organiziramo zabavu za prijatelje i uzimamo dodatnih 10 paketa sladoleda za zabavu. Možemo stvoriti drugi niz, indeksiran po tjednu, kako bismo to prikazali:
additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W"))
Kada zbrojimo dva niza, dobijemo ukupni broj:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
Napomena da ne koristimo jednostavnu sintaksu
total_items+additional_items
. Da jesmo, dobili bismo punoNaN
(Not a Number) vrijednosti u rezultirajućem nizu. To je zato što nedostaju vrijednosti za neke točke indeksa u nizuadditional_items
, a zbrajanjeNaN
s bilo čim rezultiraNaN
. Stoga trebamo specificirati parametarfill_value
tijekom zbrajanja.
S vremenskim nizovima također možemo ponovno uzorkovati nizove s različitim vremenskim intervalima. Na primjer, pretpostavimo da želimo izračunati prosječni obujam prodaje mjesečno. Možemo koristiti sljedeći kod:
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
DataFrame
DataFrame je u suštini zbirka series s istim indeksom. Možemo kombinirati nekoliko series zajedno u DataFrame:
a = pd.Series(range(1,10))
b = pd.Series(["I","like","to","play","games","and","will","not","change"],index=range(0,9))
df = pd.DataFrame([a,b])
To će stvoriti horizontalnu tablicu poput ove:
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | |
---|---|---|---|---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
1 | I | like | to | use | Python | and | Pandas | very | much |
Također možemo koristiti Series kao stupce i specificirati nazive stupaca pomoću rječnika:
df = pd.DataFrame({ 'A' : a, 'B' : b })
To će nam dati tablicu poput ove:
A | B | |
---|---|---|
0 | 1 | I |
1 | 2 | like |
2 | 3 | to |
3 | 4 | use |
4 | 5 | Python |
5 | 6 | and |
6 | 7 | Pandas |
7 | 8 | very |
8 | 9 | much |
Napomena da ovu tablicu možemo dobiti i transponiranjem prethodne tablice, npr. pisanjem
df = pd.DataFrame([a,b]).T..rename(columns={ 0 : 'A', 1 : 'B' })
Ovdje .T
označava operaciju transponiranja DataFramea, tj. zamjenu redova i stupaca, a operacija rename
omogućuje nam preimenovanje stupaca kako bi odgovarali prethodnom primjeru.
Evo nekoliko najvažnijih operacija koje možemo izvršiti na DataFrameovima:
Odabir stupaca. Možemo odabrati pojedinačne stupce pisanjem df['A']
- ova operacija vraća Series. Također možemo odabrati podskup stupaca u drugi DataFrame pisanjem df[['B','A']]
- ovo vraća drugi DataFrame.
Filtriranje samo određenih redova prema kriterijima. Na primjer, da ostavimo samo redove sa stupcem A
većim od 5, možemo napisati df[df['A']>5]
.
Napomena: Način na koji filtriranje funkcionira je sljedeći. Izraz
df['A']<5
vraća boolean series, koji označava je li izrazTrue
iliFalse
za svaki element originalnog nizadf['A']
. Kada se boolean series koristi kao indeks, vraća podskup redova u DataFrameu. Stoga nije moguće koristiti proizvoljan Python boolean izraz, na primjer, pisanjedf[df['A']>5 and df['A']<7]
bilo bi pogrešno. Umjesto toga, trebali biste koristiti posebnu&
operaciju na boolean series, pisanjemdf[(df['A']>5) & (df['A']<7)]
(zagrade su ovdje važne).
Stvaranje novih izračunljivih stupaca. Lako možemo stvoriti nove izračunljive stupce za naš DataFrame koristeći intuitivan izraz poput ovog:
df['DivA'] = df['A']-df['A'].mean()
Ovaj primjer izračunava odstupanje A od njegove srednje vrijednosti. Ono što se zapravo događa ovdje je da izračunavamo series, a zatim dodjeljujemo ovaj series lijevoj strani, stvarajući novi stupac. Stoga ne možemo koristiti operacije koje nisu kompatibilne sa series, na primjer, sljedeći kod je pogrešan:
# Wrong code -> df['ADescr'] = "Low" if df['A'] < 5 else "Hi"
df['LenB'] = len(df['B']) # <- Wrong result
Posljednji primjer, iako sintaktički ispravan, daje nam pogrešan rezultat jer dodjeljuje duljinu series B
svim vrijednostima u stupcu, a ne duljinu pojedinačnih elemenata kako smo namjeravali.
Ako trebamo izračunati složene izraze poput ovog, možemo koristiti funkciju apply
. Posljednji primjer može se napisati na sljedeći način:
df['LenB'] = df['B'].apply(lambda x : len(x))
# or
df['LenB'] = df['B'].apply(len)
Nakon gore navedenih operacija, završit ćemo s sljedećim DataFrameom:
A | B | DivA | LenB | |
---|---|---|---|---|
0 | 1 | I | -4.0 | 1 |
1 | 2 | like | -3.0 | 4 |
2 | 3 | to | -2.0 | 2 |
3 | 4 | use | -1.0 | 3 |
4 | 5 | Python | 0.0 | 6 |
5 | 6 | and | 1.0 | 3 |
6 | 7 | Pandas | 2.0 | 6 |
7 | 8 | very | 3.0 | 4 |
8 | 9 | much | 4.0 | 4 |
Odabir redova prema brojevima može se izvršiti pomoću konstrukta iloc
. Na primjer, za odabir prvih 5 redova iz DataFramea:
df.iloc[:5]
Grupiranje se često koristi za dobivanje rezultata sličnih pivot tablicama u Excelu. Pretpostavimo da želimo izračunati srednju vrijednost stupca A
za svaki dani broj LenB
. Tada možemo grupirati naš DataFrame prema LenB
i pozvati mean
:
df.groupby(by='LenB')[['A','DivA']].mean()
Ako trebamo izračunati srednju vrijednost i broj elemenata u grupi, tada možemo koristiti složeniju funkciju aggregate
:
df.groupby(by='LenB') \
.aggregate({ 'DivA' : len, 'A' : lambda x: x.mean() }) \
.rename(columns={ 'DivA' : 'Count', 'A' : 'Mean'})
To nam daje sljedeću tablicu:
LenB | Count | Mean |
---|---|---|
1 | 1 | 1.000000 |
2 | 1 | 3.000000 |
3 | 2 | 5.000000 |
4 | 3 | 6.333333 |
6 | 2 | 6.000000 |
Dobivanje Podataka
Vidjeli smo koliko je jednostavno konstruirati Series i DataFrames iz Python objekata. Međutim, podaci obično dolaze u obliku tekstualne datoteke ili Excel tablice. Srećom, Pandas nam nudi jednostavan način za učitavanje podataka s diska. Na primjer, čitanje CSV datoteke je jednostavno kao ovo:
df = pd.read_csv('file.csv')
Vidjet ćemo više primjera učitavanja podataka, uključujući njihovo preuzimanje s vanjskih web stranica, u odjeljku "Izazov".
Ispisivanje i Vizualizacija
Data Scientist često mora istraživati podatke, stoga je važno moći ih vizualizirati. Kada je DataFrame velik, često želimo samo provjeriti radimo li sve ispravno ispisivanjem prvih nekoliko redaka. To se može učiniti pozivanjem df.head()
. Ako ga pokrećete iz Jupyter Notebooka, ispisat će DataFrame u lijepom tabličnom obliku.
Također smo vidjeli korištenje funkcije plot
za vizualizaciju nekih stupaca. Iako je plot
vrlo koristan za mnoge zadatke i podržava mnoge različite vrste grafova putem parametra kind=
, uvijek možete koristiti osnovnu biblioteku matplotlib
za crtanje nečeg složenijeg. Detaljno ćemo obraditi vizualizaciju podataka u zasebnim lekcijama tečaja.
Ovaj pregled pokriva najvažnije koncepte Pandasa, no biblioteka je vrlo bogata i nema ograničenja za ono što možete učiniti s njom! Sada primijenimo ovo znanje na rješavanje specifičnog problema.
🚀 Izazov 1: Analiza širenja COVID-a
Prvi problem na kojem ćemo se fokusirati je modeliranje širenja epidemije COVID-19. Kako bismo to učinili, koristit ćemo podatke o broju zaraženih osoba u različitim zemljama, koje pruža Centar za sustavnu znanost i inženjering (CSSE) na Sveučilištu Johns Hopkins. Skup podataka dostupan je u ovom GitHub repozitoriju.
Budući da želimo demonstrirati kako raditi s podacima, pozivamo vas da otvorite notebook-covidspread.ipynb
i pročitate ga od početka do kraja. Također možete izvršavati ćelije i riješiti neke izazove koje smo ostavili na kraju.
Ako ne znate kako pokrenuti kod u Jupyter Notebooku, pogledajte ovaj članak.
Rad s nestrukturiranim podacima
Iako podaci vrlo često dolaze u tabličnom obliku, u nekim slučajevima moramo raditi s manje strukturiranim podacima, na primjer, tekstom ili slikama. U tom slučaju, kako bismo primijenili tehnike obrade podataka koje smo vidjeli gore, moramo nekako izvući strukturirane podatke. Evo nekoliko primjera:
- Izvlačenje ključnih riječi iz teksta i analiza učestalosti pojavljivanja tih ključnih riječi
- Korištenje neuronskih mreža za izvlačenje informacija o objektima na slici
- Dobivanje informacija o emocijama ljudi na video snimci
🚀 Izazov 2: Analiza COVID radova
U ovom izazovu nastavljamo s temom pandemije COVID-a i fokusiramo se na obradu znanstvenih radova o toj temi. Postoji CORD-19 skup podataka s više od 7000 (u vrijeme pisanja) radova o COVID-u, dostupnih s metapodacima i sažecima (a za otprilike polovicu njih dostupni su i puni tekstovi).
Potpuni primjer analize ovog skupa podataka koristeći Text Analytics for Health kognitivnu uslugu opisan je u ovom blog postu. Raspravljat ćemo o pojednostavljenoj verziji ove analize.
NOTE: Ne pružamo kopiju skupa podataka kao dio ovog repozitorija. Možda ćete prvo morati preuzeti datoteku
metadata.csv
iz ovog skupa podataka na Kaggleu. Može biti potrebna registracija na Kaggle. Skup podataka možete preuzeti i bez registracije ovdje, ali uključivat će sve pune tekstove uz datoteku metapodataka.
Otvorite notebook-papers.ipynb
i pročitajte ga od početka do kraja. Također možete izvršavati ćelije i riješiti neke izazove koje smo ostavili na kraju.
Obrada slikovnih podataka
Nedavno su razvijeni vrlo moćni AI modeli koji nam omogućuju razumijevanje slika. Postoji mnogo zadataka koji se mogu riješiti koristeći unaprijed trenirane neuronske mreže ili cloud usluge. Neki primjeri uključuju:
- Klasifikacija slika, koja vam može pomoći kategorizirati sliku u jednu od unaprijed definiranih klasa. Svoj vlastiti klasifikator slika možete lako trenirati koristeći usluge poput Custom Vision
- Detekcija objekata za otkrivanje različitih objekata na slici. Usluge poput computer vision mogu otkriti brojne uobičajene objekte, a možete trenirati Custom Vision model za otkrivanje specifičnih objekata od interesa.
- Detekcija lica, uključujući dob, spol i emocije. To se može učiniti putem Face API.
Sve te cloud usluge mogu se pozivati koristeći Python SDKs, i stoga se lako mogu uključiti u vaš tijek istraživanja podataka.
Evo nekoliko primjera istraživanja podataka iz slikovnih izvora:
- U blog postu Kako učiti Data Science bez kodiranja istražujemo Instagram fotografije, pokušavajući razumjeti što ljude potiče da daju više lajkova na fotografiju. Prvo izvlačimo što je više moguće informacija iz slika koristeći computer vision, a zatim koristimo Azure Machine Learning AutoML za izradu interpretabilnog modela.
- U Radionici o studijama lica koristimo Face API za izvlačenje emocija ljudi na fotografijama s događaja, kako bismo pokušali razumjeti što ljude čini sretnima.
Zaključak
Bez obzira imate li već strukturirane ili nestrukturirane podatke, koristeći Python možete obaviti sve korake vezane uz obradu i razumijevanje podataka. To je vjerojatno najfleksibilniji način obrade podataka, i upravo zato većina data scientista koristi Python kao svoj primarni alat. Učenje Pythona u dubinu vjerojatno je dobra ideja ako ste ozbiljni u svom putovanju kroz data science!
Kviz nakon predavanja
Pregled i samostalno učenje
Knjige
Online resursi
- Službeni 10 minuta s Pandas tutorial
- Dokumentacija o Pandas vizualizaciji
Učenje Pythona
- Naučite Python na zabavan način s Turtle Graphics i fraktalima
- Napravite svoje prve korake s Pythonom Learning Path na Microsoft Learn
Zadatak
Provedite detaljniju studiju podataka za gore navedene izazove
Zasluge
Ovu lekciju napisao je s ♥️ Dmitry Soshnikov
Odricanje od odgovornosti:
Ovaj dokument je preveden pomoću AI usluge za prevođenje Co-op Translator. Iako nastojimo osigurati točnost, imajte na umu da automatski prijevodi mogu sadržavati pogreške ili netočnosti. Izvorni dokument na izvornom jeziku treba smatrati mjerodavnim izvorom. Za ključne informacije preporučuje se profesionalni prijevod od strane stručnjaka. Ne preuzimamo odgovornost za bilo kakve nesporazume ili pogrešne interpretacije proizašle iz korištenja ovog prijevoda.