6.2 KiB
Data Science -elinkaari: Analysointi
![]() |
---|
Data Science -elinkaari: Analysointi - Sketchnote by @nitya |
Ennakkokysely
Analysointi datan elinkaaren vaiheessa varmistaa, että data pystyy vastaamaan esitettyihin kysymyksiin tai ratkaisemaan tietyn ongelman. Tämä vaihe keskittyy myös mallin oikeellisuuden varmistamiseen näiden kysymysten ja ongelmien osalta. Tämä oppitunti keskittyy eksploratiiviseen data-analyysiin (EDA), joka sisältää tekniikoita datan ominaisuuksien ja suhteiden määrittämiseen sekä datan valmisteluun mallinnusta varten.
Käytämme esimerkkidataa Kagglesta havainnollistaaksemme, miten tätä voidaan soveltaa Pythonin ja Pandas-kirjaston avulla. Tämä datasetti sisältää yleisten sähköpostisanojen lukumäärän, ja sähköpostien lähteet ovat anonyymejä. Käytä tämän hakemiston notebookia seurataksesi mukana.
Eksploratiivinen data-analyysi
Elinkaaren keräysvaiheessa data hankitaan sekä määritellään ongelmat ja kysymykset, mutta miten voimme varmistaa, että data tukee lopputulosta?
Muista, että data-analyytikko saattaa kysyä seuraavia kysymyksiä datan hankinnan yhteydessä:
- Onko minulla tarpeeksi dataa tämän ongelman ratkaisemiseksi?
- Onko data riittävän laadukasta tähän ongelmaan?
- Jos löydän lisätietoa datan kautta, pitäisikö meidän harkita tavoitteiden muuttamista tai uudelleenmäärittelyä?
Eksploratiivinen data-analyysi on prosessi, jossa tutustutaan dataan ja vastataan näihin kysymyksiin sekä tunnistetaan datasetin käsittelyn haasteet. Keskitytään joihinkin tekniikoihin, joita käytetään tämän saavuttamiseksi.
Datan profilointi, kuvaileva tilastotiede ja Pandas
Miten arvioimme, onko meillä tarpeeksi dataa ongelman ratkaisemiseksi? Datan profilointi voi tiivistää ja kerätä yleistä tietoa datasetistä kuvailevan tilastotieteen tekniikoiden avulla. Datan profilointi auttaa ymmärtämään, mitä meillä on käytettävissä, ja kuvaileva tilastotiede auttaa ymmärtämään, kuinka paljon meillä on käytettävissä.
Joissakin aiemmissa oppitunneissa olemme käyttäneet Pandasia tarjoamaan kuvailevaa tilastotietoa describe()
-funktion avulla. Se tarjoaa lukumäärän, maksimi- ja minimiarvot, keskiarvon, keskihajonnan ja kvantiilit numeerisesta datasta. Kuvailevan tilastotieteen, kuten describe()
-funktion, käyttö voi auttaa arvioimaan, kuinka paljon dataa on ja tarvitsemmeko lisää.
Otanta ja kyselyt
Kaiken tutkiminen suuressa datasetissä voi olla erittäin aikaa vievää ja yleensä jätetään tietokoneen tehtäväksi. Otanta on kuitenkin hyödyllinen työkalu datan ymmärtämisessä ja antaa paremman käsityksen siitä, mitä datasetissä on ja mitä se edustaa. Otannan avulla voit soveltaa todennäköisyyttä ja tilastotiedettä tehdäksesi yleisiä johtopäätöksiä datasta. Vaikka ei ole olemassa tarkkaa sääntöä siitä, kuinka paljon dataa tulisi ottaa otantaan, on tärkeää huomata, että mitä enemmän dataa otat, sitä tarkempia yleistyksiä voit tehdä datasta.
Pandas-kirjastossa on sample()
-funktio, jossa voit määrittää argumentin, kuinka monta satunnaista otosta haluat saada ja käyttää.
Yleiset kyselyt datasta voivat auttaa vastaamaan joihinkin yleisiin kysymyksiin ja teorioihin, joita sinulla saattaa olla. Toisin kuin otanta, kyselyt antavat sinulle mahdollisuuden hallita ja keskittyä tiettyihin osiin datasta, joista haluat vastauksia.
Pandas-kirjaston query()
-funktio mahdollistaa sarakkeiden valinnan ja yksinkertaisten vastausten saamisen datasta haettujen rivien kautta.
Visualisointien käyttö tutkimisessa
Sinun ei tarvitse odottaa, että data on täysin puhdistettu ja analysoitu ennen visualisointien luomista. Itse asiassa visuaalinen esitys tutkimisen aikana voi auttaa tunnistamaan kuvioita, suhteita ja ongelmia datassa. Lisäksi visualisoinnit tarjoavat viestintäkeinon niille, jotka eivät ole mukana datan hallinnassa, ja voivat olla tilaisuus jakaa ja selventää lisäkysymyksiä, joita ei käsitelty keräysvaiheessa. Katso Visualisointien osio oppiaksesi lisää suosituista tavoista tutkia visuaalisesti.
Epäjohdonmukaisuuksien tunnistaminen tutkimalla
Kaikki tämän oppitunnin aiheet voivat auttaa tunnistamaan puuttuvia tai epäjohdonmukaisia arvoja, mutta Pandas tarjoaa funktioita joiden avulla näitä voi tarkistaa. isna() tai isnull() voi tarkistaa puuttuvia arvoja. Yksi tärkeä osa näiden arvojen tutkimista datassa on selvittää, miksi ne päätyivät siihen tilaan alun perin. Tämä voi auttaa päättämään, mitä toimenpiteitä niiden ratkaisemiseksi tulisi tehdä.
Jälkikysely
Tehtävä
Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.