You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/et/4-Data-Science-Lifecycle/15-analyzing
localizeflow[bot] b88ef67e42
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.ipynb 🌐 Update translations via Co-op Translator 5 months ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb 🌐 Update translations via Co-op Translator 5 months ago

README.md

Andmeteaduse elutsükkel: Analüüsimine

 Sketchnote by (@sketchthedocs)
Andmeteaduse elutsükkel: Analüüsimine - Sketchnote by @nitya

Eelloengu viktoriin

Analüüsimine andmete elutsüklis kinnitab, et andmed suudavad vastata esitatud küsimustele või lahendada konkreetse probleemi. See samm keskendub ka sellele, et mudel vastaks korrektselt nendele küsimustele ja probleemidele. See õppetund keskendub andmete uurivale analüüsile (Exploratory Data Analysis ehk EDA), mis hõlmab tehnikaid andmete omaduste ja seoste määratlemiseks ning nende ettevalmistamiseks modelleerimiseks.

Kasutame näidisandmestikku Kaggle'ist, et näidata, kuidas seda saab rakendada Pythonis ja Pandase teegis. See andmestik sisaldab loendit mõningatest tavalistest sõnadest, mis esinevad e-kirjades, kusjuures e-kirjade allikad on anonüümsed. Kasutage selle kataloogi märkmikku, et kaasa töötada.

Uuriv andmeanalüüs

Elutsükli kogumise faasis omandatakse andmed ning määratletakse probleemid ja küsimused, kuid kuidas me teame, et andmed suudavad toetada lõpptulemust? Tuletage meelde, et andmeteadlane võib andmete hankimisel esitada järgmisi küsimusi:

  • Kas mul on piisavalt andmeid selle probleemi lahendamiseks?
  • Kas andmete kvaliteet on selle probleemi jaoks piisav?
  • Kui ma avastan nende andmete kaudu lisainformatsiooni, kas peaksime kaaluma eesmärkide muutmist või ümberdefineerimist?

Uuriv andmeanalüüs on protsess, mille käigus tutvutakse andmetega ja vastatakse nendele küsimustele, samuti tuvastatakse andmestikuga töötamise väljakutsed. Vaatame mõningaid tehnikaid, mida selle saavutamiseks kasutatakse.

Andmeprofiilimine, kirjeldav statistika ja Pandas

Kuidas hinnata, kas meil on piisavalt andmeid probleemi lahendamiseks? Andmeprofiilimine võimaldab kokku võtta ja koguda üldist teavet meie andmestiku kohta kirjeldava statistika tehnikate abil. Andmeprofiilimine aitab meil mõista, mis on meie käsutuses, ja kirjeldav statistika aitab meil mõista, kui palju asju on meie käsutuses.

Mõnes varasemas õppetunnis oleme kasutanud Pandast, et pakkuda kirjeldavat statistikat describe() funktsiooni abil. See funktsioon annab numbriliste andmete kohta teavet, nagu loendus, maksimaalsed ja minimaalsed väärtused, keskmine, standardhälve ja kvantiilid. Kirjeldava statistika, näiteks describe() funktsiooni kasutamine, aitab teil hinnata, kui palju andmeid teil on ja kas vajate rohkem.

Valimivõtmine ja päringud

Kõigi andmete uurimine suures andmestikus võib olla väga aeganõudev ja tavaliselt jäetakse see ülesanne arvuti hooleks. Kuid valimivõtmine on kasulik tööriist andmete mõistmiseks ja võimaldab meil paremini mõista, mis andmestikus sisaldub ja mida see esindab. Valimi abil saate rakendada tõenäosusteooriat ja statistikat, et teha andmete kohta üldisi järeldusi. Kuigi pole kindlat reeglit, kui palju andmeid tuleks valimisse võtta, on oluline märkida, et mida rohkem andmeid valimisse kaasate, seda täpsemaid üldistusi saate teha.

Pandas teegis on sample() funktsioon, mille abil saate määrata, kui palju juhuslikke valimeid soovite saada ja kasutada.

Andmete üldine päring aitab teil vastata mõningatele üldistele küsimustele ja teooriatele, mis teil võivad olla. Erinevalt valimivõtmisest võimaldavad päringud teil keskenduda konkreetsetele andmete osadele, mille kohta teil on küsimusi. Pandase teegis olev query() funktsioon võimaldab teil valida veerge ja saada lihtsaid vastuseid andmete kohta ridade kaudu, mis päringuga tagastatakse.

Uurimine visualiseerimiste abil

Te ei pea ootama, kuni andmed on täielikult puhastatud ja analüüsitud, et hakata looma visualiseeringuid. Tegelikult võib visuaalne esitus uurimise ajal aidata tuvastada mustreid, seoseid ja probleeme andmetes. Lisaks pakuvad visualiseeringud võimalust suhelda nendega, kes ei tegele andmete haldamisega, ning võivad olla võimalus jagada ja täpsustada täiendavaid küsimusi, mis kogumise etapis ei saanud vastust. Vaadake visualiseerimiste sektsiooni, et õppida rohkem populaarsete visuaalsete uurimisviiside kohta.

Uurimine ebakõlade tuvastamiseks

Kõik selle õppetunni teemad aitavad tuvastada puuduvaid või ebajärjekindlaid väärtusi, kuid Pandas pakub funktsioone, mis aitavad mõningaid neist kontrollida. isna() või isnull() funktsioonid võimaldavad kontrollida puuduvaid väärtusi. Üks oluline osa nende väärtuste uurimisest teie andmetes on uurida, miks need üldse selliseks kujunesid. See aitab teil otsustada, milliseid meetmeid nende lahendamiseks võtta.

Järelloengu viktoriin

Ülesanne

Uurimine vastuste leidmiseks


Lahtiütlus:
See dokument on tõlgitud AI tõlketeenuse Co-op Translator abil. Kuigi püüame tagada täpsust, palume arvestada, et automaatsed tõlked võivad sisaldada vigu või ebatäpsusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimtõlget. Me ei vastuta selle tõlke kasutamisest tulenevate arusaamatuste või valesti tõlgenduste eest.