# Duomenų mokslo gyvavimo ciklas: Analizavimas |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| |:---:| | Duomenų mokslo gyvavimo ciklas: Analizavimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | ## [Prieš paskaitos testą](https://ff-quizzes.netlify.app/en/ds/quiz/28) Analizavimas duomenų gyvavimo cikle patvirtina, kad duomenys gali atsakyti į pateiktus klausimus arba išspręsti tam tikrą problemą. Šis etapas taip pat gali būti skirtas patvirtinti, kad modelis tinkamai sprendžia šiuos klausimus ir problemas. Ši pamoka orientuota į duomenų tyrimo analizę (EDA), kuri apima technikas, skirtas apibrėžti duomenų savybes ir ryšius, bei paruošti duomenis modeliavimui. Naudosime pavyzdinį duomenų rinkinį iš [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1), kad parodytume, kaip tai galima pritaikyti naudojant Python ir Pandas biblioteką. Šis duomenų rinkinys apima dažniausiai pasitaikančių žodžių skaičių el. laiškuose, o šių laiškų šaltiniai yra anonimiški. Naudokite [užrašų knygelę](notebook.ipynb) šiame kataloge, kad galėtumėte sekti pamoką. ## Duomenų tyrimo analizė Duomenų surinkimo etapas gyvavimo cikle yra tas, kuriame duomenys yra įgyjami, taip pat apibrėžiamos problemos ir klausimai. Bet kaip žinoti, ar duomenys gali padėti pasiekti galutinį rezultatą? Priminkime, kad duomenų mokslininkas gali užduoti šiuos klausimus, kai gauna duomenis: - Ar turiu pakankamai duomenų šiai problemai išspręsti? - Ar duomenų kokybė yra tinkama šiai problemai? - Jei per šiuos duomenis atrandu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perdefinavimą? Duomenų tyrimo analizė yra procesas, padedantis geriau pažinti duomenis ir atsakyti į šiuos klausimus, taip pat identifikuoti iššūkius, susijusius su duomenų rinkiniu. Pažvelkime į kai kurias technikas, naudojamas šiam tikslui pasiekti. ## Duomenų profiliavimas, aprašomoji statistika ir Pandas Kaip įvertinti, ar turime pakankamai duomenų problemai išspręsti? Duomenų profiliavimas gali apibendrinti ir surinkti bendrą informaciją apie mūsų duomenų rinkinį, naudojant aprašomosios statistikos technikas. Duomenų profiliavimas padeda suprasti, kas mums yra prieinama, o aprašomoji statistika padeda suprasti, kiek turime. Ankstesnėse pamokose naudojome Pandas, kad pateiktume aprašomąją statistiką su [`describe()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Ji pateikia skaičių, maksimalias ir minimalias reikšmes, vidurkį, standartinį nuokrypį ir kvantiles skaitiniuose duomenyse. Naudojant aprašomąją statistiką, kaip `describe()` funkciją, galima įvertinti, kiek turime duomenų ir ar jų pakanka. ## Imčių ėmimas ir užklausos Didelio duomenų rinkinio tyrimas gali būti labai laiko reikalaujantis ir dažnai paliekamas kompiuteriui. Tačiau imčių ėmimas yra naudingas įrankis, padedantis geriau suprasti duomenis ir tai, ką jie reprezentuoja. Naudodami imtį, galite taikyti tikimybes ir statistiką, kad padarytumėte bendras išvadas apie savo duomenis. Nors nėra nustatytos taisyklės, kiek duomenų reikėtų imti, svarbu pažymėti, kad kuo daugiau duomenų imsite, tuo tikslesnės bendros išvados galėsite padaryti. Pandas turi [`sample()` funkciją savo bibliotekoje](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html), kur galite nurodyti, kiek atsitiktinių imčių norėtumėte gauti ir naudoti. Bendros duomenų užklausos gali padėti atsakyti į kai kuriuos bendrus klausimus ir teorijas, kurias galite turėti. Skirtingai nuo imčių, užklausos leidžia jums kontroliuoti ir susitelkti ties konkrečiomis duomenų dalimis, apie kurias turite klausimų. [`query()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) Pandas bibliotekoje leidžia pasirinkti stulpelius ir gauti paprastus atsakymus apie duomenis per gautas eilutes. ## Tyrimas naudojant vizualizacijas Jums nereikia laukti, kol duomenys bus visiškai išvalyti ir išanalizuoti, kad pradėtumėte kurti vizualizacijas. Iš tiesų, vizualinis atvaizdavimas tyrimo metu gali padėti identifikuoti duomenų modelius, ryšius ir problemas. Be to, vizualizacijos suteikia galimybę bendrauti su tais, kurie nėra tiesiogiai susiję su duomenų valdymu, ir gali būti galimybė pasidalinti bei patikslinti papildomus klausimus, kurie nebuvo sprendžiami surinkimo etape. Žr. [Vizualizacijų skyrių](../../../../../../../../../3-Data-Visualization), kad sužinotumėte daugiau apie populiarius vizualinio tyrimo būdus. ## Tyrimas siekiant identifikuoti neatitikimus Visos šios pamokos temos gali padėti identifikuoti trūkstamas ar nesuderinamas reikšmes, tačiau Pandas siūlo funkcijas, skirtas kai kuriems iš jų patikrinti. [isna() arba isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) gali patikrinti trūkstamas reikšmes. Vienas svarbus aspektas, tyrinėjant šias reikšmes savo duomenyse, yra suprasti, kodėl jos atsirado. Tai gali padėti nuspręsti, kokius [veiksmus reikėtų atlikti, kad jas išspręstumėte](/2-Working-With-Data/08-data-preparation/notebook.ipynb). ## [Po paskaitos testą](https://ff-quizzes.netlify.app/en/ds/quiz/29) ## Užduotis [Tyrimas atsakymams rasti](assignment.md) --- **Atsakomybės apribojimas**: Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.