You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/lt/4-Data-Science-Lifecycle/15-analyzing/README.md

6.4 KiB

Duomenų mokslo gyvavimo ciklas: Analizavimas

 Sketchnote by (@sketchthedocs)
Duomenų mokslo gyvavimo ciklas: Analizavimas - Sketchnote by @nitya

Prieš paskaitą: testas

Prieš paskaitą: testas

Analizavimas duomenų gyvavimo cikle patvirtina, kad duomenys gali atsakyti į pateiktus klausimus arba išspręsti tam tikrą problemą. Šis etapas taip pat gali būti skirtas patvirtinti, kad modelis tinkamai sprendžia šiuos klausimus ir problemas. Ši pamoka orientuota į duomenų tyrimo analizę (EDA), kuri apima metodus, skirtus apibrėžti duomenų savybes ir ryšius, bei gali būti naudojama duomenų paruošimui modeliavimui.

Naudosime pavyzdinį duomenų rinkinį iš Kaggle, kad parodytume, kaip tai galima pritaikyti naudojant Python ir Pandas biblioteką. Šis duomenų rinkinys apima dažniausiai pasitaikančių žodžių skaičių el. laiškuose, o šių laiškų šaltiniai yra anonimiški. Naudokite užrašų knygelę šiame kataloge, kad galėtumėte sekti pamoką.

Duomenų tyrimo analizė

Duomenų surinkimo etapas gyvavimo cikle yra tas, kuriame duomenys yra įgyjami, taip pat apibrėžiamos problemos ir klausimai. Bet kaip žinoti, ar duomenys gali padėti pasiekti galutinį rezultatą? Priminkime, kad duomenų mokslininkas gali užduoti šiuos klausimus, kai gauna duomenis:

  • Ar turiu pakankamai duomenų šiai problemai išspręsti?
  • Ar duomenų kokybė yra tinkama šiai problemai?
  • Jei per šiuos duomenis atrandu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perdefinavimą?

Duomenų tyrimo analizė yra procesas, leidžiantis geriau pažinti duomenis ir gali būti naudojamas atsakyti į šiuos klausimus, taip pat nustatyti iššūkius, susijusius su duomenų rinkiniu. Pažvelkime į kai kuriuos metodus, naudojamus šiam tikslui pasiekti.

Duomenų profiliavimas, aprašomoji statistika ir Pandas

Kaip įvertinti, ar turime pakankamai duomenų problemai išspręsti? Duomenų profiliavimas gali apibendrinti ir surinkti bendrą informaciją apie mūsų duomenų rinkinį naudojant aprašomosios statistikos metodus. Duomenų profiliavimas padeda suprasti, kas mums yra prieinama, o aprašomoji statistika padeda suprasti, kiek dalykų yra prieinama.

Keletą ankstesnių pamokų metu naudojome Pandas, kad pateiktume aprašomąją statistiką su describe() funkcija. Ji pateikia skaičių, maksimalias ir minimalias reikšmes, vidurkį, standartinį nuokrypį ir kvantiles skaitmeniniams duomenims. Naudojant aprašomąją statistiką, tokią kaip describe() funkcija, galima įvertinti, kiek turime duomenų ir ar jų reikia daugiau.

Imčių ėmimas ir užklausos

Didelio duomenų rinkinio tyrimas gali būti labai daug laiko reikalaujantis procesas, kurį dažniausiai atlieka kompiuteris. Tačiau imčių ėmimas yra naudingas įrankis, leidžiantis geriau suprasti duomenis ir tai, ką jie reprezentuoja. Naudodami imtį, galite taikyti tikimybių ir statistikos metodus, kad padarytumėte bendras išvadas apie savo duomenis. Nors nėra nustatytos taisyklės, kiek duomenų reikėtų imti, svarbu pažymėti, kad kuo daugiau duomenų imsite, tuo tikslesnę bendrą išvadą galėsite padaryti apie duomenis.

Pandas bibliotekoje yra sample() funkcija, kurioje galite nurodyti, kiek atsitiktinių imčių norite gauti ir naudoti.

Bendros duomenų užklausos gali padėti atsakyti į kai kuriuos bendrus klausimus ir teorijas, kurias galite turėti. Skirtingai nuo imčių ėmimo, užklausos leidžia jums kontroliuoti ir susitelkti į konkrečias duomenų dalis, apie kurias turite klausimų. query() funkcija Pandas bibliotekoje leidžia pasirinkti stulpelius ir gauti paprastus atsakymus apie duomenis per gautas eilutes.

Tyrimas naudojant vizualizacijas

Jums nereikia laukti, kol duomenys bus visiškai išvalyti ir išanalizuoti, kad pradėtumėte kurti vizualizacijas. Iš tiesų, vizualinis atvaizdavimas tyrimo metu gali padėti identifikuoti duomenų modelius, ryšius ir problemas. Be to, vizualizacijos suteikia galimybę bendrauti su tais, kurie nėra tiesiogiai susiję su duomenų valdymu, ir gali būti galimybė pasidalinti bei patikslinti papildomus klausimus, kurie nebuvo sprendžiami surinkimo etape. Žr. Vizualizacijų skyrių, kad sužinotumėte daugiau apie populiarius būdus tyrinėti vizualiai.

Tyrimas siekiant nustatyti neatitikimus

Visos šios pamokos temos gali padėti identifikuoti trūkstamas ar nesuderinamas reikšmes, tačiau Pandas suteikia funkcijas, leidžiančias patikrinti kai kurias iš jų. isna() arba isnull() gali patikrinti trūkstamas reikšmes. Vienas svarbus aspektas, tyrinėjant šias reikšmes jūsų duomenyse, yra suprasti, kodėl jos atsirado. Tai gali padėti nuspręsti, kokius veiksmus reikėtų atlikti, kad jas išspręstumėte.

Prieš paskaitą: testas

Užduotis

Tyrimas atsakymams rasti


Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą Co-op Translator. Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo.