You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/sk/4-Data-Science-Lifecycle/15-analyzing/README.md

6.4 KiB

Životný cyklus dátovej vedy: Analyzovanie

 Sketchnote od (@sketchthedocs)
Životný cyklus dátovej vedy: Analyzovanie - Sketchnote od @nitya

Kvíz pred prednáškou

Analyzovanie v životnom cykle dát potvrdzuje, že dáta dokážu odpovedať na položené otázky alebo vyriešiť konkrétny problém. Tento krok sa tiež zameriava na overenie, či model správne rieši tieto otázky a problémy. Táto lekcia sa sústreďuje na prieskumnú analýzu dát (Exploratory Data Analysis, EDA), čo sú techniky na definovanie vlastností a vzťahov v rámci dát, ktoré môžu byť použité na prípravu dát na modelovanie.

Použijeme príkladovú dátovú sadu z Kaggle, aby sme ukázali, ako sa to dá aplikovať pomocou Pythonu a knižnice Pandas. Táto dátová sada obsahuje počty niektorých bežných slov nachádzajúcich sa v e-mailoch, pričom zdroje týchto e-mailov sú anonymné. Použite notebook v tomto adresári na sledovanie.

Prieskumná analýza dát

Fáza zachytávania v životnom cykle je miestom, kde sa získavajú dáta, ako aj problémy a otázky, ktoré treba riešiť. Ale ako vieme, že dáta môžu podporiť konečný výsledok? Pripomeňme si, že dátový vedec sa môže pýtať nasledujúce otázky, keď získava dáta:

  • Mám dostatok dát na vyriešenie tohto problému?
  • Sú dáta dostatočne kvalitné pre tento problém?
  • Ak objavím ďalšie informácie prostredníctvom týchto dát, mali by sme zvážiť zmenu alebo predefinovanie cieľov? Prieskumná analýza dát je proces spoznávania dát a môže byť použitá na zodpovedanie týchto otázok, ako aj na identifikáciu výziev pri práci s dátovou sadou. Poďme sa zamerať na niektoré techniky používané na dosiahnutie tohto cieľa.

Profilovanie dát, popisná štatistika a Pandas

Ako zhodnotíme, či máme dostatok dát na vyriešenie problému? Profilovanie dát môže zhrnúť a zhromaždiť niektoré všeobecné informácie o našej dátovej sade prostredníctvom techník popisnej štatistiky. Profilovanie dát nám pomáha pochopiť, čo máme k dispozícii, a popisná štatistika nám pomáha pochopiť, koľko toho máme.

V niekoľkých predchádzajúcich lekciách sme použili Pandas na poskytnutie niektorých popisných štatistík pomocou funkcie describe(). Táto funkcia poskytuje počet, maximálne a minimálne hodnoty, priemer, štandardnú odchýlku a kvantily pre číselné dáta. Používanie popisných štatistík, ako je funkcia describe(), vám môže pomôcť posúdiť, koľko dát máte a či potrebujete viac.

Vzorkovanie a dotazovanie

Preskúmanie všetkého v rozsiahlej dátovej sade môže byť veľmi časovo náročné a zvyčajne je to úloha, ktorú vykonáva počítač. Avšak vzorkovanie je užitočný nástroj na pochopenie dát a umožňuje nám lepšie pochopiť, čo sa v dátovej sade nachádza a čo reprezentuje. S použitím vzorky môžete aplikovať pravdepodobnosť a štatistiku na dosiahnutie všeobecných záverov o vašich dátach. Hoci neexistuje presne definované pravidlo, koľko dát by ste mali vzorkovať, je dôležité si uvedomiť, že čím viac dát vzorkujete, tým presnejšiu generalizáciu môžete o dátach urobiť. Pandas má vo svojej knižnici funkciu sample(), kde môžete zadať argument, koľko náhodných vzoriek chcete získať a použiť.

Všeobecné dotazovanie dát vám môže pomôcť odpovedať na niektoré všeobecné otázky a teórie, ktoré môžete mať. Na rozdiel od vzorkovania vám dotazy umožňujú mať kontrolu a zamerať sa na konkrétne časti dát, na ktoré máte otázky. Funkcia query() v knižnici Pandas vám umožňuje vybrať stĺpce a získať jednoduché odpovede o dátach prostredníctvom získaných riadkov.

Preskúmanie pomocou vizualizácií

Nemusíte čakať, kým budú dáta dôkladne vyčistené a analyzované, aby ste mohli začať vytvárať vizualizácie. V skutočnosti, mať vizuálne znázornenie počas preskúmania môže pomôcť identifikovať vzory, vzťahy a problémy v dátach. Navyše, vizualizácie poskytujú spôsob komunikácie s tými, ktorí nie sú zapojení do správy dát, a môžu byť príležitosťou na zdieľanie a objasnenie ďalších otázok, ktoré neboli riešené vo fáze zachytávania. Pozrite si sekciu o vizualizáciách, kde sa dozviete viac o niektorých populárnych spôsoboch vizuálneho preskúmania.

Preskúmanie na identifikáciu nekonzistencií

Všetky témy v tejto lekcii môžu pomôcť identifikovať chýbajúce alebo nekonzistentné hodnoty, ale Pandas poskytuje funkcie na kontrolu niektorých z nich. isna() alebo isnull() dokáže skontrolovať chýbajúce hodnoty. Jedným z dôležitých aspektov preskúmania týchto hodnôt vo vašich dátach je preskúmať, prečo sa tam dostali. To vám môže pomôcť rozhodnúť sa, aké kroky podniknúť na ich vyriešenie.

Kvíz po prednáške

Zadanie

Preskúmanie pre odpovede


Upozornenie:
Tento dokument bol preložený pomocou služby AI prekladu Co-op Translator. Hoci sa snažíme o presnosť, prosím, berte na vedomie, že automatizované preklady môžu obsahovať chyby alebo nepresnosti. Pôvodný dokument v jeho rodnom jazyku by mal byť považovaný za autoritatívny zdroj. Pre kritické informácie sa odporúča profesionálny ľudský preklad. Nie sme zodpovední za žiadne nedorozumenia alebo nesprávne interpretácie vyplývajúce z použitia tohto prekladu.