6.6 KiB

Raw Permalink Blame History

Cykl życia nauki o danych: Analiza


Cykl życia nauki o danych: Analiza - Sketchnote autorstwa @nitya

Quiz przed wykładem

Analiza w cyklu życia danych potwierdza, że dane mogą odpowiedzieć na postawione pytania lub rozwiązać konkretny problem. Ten etap może również skupiać się na potwierdzeniu, że model prawidłowo odnosi się do tych pytań i problemów. Ta lekcja koncentruje się na eksploracyjnej analizie danych (Exploratory Data Analysis, EDA), czyli technikach definiowania cech i relacji w danych, które mogą być wykorzystane do przygotowania danych do modelowania.

Wykorzystamy przykładowy zbiór danych z Kaggle, aby pokazać, jak można to zastosować w Pythonie z użyciem biblioteki Pandas. Ten zbiór danych zawiera liczbę wystąpień niektórych popularnych słów w e-mailach, przy czym źródła tych e-maili są anonimowe. Skorzystaj z notatnika w tym katalogu, aby śledzić proces.

Eksploracyjna analiza danych

Faza pozyskiwania w cyklu życia to moment, w którym dane są gromadzone, a problemy i pytania są definiowane. Ale skąd wiemy, że dane mogą wspierać końcowy wynik?
Przypomnijmy, że naukowiec danych może zadać następujące pytania, gdy pozyskuje dane:

Czy mam wystarczająco dużo danych, aby rozwiązać ten problem?
Czy dane są wystarczającej jakości dla tego problemu?
Jeśli odkryję dodatkowe informacje w tych danych, czy powinniśmy rozważyć zmianę lub redefinicję celów?

Eksploracyjna analiza danych to proces poznawania danych, który może pomóc odpowiedzieć na te pytania, a także zidentyfikować wyzwania związane z pracą z danym zbiorem danych. Skupmy się na niektórych technikach stosowanych w tym celu.

Profilowanie danych, statystyki opisowe i Pandas

Jak ocenić, czy mamy wystarczająco dużo danych, aby rozwiązać problem? Profilowanie danych może podsumować i zebrać ogólne informacje o naszym zbiorze danych za pomocą technik statystyki opisowej. Profilowanie danych pomaga zrozumieć, co mamy do dyspozycji, a statystyki opisowe pomagają zrozumieć, ile tego mamy.

W kilku poprzednich lekcjach używaliśmy Pandas do generowania statystyk opisowych za pomocą funkcji describe(). Funkcja ta dostarcza informacji takich jak liczba elementów, wartości maksymalne i minimalne, średnia, odchylenie standardowe i kwantyle dla danych numerycznych. Korzystanie z takich statystyk opisowych jak describe() może pomóc ocenić, ile danych mamy i czy potrzebujemy więcej.

Próbkowanie i zapytania

Eksplorowanie całego dużego zbioru danych może być bardzo czasochłonne i jest to zadanie, które zazwyczaj wykonuje komputer. Jednak próbki danych są pomocnym narzędziem w zrozumieniu danych i pozwalają lepiej zrozumieć, co znajduje się w zbiorze danych i co on reprezentuje. Dzięki próbce można zastosować prawdopodobieństwo i statystykę, aby dojść do ogólnych wniosków na temat danych. Chociaż nie ma określonej reguły dotyczącej tego, ile danych należy próbować, warto zauważyć, że im więcej danych próbkujemy, tym bardziej precyzyjne mogą być nasze uogólnienia.

Pandas oferuje funkcję sample(), w której można podać argument określający, ile losowych próbek chcemy otrzymać i wykorzystać.

Ogólne zapytania dotyczące danych mogą pomóc odpowiedzieć na niektóre pytania i teorie, które możemy mieć. W przeciwieństwie do próbkowania, zapytania pozwalają nam kontrolować i skupić się na konkretnych częściach danych, które nas interesują. Funkcja query() w bibliotece Pandas pozwala wybierać kolumny i uzyskiwać proste odpowiedzi na temat danych poprzez pobrane wiersze.

Eksploracja za pomocą wizualizacji

Nie musisz czekać, aż dane zostaną dokładnie oczyszczone i przeanalizowane, aby zacząć tworzyć wizualizacje. W rzeczywistości posiadanie wizualnej reprezentacji podczas eksploracji może pomóc zidentyfikować wzorce, relacje i problemy w danych. Ponadto wizualizacje stanowią środek komunikacji z osobami, które nie są zaangażowane w zarządzanie danymi, i mogą być okazją do podzielenia się i wyjaśnienia dodatkowych pytań, które nie zostały uwzględnione na etapie pozyskiwania. Odwołaj się do sekcji o wizualizacjach, aby dowiedzieć się więcej o popularnych sposobach eksploracji wizualnej.

Eksploracja w celu identyfikacji niespójności

Wszystkie tematy poruszone w tej lekcji mogą pomóc zidentyfikować brakujące lub niespójne wartości, ale Pandas oferuje funkcje do sprawdzania niektórych z nich. Funkcje isna() lub isnull() mogą sprawdzać brakujące wartości. Ważnym elementem eksploracji tych wartości w danych jest zbadanie, dlaczego znalazły się w takim stanie. Może to pomóc w podjęciu decyzji o działaniach, które należy podjąć, aby je rozwiązać.

Quiz przed wykładem

Zadanie

Eksploracja w poszukiwaniu odpowiedzi

Zastrzeżenie:
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI Co-op Translator. Chociaż staramy się zapewnić dokładność, prosimy mieć na uwadze, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.

6.6 KiB Raw Permalink Blame History

Cykl życia nauki o danych: Analiza

Quiz przed wykładem

Quiz przed wykładem

Eksploracyjna analiza danych

Profilowanie danych, statystyki opisowe i Pandas

Próbkowanie i zapytania

Eksploracja za pomocą wizualizacji

Eksploracja w celu identyfikacji niespójności

Quiz przed wykładem

Zadanie

6.6 KiB

Raw Permalink Blame History