{ "cells": [ { "cell_type": "markdown", "source": [ "# Πρόκληση: Ανάλυση Κειμένου για την Επιστήμη Δεδομένων\n", "\n", "> *Σε αυτό το σημειωματάριο, πειραματιζόμαστε με τη χρήση διαφορετικών URL - άρθρο της Wikipedia για τη Μηχανική Μάθηση. Μπορείτε να δείτε ότι, σε αντίθεση με την Επιστήμη Δεδομένων, αυτό το άρθρο περιέχει πολλούς όρους, γεγονός που καθιστά την ανάλυση πιο προβληματική. Πρέπει να βρούμε έναν άλλο τρόπο να καθαρίσουμε τα δεδομένα μετά την εξαγωγή λέξεων-κλειδιών, ώστε να απαλλαγούμε από κάποιους συχνούς, αλλά όχι ουσιαστικούς συνδυασμούς λέξεων.*\n", "\n", "Σε αυτό το παράδειγμα, ας κάνουμε μια απλή άσκηση που καλύπτει όλα τα βήματα μιας παραδοσιακής διαδικασίας επιστήμης δεδομένων. Δεν χρειάζεται να γράψετε κανέναν κώδικα, μπορείτε απλώς να κάνετε κλικ στα παρακάτω κελιά για να τα εκτελέσετε και να παρατηρήσετε το αποτέλεσμα. Ως πρόκληση, σας ενθαρρύνουμε να δοκιμάσετε αυτόν τον κώδικα με διαφορετικά δεδομένα.\n", "\n", "## Στόχος\n", "\n", "Σε αυτό το μάθημα, συζητήσαμε διάφορες έννοιες που σχετίζονται με την Επιστήμη Δεδομένων. Ας προσπαθήσουμε να ανακαλύψουμε περισσότερες σχετικές έννοιες κάνοντας **εξόρυξη κειμένου**. Θα ξεκινήσουμε με ένα κείμενο για την Επιστήμη Δεδομένων, θα εξάγουμε λέξεις-κλειδιά από αυτό και στη συνέχεια θα προσπαθήσουμε να οπτικοποιήσουμε το αποτέλεσμα.\n", "\n", "Ως κείμενο, θα χρησιμοποιήσω τη σελίδα για την Επιστήμη Δεδομένων από τη Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Βήμα 1: Απόκτηση Δεδομένων\n", "\n", "Το πρώτο βήμα σε κάθε διαδικασία επιστήμης δεδομένων είναι η απόκτηση των δεδομένων. Θα χρησιμοποιήσουμε τη βιβλιοθήκη `requests` για να το κάνουμε:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "