{ "cells": [ { "cell_type": "markdown", "source": [ "# Πρόκληση: Ανάλυση Κειμένου για την Επιστήμη Δεδομένων\n", "\n", "Σε αυτό το παράδειγμα, ας κάνουμε μια απλή άσκηση που καλύπτει όλα τα βήματα μιας παραδοσιακής διαδικασίας επιστήμης δεδομένων. Δεν χρειάζεται να γράψετε κώδικα, μπορείτε απλώς να κάνετε κλικ στα παρακάτω κελιά για να τα εκτελέσετε και να παρατηρήσετε το αποτέλεσμα. Ως πρόκληση, σας ενθαρρύνουμε να δοκιμάσετε αυτόν τον κώδικα με διαφορετικά δεδομένα.\n", "\n", "## Στόχος\n", "\n", "Σε αυτό το μάθημα, συζητήσαμε διάφορες έννοιες που σχετίζονται με την Επιστήμη Δεδομένων. Ας προσπαθήσουμε να ανακαλύψουμε περισσότερες σχετικές έννοιες κάνοντας **εξόρυξη κειμένου**. Θα ξεκινήσουμε με ένα κείμενο για την Επιστήμη Δεδομένων, θα εξάγουμε λέξεις-κλειδιά από αυτό και στη συνέχεια θα προσπαθήσουμε να οπτικοποιήσουμε το αποτέλεσμα.\n", "\n", "Ως κείμενο, θα χρησιμοποιήσω τη σελίδα για την Επιστήμη Δεδομένων από τη Wikipedia:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Βήμα 1: Απόκτηση Δεδομένων\n", "\n", "Το πρώτο βήμα σε κάθε διαδικασία επιστήμης δεδομένων είναι η απόκτηση των δεδομένων. Θα χρησιμοποιήσουμε τη βιβλιοθήκη `requests` για να το κάνουμε:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Data science - Wikipedia\n", "