{ "cells": [ { "cell_type": "markdown", "source": [ "# אתגר: ניתוח טקסט על מדע הנתונים\n", "\n", "> *במחברת זו, אנו מתנסים בשימוש בכתובת URL שונה - מאמר ויקיפדיה על למידת מכונה. ניתן לראות שבניגוד למדע הנתונים, מאמר זה מכיל הרבה מונחים, מה שהופך את הניתוח לבעייתי יותר. עלינו למצוא דרך אחרת לנקות את הנתונים לאחר חילוץ מילות המפתח, כדי להיפטר משילובי מילים תכופים אך חסרי משמעות.*\n", "\n", "בדוגמה זו, נעשה תרגיל פשוט שמכסה את כל השלבים בתהליך מסורתי של מדע הנתונים. אין צורך לכתוב קוד, ניתן פשוט ללחוץ על התאים למטה כדי להפעיל אותם ולצפות בתוצאה. כאתגר, מומלץ לנסות את הקוד הזה עם נתונים שונים.\n", "\n", "## מטרה\n", "\n", "בשיעור זה, דנו במושגים שונים הקשורים למדע הנתונים. בואו ננסה לגלות מושגים נוספים הקשורים לנושא על ידי ביצוע **כריית טקסט**. נתחיל עם טקסט על מדע הנתונים, נחלץ ממנו מילות מפתח, ואז ננסה להמחיש את התוצאה.\n", "\n", "כטקסט, אשתמש בדף על מדע הנתונים מוויקיפדיה:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## שלב 1: קבלת הנתונים\n", "\n", "השלב הראשון בכל תהליך של מדע הנתונים הוא קבלת הנתונים. נשתמש בספריית `requests` כדי לעשות זאת:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "