{ "cells": [ { "cell_type": "markdown", "source": [ "# אתגר: ניתוח טקסט על מדע הנתונים\n", "\n", "בדוגמה זו, נעשה תרגיל פשוט שמכסה את כל השלבים בתהליך המסורתי של מדע הנתונים. אין צורך לכתוב קוד, אפשר פשוט ללחוץ על התאים למטה כדי להפעיל אותם ולצפות בתוצאה. כאתגר, מומלץ לנסות את הקוד הזה עם נתונים שונים.\n", "\n", "## מטרה\n", "\n", "בשיעור זה, דיברנו על מושגים שונים הקשורים למדע הנתונים. בואו ננסה לגלות מושגים נוספים על ידי ביצוע **כריית טקסט**. נתחיל עם טקסט על מדע הנתונים, נחלץ ממנו מילות מפתח, ואז ננסה להמחיש את התוצאה.\n", "\n", "כטקסט, אשתמש בדף על מדע הנתונים מוויקיפדיה:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 62, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## שלב 1: השגת הנתונים\n", "\n", "השלב הראשון בכל תהליך מדעי נתונים הוא השגת הנתונים. נשתמש בספריית `requests` כדי לעשות זאת:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 63, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "
\n", "\n", "