{ "cells": [ { "cell_type": "markdown", "source": [ "# Zorluk: Veri Bilimi Hakkında Metin Analizi\n", "\n", "> *Bu not defterinde, farklı URL'ler - Makine Öğrenimi üzerine bir Wikipedia makalesi - kullanmayı deniyoruz. Görebileceğiniz gibi, Veri Bilimi'nden farklı olarak, bu makale birçok terim içeriyor ve bu da analizi daha sorunlu hale getiriyor. Anahtar kelime çıkarımı yaptıktan sonra, sık kullanılan ancak anlamlı olmayan kelime kombinasyonlarından kurtulmak için veriyi temizlemenin başka bir yolunu bulmamız gerekiyor.*\n", "\n", "Bu örnekte, geleneksel bir veri bilimi sürecinin tüm adımlarını kapsayan basit bir egzersiz yapalım. Herhangi bir kod yazmanıza gerek yok, sadece aşağıdaki hücrelere tıklayarak onları çalıştırabilir ve sonucu gözlemleyebilirsiniz. Bir zorluk olarak, bu kodu farklı verilerle denemeniz teşvik edilmektedir.\n", "\n", "## Amaç\n", "\n", "Bu derste, Veri Bilimi ile ilgili farklı kavramları tartıştık. Şimdi, **metin madenciliği** yaparak daha fazla ilgili kavram keşfetmeye çalışalım. Veri Bilimi hakkında bir metinle başlayacağız, bu metinden anahtar kelimeler çıkaracağız ve ardından sonucu görselleştirmeye çalışacağız.\n", "\n", "Metin olarak, Wikipedia'daki Veri Bilimi sayfasını kullanacağım:\n" ], "metadata": {} }, { "cell_type": "markdown", "source": [], "metadata": {} }, { "cell_type": "code", "execution_count": 2, "source": [ "url = 'https://en.wikipedia.org/wiki/Data_science'\r\n", "url = 'https://en.wikipedia.org/wiki/Machine_learning'" ], "outputs": [], "metadata": {} }, { "cell_type": "markdown", "source": [ "## Adım 1: Veriyi Alma\n", "\n", "Her veri bilimi sürecindeki ilk adım, veriyi almaktır. Bunu yapmak için `requests` kütüphanesini kullanacağız:\n" ], "metadata": {} }, { "cell_type": "code", "execution_count": 3, "source": [ "import requests\r\n", "\r\n", "text = requests.get(url).content.decode('utf-8')\r\n", "print(text[:1000])" ], "outputs": [ { "output_type": "stream", "name": "stdout", "text": [ "\n", "\n", "\n", "\n", "Machine learning - Wikipedia\n", "