# Veri Hazırlığı

[Orijinal Notebook kaynağı *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` Bilgilerini Keşfetmek

> **Öğrenme hedefi:** Bu alt bölümün sonunda, pandas DataFrame'lerde saklanan veriler hakkında genel bilgi bulma konusunda rahat olmalısınız.

Verilerinizi pandas'a yüklediğinizde, büyük olasılıkla bir `DataFrame` içinde olacaktır. Ancak, `DataFrame`'inizdeki veri seti 60.000 satır ve 400 sütun içeriyorsa, neyle çalıştığınızı anlamaya nereden başlarsınız? Neyse ki, pandas, bir `DataFrame` hakkında genel bilgileri hızlıca görmek ve ilk birkaç ile son birkaç satırı incelemek için kullanışlı araçlar sunar.

Bu işlevselliği keşfetmek için Python scikit-learn kütüphanesini içe aktaracağız ve her veri bilimcisinin yüzlerce kez gördüğü ikonik bir veri setini kullanacağız: İngiliz biyolog Ronald Fisher'ın 1936 tarihli "Taksonomik problemler için çoklu ölçümlerin kullanımı" adlı makalesinde kullandığı *Iris* veri seti:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
`iris_df` değişkenine Iris Veri Seti'ni yükledik. Verilere dalmadan önce, elimizde kaç veri noktası olduğunu ve veri setinin genel boyutunu bilmek faydalı olacaktır. Çalıştığımız veri hacmini görmek yararlıdır.


In [2]:
iris_df.shape

(150, 4)

Yani, elimizde 150 satır ve 4 sütundan oluşan bir veri var. Her bir satır bir veri noktasını temsil eder ve her bir sütun, veri çerçevesiyle ilişkili tek bir özelliği ifade eder. Temelde, her biri 4 özelliğe sahip 150 veri noktası bulunmaktadır.

Buradaki `shape`, bir fonksiyon değil, veri çerçevesinin bir özelliğidir; bu yüzden bir çift parantezle bitmez.


### `DataFrame.columns`
Şimdi 4 veri sütununa geçelim. Her biri tam olarak neyi temsil ediyor? `columns` özelliği, dataframe'deki sütunların adlarını bize verecektir.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Gördüğümüz gibi, dört (4) sütun var. `columns` özelliği bize sütunların adını söyler ve temelde başka bir şey söylemez. Bu özellik, bir veri kümesinin içerdiği özellikleri tanımlamak istediğimizde önem kazanır.


### `DataFrame.info`
Veri miktarı (`shape` özelliği tarafından verilen) ve özelliklerin veya sütunların adları (`columns` özelliği tarafından verilen) veri seti hakkında bize bir şeyler anlatır. Şimdi, veri setine daha derinlemesine bakmak isteyeceğiz. `DataFrame.info()` fonksiyonu bu konuda oldukça kullanışlıdır.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Buradan birkaç gözlem yapabiliriz:
1. Her sütunun Veri Tipi: Bu veri setinde, tüm veriler 64-bit kayan nokta sayıları olarak saklanmaktadır.
2. Null Olmayan Değerlerin Sayısı: Null değerlerle başa çıkmak, veri hazırlığında önemli bir adımdır. Bu konu daha sonra not defterinde ele alınacaktır.


### DataFrame.describe()
Diyelim ki veri setimizde çok fazla sayısal veri var. Ortalama, medyan, çeyrekler gibi tek değişkenli istatistiksel hesaplamalar, her bir sütun üzerinde ayrı ayrı yapılabilir. `DataFrame.describe()` fonksiyonu, bir veri setinin sayısal sütunları hakkında istatistiksel bir özet sağlar.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Yukarıdaki çıktı, her sütunun toplam veri noktası sayısını, ortalamasını, standart sapmasını, minimum değerini, alt çeyreğini (%25), medyanını (%50), üst çeyreğini (%75) ve maksimum değerini göstermektedir.


### `DataFrame.head`
Yukarıdaki tüm fonksiyonlar ve özelliklerle, veri kümesine genel bir bakış elde ettik. Kaç veri noktası olduğunu, kaç özelliğin bulunduğunu, her bir özelliğin veri tipini ve her bir özellik için kaç tane boş olmayan değer olduğunu öğrendik.

Şimdi verinin kendisine bakma zamanı. `DataFrame`imizin ilk birkaç satırının (ilk birkaç veri noktasının) nasıl göründüğüne bir göz atalım:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Çıktıda, veri kümesinin beş (5) girdisini görebiliyoruz. Sol taraftaki indekse baktığımızda, bunların ilk beş satır olduğunu anlıyoruz.


### Alıştırma:

Yukarıdaki örnekten açıkça görülüyor ki, varsayılan olarak `DataFrame.head`, bir `DataFrame`'in ilk beş satırını döndürür. Aşağıdaki kod hücresinde, beşten fazla satırı görüntülemenin bir yolunu bulabilir misiniz?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Verilere bakmanın bir başka yolu, başlangıç yerine sondan bakmaktır. `DataFrame.head`'in tersine, `DataFrame.tail` bir `DataFrame`'in son beş satırını döndürür:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Uygulamada, özellikle sıralı veri kümelerinde aykırı değerleri ararken, bir `DataFrame`in ilk birkaç satırını veya son birkaç satırını kolayca incelemek faydalı olabilir.

Yukarıda kod örnekleriyle gösterilen tüm fonksiyonlar ve özellikler, veriye bir bakış ve hissiyat kazanmamıza yardımcı olur.

> **Çıkarım:** Bir DataFrame'deki bilgilere ait meta veriye veya bir DataFrame'in ilk ve son birkaç değerine sadece bakarak, üzerinde çalıştığınız verinin boyutu, şekli ve içeriği hakkında hemen bir fikir edinebilirsiniz.


### Eksik Veri
Eksik veri konusuna dalalım. Eksik veri, bazı sütunlarda hiçbir değer saklanmadığında meydana gelir.

Bir örnek alalım: diyelim ki bir kişi kilosu konusunda hassas ve bir ankette kilo alanını doldurmuyor. O zaman, bu kişinin kilo değeri eksik olacaktır.

Gerçek dünya veri setlerinde, eksik değerler çoğu zaman ortaya çıkar.

**Pandas Eksik Veriyi Nasıl Ele Alır**

Pandas eksik değerleri iki şekilde ele alır. İlk yöntem, önceki bölümlerde gördüğünüz `NaN`, yani Not a Number'dır. Bu aslında IEEE kayan nokta spesifikasyonunun bir parçası olan özel bir değerdir ve yalnızca eksik kayan nokta değerlerini belirtmek için kullanılır.

Kayan nokta dışındaki eksik değerler için pandas, Python `None` nesnesini kullanır. İki farklı türde eksik değerle karşılaşmanın kafa karıştırıcı görünebileceği doğru olsa da, bu tasarım seçiminin sağlam programatik nedenleri vardır ve pratikte bu yaklaşım, pandas'ın çoğu durumda iyi bir denge sunmasını sağlar. Bununla birlikte, hem `None` hem de `NaN` ile ilgili olarak nasıl kullanılabilecekleri konusunda dikkat edilmesi gereken sınırlamalar taşır.


### `None`: float olmayan eksik veriler
`None` Python'dan geldiği için, veri türü `'object'` olmayan NumPy ve pandas dizilerinde kullanılamaz. Unutmayın, NumPy dizileri (ve pandas'taki veri yapıları) yalnızca tek bir tür veri içerebilir. Bu, onları büyük ölçekli veri ve hesaplama işleri için son derece güçlü kılar, ancak aynı zamanda esnekliklerini sınırlar. Bu tür diziler, dizideki her şeyi kapsayacak olan "en düşük ortak payda" veri türüne yükseltilmek zorundadır. Dizide `None` bulunduğunda, Python nesneleriyle çalışıyorsunuz demektir.

Bunu uygulamada görmek için, aşağıdaki örnek diziye bir göz atın (dizinin `dtype` değerine dikkat edin):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Yükseltilmiş veri türlerinin gerçekliği iki yan etkiyi beraberinde getirir. Birincisi, işlemler derlenmiş NumPy kodu yerine yorumlanmış Python kodu seviyesinde gerçekleştirilir. Temelde bu, içinde `None` bulunan `Series` veya `DataFrame`lerle yapılan işlemlerin daha yavaş olacağı anlamına gelir. Bu performans düşüşünü muhtemelen fark etmezsiniz, ancak büyük veri kümelerinde sorun haline gelebilir.

İkinci yan etki birincisinden kaynaklanır. Çünkü `None`, `Series` veya `DataFrame`leri temel Python dünyasına geri çeker, içinde ``None`` değeri bulunan dizilerde NumPy/pandas toplama işlemleri, örneğin `sum()` veya `min()`, genellikle bir hata üretir:


In [10]:
example1.sum()

TypeError: ignored

**Ana fikir**: Tamsayılar ile `None` değerleri arasındaki toplama (ve diğer işlemler) tanımsızdır, bu da bunları içeren veri setleriyle yapabileceklerinizi sınırlayabilir.


### `NaN`: eksik float değerler

`None`'ın aksine, NumPy (ve dolayısıyla pandas), hızlı, vektörleştirilmiş işlemleri ve ufunc'ları için `NaN`'i destekler. Kötü haber şu ki, `NaN` üzerinde yapılan herhangi bir aritmetik işlem her zaman `NaN` sonucunu verir. Örneğin:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

İyi haber: `NaN` içeren dizilerde çalışan toplamalar hata vermez. Kötü haber: sonuçlar her zaman kullanışlı değildir:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Egzersiz:


In [11]:
# What happens if you add np.nan and None together?


Unutmayın: `NaN` yalnızca eksik kayan nokta değerleri içindir; tamsayılar, dizeler veya Boolean'lar için `NaN` eşdeğeri yoktur.


### `NaN` ve `None`: pandas'ta boş değerler

`NaN` ve `None` biraz farklı davranabilse de, pandas bunları birbirinin yerine kullanılabilir şekilde işlemek üzere tasarlanmıştır. Ne demek istediğimizi görmek için bir dizi (`Series`) tam sayı düşünün:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Egzersiz:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Veri türlerini aynı hale getirmek için `Series` ve `DataFrame`lerde yukarıya doğru dönüştürme işlemi sırasında, pandas eksik değerleri `None` ve `NaN` arasında kolayca değiştirebilir. Bu tasarım özelliği nedeniyle, pandas'ta `None` ve `NaN`'i "null"un iki farklı çeşidi olarak düşünmek faydalı olabilir. Aslında, pandas'ta eksik değerlerle başa çıkmak için kullanacağınız bazı temel yöntemler, bu fikri isimlerinde yansıtır:

- `isnull()`: Eksik değerleri gösteren bir Boolean maskesi oluşturur
- `notnull()`: `isnull()` yönteminin tam tersi
- `dropna()`: Verinin filtrelenmiş bir versiyonunu döndürür
- `fillna()`: Eksik değerlerin doldurulduğu veya tahmin edildiği bir veri kopyası döndürür

Bu yöntemleri öğrenmek ve rahatça kullanabilmek oldukça önemlidir, bu yüzden her birini biraz daha detaylı inceleyelim.


### Null değerlerini tespit etme

Eksik değerlerin önemini anladıktan sonra, onlarla başa çıkmadan önce veri setimizdeki eksik değerleri tespit etmemiz gerekiyor. 
Hem `isnull()` hem de `notnull()` null verileri tespit etmek için temel yöntemlerinizdir. Her ikisi de verileriniz üzerinde Boolean maskeleri döndürür.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Çıktıya yakından bakın. Sizi şaşırtan bir şey var mı? `0` aritmetik olarak bir null değeri olsa da, yine de oldukça geçerli bir tam sayı ve pandas bunu böyle kabul eder. `''` ise biraz daha ince bir durum. Bölüm 1'de boş bir string değeri temsil etmek için kullandığımız halde, pandas açısından bir null temsili değil, bir string nesnesidir.

Şimdi bunu tersine çevirelim ve bu yöntemleri pratikte kullanacağınız şekilde uygulayalım. Boolean maskeleri doğrudan bir ``Series`` veya ``DataFrame`` indeksi olarak kullanabilirsiniz, bu da izole edilmiş eksik (veya mevcut) değerlerle çalışmaya çalışırken faydalı olabilir.

Eğer eksik değerlerin toplam sayısını öğrenmek istiyorsak, `isnull()` metodunun ürettiği mask üzerinde bir toplam işlemi yapmamız yeterlidir.


In [19]:
example3.isnull().sum()

2

### Egzersiz:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Ana fikir**: Hem `isnull()` hem de `notnull()` yöntemleri, DataFrame'lerde kullanıldığında benzer sonuçlar üretir: sonuçları ve bu sonuçların indekslerini gösterir, bu da verilerinizle uğraşırken size büyük ölçüde yardımcı olur.


### Eksik Verilerle Başa Çıkma

> **Öğrenme hedefi:** Bu alt bölümün sonunda, DataFrame'lerdeki boş değerleri ne zaman ve nasıl değiştireceğinizi veya kaldıracağınızı öğrenmiş olmalısınız.

Makine Öğrenimi modelleri eksik verilerle doğrudan çalışamaz. Bu nedenle, verileri modele göndermeden önce bu eksik değerlerle ilgilenmemiz gerekir.

Eksik verilerin nasıl ele alındığı, ince dengelemeler içerir ve nihai analiziniz ile gerçek dünya sonuçlarınızı etkileyebilir.

Eksik verilerle başa çıkmanın temel olarak iki yolu vardır:

1. Eksik değeri içeren satırı kaldırmak  
2. Eksik değeri başka bir değerle değiştirmek  

Bu iki yöntemi ve bunların avantajları ile dezavantajlarını ayrıntılı olarak tartışacağız.


### Null değerlerini kaldırma

Modelimize aktardığımız veri miktarı, performansını doğrudan etkiler. Null değerlerini kaldırmak, veri noktalarının sayısını azaltmak ve dolayısıyla veri setinin boyutunu küçültmek anlamına gelir. Bu nedenle, veri seti oldukça büyük olduğunda null değer içeren satırları kaldırmak önerilir.

Bir diğer durum ise, belirli bir satır veya sütunun çok fazla eksik değere sahip olması olabilir. Bu durumda, bu satır/sütunlar kaldırılabilir çünkü çoğu veri eksik olduğundan analizimize fazla bir değer katmayacaktır.

Eksik değerleri belirlemenin ötesinde, pandas `Series` ve `DataFrame`lerden null değerleri kaldırmak için kullanışlı bir yöntem sunar. Bunu uygulamada görmek için `example3`e geri dönelim. `DataFrame.dropna()` fonksiyonu, null değer içeren satırları kaldırmaya yardımcı olur.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Bu, `example3[example3.notnull()]` çıktınıza benzemelidir. Buradaki fark, yalnızca maskelenmiş değerlere indeksleme yapmak yerine, `dropna`'nın `Series` olan `example3`'ten eksik değerleri kaldırmış olmasıdır.

DataFrame'ler iki boyutlu olduğu için, veri silme konusunda daha fazla seçenek sunarlar.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Pandas'ın `NaN` değerlerini barındırmak için iki sütunu float türüne yükselttiğini fark ettiniz mi?)

Bir `DataFrame`'den tek bir değeri silemezsiniz, bu yüzden tam satırları veya sütunları silmeniz gerekir. Ne yapmak istediğinize bağlı olarak, birini veya diğerini tercih edebilirsiniz ve bu nedenle pandas her iki seçenek için de size imkan tanır. Veri bilimi bağlamında, sütunlar genellikle değişkenleri, satırlar ise gözlemleri temsil ettiğinden, genellikle veri satırlarını silmeniz daha olasıdır; `dropna()` için varsayılan ayar, herhangi bir null değer içeren tüm satırları silmektir:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Gerekirse, sütunlardaki NA değerlerini kaldırabilirsiniz. Bunu yapmak için `axis=1` kullanın:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Bu durum özellikle daha küçük veri kümelerinde, saklamak isteyebileceğiniz birçok veriyi kaybetmenize neden olabilir. Peki ya sadece birkaç veya hatta tüm değerleri null olan satırları ya da sütunları silmek isterseniz? Bu ayarları `dropna` içinde `how` ve `thresh` parametreleriyle belirtebilirsiniz.

Varsayılan olarak, `how='any'` (kendiniz kontrol etmek veya metodun diğer parametrelerini görmek isterseniz, bir kod hücresinde `example4.dropna?` çalıştırabilirsiniz). Alternatif olarak, yalnızca tüm değerleri null olan satırları veya sütunları silmek için `how='all'` belirtebilirsiniz. Bu durumu bir sonraki alıştırmada örnek `DataFrame`imizi genişleterek uygulamalı olarak göreceğiz.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Önemli Noktalar:  
1. Eksik değerleri kaldırmak, yalnızca veri kümesi yeterince büyükse iyi bir fikirdir.  
2. Çoğu verisi eksik olan tam satırlar veya sütunlar kaldırılabilir.  
3. `DataFrame.dropna(axis=)` yöntemi, eksik değerleri kaldırmaya yardımcı olur. `axis` argümanı, satırların mı yoksa sütunların mı kaldırılacağını belirtir.  
4. `how` argümanı da kullanılabilir. Varsayılan olarak `any` olarak ayarlanmıştır. Bu nedenle, yalnızca herhangi bir eksik değer içeren satırları/sütunları kaldırır. Tüm değerlerin eksik olduğu satırları/sütunları kaldıracağımızı belirtmek için `all` olarak ayarlanabilir.  


### Egzersiz:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` parametresi size daha ince ayarlı bir kontrol sağlar: bir satırın veya sütunun korunması için sahip olması gereken *boş olmayan* değerlerin sayısını belirlersiniz:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Burada, ilk ve son satır yalnızca iki boş olmayan değer içerdiği için çıkarılmıştır.


### Boş değerleri doldurma

Bazen eksik değerleri, geçerli olabilecek değerlerle doldurmak mantıklı olabilir. Boş değerleri doldurmak için birkaç teknik vardır. İlki, veri setinin dayandığı konu hakkında bilgi sahibi olmak (Alan Bilgisi) ve eksik değerleri bir şekilde tahmin etmektir.

Bunu yerinde yapmak için `isnull` kullanabilirsiniz, ancak bu zahmetli olabilir, özellikle doldurmanız gereken çok fazla değer varsa. Veri bilimi alanında bu kadar yaygın bir görev olduğu için, pandas `fillna` sağlar. Bu, eksik değerlerin sizin seçtiğiniz bir değerle değiştirildiği bir `Series` veya `DataFrame` kopyası döndürür. Bunun pratikte nasıl çalıştığını görmek için başka bir örnek `Series` oluşturalım.


### Kategorik Veri (Sayısal Olmayan)
Öncelikle sayısal olmayan verileri ele alalım. Veri setlerinde, kategorik veriler içeren sütunlar bulunur. Örneğin, Cinsiyet, Doğru veya Yanlış gibi.

Bu tür durumların çoğunda, eksik değerleri sütunun `modu` ile değiştiririz. Diyelim ki elimizde 100 veri noktası var ve bunların 90'ı Doğru, 8'i Yanlış demiş, 2'si ise doldurulmamış. Bu durumda, tüm sütunu dikkate alarak eksik olan 2 değeri Doğru ile doldurabiliriz.

Yine burada alan bilgimizi kullanabiliriz. Şimdi modu kullanarak doldurma işlemine bir örnek düşünelim.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Gördüğümüz gibi, null değer değiştirilmiş. Söylemeye gerek yok, `'True'` yerine herhangi bir şey yazabilirdik ve o da yerine geçmiş olurdu.


### Sayısal Veriler
Şimdi, sayısal verilere gelelim. Burada, eksik değerleri doldurmak için iki yaygın yöntemimiz var:

1. Satırın Medyanı ile Değiştirme  
2. Satırın Ortalaması ile Değiştirme  

Eğer veri, aykırı değerlerle çarpık bir dağılıma sahipse, medyan ile değiştirme yaparız. Bunun nedeni, medyanın aykırı değerlere karşı dayanıklı olmasıdır.

Veri normalize edildiğinde, ortalamayı kullanabiliriz çünkü bu durumda, ortalama ve medyan birbirine oldukça yakın olur.

Öncelikle, normal dağılıma sahip bir sütun alalım ve eksik değeri sütunun ortalaması ile dolduralım.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Sütunun ortalaması


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Gördüğümüz gibi, eksik değer ortalamasıyla değiştirilmiştir.


Şimdi başka bir veri çerçevesi deneyelim ve bu sefer None değerlerini sütunun medyanı ile değiştirelim.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


İkinci sütunun medyanı şudur


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Gördüğümüz gibi, NaN değeri sütunun medyanı ile değiştirilmiştir


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Tüm boş girişleri `0` gibi tek bir değerle doldurabilirsiniz:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Önemli Noktalar:
1. Eksik değerleri doldurmak, ya veri az olduğunda ya da eksik verileri doldurmak için bir strateji olduğunda yapılmalıdır.
2. Eksik değerleri tahmin ederek doldurmak için alan bilgisi kullanılabilir.
3. Kategorik verilerde genellikle eksik değerler, sütunun moduyla değiştirilir.
4. Sayısal verilerde eksik değerler genellikle sütunların ortalaması (normalleştirilmiş veri setleri için) veya medyanı ile doldurulur.


### Egzersiz:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Boş değerleri **ileri doldurma** yöntemiyle doldurabilirsiniz, yani bir boş değeri doldurmak için son geçerli değeri kullanabilirsiniz:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Aşağıdaki gibi bir çeviri sağlanabilir:

Boş bir değeri doldurmak için bir sonraki geçerli değeri geriye doğru yaymak amacıyla **geri doldurma** da yapabilirsiniz:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Tahmin edebileceğiniz gibi, bu DataFrame'ler ile aynı şekilde çalışır, ancak boş değerleri doldurmak için bir `axis` de belirtebilirsiniz:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Önceki bir değer ileri doldurma için mevcut olmadığında, boş değer olduğu gibi kalır.


### Egzersiz:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Eksik değerleri doldurmak için `fillna` kullanımında yaratıcı olabilirsiniz. Örneğin, `example4`e tekrar bakalım, ancak bu sefer eksik değerleri `DataFrame`deki tüm değerlerin ortalamasıyla dolduralım:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Unutmayın ki 3. sütun hala değersiz: varsayılan yön, değerleri satır bazında doldurmaktır.

> **Çıkarım:** Veri setlerinizdeki eksik değerlerle başa çıkmanın birden fazla yolu vardır. Kullanacağınız spesifik strateji (onları kaldırmak, değiştirmek ya da nasıl değiştireceğiniz) o verinin özelliklerine bağlı olmalıdır. Veri setleriyle ne kadar çok çalışır ve etkileşimde bulunursanız, eksik değerlerle nasıl başa çıkacağınız konusunda o kadar iyi bir anlayış geliştireceksiniz.


### Kategorik Verilerin Kodlanması

Makine öğrenimi modelleri yalnızca sayılar ve herhangi bir türdeki sayısal verilerle çalışır. Bir model, Evet ile Hayır arasındaki farkı anlayamaz, ancak 0 ile 1 arasındaki farkı ayırt edebilir. Bu nedenle, eksik değerleri doldurduktan sonra, modelin anlayabilmesi için kategorik verileri sayısal bir forma dönüştürmemiz gerekir.

Kodlama iki şekilde yapılabilir. Bunları şimdi tartışacağız.


**ETİKET KODLAMA**

Etiket kodlama, temel olarak her kategoriyi bir sayıya dönüştürmektir. Örneğin, bir havayolu yolcuları veri setimiz olduğunu varsayalım ve bu veri setinde yolcuların sınıfını içeren bir sütun bulunsun: ['business class', 'economy class', 'first class']. Eğer etiket kodlama uygulanırsa, bu [0,1,2] olarak dönüştürülür. Şimdi bunu bir kod örneğiyle görelim. İlerleyen not defterlerinde `scikit-learn` öğreneceğimiz için burada kullanmayacağız.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1. sütunda etiket kodlaması yapmak için, her bir sınıfı bir sayıya eşleyen bir eşleme tanımlamamız ve ardından değiştirme işlemini gerçekleştirmemiz gerekir.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Gördüğümüz gibi, çıktı beklediğimizle eşleşiyor. Peki, etiket kodlamayı ne zaman kullanırız? Etiket kodlama aşağıdaki durumlardan birinde veya her ikisinde kullanılır:
1. Kategori sayısı fazla olduğunda
2. Kategoriler sıralı olduğunda.


**TEK SEFERDE KODLAMA**

Bir diğer kodlama türü Tek Seferde Kodlama'dır (One Hot Encoding). Bu kodlama türünde, sütunun her bir kategorisi ayrı bir sütun olarak eklenir ve her bir veri noktası, o kategoriyi içerip içermediğine bağlı olarak 0 veya 1 alır. Yani, eğer n farklı kategori varsa, veri çerçevesine n sütun eklenir.

Örneğin, aynı uçak sınıfı örneğini ele alalım. Kategoriler şunlardı: ['business class', 'economy class', 'first class']. Eğer tek seferde kodlama yaparsak, veri kümesine şu üç sütun eklenir: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Haydi, birinci sütun üzerinde one hot encoding gerçekleştirelim


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Her bir one-hot kodlanmış sütun, o veri noktası için o kategorinin mevcut olup olmadığını belirten 0 veya 1 içerir.


Bir sıcak kodlama ne zaman kullanılır? Bir sıcak kodlama aşağıdaki durumların birinde veya her ikisinde kullanılır:

1. Kategorilerin sayısı ve veri setinin boyutu küçük olduğunda.
2. Kategoriler belirli bir sırayı takip etmediğinde.


> Önemli Noktalar:
1. Kodlama, sayısal olmayan verileri sayısal verilere dönüştürmek için yapılır.
2. Kodlama iki türde gerçekleştirilir: Etiket kodlama ve Tek Sıcak Kodlama, her ikisi de veri setinin gereksinimlerine göre uygulanabilir.


## Yinelenen Verilerin Kaldırılması

> **Öğrenme hedefi:** Bu alt bölümü tamamladığınızda, DataFrame'lerden yinelenen değerleri tanımlama ve kaldırma konusunda rahat olmalısınız.

Eksik verilere ek olarak, gerçek dünya veri setlerinde sıkça yinelenen verilere rastlarsınız. Neyse ki, pandas yinelenen girişleri tespit etmek ve kaldırmak için kolay bir yöntem sunar.


### Kopyaları tespit etme: `duplicated`

Pandas'taki `duplicated` yöntemiyle kopya değerleri kolayca tespit edebilirsiniz. Bu yöntem, bir `DataFrame` içindeki bir girişin daha önceki bir girişin kopyası olup olmadığını gösteren bir Boolean maskesi döndürür. Bunun nasıl çalıştığını görmek için başka bir örnek `DataFrame` oluşturalım.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Yinelenenleri Kaldırma: `drop_duplicates`
`drop_duplicates`, `duplicated` değerlerinin tümünün `False` olduğu verilerin bir kopyasını döndürür:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Hem `duplicated` hem de `drop_duplicates` varsayılan olarak tüm sütunları dikkate alır, ancak `DataFrame`'inizde yalnızca bir alt küme sütunu incelemelerini belirtebilirsiniz:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Feragatname**:  
Bu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Orijinal belgenin kendi dilindeki hali, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalar için sorumluluk kabul etmiyoruz.
