You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/tr/3-Data-Visualization/R/10-visualization-distributions
leestott a8ee6b6162
🌐 Update translations via Co-op Translator
3 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Dağılımları Görselleştirme

 Sketchnote by (@sketchthedocs)
Dağılımları Görselleştirme - Sketchnote by @nitya

Önceki derste, Minnesota kuşlarıyla ilgili bir veri kümesi hakkında bazı ilginç bilgiler öğrendiniz. Aykırı değerleri görselleştirerek hatalı verileri buldunuz ve kuş kategorileri arasındaki maksimum uzunluk farklarına baktınız.

Ders Öncesi Testi

Kuş veri kümesini keşfedin

Verilere derinlemesine bakmanın bir başka yolu, verilerin bir eksen boyunca nasıl organize edildiğini incelemek, yani dağılımını incelemektir. Örneğin, bu veri kümesinde Minnesota kuşlarının maksimum kanat açıklığı veya maksimum vücut kütlesinin genel dağılımını öğrenmek isteyebilirsiniz.

Bu veri kümesindeki verilerin dağılımları hakkında bazı bilgiler keşfedelim. R konsolunuzda ggplot2 ve veri tabanını içe aktarın. Önceki konuda olduğu gibi veri tabanından aykırı değerleri kaldırın.

library(ggplot2)

birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM")

birds_filtered <- subset(birds, MaxWingspan < 500)
head(birds_filtered)
İsim BilimselAd Kategori Takım Aile Cins KorumaDurumu MinUzunluk MaxUzunluk MinVücutKütlesi MaxVücutKütlesi MinKanatAçıklığı MaxKanatAçıklığı
0 Kara karınlı ıslıı ördek Dendrocygna autumnalis Ördekler/Kazlar/Su Kuşları Anseriformes Anatidae Dendrocygna LC 47 56 652 1020 76 94
1 Sarımsı ıslıı ördek Dendrocygna bicolor Ördekler/Kazlar/Su Kuşları Anseriformes Anatidae Dendrocygna LC 45 53 712 1050 85 93
2 Kar kazı Anser caerulescens Ördekler/Kazlar/Su Kuşları Anseriformes Anatidae Anser LC 64 79 2050 4050 135 165
3 Ross'un kazı Anser rossii Ördekler/Kazlar/Su Kuşları Anseriformes Anatidae Anser LC 57.3 64 1066 1567 113 116
4 Büyük beyaz alınlı kaz Anser albifrons Ördekler/Kazlar/Su Kuşları Anseriformes Anatidae Anser LC 64 81 1930 3310 130 165

Genel olarak, verilerin nasıl dağıldığını hızlıca görmek için önceki derste yaptığımız gibi bir dağılım grafiği kullanabilirsiniz:

ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
  geom_point() +
  ggtitle("Max Length per order") + coord_flip()

her takıma göre maksimum uzunluk

Bu, her kuş takımına göre vücut uzunluğunun genel dağılımını gösterir, ancak gerçek dağılımları göstermek için en uygun yol değildir. Bu görev genellikle bir Histogram oluşturarak gerçekleştirilir.

Histogramlarla Çalışmak

ggplot2, Histogramlar kullanarak veri dağılımını görselleştirmek için çok iyi yöntemler sunar. Bu tür grafik, çubukların yükselip alçalmasıyla dağılımın görülebildiği bir çubuk grafik gibidir. Bir histogram oluşturmak için sayısal verilere ihtiyacınız vardır. Histogram oluşturmak için, grafiğin türünü 'hist' olarak tanımlayarak bir grafik çizebilirsiniz. Bu grafik, tüm veri kümesinin MaxBodyMass dağılımını gösterir. Verileri daha küçük bölmelere ayırarak, verilerin değerlerinin dağılımını gösterebilir:

ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + 
  geom_histogram(bins=10)+ylab('Frequency')

tüm veri kümesi üzerindeki dağılım

Gördüğünüz gibi, bu veri kümesindeki 400'den fazla kuşun çoğu, Max Body Mass değerinin 2000'in altında olduğu aralığa düşmektedir. bins parametresini daha yüksek bir sayıya, örneğin 30'a değiştirerek veriler hakkında daha fazla bilgi edinin:

ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')

30 bölmeli dağılım

Bu grafik, dağılımı biraz daha ayrıntılı bir şekilde gösterir. Daha az sola eğimli bir grafik, yalnızca belirli bir aralıktaki verileri seçerek oluşturulabilir:

Verilerinizi filtreleyerek vücut kütlesi 60'ın altında olan kuşları alın ve 30 bins gösterin:

birds_filtered_1 <- subset(birds_filtered, MaxBodyMass > 1 & MaxBodyMass < 60)
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_histogram(bins=30)+ylab('Frequency')

filtrelenmiş histogram

Diğer filtreleri ve veri noktalarını deneyin. Verilerin tam dağılımını görmek için, etiketli dağılımları göstermek için ['MaxBodyMass'] filtresini kaldırın.

Histogram, bazı güzel renk ve etiketleme geliştirmeleri de sunar:

İki dağılım arasındaki ilişkiyi karşılaştırmak için 2D bir histogram oluşturun. MaxBodyMass ve MaxLength'i karşılaştıralım. ggplot2, parlak renkler kullanarak yakınsama göstermenin yerleşik bir yolunu sunar:

ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
  geom_bin2d() +scale_fill_continuous(type = "viridis")

Bu iki öğe arasında beklenen bir eksen boyunca bir korelasyon olduğu ve bir noktada özellikle güçlü bir yakınsama olduğu görülüyor:

2d grafik

Histogramlar, varsayılan olarak sayısal verilerle iyi çalışır. Peki ya metin verilerine göre dağılımları görmek isterseniz?

Metin verilerini kullanarak veri kümesindeki dağılımları keşfedin

Bu veri kümesi ayrıca kuş kategorisi, cinsi, türü ve ailesi ile koruma durumu hakkında iyi bilgiler içerir. Bu koruma bilgilerini inceleyelim. Kuşların koruma durumlarına göre dağılımı nedir?

Veri kümesinde, koruma durumunu tanımlamak için birkaç kısaltma kullanılmıştır. Bu kısaltmalar, türlerin durumunu kataloglayan bir organizasyon olan IUCN Kırmızı Liste Kategorileri tarafından sağlanmıştır.

  • CR: Kritik Tehlike Altında
  • EN: Tehlike Altında
  • EX: Soyu Tükenmiş
  • LC: En Az Endişe
  • NT: Tehdit Altında
  • VU: Hassas

Bunlar metin tabanlı değerlerdir, bu nedenle bir histogram oluşturmak için bir dönüşüm yapmanız gerekecektir. Filtrelenmiş kuşlar veri çerçevesini kullanarak, koruma durumunu Minimum Kanat Açıklığı ile birlikte gösterin. Ne görüyorsunuz?

birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EX'] <- 'x1' 
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'CR'] <- 'x2'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EN'] <- 'x3'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'NT'] <- 'x4'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'VU'] <- 'x5'
birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'LC'] <- 'x6'

ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
  geom_histogram(position = "identity", alpha = 0.4, bins = 20) +
  scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))

kanat açıklığı ve koruma durumu

Minimum kanat açıklığı ile koruma durumu arasında iyi bir korelasyon görünmüyor. Bu yöntemi kullanarak veri kümesinin diğer öğelerini test edin. Farklı filtreler de deneyebilirsiniz. Herhangi bir korelasyon buluyor musunuz?

Yoğunluk Grafikleri

Şimdiye kadar incelediğimiz histogramların 'basamaklı' olduğunu ve düzgün bir yay şeklinde akmadığını fark etmiş olabilirsiniz. Daha düzgün bir yoğunluk grafiği göstermek için bir yoğunluk grafiği deneyebilirsiniz.

Hadi yoğunluk grafikleriyle çalışalım!

ggplot(data = birds_filtered_1, aes(x = MinWingspan)) + 
  geom_density()

yoğunluk grafiği

Grafiğin, Minimum Kanat Açıklığı verileri için önceki grafiği nasıl yansıttığını görebilirsiniz; sadece biraz daha düzgün. İkinci grafikte oluşturduğunuz o keskin MaxBodyMass çizgisini yeniden oluşturup bu yöntemle çok iyi bir şekilde düzeltebilirsiniz:

ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_density()

vücut kütlesi yoğunluğu

Çok düzgün ama aşırı düzgün olmayan bir çizgi istiyorsanız, adjust parametresini düzenleyin:

ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + 
  geom_density(adjust = 1/5)

daha az düzgün vücut kütlesi

Bu tür grafik için mevcut parametreler hakkında okuyun ve deneyin!

Bu tür grafikler, açıklayıcı görselleştirmeler sunar. Örneğin, birkaç satır kodla her kuş takımına göre maksimum vücut kütlesi yoğunluğunu gösterebilirsiniz:

ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
  geom_density(alpha=0.5)

her takıma göre vücut kütlesi

🚀 Meydan Okuma

Histogramlar, temel dağılım grafikleri, çubuk grafikler veya çizgi grafiklerden daha sofistike bir grafik türüdür. İnternette histogramların iyi kullanımlarını bulmak için bir arama yapın. Nasıl kullanıldıklarını, neyi gösterdiklerini ve hangi alanlarda veya araştırma konularında kullanıldıklarını inceleyin.

Ders Sonrası Testi

Gözden Geçirme ve Kendi Kendine Çalışma

Bu derste, ggplot2 kullandınız ve daha sofistike grafikler göstermeye başladınız. geom_density_2d() hakkında araştırma yapın, bu "bir veya daha fazla boyutta sürekli olasılık yoğunluğu eğrisi"dir. Nasıl çalıştığını anlamak için belgelere göz atın.

Ödev

Becerilerinizi uygulayın


Feragatname:
Bu belge, AI çeviri hizmeti Co-op Translator kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel bir insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalardan sorumlu değiliz.