8.1 KiB
Veri Türleri
Daha önce de belirttiğimiz gibi, veri her yerde. Sadece doğru şekilde yakalamamız gerekiyor! Yapılandırılmış ve yapılandırılmamış veri arasında ayrım yapmak faydalı olabilir. Yapılandırılmış veri genellikle bir tablo veya bir dizi tablo gibi iyi yapılandırılmış bir formda temsil edilirken, yapılandırılmamış veri sadece bir dosya koleksiyonudur. Bazen yarı yapılandırılmış veriden de bahsedebiliriz; bu tür veriler bir tür yapıya sahip olabilir ancak bu yapı büyük ölçüde değişkenlik gösterebilir.
Yapılandırılmış | Yarı yapılandırılmış | Yapılandırılmamış |
---|---|---|
İnsanların telefon numaralarıyla birlikte listesi | Bağlantılar içeren Wikipedia sayfaları | Encyclopedia Britannica'nın metni |
Son 20 yılda bir binanın tüm odalarındaki her dakika sıcaklık ölçümleri | Yazarlar, yayın tarihi ve özet bilgileri içeren JSON formatında bilimsel makaleler koleksiyonu | Kurumsal belgeler içeren dosya paylaşımı |
Binaya giren tüm insanların yaş ve cinsiyet bilgileri | İnternet sayfaları | Güvenlik kamerasından gelen ham video akışı |
Veri Nereden Alınır?
Veri elde edilebilecek birçok kaynak vardır ve hepsini listelemek imkansızdır! Ancak, bazı tipik veri kaynaklarını belirtelim:
- Yapılandırılmış
- Nesnelerin İnterneti (IoT), sıcaklık veya basınç sensörleri gibi farklı sensörlerden gelen veriler dahil olmak üzere, birçok faydalı veri sağlar. Örneğin, bir ofis binası IoT sensörleriyle donatılmışsa, ısıtma ve aydınlatmayı otomatik olarak kontrol ederek maliyetleri minimize edebiliriz.
- Anketler, kullanıcıların bir satın alma işleminden sonra veya bir web sitesini ziyaret ettikten sonra doldurmasını istediğimiz anketler.
- Davranış analizi, örneğin bir kullanıcının bir siteye ne kadar derinlemesine girdiğini ve siteyi terk etme nedenlerini anlamamıza yardımcı olabilir.
- Yapılandırılmamış
- Metinler, genel bir duygu skoru veya anahtar kelimeler ve anlamsal anlam çıkarma gibi zengin bir bilgi kaynağı olabilir.
- Görüntüler veya Videolar. Bir güvenlik kamerasından gelen video, yoldaki trafiği tahmin etmek ve insanları olası trafik sıkışıklıkları hakkında bilgilendirmek için kullanılabilir.
- Web sunucusu Günlükleri, sitemizin en sık ziyaret edilen sayfalarını ve bu sayfalarda ne kadar süre kalındığını anlamak için kullanılabilir.
- Yarı yapılandırılmış
- Sosyal Ağ grafikleri, kullanıcı kişilikleri ve bilgiyi yayma potansiyel etkinliği hakkında veri sağlamak için harika kaynaklar olabilir.
- Bir partiden bir dizi fotoğrafımız olduğunda, fotoğraf çeken kişiler arasında bir grafik oluşturarak Grup Dinamikleri verilerini çıkarmayı deneyebiliriz.
Farklı veri kaynaklarını bilerek, veri bilimi tekniklerinin durumu daha iyi anlamak ve iş süreçlerini iyileştirmek için uygulanabileceği farklı senaryolar hakkında düşünebilirsiniz.
Veriyle Neler Yapabilirsiniz?
Veri Bilimi'nde, veri yolculuğunun şu adımlarına odaklanıyoruz:
Tabii ki, mevcut veriye bağlı olarak bazı adımlar eksik olabilir (örneğin, veriler zaten bir veritabanında olduğunda veya model eğitimi gerekmediğinde), ya da bazı adımlar birkaç kez tekrarlanabilir (örneğin veri işleme gibi).
Dijitalleşme ve Dijital Dönüşüm
Son on yılda, birçok işletme iş kararları alırken verinin önemini anlamaya başladı. Veri bilimi prensiplerini bir işletmeyi yönetmek için uygulamak için önce bazı veriler toplamak, yani iş süreçlerini dijital forma dönüştürmek gerekir. Bu, dijitalleşme olarak bilinir. Bu veriye veri bilimi tekniklerini uygulayarak kararları yönlendirmek, üretkenlikte önemli artışlara (hatta işin yön değiştirmesine) yol açabilir ve bu da dijital dönüşüm olarak adlandırılır.
Bir örnek düşünelim. Diyelim ki bir veri bilimi kursumuz var (tıpkı bu kurs gibi) ve bunu çevrimiçi olarak öğrencilere sunuyoruz. Bu kursu geliştirmek için veri bilimi kullanmak istiyoruz. Bunu nasıl yapabiliriz?
"Ne dijitalleştirilebilir?" sorusuyla başlayabiliriz. En basit yol, her öğrencinin her modülü tamamlaması için geçen süreyi ölçmek ve her modülün sonunda çoktan seçmeli bir test vererek elde edilen bilgiyi ölçmek olabilir. Tüm öğrenciler arasında tamamlanma süresini ortalama alarak, öğrenciler için en zorlayıcı olan modülleri bulabilir ve onları basitleştirmek için çalışabiliriz. Bu yaklaşımın ideal olmadığını savunabilirsiniz, çünkü modüller farklı uzunluklarda olabilir. Zamanı modülün uzunluğuna (karakter sayısına göre) bölmek ve bu değerleri karşılaştırmak muhtemelen daha adil olacaktır. Çoktan seçmeli testlerin sonuçlarını analiz etmeye başladığımızda, öğrencilerin hangi kavramları anlamakta zorlandığını belirlemeye çalışabilir ve bu bilgiyi içeriği geliştirmek için kullanabiliriz. Bunu yapmak için, testleri her bir sorunun belirli bir kavram veya bilgi parçasıyla eşleştiği şekilde tasarlamamız gerekir.
Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı öğrencilerin yaş kategorilerine göre karşılaştırabiliriz. Bazı yaş kategorileri için modülü tamamlamanın gereğinden fazla uzun sürdüğünü veya öğrencilerin modülü tamamlamadan bıraktığını fark edebiliriz. Bu, modül için yaş önerileri sunmamıza ve yanlış beklentilerden kaynaklanan memnuniyetsizlikleri en aza indirmemize yardımcı olabilir.
🚀 Zorluk
Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacak, metni indirip işleyecek ve ardından şu şekilde bir kelime bulutu oluşturacağız:
Kodu incelemek için notebook.ipynb
dosyasını ziyaret edin. Ayrıca kodu çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl yapıldığını görebilirsiniz.
Jupyter Notebook'ta kod çalıştırmayı bilmiyorsanız, bu makaleye göz atabilirsiniz.
Ders sonrası sınav
Görevler
- Görev 1: Yukarıdaki kodu değiştirerek Büyük Veri ve Makine Öğrenimi alanlarıyla ilgili kavramları bulun.
- Görev 2: Veri Bilimi Senaryoları Üzerine Düşünün
Katkıda Bulunanlar
Bu ders, Dmitry Soshnikov tarafından ♥️ ile hazırlanmıştır.
Feragatname:
Bu belge, Co-op Translator adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlama veya yanlış yorumlamalardan sorumlu değiliz.