You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/ms/1-Introduction/01-defining-data-science/README.md

7.8 KiB

Jenis Data

Seperti yang telah disebutkan, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang betul! Adalah berguna untuk membezakan antara data berstruktur dan data tidak berstruktur. Data berstruktur biasanya diwakili dalam bentuk yang teratur, sering kali sebagai jadual atau beberapa jadual, manakala data tidak berstruktur hanyalah koleksi fail. Kadang-kadang kita juga boleh bercakap tentang data separa berstruktur, yang mempunyai beberapa jenis struktur yang mungkin berbeza-beza.

Berstruktur Separa berstruktur Tidak berstruktur
Senarai orang dengan nombor telefon mereka Halaman Wikipedia dengan pautan Teks Ensiklopedia Britannica
Suhu di semua bilik bangunan pada setiap minit selama 20 tahun terakhir Koleksi kertas saintifik dalam format JSON dengan penulis, tarikh penerbitan, dan abstrak Perkongsian fail dengan dokumen korporat
Data umur dan jantina semua orang yang memasuki bangunan Halaman Internet Rakaman video mentah dari kamera pengawasan

Di Mana Mendapatkan Data

Terdapat banyak sumber data yang mungkin, dan mustahil untuk menyenaraikan semuanya! Walau bagaimanapun, mari kita sebutkan beberapa tempat biasa di mana anda boleh mendapatkan data:

  • Berstruktur
    • Internet of Things (IoT), termasuk data daripada pelbagai sensor seperti sensor suhu atau tekanan, menyediakan banyak data berguna. Sebagai contoh, jika bangunan pejabat dilengkapi dengan sensor IoT, kita boleh mengawal pemanasan dan pencahayaan secara automatik untuk meminimumkan kos.
    • Tinjauan yang kita minta pengguna lengkapkan selepas pembelian, atau selepas melawat laman web.
    • Analisis tingkah laku boleh, sebagai contoh, membantu kita memahami sejauh mana pengguna meneroka laman web, dan apa sebab utama mereka meninggalkan laman tersebut.
  • Tidak berstruktur
    • Teks boleh menjadi sumber maklumat yang kaya, seperti skor sentimen keseluruhan, atau mengekstrak kata kunci dan makna semantik.
    • Imej atau Video. Video dari kamera pengawasan boleh digunakan untuk menganggarkan trafik di jalan raya, dan memberi maklumat kepada orang ramai tentang kemungkinan kesesakan lalu lintas.
    • Log pelayan web boleh digunakan untuk memahami halaman mana di laman web kita yang paling kerap dilawati, dan untuk berapa lama.
  • Separa berstruktur
    • Graf Rangkaian Sosial boleh menjadi sumber data yang hebat tentang personaliti pengguna dan keberkesanan mereka dalam menyebarkan maklumat.
    • Apabila kita mempunyai sekumpulan gambar dari sebuah majlis, kita boleh cuba mengekstrak data Dinamik Kumpulan dengan membina graf orang yang mengambil gambar bersama.

Dengan mengetahui pelbagai sumber data yang mungkin, anda boleh cuba memikirkan senario yang berbeza di mana teknik sains data boleh digunakan untuk memahami situasi dengan lebih baik, dan untuk meningkatkan proses perniagaan.

Apa yang Boleh Dilakukan dengan Data

Dalam Sains Data, kita memberi tumpuan kepada langkah-langkah berikut dalam perjalanan data:

Pendigitalan dan Transformasi Digital

Dalam dekad yang lalu, banyak perniagaan mula memahami kepentingan data dalam membuat keputusan perniagaan. Untuk menerapkan prinsip sains data dalam menjalankan perniagaan, seseorang perlu terlebih dahulu mengumpulkan data, iaitu menterjemahkan proses perniagaan ke dalam bentuk digital. Ini dikenali sebagai pendigitalan. Menggunakan teknik sains data pada data ini untuk membimbing keputusan boleh membawa kepada peningkatan produktiviti yang ketara (atau bahkan perubahan arah perniagaan), yang disebut transformasi digital.

Mari kita pertimbangkan satu contoh. Katakan kita mempunyai kursus sains data (seperti kursus ini) yang kita sampaikan secara dalam talian kepada pelajar, dan kita ingin menggunakan sains data untuk memperbaikinya. Bagaimana kita boleh melakukannya?

Kita boleh mula dengan bertanya "Apa yang boleh didigitalkan?" Cara paling mudah adalah dengan mengukur masa yang diambil oleh setiap pelajar untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan ujian pilihan berganda di akhir setiap modul. Dengan purata masa penyelesaian di kalangan semua pelajar, kita boleh mengetahui modul mana yang paling sukar bagi pelajar, dan bekerja untuk mempermudahkannya. Anda mungkin berpendapat bahawa pendekatan ini tidak sesuai, kerana modul boleh mempunyai panjang yang berbeza. Mungkin lebih adil untuk membahagikan masa dengan panjang modul (dalam bilangan aksara), dan membandingkan nilai-nilai tersebut sebagai gantinya. Apabila kita mula menganalisis keputusan ujian pilihan berganda, kita boleh cuba menentukan konsep mana yang pelajar sukar untuk memahami, dan menggunakan maklumat tersebut untuk memperbaiki kandungan. Untuk melakukan itu, kita perlu merancang ujian sedemikian rupa sehingga setiap soalan berkait dengan konsep tertentu atau bahagian pengetahuan.

Jika kita ingin menjadi lebih rumit, kita boleh memplot masa yang diambil untuk setiap modul berbanding kategori umur pelajar. Kita mungkin mendapati bahawa untuk beberapa kategori umur, masa yang diambil untuk menyelesaikan modul adalah terlalu lama, atau pelajar berhenti sebelum menyelesaikannya. Ini boleh membantu kita memberikan cadangan umur untuk modul tersebut, dan meminimumkan ketidakpuasan orang daripada jangkaan yang salah.

🚀 Cabaran

Dalam cabaran ini, kita akan cuba mencari konsep yang relevan dengan bidang Sains Data dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Sains Data, memuat turun dan memproses teks, dan kemudian membina awan perkataan seperti ini:

Awan Perkataan untuk Sains Data

Lawati notebook.ipynb untuk membaca kodnya. Anda juga boleh menjalankan kod tersebut, dan melihat bagaimana ia melakukan semua transformasi data secara langsung.

Jika anda tidak tahu bagaimana untuk menjalankan kod dalam Jupyter Notebook, lihat artikel ini.

Kuiz selepas kuliah

Tugasan

Kredit

Pelajaran ini telah ditulis dengan ♥️ oleh Dmitry Soshnikov


Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.