|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Pengenalan kepada Kitaran Hayat Sains Data
![]() |
---|
Pengenalan kepada Kitaran Hayat Sains Data - Sketchnote oleh @nitya |
Kuiz Pra-Kuliah
Pada tahap ini, anda mungkin telah menyedari bahawa sains data adalah satu proses. Proses ini boleh dipecahkan kepada 5 peringkat:
- Pengumpulan
- Pemprosesan
- Analisis
- Komunikasi
- Penyelenggaraan
Pelajaran ini memberi tumpuan kepada 3 bahagian dalam kitaran hayat: pengumpulan, pemprosesan, dan penyelenggaraan.
Foto oleh Berkeley School of Information
Pengumpulan
Peringkat pertama dalam kitaran hayat sangat penting kerana peringkat seterusnya bergantung padanya. Ia sebenarnya gabungan dua peringkat: memperoleh data dan menentukan tujuan serta masalah yang perlu diselesaikan.
Menentukan matlamat projek memerlukan pemahaman yang lebih mendalam tentang masalah atau persoalan. Pertama, kita perlu mengenal pasti dan mendapatkan pihak yang memerlukan masalah mereka diselesaikan. Ini mungkin melibatkan pihak berkepentingan dalam perniagaan atau penaja projek, yang boleh membantu mengenal pasti siapa atau apa yang akan mendapat manfaat daripada projek ini serta apa dan mengapa mereka memerlukannya. Matlamat yang ditentukan dengan baik harus boleh diukur dan dikuantifikasi untuk menentukan hasil yang boleh diterima.
Soalan yang mungkin ditanya oleh saintis data:
- Adakah masalah ini pernah didekati sebelum ini? Apakah yang telah ditemui?
- Adakah tujuan dan matlamat difahami oleh semua pihak yang terlibat?
- Adakah terdapat kekaburan dan bagaimana untuk mengurangkannya?
- Apakah kekangan yang ada?
- Bagaimanakah rupa hasil akhir yang berpotensi?
- Berapa banyak sumber (masa, tenaga kerja, pengiraan) yang tersedia?
Seterusnya adalah mengenal pasti, mengumpul, dan akhirnya meneroka data yang diperlukan untuk mencapai matlamat yang telah ditentukan ini. Pada langkah pemerolehan ini, saintis data juga mesti menilai kuantiti dan kualiti data. Ini memerlukan penerokaan data untuk mengesahkan bahawa data yang diperoleh akan menyokong pencapaian hasil yang diinginkan.
Soalan yang mungkin ditanya oleh saintis data tentang data:
- Apakah data yang sudah tersedia kepada saya?
- Siapa pemilik data ini?
- Apakah kebimbangan privasi?
- Adakah saya mempunyai cukup data untuk menyelesaikan masalah ini?
- Adakah kualiti data boleh diterima untuk masalah ini?
- Jika saya menemui maklumat tambahan melalui data ini, patutkah kita mempertimbangkan untuk mengubah atau mentakrifkan semula matlamat?
Pemprosesan
Peringkat pemprosesan dalam kitaran hayat memberi tumpuan kepada menemui corak dalam data serta pemodelan. Beberapa teknik yang digunakan dalam peringkat pemprosesan memerlukan kaedah statistik untuk mengenal pasti corak. Biasanya, ini adalah tugas yang membosankan untuk dilakukan oleh manusia dengan set data yang besar dan akan bergantung pada komputer untuk mempercepatkan proses. Peringkat ini juga merupakan tempat sains data dan pembelajaran mesin bertemu. Seperti yang anda pelajari dalam pelajaran pertama, pembelajaran mesin adalah proses membina model untuk memahami data. Model adalah representasi hubungan antara pembolehubah dalam data yang membantu meramalkan hasil.
Teknik biasa yang digunakan dalam peringkat ini dibincangkan dalam kurikulum ML untuk Pemula. Ikuti pautan untuk mengetahui lebih lanjut tentangnya:
- Klasifikasi: Mengatur data ke dalam kategori untuk penggunaan yang lebih cekap.
- Pengelompokan: Mengelompokkan data ke dalam kumpulan yang serupa.
- Regresi: Menentukan hubungan antara pembolehubah untuk meramalkan atau meramal nilai.
Penyelenggaraan
Dalam rajah kitaran hayat, anda mungkin perasan bahawa penyelenggaraan terletak di antara pengumpulan dan pemprosesan. Penyelenggaraan adalah proses berterusan untuk mengurus, menyimpan, dan melindungi data sepanjang proses projek dan harus dipertimbangkan sepanjang keseluruhan projek.
Penyimpanan Data
Pertimbangan tentang bagaimana dan di mana data disimpan boleh mempengaruhi kos penyimpanan serta prestasi akses data. Keputusan seperti ini tidak mungkin dibuat oleh saintis data sahaja tetapi mereka mungkin perlu membuat pilihan tentang cara bekerja dengan data berdasarkan cara ia disimpan.
Berikut adalah beberapa aspek sistem penyimpanan data moden yang boleh mempengaruhi pilihan ini:
Di premis vs di luar premis vs awan awam atau peribadi
Di premis merujuk kepada pengurusan data pada peralatan anda sendiri, seperti memiliki pelayan dengan cakera keras yang menyimpan data, manakala di luar premis bergantung pada peralatan yang anda tidak miliki, seperti pusat data. Awan awam adalah pilihan popular untuk menyimpan data yang tidak memerlukan pengetahuan tentang bagaimana atau di mana data disimpan, di mana awam merujuk kepada infrastruktur asas yang dikongsi oleh semua pengguna awan. Sesetengah organisasi mempunyai dasar keselamatan yang ketat yang memerlukan akses penuh kepada peralatan di mana data dihoskan dan akan bergantung pada awan peribadi yang menyediakan perkhidmatan awan sendiri. Anda akan mempelajari lebih lanjut tentang data di awan dalam pelajaran seterusnya.
Data sejuk vs data panas
Semasa melatih model anda, anda mungkin memerlukan lebih banyak data latihan. Jika anda berpuas hati dengan model anda, lebih banyak data akan tiba untuk model itu berfungsi. Dalam apa jua keadaan, kos penyimpanan dan akses data akan meningkat apabila anda mengumpul lebih banyak data. Memisahkan data yang jarang digunakan, dikenali sebagai data sejuk, daripada data yang sering diakses, dikenali sebagai data panas, boleh menjadi pilihan penyimpanan data yang lebih murah melalui perkhidmatan perkakasan atau perisian. Jika data sejuk perlu diakses, ia mungkin mengambil masa yang lebih lama untuk diperoleh berbanding data panas.
Pengurusan Data
Semasa anda bekerja dengan data, anda mungkin mendapati bahawa sebahagian data perlu dibersihkan menggunakan beberapa teknik yang dibincangkan dalam pelajaran yang memberi tumpuan kepada penyediaan data untuk membina model yang tepat. Apabila data baru tiba, ia memerlukan aplikasi yang sama untuk mengekalkan konsistensi dalam kualiti. Sesetengah projek akan melibatkan penggunaan alat automatik untuk pembersihan, pengagregatan, dan pemampatan sebelum data dipindahkan ke lokasi akhirnya. Azure Data Factory adalah salah satu contoh alat ini.
Melindungi Data
Salah satu matlamat utama melindungi data adalah memastikan bahawa mereka yang bekerja dengannya mengawal apa yang dikumpulkan dan dalam konteks apa ia digunakan. Menjaga data selamat melibatkan mengehadkan akses hanya kepada mereka yang memerlukannya, mematuhi undang-undang dan peraturan tempatan, serta mengekalkan standard etika, seperti yang dibincangkan dalam pelajaran etika.
Berikut adalah beberapa perkara yang mungkin dilakukan oleh pasukan dengan mengambil kira keselamatan:
- Mengesahkan bahawa semua data disulitkan
- Memberikan maklumat kepada pelanggan tentang bagaimana data mereka digunakan
- Menghapuskan akses data daripada mereka yang telah meninggalkan projek
- Membenarkan hanya ahli projek tertentu untuk mengubah data
🚀 Cabaran
Terdapat banyak versi Kitaran Hayat Sains Data, di mana setiap langkah mungkin mempunyai nama dan bilangan peringkat yang berbeza tetapi akan mengandungi proses yang sama seperti yang disebutkan dalam pelajaran ini.
Terokai Kitaran Hayat Proses Sains Data Pasukan dan Proses standard industri untuk perlombongan data. Namakan 3 persamaan dan perbezaan antara kedua-duanya.
Proses Sains Data Pasukan (TDSP) | Proses standard industri untuk perlombongan data (CRISP-DM) |
---|---|
![]() |
![]() |
Imej oleh Microsoft | Imej oleh Data Science Process Alliance |
Kuiz Pasca-Kuliah
Ulasan & Kajian Kendiri
Mengaplikasikan Kitaran Hayat Sains Data melibatkan pelbagai peranan dan tugas, di mana sesetengahnya mungkin memberi tumpuan kepada bahagian tertentu dalam setiap peringkat. Proses Sains Data Pasukan menyediakan beberapa sumber yang menerangkan jenis peranan dan tugas yang mungkin dimiliki seseorang dalam projek.
- Peranan dan tugas Proses Sains Data Pasukan
- Melaksanakan tugas sains data: penerokaan, pemodelan, dan penyebaran
Tugasan
Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk memastikan ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.