You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/id/1-Introduction/01-defining-data-science
localizeflow[bot] 92f21c76df
chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes)
1 month ago
..
solution chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
assignment.md chore(i18n): sync translations with latest source changes (chunk 1/1, 213 changes) 1 month ago
notebook.ipynb 🌐 Update translations via Co-op Translator 6 months ago

README.md

Mendefinisikan Ilmu Data

 Sketchnote oleh (@sketchthedocs)
Mendefinisikan Ilmu Data - Sketchnote oleh @nitya

Video Mendefinisikan Ilmu Data

Kuis sebelum kuliah

Apa itu Data?

Dalam kehidupan sehari-hari, kita selalu dikelilingi oleh data. Teks yang sedang Anda baca sekarang adalah data. Daftar nomor telepon teman-teman Anda di ponsel adalah data, begitu juga dengan waktu saat ini yang ditampilkan di jam tangan Anda. Sebagai manusia, kita secara alami beroperasi dengan data, misalnya dengan menghitung uang yang kita miliki atau menulis surat kepada teman.

Namun, data menjadi jauh lebih penting dengan adanya komputer. Fungsi utama komputer adalah melakukan perhitungan, tetapi mereka membutuhkan data untuk diolah. Oleh karena itu, kita perlu memahami bagaimana komputer menyimpan dan memproses data.

Dengan munculnya Internet, peran komputer sebagai perangkat pengolah data semakin meningkat. Jika Anda memikirkannya, kita sekarang lebih sering menggunakan komputer untuk memproses dan berkomunikasi data daripada untuk perhitungan sebenarnya. Ketika kita menulis email kepada teman atau mencari informasi di Internet, kita pada dasarnya sedang membuat, menyimpan, mengirimkan, dan memanipulasi data.

Bisakah Anda mengingat kapan terakhir kali Anda menggunakan komputer untuk benar-benar melakukan perhitungan?

Apa itu Ilmu Data?

Menurut Wikipedia, Ilmu Data didefinisikan sebagai bidang ilmiah yang menggunakan metode ilmiah untuk mengekstrak pengetahuan dan wawasan dari data terstruktur dan tidak terstruktur, serta menerapkan pengetahuan dan wawasan yang dapat ditindaklanjuti dari data di berbagai domain aplikasi.

Definisi ini menyoroti aspek-aspek penting berikut dari ilmu data:

  • Tujuan utama ilmu data adalah mengekstrak pengetahuan dari data, dengan kata lain - memahami data, menemukan hubungan tersembunyi, dan membangun model.
  • Ilmu data menggunakan metode ilmiah, seperti probabilitas dan statistik. Faktanya, ketika istilah ilmu data pertama kali diperkenalkan, beberapa orang berpendapat bahwa ilmu data hanyalah nama baru yang keren untuk statistik. Namun, sekarang sudah jelas bahwa bidang ini jauh lebih luas.
  • Pengetahuan yang diperoleh harus diterapkan untuk menghasilkan wawasan yang dapat ditindaklanjuti, yaitu wawasan praktis yang dapat diterapkan pada situasi bisnis nyata.
  • Kita harus mampu mengoperasikan data yang terstruktur maupun tidak terstruktur. Kita akan kembali membahas berbagai jenis data ini nanti dalam kursus.
  • Domain aplikasi adalah konsep penting, dan para ilmuwan data sering kali membutuhkan tingkat keahlian tertentu dalam domain masalah, misalnya: keuangan, kedokteran, pemasaran, dll.

Aspek penting lainnya dari Ilmu Data adalah mempelajari bagaimana data dapat dikumpulkan, disimpan, dan dioperasikan menggunakan komputer. Sementara statistik memberikan dasar matematika, ilmu data menerapkan konsep matematika untuk benar-benar menarik wawasan dari data.

Salah satu cara (yang dikaitkan dengan Jim Gray) untuk melihat ilmu data adalah menganggapnya sebagai paradigma ilmu yang terpisah:

  • Empiris, di mana kita lebih banyak mengandalkan pengamatan dan hasil eksperimen
  • Teoretis, di mana konsep baru muncul dari pengetahuan ilmiah yang ada
  • Komputasional, di mana kita menemukan prinsip baru berdasarkan beberapa eksperimen komputasi
  • Berbasis Data, berdasarkan penemuan hubungan dan pola dalam data

Bidang Terkait Lainnya

Karena data ada di mana-mana, ilmu data sendiri juga merupakan bidang yang luas, yang menyentuh banyak disiplin ilmu lainnya.

Basis Data
Pertimbangan penting adalah bagaimana menyimpan data, yaitu bagaimana menyusunnya sedemikian rupa sehingga memungkinkan pemrosesan yang lebih cepat. Ada berbagai jenis basis data yang menyimpan data terstruktur dan tidak terstruktur, yang akan kita bahas dalam kursus ini.
Big Data
Sering kali kita perlu menyimpan dan memproses data dalam jumlah besar dengan struktur yang relatif sederhana. Ada pendekatan dan alat khusus untuk menyimpan data tersebut secara terdistribusi di kluster komputer, dan memprosesnya secara efisien.
Pembelajaran Mesin
Salah satu cara untuk memahami data adalah dengan membangun model yang dapat memprediksi hasil yang diinginkan. Mengembangkan model dari data disebut pembelajaran mesin. Anda mungkin ingin melihat Kurikulum Pembelajaran Mesin untuk Pemula kami untuk mempelajari lebih lanjut tentang ini.
Kecerdasan Buatan
Sebuah area dari pembelajaran mesin yang dikenal sebagai kecerdasan buatan (AI) juga bergantung pada data, dan melibatkan pembangunan model dengan kompleksitas tinggi yang meniru proses berpikir manusia. Metode AI sering memungkinkan kita mengubah data tidak terstruktur (misalnya, bahasa alami) menjadi wawasan yang terstruktur.
Visualisasi
Jumlah data yang sangat besar sulit dipahami oleh manusia, tetapi begitu kita membuat visualisasi yang berguna menggunakan data tersebut, kita dapat lebih memahami data dan menarik kesimpulan. Oleh karena itu, penting untuk mengetahui banyak cara untuk memvisualisasikan informasi - sesuatu yang akan kita bahas di Bagian 3 dari kursus kita. Bidang terkait juga mencakup Infografis, dan Interaksi Manusia-Komputer secara umum.

Jenis Data

Seperti yang telah disebutkan, data ada di mana-mana. Kita hanya perlu menangkapnya dengan cara yang tepat! Penting untuk membedakan antara data terstruktur dan tidak terstruktur. Data terstruktur biasanya direpresentasikan dalam bentuk yang terorganisir dengan baik, sering kali sebagai tabel atau sejumlah tabel, sedangkan data tidak terstruktur hanyalah kumpulan file. Kadang-kadang kita juga dapat berbicara tentang data semi-terstruktur, yang memiliki semacam struktur yang dapat sangat bervariasi.

Terstruktur Semi-terstruktur Tidak terstruktur
Daftar orang dengan nomor telepon mereka Halaman Wikipedia dengan tautan Teks dari Ensiklopedia Britannica
Suhu di semua ruangan gedung setiap menit selama 20 tahun terakhir Koleksi makalah ilmiah dalam format JSON dengan penulis, tanggal publikasi, dan abstrak Berkas video mentah dari kamera pengawas
Data usia dan jenis kelamin semua orang yang masuk ke gedung Halaman Internet File berbagi dokumen perusahaan

Dari Mana Mendapatkan Data

Ada banyak sumber data yang mungkin, dan akan sulit untuk mencantumkan semuanya! Namun, mari kita sebutkan beberapa tempat khas di mana Anda dapat memperoleh data:

  • Terstruktur
    • Internet of Things (IoT), termasuk data dari berbagai sensor, seperti sensor suhu atau tekanan, menyediakan banyak data yang berguna. Misalnya, jika sebuah gedung perkantoran dilengkapi dengan sensor IoT, kita dapat secara otomatis mengontrol pemanasan dan pencahayaan untuk meminimalkan biaya.
    • Survei yang kita minta pengguna untuk diisi setelah pembelian, atau setelah mengunjungi situs web.
    • Analisis perilaku dapat, misalnya, membantu kita memahami seberapa dalam seorang pengguna menjelajahi situs, dan apa alasan umum mereka meninggalkan situs.
  • Tidak terstruktur
    • Teks dapat menjadi sumber wawasan yang kaya, seperti skor sentimen keseluruhan, atau ekstraksi kata kunci dan makna semantik.
    • Gambar atau Video. Video dari kamera pengawas dapat digunakan untuk memperkirakan lalu lintas di jalan, dan memberi tahu orang-orang tentang potensi kemacetan.
    • Log server web dapat digunakan untuk memahami halaman mana dari situs kita yang paling sering dikunjungi, dan berapa lama.
  • Semi-terstruktur
    • Grafik Jejaring Sosial dapat menjadi sumber data yang hebat tentang kepribadian pengguna dan potensi efektivitas dalam menyebarkan informasi.
    • Ketika kita memiliki banyak foto dari sebuah pesta, kita dapat mencoba mengekstrak data Dinamika Kelompok dengan membangun grafik orang-orang yang berfoto bersama.

Dengan mengetahui berbagai sumber data yang mungkin, Anda dapat mencoba memikirkan berbagai skenario di mana teknik ilmu data dapat diterapkan untuk memahami situasi dengan lebih baik, dan untuk meningkatkan proses bisnis.

Apa yang Bisa Dilakukan dengan Data

Dalam Ilmu Data, kita fokus pada langkah-langkah berikut dalam perjalanan data:

1) Akuisisi Data
Langkah pertama adalah mengumpulkan data. Meskipun dalam banyak kasus ini bisa menjadi proses yang sederhana, seperti data yang masuk ke basis data dari aplikasi web, terkadang kita perlu menggunakan teknik khusus. Misalnya, data dari sensor IoT bisa sangat besar, dan praktik yang baik adalah menggunakan titik akhir buffering seperti IoT Hub untuk mengumpulkan semua data sebelum diproses lebih lanjut.
2) Penyimpanan Data
Menyimpan data bisa menjadi tantangan, terutama jika kita berbicara tentang big data. Saat memutuskan bagaimana menyimpan data, masuk akal untuk memperkirakan cara Anda ingin melakukan kueri data di masa depan. Ada beberapa cara data dapat disimpan:
  • Basis data relasional menyimpan kumpulan tabel, dan menggunakan bahasa khusus yang disebut SQL untuk melakukan kueri. Biasanya, tabel diorganisasikan ke dalam kelompok yang berbeda yang disebut skema. Dalam banyak kasus, kita perlu mengonversi data dari bentuk aslinya agar sesuai dengan skema.
  • Basis data NoSQL, seperti CosmosDB, tidak memaksakan skema pada data, dan memungkinkan penyimpanan data yang lebih kompleks, misalnya dokumen JSON hierarkis atau grafik. Namun, basis data NoSQL tidak memiliki kemampuan kueri yang kaya seperti SQL, dan tidak dapat menegakkan integritas referensial, yaitu aturan tentang bagaimana data disusun dalam tabel dan mengatur hubungan antar tabel.
  • Penyimpanan Data Lake digunakan untuk koleksi besar data dalam bentuk mentah, tidak terstruktur. Data lake sering digunakan dengan big data, di mana semua data tidak dapat muat di satu mesin, dan harus disimpan serta diproses oleh kluster server. Parquet adalah format data yang sering digunakan bersama dengan big data.
3) Pemrosesan Data
Ini adalah bagian paling menarik dari perjalanan data, yang melibatkan konversi data dari bentuk aslinya ke bentuk yang dapat digunakan untuk visualisasi/pelatihan model. Ketika berurusan dengan data tidak terstruktur seperti teks atau gambar, kita mungkin perlu menggunakan beberapa teknik AI untuk mengekstrak fitur dari data, sehingga mengonversinya ke bentuk terstruktur.
4) Visualisasi / Wawasan Manusia
Sering kali, untuk memahami data, kita perlu memvisualisasikannya. Dengan memiliki banyak teknik visualisasi yang berbeda dalam kotak alat kita, kita dapat menemukan tampilan yang tepat untuk mendapatkan wawasan. Sering kali, seorang ilmuwan data perlu "bermain dengan data", memvisualisasikannya berkali-kali dan mencari beberapa hubungan. Selain itu, kita dapat menggunakan teknik statistik untuk menguji hipotesis atau membuktikan korelasi antara berbagai bagian data.
5) Melatih model prediktif
Karena tujuan utama ilmu data adalah untuk dapat membuat keputusan berdasarkan data, kita mungkin ingin menggunakan teknik Pembelajaran Mesin untuk membangun model prediktif. Kita kemudian dapat menggunakan ini untuk membuat prediksi menggunakan kumpulan data baru dengan struktur yang serupa.

Tentu saja, tergantung pada data yang sebenarnya, beberapa langkah mungkin tidak ada (misalnya, ketika kita sudah memiliki data di basis data, atau ketika kita tidak memerlukan pelatihan model), atau beberapa langkah mungkin diulang beberapa kali (seperti pemrosesan data).

Digitalisasi dan Transformasi Digital

Dalam dekade terakhir, banyak bisnis mulai memahami pentingnya data dalam pengambilan keputusan bisnis. Untuk menerapkan prinsip-prinsip ilmu data dalam menjalankan bisnis, pertama-tama kita perlu mengumpulkan beberapa data, yaitu menerjemahkan proses bisnis ke dalam bentuk digital. Ini dikenal sebagai digitalisasi. Menerapkan teknik ilmu data pada data ini untuk memandu keputusan dapat menghasilkan peningkatan produktivitas yang signifikan (atau bahkan perubahan arah bisnis), yang disebut transformasi digital.

Mari kita pertimbangkan sebuah contoh. Misalkan kita memiliki kursus ilmu data (seperti ini) yang kita sampaikan secara online kepada siswa, dan kita ingin menggunakan ilmu data untuk meningkatkannya. Bagaimana kita bisa melakukannya?

Kita bisa mulai dengan bertanya "Apa yang bisa didigitalisasi?" Cara paling sederhana adalah mengukur waktu yang dibutuhkan setiap siswa untuk menyelesaikan setiap modul, dan mengukur pengetahuan yang diperoleh dengan memberikan tes pilihan ganda di akhir setiap modul. Dengan merata-rata waktu penyelesaian di seluruh siswa, kita dapat mengetahui modul mana yang paling sulit bagi siswa, dan bekerja untuk menyederhanakannya.

Anda mungkin berpendapat bahwa pendekatan ini tidak ideal, karena modul dapat memiliki panjang yang berbeda. Mungkin lebih adil untuk membagi waktu dengan panjang modul (dalam jumlah karakter), dan membandingkan nilai-nilai tersebut.

Ketika kita mulai menganalisis hasil tes pilihan ganda, kita dapat mencoba menentukan konsep mana yang sulit dipahami oleh siswa, dan menggunakan informasi tersebut untuk meningkatkan konten. Untuk melakukan itu, kita perlu merancang tes sedemikian rupa sehingga setiap pertanyaan terhubung dengan konsep atau bagian pengetahuan tertentu.

Jika kita ingin lebih rumit lagi, kita dapat memplot waktu yang dihabiskan untuk setiap modul terhadap kategori usia siswa. Kita mungkin menemukan bahwa untuk beberapa kategori usia, diperlukan waktu yang tidak wajar untuk menyelesaikan modul, atau siswa berhenti sebelum menyelesaikannya. Hal ini dapat membantu kita memberikan rekomendasi usia untuk modul tersebut, dan meminimalkan ketidakpuasan orang dari ekspektasi yang salah.

🚀 Tantangan

Dalam tantangan ini, kita akan mencoba menemukan konsep-konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini:

Word Cloud untuk Data Science

Kunjungi notebook.ipynb untuk membaca kode. Anda juga dapat menjalankan kode tersebut, dan melihat bagaimana kode tersebut melakukan semua transformasi data secara real-time.

Jika Anda tidak tahu cara menjalankan kode di Jupyter Notebook, lihat artikel ini.

Kuis setelah kuliah

Tugas

Kredit

Pelajaran ini dibuat dengan ♥️ oleh Dmitry Soshnikov


Penafian:
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI Co-op Translator. Meskipun kami berupaya untuk memberikan hasil yang akurat, harap diketahui bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau interpretasi yang salah yang timbul dari penggunaan terjemahan ini.