chore(i18n): sync translations with latest source changes (chunk 1/1, 69 changes)

update-translations
localizeflow[bot] 15 hours ago
parent a84f40d8ac
commit 10ec65222f

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "id"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T09:58:28+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "id"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-28T18:58:13+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "id"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T09:58:55+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "id"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:46:09+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "id"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T09:59:42+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "id"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-05T23:51:25+00:00",
@ -360,8 +378,8 @@
"language_code": "id"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:38:45+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:05:29+00:00",
"source_file": "README.md",
"language_code": "id"
},

@ -6,7 +6,7 @@
---
[![Video Mendefinisikan Ilmu Data](../../../../translated_images/id/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video Mendefinisikan Ilmu Data](../../../../translated_images/id/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Kuis sebelum kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Jika kita ingin lebih rumit lagi, kita dapat memplot waktu yang dihabiskan untuk
Dalam tantangan ini, kita akan mencoba menemukan konsep-konsep yang relevan dengan bidang Data Science dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Data Science, mengunduh dan memproses teksnya, lalu membuat word cloud seperti ini:
![Word Cloud untuk Data Science](../../../../translated_images/id/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Word Cloud untuk Data Science](../../../../translated_images/id/ds_wordcloud.664a7c07dca57de0.webp)
Kunjungi [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') untuk membaca kode. Anda juga dapat menjalankan kode tersebut, dan melihat bagaimana kode tersebut melakukan semua transformasi data secara real-time.

@ -5,11 +5,11 @@
"source": [
"# Tantangan: Menganalisis Teks tentang Data Science\n",
"\n",
"Dalam contoh ini, mari kita lakukan latihan sederhana yang mencakup semua langkah dalam proses data science tradisional. Anda tidak perlu menulis kode apa pun, cukup klik pada sel di bawah ini untuk menjalankannya dan amati hasilnya. Sebagai tantangan, Anda didorong untuk mencoba kode ini dengan data yang berbeda.\n",
"Dalam contoh ini, mari lakukan latihan sederhana yang mencakup semua langkah dari proses data science tradisional. Anda tidak harus menulis kode apapun, Anda bisa cukup mengklik sel di bawah untuk menjalankannya dan mengamati hasilnya. Sebagai tantangan, Anda dianjurkan mencoba kode ini dengan data yang berbeda.\n",
"\n",
"## Tujuan\n",
"\n",
"Dalam pelajaran ini, kita telah membahas berbagai konsep yang berkaitan dengan Data Science. Mari kita coba menemukan lebih banyak konsep terkait dengan melakukan **text mining**. Kita akan memulai dengan sebuah teks tentang Data Science, mengekstrak kata kunci darinya, dan kemudian mencoba memvisualisasikan hasilnya.\n",
"Dalam pelajaran ini, kita telah membahas berbagai konsep yang terkait dengan Data Science. Mari kita coba menemukan lebih banyak konsep terkait dengan melakukan **text mining**. Kita akan mulai dengan sebuah teks tentang Data Science, ekstrak kata kunci dari teks tersebut, dan kemudian coba visualisasikan hasilnya.\n",
"\n",
"Sebagai teks, saya akan menggunakan halaman tentang Data Science dari Wikipedia:\n"
],
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Langkah 1: Mendapatkan Data\n",
"## Step 1: Mendapatkan Data\n",
"\n",
"Langkah pertama dalam setiap proses ilmu data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n"
"Langkah pertama dalam setiap proses data science adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Langkah 2: Mengubah Data\n",
"\n",
"Langkah berikutnya adalah mengonversi data ke dalam bentuk yang sesuai untuk diproses. Dalam kasus kita, kita telah mengunduh kode sumber HTML dari halaman, dan kita perlu mengonversinya menjadi teks biasa.\n",
"Langkah berikutnya adalah mengonversi data ke dalam bentuk yang sesuai untuk diproses. Dalam kasus kami, kami telah mengunduh kode sumber HTML dari halaman tersebut, dan kami perlu mengubahnya menjadi teks biasa.\n",
"\n",
"Ada banyak cara untuk melakukan ini. Kita akan menggunakan objek [HTMLParser](https://docs.python.org/3/library/html.parser.html) bawaan yang paling sederhana dari Python. Kita perlu membuat subclass dari kelas `HTMLParser` dan mendefinisikan kode yang akan mengumpulkan semua teks di dalam tag HTML, kecuali tag `<script>` dan `<style>`.\n"
"Ada banyak cara untuk melakukan ini. Kami akan menggunakan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), sebuah perpustakaan Python populer untuk mengurai HTML. BeautifulSoup memungkinkan kita untuk menargetkan elemen HTML tertentu, sehingga kita dapat fokus pada konten utama artikel dari Wikipedia dan mengurangi beberapa menu navigasi, bilah sisi, footer, dan konten lain yang tidak relevan (meskipun beberapa teks boilerplate mungkin masih tersisa).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Pertama, kita perlu menginstal pustaka BeautifulSoup untuk parsing HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Langkah 3: Mendapatkan Wawasan\n",
"\n",
"Langkah paling penting adalah mengubah data kita menjadi bentuk yang memungkinkan kita mendapatkan wawasan. Dalam kasus ini, kita ingin mengekstrak kata kunci dari teks dan melihat kata kunci mana yang lebih bermakna.\n",
"Langkah paling penting adalah mengubah data kita menjadi suatu bentuk dari mana kita dapat mengambil wawasan. Dalam kasus kita, kita ingin mengekstrak kata kunci dari teks, dan melihat kata kunci mana yang lebih bermakna.\n",
"\n",
"Kita akan menggunakan pustaka Python bernama [RAKE](https://github.com/aneesha/RAKE) untuk ekstraksi kata kunci. Pertama, mari kita instal pustaka ini jika belum tersedia:\n"
"Kita akan menggunakan pustaka Python bernama [RAKE](https://github.com/aneesha/RAKE) untuk ekstraksi kata kunci. Pertama, mari kita instal pustaka ini jika belum ada: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Fungsi utama tersedia dari objek `Rake`, yang dapat kita sesuaikan menggunakan beberapa parameter. Dalam kasus kita, kita akan mengatur panjang minimum sebuah kata kunci menjadi 5 karakter, frekuensi minimum sebuah kata kunci dalam dokumen menjadi 3, dan jumlah maksimum kata dalam sebuah kata kunci menjadi 2. Jangan ragu untuk mencoba nilai lainnya dan amati hasilnya.\n"
"Fungsi utama tersedia dari objek `Rake`, yang dapat kita sesuaikan menggunakan beberapa parameter. Dalam kasus kita, kita akan mengatur panjang minimum sebuah kata kunci menjadi 5 karakter, frekuensi minimum sebuah kata kunci dalam dokumen menjadi 3, dan jumlah maksimum kata dalam sebuah kata kunci - menjadi 2. Silakan bereksperimen dengan nilai lainnya dan amati hasilnya.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Kami memperoleh daftar istilah beserta tingkat kepentingannya. Seperti yang dapat Anda lihat, disiplin ilmu yang paling relevan, seperti machine learning dan big data, berada di posisi teratas dalam daftar.\n",
"Kami mendapatkan daftar istilah beserta tingkat kepentingan yang terkait. Seperti yang Anda lihat, disiplin ilmu yang paling relevan, seperti pembelajaran mesin dan big data, hadir dalam daftar di posisi teratas.\n",
"\n",
"## Langkah 4: Memvisualisasikan Hasil\n",
"\n",
"Orang-orang biasanya dapat memahami data dengan lebih baik dalam bentuk visual. Oleh karena itu, sering kali masuk akal untuk memvisualisasikan data guna mendapatkan wawasan. Kita dapat menggunakan pustaka `matplotlib` di Python untuk membuat plot distribusi sederhana dari kata kunci beserta relevansinya:\n"
"Orang dapat menafsirkan data dengan baik dalam bentuk visual. Oleh karena itu, seringkali masuk akal untuk memvisualisasikan data guna menarik beberapa wawasan. Kita bisa menggunakan pustaka `matplotlib` di Python untuk memplot distribusi sederhana kata kunci beserta relevansinya:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Namun, ada cara yang lebih baik untuk memvisualisasikan frekuensi kata - menggunakan **Word Cloud**. Kita perlu menginstal pustaka lain untuk membuat word cloud dari daftar kata kunci kita.\n"
"Namun, ada cara yang lebih baik untuk memvisualisasikan frekuensi kata - menggunakan **Word Cloud**. Kita perlu menginstal perpustakaan lain untuk membuat word cloud dari daftar kata kunci kita.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"Objek `WordCloud` bertanggung jawab untuk menerima teks asli, atau daftar kata yang telah dihitung sebelumnya beserta frekuensinya, dan mengembalikan gambar, yang kemudian dapat ditampilkan menggunakan `matplotlib`:\n"
"Objek `WordCloud` bertanggung jawab untuk menerima teks asli, atau daftar kata yang sudah dihitung frekuensinya, dan mengembalikan sebuah gambar, yang kemudian dapat ditampilkan menggunakan `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Kita juga dapat memasukkan teks asli ke `WordCloud` - mari kita lihat apakah kita dapat memperoleh hasil yang serupa:\n"
"Kita juga dapat memasukkan teks asli ke dalam `WordCloud` - mari kita lihat apakah kita dapat memperoleh hasil yang serupa:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Anda dapat melihat bahwa word cloud sekarang terlihat lebih menarik, tetapi juga mengandung banyak \"noise\" (misalnya, kata-kata yang tidak relevan seperti `Retrieved on`). Selain itu, kita mendapatkan lebih sedikit kata kunci yang terdiri dari dua kata, seperti *data scientist* atau *computer science*. Hal ini karena algoritma RAKE melakukan pekerjaan yang jauh lebih baik dalam memilih kata kunci yang relevan dari teks. Contoh ini menggambarkan pentingnya pra-pemrosesan dan pembersihan data, karena gambaran yang jelas pada akhirnya akan memungkinkan kita membuat keputusan yang lebih baik.\n",
"Anda dapat melihat bahwa word cloud sekarang terlihat lebih mengesankan, tetapi juga mengandung banyak gangguan (misalnya kata-kata yang tidak terkait seperti `Retrieved on`). Juga, kita mendapatkan lebih sedikit kata kunci yang terdiri dari dua kata, seperti *data scientist*, atau *computer science*. Ini karena algoritma RAKE melakukan pekerjaan yang jauh lebih baik dalam memilih kata kunci yang baik dari teks. Contoh ini menggambarkan pentingnya pra-pemrosesan dan pembersihan data, karena gambaran yang jelas pada akhirnya akan memungkinkan kita membuat keputusan yang lebih baik.\n",
"\n",
"Dalam latihan ini, kita telah melalui proses sederhana untuk mengekstrak makna dari teks Wikipedia, dalam bentuk kata kunci dan word cloud. Contoh ini cukup sederhana, tetapi dengan baik menunjukkan semua langkah tipikal yang akan diambil seorang data scientist saat bekerja dengan data, mulai dari akuisisi data hingga visualisasi.\n",
"Dalam latihan ini kita telah melalui proses sederhana untuk mengekstrak beberapa makna dari teks Wikipedia, dalam bentuk kata kunci dan word cloud. Contoh ini cukup sederhana, tetapi mendemonstrasikan dengan baik semua langkah tipikal yang akan dilakukan seorang data scientist saat bekerja dengan data, mulai dari akuisisi data, hingga visualisasi.\n",
"\n",
"Dalam kursus kita, kita akan membahas semua langkah tersebut secara mendetail.\n"
"Dalam kursus kami, kami akan membahas semua langkah tersebut secara detail.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya untuk memberikan hasil yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang berwenang. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemah manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk memberikan terjemahan yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber otoritatif. Untuk informasi yang penting, disarankan menggunakan jasa terjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang salah yang timbul dari penggunaan terjemahan ini.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-01T23:35:31+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "id"
}
},
"nbformat": 4,

@ -3,17 +3,17 @@
{
"cell_type": "markdown",
"source": [
"# Tantangan: Menganalisis Teks tentang Ilmu Data\n",
"# Tantangan: Menganalisis Teks tentang Data Science\n",
"\n",
"> *Dalam notebook ini, kita bereksperimen menggunakan URL berbeda - artikel Wikipedia tentang Pembelajaran Mesin. Anda dapat melihat bahwa, tidak seperti Ilmu Data, artikel ini mengandung banyak istilah, sehingga membuat analisis menjadi lebih rumit. Kita perlu menemukan cara lain untuk membersihkan data setelah melakukan ekstraksi kata kunci, untuk menghilangkan beberapa kombinasi kata yang sering muncul tetapi tidak bermakna.*\n",
"> *Dalam notebook ini, kami bereksperimen menggunakan URL berbeda - artikel wikipedia tentang Machine Learning. Anda dapat melihat bahwa, tidak seperti Data Science, artikel ini mengandung banyak istilah, yang membuat analisis menjadi lebih bermasalah. Kita perlu mencari cara lain untuk membersihkan data setelah melakukan ekstraksi kata kunci, untuk menghilangkan beberapa kombinasi kata yang sering muncul, tetapi tidak bermakna.*\n",
"\n",
"Dalam contoh ini, mari kita lakukan latihan sederhana yang mencakup semua langkah dalam proses tradisional ilmu data. Anda tidak perlu menulis kode apa pun, cukup klik pada sel di bawah untuk menjalankannya dan amati hasilnya. Sebagai tantangan, Anda didorong untuk mencoba kode ini dengan data yang berbeda.\n",
"Dalam contoh ini, mari lakukan latihan sederhana yang mencakup semua langkah dari proses data science tradisional. Anda tidak perlu menulis kode apapun, Anda cukup klik pada sel di bawah untuk menjalankannya dan mengamati hasilnya. Sebagai tantangan, Anda didorong untuk mencoba kode ini dengan data yang berbeda.\n",
"\n",
"## Tujuan\n",
"\n",
"Dalam pelajaran ini, kita telah membahas berbagai konsep yang terkait dengan Ilmu Data. Mari kita coba menemukan lebih banyak konsep terkait dengan melakukan **penambangan teks**. Kita akan mulai dengan teks tentang Ilmu Data, mengekstraksi kata kunci darinya, dan kemudian mencoba memvisualisasikan hasilnya.\n",
"Dalam pelajaran ini, kita telah membahas berbagai konsep terkait Data Science. Mari kita coba menemukan lebih banyak konsep terkait dengan melakukan **text mining**. Kita akan mulai dengan sebuah teks tentang Data Science, mengekstrak kata kunci dari teks tersebut, dan kemudian mencoba memvisualisasikan hasilnya.\n",
"\n",
"Sebagai teks, saya akan menggunakan halaman tentang Ilmu Data dari Wikipedia:\n"
"Sebagai teks, saya akan menggunakan halaman tentang Data Science dari Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Langkah 1: Mendapatkan Data\n",
"## Step 1: Mendapatkan Data\n",
"\n",
"Langkah pertama dalam setiap proses ilmu data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n"
"Langkah pertama dalam setiap proses data science adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukan itu:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Langkah 2: Mengubah Data\n",
"\n",
"Langkah berikutnya adalah mengonversi data ke dalam bentuk yang sesuai untuk diproses. Dalam kasus kita, kita telah mengunduh kode sumber HTML dari halaman, dan kita perlu mengubahnya menjadi teks biasa.\n",
"Langkah berikutnya adalah mengubah data ke dalam bentuk yang sesuai untuk diproses. Dalam kasus kami, kami telah mengunduh kode sumber HTML dari halaman tersebut, dan kami perlu mengubahnya menjadi teks biasa.\n",
"\n",
"Ada banyak cara untuk melakukan ini. Kita akan menggunakan objek [HTMLParser](https://docs.python.org/3/library/html.parser.html) bawaan Python yang paling sederhana. Kita perlu membuat subclass dari kelas `HTMLParser` dan mendefinisikan kode yang akan mengumpulkan semua teks di dalam tag HTML, kecuali tag `<script>` dan `<style>`.\n"
"Ada banyak cara untuk melakukannya. Kami akan menggunakan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), sebuah perpustakaan Python populer untuk mengurai HTML. BeautifulSoup memungkinkan kita menyasar elemen HTML tertentu, sehingga kita bisa fokus pada isi artikel utama dari Wikipedia dan mengurangi beberapa menu navigasi, bilah sisi, footer, dan konten tidak relevan lainnya (meskipun beberapa teks boilerplate mungkin masih tersisa).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Pertama, kita perlu menginstal pustaka BeautifulSoup untuk parsing HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Langkah 3: Mendapatkan Wawasan\n",
"## Step 3: Mendapatkan Wawasan\n",
"\n",
"Langkah paling penting adalah mengubah data kita menjadi bentuk yang dapat memberikan wawasan. Dalam kasus kita, kita ingin mengekstrak kata kunci dari teks, dan melihat kata kunci mana yang lebih bermakna.\n",
"Langkah paling penting adalah mengubah data kita menjadi sebuah bentuk dari mana kita dapat menarik wawasan. Dalam kasus kita, kita ingin mengekstrak kata kunci dari teks, dan melihat kata kunci mana yang lebih bermakna.\n",
"\n",
"Kita akan menggunakan pustaka Python bernama [RAKE](https://github.com/aneesha/RAKE) untuk ekstraksi kata kunci. Pertama, mari kita instal pustaka ini jika belum tersedia:\n"
"Kita akan menggunakan pustaka Python yang disebut [RAKE](https://github.com/aneesha/RAKE) untuk ekstraksi kata kunci. Pertama, mari kita pasang pustaka ini jika belum terpasang: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Fungsi utama tersedia dari objek `Rake`, yang dapat kita sesuaikan menggunakan beberapa parameter. Dalam kasus kita, kita akan mengatur panjang minimum sebuah kata kunci menjadi 5 karakter, frekuensi minimum sebuah kata kunci dalam dokumen menjadi 3, dan jumlah maksimum kata dalam sebuah kata kunci menjadi 2. Jangan ragu untuk mencoba nilai lainnya dan amati hasilnya.\n"
"Fungsi utama tersedia dari objek `Rake`, yang dapat kita sesuaikan menggunakan beberapa parameter. Dalam kasus kami, kami akan menetapkan panjang minimum kata kunci menjadi 5 karakter, frekuensi minimum kata kunci dalam dokumen menjadi 3, dan jumlah maksimum kata dalam kata kunci - menjadi 2. Silakan bermain-main dengan nilai lain dan amati hasilnya.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Kami memperoleh daftar istilah beserta tingkat kepentingannya. Seperti yang dapat Anda lihat, disiplin ilmu yang paling relevan, seperti machine learning dan big data, berada di posisi teratas dalam daftar.\n",
"Kami mendapatkan daftar istilah beserta tingkat kepentingan yang terkait. Seperti yang Anda lihat, disiplin ilmu yang paling relevan, seperti pembelajaran mesin dan big data, hadir di daftar pada posisi teratas.\n",
"\n",
"## Langkah 4: Memvisualisasikan Hasil\n",
"\n",
"Orang-orang biasanya dapat memahami data dengan lebih baik dalam bentuk visual. Oleh karena itu, sering kali masuk akal untuk memvisualisasikan data guna mendapatkan wawasan. Kita dapat menggunakan pustaka `matplotlib` di Python untuk membuat plot distribusi sederhana dari kata kunci beserta relevansinya:\n"
"Orang-orang dapat menafsirkan data dengan lebih baik dalam bentuk visual. Oleh karena itu, seringkali masuk akal untuk memvisualisasikan data guna menarik beberapa wawasan. Kita dapat menggunakan perpustakaan `matplotlib` di Python untuk memplot distribusi sederhana dari kata kunci beserta relevansinya:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Namun, ada cara yang lebih baik untuk memvisualisasikan frekuensi kata - menggunakan **Word Cloud**. Kita perlu menginstal pustaka lain untuk membuat word cloud dari daftar kata kunci kita.\n"
"Namun, ada cara yang lebih baik untuk memvisualisasikan frekuensi kata - menggunakan **Word Cloud**. Kita perlu menginstal perpustakaan lain untuk membuat word cloud dari daftar kata kunci kita.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"Objek `WordCloud` bertanggung jawab untuk menerima teks asli, atau daftar kata yang telah dihitung sebelumnya beserta frekuensinya, dan mengembalikan gambar, yang kemudian dapat ditampilkan menggunakan `matplotlib`:\n"
"Objek `WordCloud` bertanggung jawab untuk menerima teks asli, atau daftar kata dengan frekuensinya yang telah dihitung sebelumnya, dan mengembalikan sebuah gambar, yang kemudian dapat ditampilkan menggunakan `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Kita juga dapat memasukkan teks asli ke `WordCloud` - mari kita lihat apakah kita dapat memperoleh hasil yang serupa:\n"
"Kita juga dapat memasukkan teks asli ke dalam `WordCloud` - mari kita lihat apakah kita bisa mendapatkan hasil yang serupa:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Anda dapat melihat bahwa word cloud sekarang terlihat lebih menarik, tetapi juga mengandung banyak \"noise\" (misalnya, kata-kata yang tidak relevan seperti `Retrieved on`). Selain itu, kita mendapatkan lebih sedikit kata kunci yang terdiri dari dua kata, seperti *data scientist* atau *computer science*. Hal ini karena algoritma RAKE melakukan pekerjaan yang jauh lebih baik dalam memilih kata kunci yang relevan dari teks. Contoh ini menggambarkan pentingnya pra-pemrosesan dan pembersihan data, karena gambaran yang jelas pada akhirnya akan memungkinkan kita membuat keputusan yang lebih baik.\n",
"Anda dapat melihat bahwa kata awan sekarang terlihat lebih mengesankan, tetapi juga mengandung banyak noise (misalnya kata-kata yang tidak terkait seperti `Retrieved on`). Selain itu, kita mendapatkan lebih sedikit kata kunci yang terdiri dari dua kata, seperti *data scientist*, atau *computer science*. Hal ini karena algoritma RAKE melakukan pekerjaan yang jauh lebih baik dalam memilih kata kunci yang bagus dari teks. Contoh ini menggambarkan pentingnya pra-pemrosesan dan pembersihan data, karena gambaran yang jelas pada akhirnya akan memungkinkan kita membuat keputusan yang lebih baik.\n",
"\n",
"Dalam latihan ini, kita telah melalui proses sederhana untuk mengekstrak makna dari teks Wikipedia, dalam bentuk kata kunci dan word cloud. Contoh ini cukup sederhana, tetapi dengan baik menunjukkan semua langkah tipikal yang akan diambil seorang data scientist saat bekerja dengan data, mulai dari akuisisi data hingga visualisasi.\n",
"Dalam latihan ini kita telah melalui proses sederhana untuk mengekstrak beberapa makna dari teks Wikipedia, dalam bentuk kata kunci dan kata awan. Contoh ini cukup sederhana, tetapi memperlihatkan dengan baik semua langkah khas yang akan diambil seorang data scientist saat bekerja dengan data, mulai dari akuisisi data, hingga visualisasi.\n",
"\n",
"Dalam kursus kita, kita akan membahas semua langkah tersebut secara mendetail.\n"
"Dalam kursus kami akan membahas semua langkah tersebut secara rinci. \n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diingat bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berupaya mencapai akurasi, harap diingat bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber otoritatif. Untuk informasi penting, disarankan menggunakan terjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau salah tafsir yang timbul dari penggunaan terjemahan ini.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-01T23:47:28+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "id"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Teori Statistik dan Probabilitas adalah dua bidang Matematika yang sangat terkait dan sangat relevan dengan Ilmu Data. Meskipun memungkinkan untuk bekerja dengan data tanpa pengetahuan mendalam tentang matematika, tetap lebih baik untuk memahami setidaknya beberapa konsep dasar. Di sini, kami akan memberikan pengantar singkat yang akan membantu Anda memulai.
[![Video Pengantar](../../../../translated_images/id/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Video Pengantar](../../../../translated_images/id/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Kuis Pra-Kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Lebih sulit untuk menggambarkan distribusi probabilitas variabel kontinu, dengan
Kita hanya dapat berbicara tentang probabilitas variabel jatuh dalam interval nilai tertentu, misalnya P(t<sub>1</sub>≤X<t<sub>2</sub>). Dalam kasus ini, distribusi probabilitas digambarkan oleh **fungsi kepadatan probabilitas** p(x), sehingga
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/id/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/id/probability-density.a8aad29f17a14afb.webp)
Analog kontinu dari distribusi uniform disebut **uniform kontinu**, yang didefinisikan pada interval terbatas. Probabilitas bahwa nilai X jatuh ke dalam interval dengan panjang l sebanding dengan l, dan meningkat hingga 1.
@ -73,11 +73,11 @@ Ketika kita menganalisis data dari kehidupan nyata, data tersebut sering kali bu
Berikut adalah box plot yang menunjukkan rata-rata, median, dan kuartil untuk data kita:
![Box Plot Berat Badan](../../../../translated_images/id/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Box Plot Berat Badan](../../../../translated_images/id/weight-boxplot.1dbab1c03af26f8a.webp)
Karena data kita berisi informasi tentang **peran** pemain yang berbeda, kita juga dapat membuat box plot berdasarkan peran - ini akan memungkinkan kita mendapatkan gambaran tentang bagaimana nilai parameter berbeda di antara peran. Kali ini kita akan mempertimbangkan tinggi badan:
![Box plot berdasarkan peran](../../../../translated_images/id/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot berdasarkan peran](../../../../translated_images/id/boxplot_byrole.036b27a1c3f52d42.webp)
Diagram ini menunjukkan bahwa, rata-rata, tinggi basemen pertama lebih tinggi daripada tinggi basemen kedua. Nanti dalam pelajaran ini kita akan belajar bagaimana kita dapat menguji hipotesis ini secara lebih formal, dan bagaimana menunjukkan bahwa data kita secara statistik signifikan untuk membuktikannya.
@ -85,7 +85,7 @@ Diagram ini menunjukkan bahwa, rata-rata, tinggi basemen pertama lebih tinggi da
Untuk melihat seperti apa distribusi data kita, kita dapat membuat grafik yang disebut **histogram**. Sumbu X akan berisi sejumlah interval berat badan yang berbeda (yang disebut **bin**), dan sumbu vertikal akan menunjukkan jumlah sampel variabel acak yang berada dalam interval tertentu.
![Histogram data dunia nyata](../../../../translated_images/id/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram data dunia nyata](../../../../translated_images/id/weight-histogram.bfd00caf7fc30b14.webp)
Dari histogram ini Anda dapat melihat bahwa semua nilai terpusat di sekitar berat badan rata-rata tertentu, dan semakin jauh kita dari berat badan tersebut - semakin sedikit berat badan dengan nilai tersebut yang ditemukan. Artinya, sangat kecil kemungkinan berat badan pemain baseball akan sangat berbeda dari berat badan rata-rata. Variansi berat badan menunjukkan sejauh mana berat badan cenderung berbeda dari rata-rata.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Jika kita membuat histogram dari sampel yang dihasilkan, kita akan melihat gambar yang sangat mirip dengan yang ditunjukkan di atas. Dan jika kita meningkatkan jumlah sampel dan jumlah bin, kita dapat menghasilkan gambar distribusi normal yang lebih mendekati ideal:
![Distribusi Normal dengan mean=0 dan std.dev=1](../../../../translated_images/id/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Distribusi Normal dengan mean=0 dan std.dev=1](../../../../translated_images/id/normal-histogram.dfae0d67c202137d.webp)
*Distribusi Normal dengan mean=0 dan std.dev=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Dalam kasus kita, nilai 0.53 menunjukkan bahwa ada beberapa korelasi antara berat dan tinggi seseorang. Kita juga dapat membuat scatter plot dari satu nilai terhadap nilai lainnya untuk melihat hubungan secara visual:
![Hubungan antara berat dan tinggi](../../../../translated_images/id/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Hubungan antara berat dan tinggi](../../../../translated_images/id/weight-height-relationship.3f06bde4ca2aba99.webp)
> Lebih banyak contoh korelasi dan kovarians dapat ditemukan di [notebook pendamping](notebook.ipynb).

@ -1,6 +1,6 @@
# Pengantar Ilmu Data
![data in action](../../../translated_images/id/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data in action](../../../translated_images/id/data.48e22bb7617d8d92.webp)
> Foto oleh <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> di <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, Anda akan mempelajari bagaimana Ilmu Data didefinisikan dan memahami pertimbangan etika yang harus diperhatikan oleh seorang ilmuwan data. Anda juga akan belajar bagaimana data didefinisikan serta sedikit tentang statistik dan probabilitas, yang merupakan bidang akademik inti dari Ilmu Data.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Bekerja dengan Python - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
[![Video Pengantar](../../../../translated_images/id/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Video Pengantar](../../../../translated_images/id/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Meskipun basis data menawarkan cara yang sangat efisien untuk menyimpan data dan melakukan kueri menggunakan bahasa kueri, cara paling fleksibel untuk memproses data adalah dengan menulis program Anda sendiri untuk memanipulasi data. Dalam banyak kasus, melakukan kueri basis data akan lebih efektif. Namun, dalam beberapa kasus di mana pemrosesan data yang lebih kompleks diperlukan, hal tersebut tidak dapat dilakukan dengan mudah menggunakan SQL.
Pemrosesan data dapat diprogram dalam bahasa pemrograman apa pun, tetapi ada beberapa bahasa yang lebih tinggi tingkatannya dalam hal bekerja dengan data. Para ilmuwan data biasanya lebih memilih salah satu dari bahasa berikut:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Grafik Time Series](../../../../translated_images/id/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Grafik Time Series](../../../../translated_images/id/timeseries-1.80de678ab1cf727e.webp)
Sekarang misalkan setiap minggu kita mengadakan pesta untuk teman-teman, dan kita mengambil tambahan 10 bungkus es krim untuk pesta. Kita dapat membuat series lain, diindeks berdasarkan minggu, untuk menunjukkan hal itu:
```python
@ -75,7 +75,7 @@ Ketika kita menambahkan dua series bersama-sama, kita mendapatkan total jumlah:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Grafik Time Series](../../../../translated_images/id/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Grafik Time Series](../../../../translated_images/id/timeseries-2.aae51d575c55181c.webp)
> **Catatan** bahwa kita tidak menggunakan sintaks sederhana `total_items+additional_items`. Jika kita melakukannya, kita akan mendapatkan banyak nilai `NaN` (*Not a Number*) dalam series hasil. Ini karena ada nilai yang hilang untuk beberapa titik index dalam series `additional_items`, dan menambahkan `NaN` ke apa pun menghasilkan `NaN`. Oleh karena itu, kita perlu menentukan parameter `fill_value` selama penjumlahan.
@ -84,7 +84,7 @@ Dengan time series, kita juga dapat **mengubah sampel ulang** series dengan inte
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Rata-rata Time Series Bulanan](../../../../translated_images/id/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Rata-rata Time Series Bulanan](../../../../translated_images/id/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -210,7 +210,7 @@ Masalah pertama yang akan kita fokuskan adalah pemodelan penyebaran epidemi COVI
Karena kita ingin menunjukkan cara menangani data, kami mengundang Anda untuk membuka [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) dan membacanya dari atas ke bawah. Anda juga dapat mengeksekusi sel, dan melakukan beberapa tantangan yang telah kami tinggalkan untuk Anda di akhir.
![COVID Spread](../../../../translated_images/id/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/id/covidspread.f3d131c4f1d260ab.webp)
> Jika Anda tidak tahu cara menjalankan kode di Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Contoh lengkap analisis dataset ini menggunakan layanan kognitif [Text Analytics
Buka [`notebook-papers.ipynb`](notebook-papers.ipynb) dan bacalah dari atas ke bawah. Anda juga dapat mengeksekusi sel, dan melakukan beberapa tantangan yang telah kami tinggalkan untuk Anda di akhir.
![Covid Medical Treatment](../../../../translated_images/id/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/id/covidtreat.b2ba59f57ca45fbc.webp)
## Pemrosesan Data Gambar

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Bekerja dengan Data
![data love](../../../translated_images/id/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/id/data-love.a22ef29e6742c852.webp)
> Foto oleh <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> di <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, Anda akan mempelajari beberapa cara untuk mengelola, memanipulasi, dan menggunakan data dalam aplikasi. Anda akan mempelajari tentang basis data relasional dan non-relasional serta bagaimana data dapat disimpan di dalamnya. Anda akan mempelajari dasar-dasar bekerja dengan Python untuk mengelola data, dan Anda akan menemukan berbagai cara untuk bekerja dengan Python dalam mengelola dan menambang data.

@ -42,7 +42,7 @@ Buat scatterplot dasar untuk menunjukkan hubungan antara harga per pon madu dan
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/id/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/id/scatter1.5e1aa5fd6706c5d1.webp)
Sekarang, tampilkan data yang sama dengan skema warna madu untuk menunjukkan bagaimana harga berkembang dari tahun ke tahun. Anda dapat melakukannya dengan menambahkan parameter 'hue' untuk menunjukkan perubahan dari tahun ke tahun:
@ -51,7 +51,7 @@ Sekarang, tampilkan data yang sama dengan skema warna madu untuk menunjukkan bag
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/id/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/id/scatter2.c0041a58621ca702.webp)
Dengan perubahan skema warna ini, Anda dapat melihat bahwa ada perkembangan yang jelas selama bertahun-tahun dalam hal harga madu per pon. Memang, jika Anda melihat sampel data untuk memverifikasi (pilih negara bagian tertentu, misalnya Arizona), Anda dapat melihat pola kenaikan harga dari tahun ke tahun, dengan beberapa pengecualian:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Anda dapat melihat ukuran titik yang secara bertahap meningkat.
![scatterplot 3](../../../../translated_images/id/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/id/scatter3.3c160a3d1dcb36b3.webp)
Apakah ini kasus sederhana dari hukum permintaan dan penawaran? Karena faktor seperti perubahan iklim dan keruntuhan koloni, apakah madu yang tersedia untuk dibeli semakin sedikit dari tahun ke tahun, sehingga harga meningkat?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Jawaban: Ya, dengan beberapa pengecualian sekitar tahun 2003:
![line chart 1](../../../../translated_images/id/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/id/line1.f36eb465229a3b1f.webp)
✅ Karena Seaborn mengagregasi data di sekitar satu garis, ia menampilkan "pengukuran ganda pada setiap nilai x dengan memplot rata-rata dan interval kepercayaan 95% di sekitar rata-rata". [Sumber](https://seaborn.pydata.org/tutorial/relational.html). Perilaku yang memakan waktu ini dapat dinonaktifkan dengan menambahkan `ci=None`.
@ -105,7 +105,7 @@ Pertanyaan: Nah, pada tahun 2003 apakah kita juga melihat lonjakan pasokan madu?
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/id/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/id/line2.a5b3493dc01058af.webp)
Jawaban: Tidak juga. Jika Anda melihat total produksi, sebenarnya tampaknya meningkat pada tahun tersebut, meskipun secara umum jumlah madu yang diproduksi menurun selama tahun-tahun ini.
@ -130,7 +130,7 @@ sns.relplot(
```
Dalam visualisasi ini, Anda dapat membandingkan hasil per koloni dan jumlah koloni dari tahun ke tahun, berdampingan dengan pengaturan wrap pada 3 untuk kolom:
![facet grid](../../../../translated_images/id/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/id/facet.6a34851dcd540050.webp)
Untuk dataset ini, tidak ada yang secara khusus menonjol terkait jumlah koloni dan hasilnya, dari tahun ke tahun dan negara bagian ke negara bagian. Apakah ada cara lain untuk menemukan korelasi antara kedua variabel ini?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/id/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/id/dual-line.a4c28ce659603fab.webp)
Meskipun tidak ada yang mencolok di sekitar tahun 2003, ini memungkinkan kita mengakhiri pelajaran ini dengan catatan yang sedikit lebih bahagia: meskipun jumlah koloni secara keseluruhan menurun, jumlah koloni mulai stabil meskipun hasil per koloni menurun.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Di sini, Anda menginstal paket `ggplot2` dan kemudian mengimpornya ke dalam workspace menggunakan perintah `library("ggplot2")`. Untuk memplot grafik apa pun di ggplot, fungsi `ggplot()` digunakan dan Anda menentukan dataset, variabel x dan y sebagai atribut. Dalam kasus ini, kita menggunakan fungsi `geom_line()` karena kita ingin memplot grafik garis.
![MaxWingspan-lineplot](../../../../../translated_images/id/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/id/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Apa yang Anda perhatikan segera? Tampaknya ada setidaknya satu outlier - itu lebar sayap yang luar biasa! Lebar sayap lebih dari 2000+ sentimeter sama dengan lebih dari 20 meter - apakah ada Pterodactyl yang berkeliaran di Minnesota? Mari kita selidiki.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Kami menentukan sudut dalam `theme` dan menentukan label sumbu x dan y dalam `xlab()` dan `ylab()` masing-masing. `ggtitle()` memberikan nama pada grafik/plot.
![MaxWingspan-lineplot-improved](../../../../../translated_images/id/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/id/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Bahkan dengan rotasi label yang diatur ke 45 derajat, masih terlalu banyak untuk dibaca. Mari coba strategi yang berbeda: hanya beri label pada outlier dan atur label di dalam grafik. Anda dapat menggunakan grafik scatter untuk memberikan lebih banyak ruang untuk pelabelan:
@ -91,7 +91,7 @@ Apa yang terjadi di sini? Anda menggunakan fungsi `geom_point()` untuk memplot t
Apa yang Anda temukan?
![MaxWingspan-scatterplot](../../../../../translated_images/id/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/id/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Memfilter data Anda
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Kami membuat dataframe baru `birds_filtered` dan kemudian memplot grafik scatter. Dengan memfilter outlier, data Anda sekarang lebih kohesif dan dapat dipahami.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/id/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/id/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Sekarang kita memiliki dataset yang lebih bersih setidaknya dalam hal lebar sayap, mari kita temukan lebih banyak tentang burung-burung ini.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
Dalam cuplikan berikut, kami menginstal paket [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) dan [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) untuk membantu memanipulasi dan mengelompokkan data guna memplot grafik batang bertumpuk. Pertama, Anda mengelompokkan data berdasarkan `Category` burung dan kemudian merangkum kolom `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Kemudian, plot grafik batang menggunakan paket `ggplot2` dan tentukan warna untuk kategori yang berbeda serta labelnya.
![Stacked bar chart](../../../../../translated_images/id/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/id/stacked-bar-chart.0c92264e89da7b39.webp)
Namun, grafik batang ini tidak dapat dibaca karena terlalu banyak data yang tidak dikelompokkan. Anda perlu memilih hanya data yang ingin Anda plot, jadi mari kita lihat panjang burung berdasarkan kategorinya.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Anda pertama-tama menghitung nilai unik dalam kolom `Category` dan kemudian mengurutkannya ke dalam dataframe baru `birds_count`. Data yang diurutkan ini kemudian difaktorkan pada level yang sama sehingga dapat diplot dengan cara yang diurutkan. Menggunakan `ggplot2` Anda kemudian memplot data dalam grafik batang. `coord_flip()` memplot batang horizontal.
![category-length](../../../../../translated_images/id/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/id/category-length.7e34c296690e85d6.webp)
Grafik batang ini menunjukkan pandangan yang baik tentang jumlah burung dalam setiap kategori. Sekilas, Anda melihat bahwa jumlah burung terbesar di wilayah ini berada dalam kategori Bebek/Angsa/BurungAir. Minnesota adalah 'tanah 10.000 danau' jadi ini tidak mengejutkan!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Kami mengelompokkan data `birds_filtered` berdasarkan `Category` dan kemudian memplot grafik batang.
![comparing data](../../../../../translated_images/id/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/id/comparingdata.f486a450d61c7ca5.webp)
Tidak ada yang mengejutkan di sini: burung kolibri memiliki MaxLength paling kecil dibandingkan dengan Pelikan atau Angsa. Bagus ketika data masuk akal secara logis!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/id/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/id/superimposed-values.5363f0705a1da416.webp)
## 🚀 Tantangan

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![panjang maksimum per ordo](../../../../../translated_images/id/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![panjang maksimum per ordo](../../../../../translated_images/id/max-length-per-order.e5b283d952c78c12.webp)
Ini memberikan gambaran umum tentang distribusi panjang tubuh per Ordo burung, tetapi ini bukan cara terbaik untuk menampilkan distribusi yang sebenarnya. Tugas ini biasanya dilakukan dengan membuat Histogram.
## Bekerja dengan histogram
@ -47,7 +47,7 @@ Ini memberikan gambaran umum tentang distribusi panjang tubuh per Ordo burung, t
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribusi seluruh dataset](../../../../../translated_images/id/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribusi seluruh dataset](../../../../../translated_images/id/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Seperti yang Anda lihat, sebagian besar dari 400+ burung dalam dataset ini berada dalam rentang di bawah 2000 untuk Max Body Mass mereka. Dapatkan lebih banyak wawasan tentang data dengan mengubah parameter `bins` ke angka yang lebih tinggi, seperti 30:
@ -55,7 +55,7 @@ Seperti yang Anda lihat, sebagian besar dari 400+ burung dalam dataset ini berad
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribusi-30bins](../../../../../translated_images/id/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribusi-30bins](../../../../../translated_images/id/distribution-30bins.6a3921ea7a421bf7.webp)
Grafik ini menunjukkan distribusi dengan cara yang sedikit lebih rinci. Grafik yang kurang condong ke kiri dapat dibuat dengan memastikan bahwa Anda hanya memilih data dalam rentang tertentu:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![histogram yang disaring](../../../../../translated_images/id/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![histogram yang disaring](../../../../../translated_images/id/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Coba beberapa filter dan titik data lainnya. Untuk melihat distribusi penuh data, hapus filter `['MaxBodyMass']` untuk menampilkan distribusi yang diberi label.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Tampaknya ada korelasi yang diharapkan antara kedua elemen ini sepanjang sumbu yang diharapkan, dengan satu titik konvergensi yang sangat kuat:
![plot 2d](../../../../../translated_images/id/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![plot 2d](../../../../../translated_images/id/2d-plot.c504786f439bd7eb.webp)
Histogram bekerja dengan baik secara default untuk data numerik. Bagaimana jika Anda perlu melihat distribusi berdasarkan data teks?
## Jelajahi dataset untuk distribusi menggunakan data teks
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![kolasi rentang sayap dan konservasi](../../../../../translated_images/id/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![kolasi rentang sayap dan konservasi](../../../../../translated_images/id/wingspan-conservation-collation.4024e9aa6910866a.webp)
Tampaknya tidak ada korelasi yang baik antara rentang sayap minimum dan status konservasi. Uji elemen lain dari dataset menggunakan metode ini. Anda juga dapat mencoba filter yang berbeda. Apakah Anda menemukan korelasi?
@ -126,7 +126,7 @@ Mari kita bekerja dengan plot kepadatan sekarang!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![plot kepadatan](../../../../../translated_images/id/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![plot kepadatan](../../../../../translated_images/id/density-plot.675ccf865b76c690.webp)
Anda dapat melihat bagaimana plot ini mencerminkan grafik sebelumnya untuk data Rentang Sayap Minimum; hanya saja sedikit lebih halus. Jika Anda ingin melihat garis MaxBodyMass yang bergerigi pada grafik kedua yang Anda buat, Anda dapat menghaluskannya dengan sangat baik dengan membuat ulang menggunakan metode ini:
@ -134,7 +134,7 @@ Anda dapat melihat bagaimana plot ini mencerminkan grafik sebelumnya untuk data
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![kepadatan massa tubuh](../../../../../translated_images/id/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![kepadatan massa tubuh](../../../../../translated_images/id/bodymass-smooth.d31ce526d82b0a1f.webp)
Jika Anda menginginkan garis yang halus, tetapi tidak terlalu halus, edit parameter `adjust`:
@ -142,7 +142,7 @@ Jika Anda menginginkan garis yang halus, tetapi tidak terlalu halus, edit parame
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![massa tubuh kurang halus](../../../../../translated_images/id/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![massa tubuh kurang halus](../../../../../translated_images/id/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Baca tentang parameter yang tersedia untuk jenis plot ini dan bereksperimenlah!
@ -152,7 +152,7 @@ Jenis grafik ini menawarkan visualisasi yang sangat informatif. Dengan beberapa
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![massa tubuh per ordo](../../../../../translated_images/id/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![massa tubuh per ordo](../../../../../translated_images/id/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Tantangan

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, diagram lingkaran yang menunjukkan proporsi data ini berdasarkan dua kelas jamur. Sangat penting untuk mendapatkan urutan label yang benar, terutama di sini, jadi pastikan untuk memverifikasi urutan pembuatan array label!
![pie chart](../../../../../translated_images/id/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/id/pie1-wb.685df063673751f4.webp)
## Donat!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/id/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/id/donut-wb.34e6fb275da9d834.webp)
Kode ini menggunakan dua pustaka - ggplot2 dan webr. Dengan menggunakan fungsi PieDonut dari pustaka webr, kita dapat membuat diagram donat dengan mudah!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Dengan menggunakan diagram waffle, Anda dapat dengan jelas melihat proporsi warna tutup dalam dataset jamur ini. Menariknya, ada banyak jamur dengan tutup hijau!
![waffle chart](../../../../../translated_images/id/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/id/waffle.aaa75c5337735a6e.webp)
Dalam pelajaran ini, Anda mempelajari tiga cara untuk memvisualisasikan proporsi. Pertama, Anda perlu mengelompokkan data Anda ke dalam kategori dan kemudian memutuskan cara terbaik untuk menampilkan data - lingkaran, donat, atau waffle. Semuanya menarik dan memberikan pengguna gambaran instan tentang dataset.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/id/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/id/scatter1.86b8900674d88b26.webp)
Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bagaimana harga berkembang dari tahun ke tahun. Anda dapat melakukannya dengan menambahkan parameter 'scale_color_gradientn' untuk menunjukkan perubahan dari tahun ke tahun:
@ -52,7 +52,7 @@ Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bag
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/id/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/id/scatter2.4d1cbc693bad20e2.webp)
Dengan perubahan skema warna ini, Anda dapat melihat bahwa ada perkembangan yang jelas selama bertahun-tahun dalam hal harga madu per pon. Memang, jika Anda melihat sampel data untuk memverifikasi (pilih negara bagian tertentu, misalnya Arizona), Anda dapat melihat pola kenaikan harga dari tahun ke tahun, dengan beberapa pengecualian:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Anda dapat melihat ukuran titik yang secara bertahap meningkat.
![scatterplot 3](../../../../../translated_images/id/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/id/scatter3.722d21e6f20b3ea2.webp)
Apakah ini kasus sederhana dari hukum penawaran dan permintaan? Karena faktor seperti perubahan iklim dan keruntuhan koloni, apakah madu yang tersedia untuk dibeli semakin sedikit dari tahun ke tahun, sehingga harga meningkat?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Jawaban: Ya, dengan beberapa pengecualian sekitar tahun 2003:
![line chart 1](../../../../../translated_images/id/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/id/line1.299b576fbb2a59e6.webp)
Pertanyaan: Nah, pada tahun 2003 apakah kita juga melihat lonjakan pasokan madu? Bagaimana jika Anda melihat total produksi dari tahun ke tahun?
@ -106,7 +106,7 @@ Pertanyaan: Nah, pada tahun 2003 apakah kita juga melihat lonjakan pasokan madu?
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/id/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/id/line2.3b18fcda7176ceba.webp)
Jawaban: Tidak benar-benar. Jika Anda melihat total produksi, sebenarnya tampaknya meningkat pada tahun tersebut, meskipun secara umum jumlah madu yang diproduksi menurun selama tahun-tahun ini.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Dalam visualisasi ini, Anda dapat membandingkan hasil per koloni dan jumlah koloni dari tahun ke tahun, berdampingan dengan pengaturan wrap pada 3 untuk kolom:
![facet grid](../../../../../translated_images/id/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/id/facet.491ad90d61c2a7cc.webp)
Untuk dataset ini, tidak ada yang secara khusus menonjol terkait jumlah koloni dan hasilnya, dari tahun ke tahun dan negara bagian ke negara bagian. Apakah ada cara lain untuk menemukan korelasi antara kedua variabel ini?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/id/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/id/dual-line.fc4665f360a54018.webp)
Meskipun tidak ada yang mencolok di sekitar tahun 2003, ini memungkinkan kita mengakhiri pelajaran ini dengan catatan yang sedikit lebih bahagia: meskipun jumlah koloni secara keseluruhan menurun, jumlah koloni mulai stabil meskipun hasil per koloni menurun.

@ -38,25 +38,25 @@ Dalam pelajaran sebelumnya, Anda telah mencoba membuat berbagai visualisasi data
Meskipun seorang ilmuwan data berhati-hati dalam memilih grafik yang tepat untuk data yang tepat, ada banyak cara data dapat ditampilkan untuk membuktikan suatu poin, sering kali dengan mengorbankan integritas data itu sendiri. Ada banyak contoh grafik dan infografis yang menyesatkan!
[![How Charts Lie oleh Alberto Cairo](../../../../../translated_images/id/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[![How Charts Lie oleh Alberto Cairo](../../../../../translated_images/id/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Klik gambar di atas untuk melihat pembicaraan konferensi tentang grafik yang menyesatkan
Grafik ini membalik sumbu X untuk menunjukkan kebalikan dari kebenaran, berdasarkan tanggal:
![grafik buruk 1](../../../../../translated_images/id/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![grafik buruk 1](../../../../../translated_images/id/bad-chart-1.596bc93425a8ac30.webp)
[Grafik ini](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) bahkan lebih menyesatkan, karena mata tertarik ke kanan untuk menyimpulkan bahwa, seiring waktu, kasus COVID telah menurun di berbagai wilayah. Faktanya, jika Anda melihat lebih dekat pada tanggalnya, Anda akan menemukan bahwa tanggal-tanggal tersebut telah diatur ulang untuk memberikan tren penurunan yang menyesatkan.
![grafik buruk 2](../../../../../translated_images/id/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![grafik buruk 2](../../../../../translated_images/id/bad-chart-2.62edf4d2f30f4e51.webp)
Contoh terkenal ini menggunakan warna DAN sumbu Y yang dibalik untuk menyesatkan: alih-alih menyimpulkan bahwa kematian akibat senjata meningkat setelah pengesahan undang-undang yang mendukung senjata, mata justru tertipu untuk berpikir bahwa kebalikannya adalah benar:
![grafik buruk 3](../../../../../translated_images/id/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![grafik buruk 3](../../../../../translated_images/id/bad-chart-3.e201e2e915a230bc.webp)
Grafik aneh ini menunjukkan bagaimana proporsi dapat dimanipulasi, dengan efek yang menggelikan:
![grafik buruk 4](../../../../../translated_images/id/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![grafik buruk 4](../../../../../translated_images/id/bad-chart-4.8872b2b881ffa96c.webp)
Membandingkan hal-hal yang tidak sebanding adalah trik licik lainnya. Ada [situs web yang luar biasa](https://tylervigen.com/spurious-correlations) tentang 'korelasi palsu' yang menampilkan 'fakta' yang menghubungkan hal-hal seperti tingkat perceraian di Maine dan konsumsi margarin. Grup Reddit juga mengumpulkan [penggunaan data yang buruk](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Label sumbu Anda, sediakan legenda jika diperlukan, dan tawarkan tooltip untuk p
Jika data Anda berupa teks yang panjang pada sumbu X, Anda dapat memiringkan teks untuk meningkatkan keterbacaan. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) menawarkan pemetaan 3D, jika data Anda mendukungnya. Visualisasi data yang canggih dapat dihasilkan menggunakan ini.
![grafik 3D](../../../../../translated_images/id/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![grafik 3D](../../../../../translated_images/id/3d.db1734c151eee87d.webp)
## Animasi dan tampilan grafik 3D
Beberapa visualisasi data terbaik saat ini bersifat animasi. Shirley Wu memiliki karya luar biasa yang dibuat dengan D3, seperti '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', di mana setiap bunga adalah visualisasi dari sebuah film. Contoh lain untuk Guardian adalah 'bussed out', sebuah pengalaman interaktif yang menggabungkan visualisasi dengan Greensock dan D3 serta format artikel scrollytelling untuk menunjukkan bagaimana NYC menangani masalah tunawisma dengan mengirim orang keluar dari kota.
![busing](../../../../../translated_images/id/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/id/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: How America Moves its Homeless" dari [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisasi oleh Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Meskipun pelajaran ini tidak cukup mendalam untuk mengajarkan pustaka visualisas
Anda akan menyelesaikan aplikasi web yang akan menampilkan tampilan animasi dari jaringan sosial ini. Aplikasi ini menggunakan pustaka yang dibuat untuk membuat [visual jaringan](https://github.com/emiliorizzo/vue-d3-network) menggunakan Vue.js dan D3. Saat aplikasi berjalan, Anda dapat menarik node di layar untuk mengacak data.
![liaisons](../../../../../translated_images/id/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/id/liaisons.90ce7360bcf84765.webp)
## Proyek: Buat grafik untuk menunjukkan jaringan menggunakan D3.js

@ -1,6 +1,6 @@
# Visualisasi
![seekor lebah di bunga lavender](../../../translated_images/id/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![seekor lebah di bunga lavender](../../../translated_images/id/bee.0aa1d91132b12e3a.webp)
> Foto oleh <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> di <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Memvisualisasikan data adalah salah satu tugas terpenting seorang data scientist. Gambar bernilai 1000 kata, dan sebuah visualisasi dapat membantu Anda mengidentifikasi berbagai aspek menarik dari data Anda seperti lonjakan, pencilan, pengelompokan, kecenderungan, dan lainnya, yang dapat membantu Anda memahami cerita yang ingin disampaikan oleh data Anda.

@ -16,7 +16,7 @@ Pada titik ini, Anda mungkin telah menyadari bahwa data science adalah sebuah pr
Pelajaran ini berfokus pada 3 bagian dari siklus hidup: pengumpulan, pemrosesan, dan pemeliharaan.
![Diagram siklus hidup data science](../../../../translated_images/id/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagram siklus hidup data science](../../../../translated_images/id/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto oleh [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Pengumpulan
@ -92,7 +92,7 @@ Jelajahi [Siklus Hidup Proses Data Science Tim](https://docs.microsoft.com/en-us
|Proses Data Science Tim (TDSP)|Proses standar industri untuk data mining (CRISP-DM)|
|--|--|
|![Siklus Hidup Data Science Tim](../../../../translated_images/id/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Gambar Proses Data Science Alliance](../../../../translated_images/id/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Siklus Hidup Data Science Tim](../../../../translated_images/id/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Gambar Proses Data Science Alliance](../../../../translated_images/id/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Gambar oleh [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Gambar oleh [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kuis Pasca-Pelajaran](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Siklus Data Science
![communication](../../../translated_images/id/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/id/communication.06d8e2a88d30d168.webp)
> Foto oleh <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> di <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, Anda akan menjelajahi beberapa aspek dari siklus Data Science, termasuk analisis dan komunikasi seputar data.

@ -1,12 +1,12 @@
# Data Science di Cloud
![cloud-picture](../../../translated_images/id/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/id/cloud-picture.f5526de3c6c6387b.webp)
> Foto oleh [Jelleke Vanooteghem](https://unsplash.com/@ilumire) dari [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Ketika berbicara tentang data science dengan data besar, cloud bisa menjadi pengubah permainan. Dalam tiga pelajaran berikutnya, kita akan melihat apa itu cloud dan mengapa ini bisa sangat membantu. Kita juga akan mengeksplorasi dataset gagal jantung dan membangun model untuk membantu menilai kemungkinan seseorang mengalami gagal jantung. Kita akan menggunakan kekuatan cloud untuk melatih, menerapkan, dan menggunakan model dengan dua cara berbeda. Satu cara menggunakan antarmuka pengguna dalam pendekatan Low code/No code, dan cara lainnya menggunakan Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/id/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/id/project-schema.420e56d495624541.webp)
### Topik

@ -32,7 +32,7 @@ Berkat demokratisasi AI, pengembang kini lebih mudah merancang dan mengintegrasi
* [Ilmu Data di Kesehatan](https://data-flair.training/blogs/data-science-in-healthcare/) - menyoroti aplikasi seperti pencitraan medis (misalnya, MRI, X-Ray, CT-Scan), genomik (sekuensing DNA), pengembangan obat (penilaian risiko, prediksi keberhasilan), analitik prediktif (perawatan pasien & logistik pasokan), pelacakan & pencegahan penyakit, dll.
![Aplikasi Ilmu Data di Dunia Nyata](../../../../translated_images/id/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Kredit Gambar: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplikasi Ilmu Data di Dunia Nyata](../../../../translated_images/id/data-science-applications.4e5019cd8790ebac.webp) Kredit Gambar: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Gambar tersebut menunjukkan domain lain dan contoh penerapan teknik ilmu data. Ingin mengeksplorasi aplikasi lainnya? Lihat bagian [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) di bawah ini.

@ -13,7 +13,7 @@ Antarmuka Explorer (ditampilkan dalam tangkapan layar di bawah) memungkinkan And
2. Jelajahi [Katalog dataset](https://planetarycomputer.microsoft.com/catalog) - pelajari tujuan masing-masing.
3. Gunakan Explorer - pilih dataset yang menarik, pilih kueri dan opsi rendering yang relevan.
![The Planetary Computer Explorer](../../../../translated_images/id/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/id/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Tugas Anda:`
Sekarang pelajari visualisasi yang ditampilkan di browser dan jawab pertanyaan berikut:

@ -1,4 +1,4 @@
# Data Science untuk Pemula - Kurikulum
# Data Science untuk Pemula - Sebuah Kurikulum
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,11 +17,11 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Azure Cloud Advocates di Microsoft dengan senang hati menawarkan kurikulum 10-minggu, 20-pelajaran yang membahas tentang Data Science. Setiap pelajaran mencakup kuis pra-pelajaran dan pasca-pelajaran, instruksi tertulis untuk menyelesaikan pelajaran, solusi, dan tugas. Pendekatan berbasis proyek kami memungkinkan Anda belajar sambil membangun, cara yang sudah terbukti agar keterampilan baru lebih 'melekat'.
Azure Cloud Advocates di Microsoft dengan senang hati menawarkan sebuah kurikulum 10-minggu, 20-pelajaran yang membahas tentang Ilmu Data. Setiap pelajaran mencakup kuis sebelum dan setelah pelajaran, instruksi tertulis untuk menyelesaikan pelajaran, solusi, dan tugas. Metode pembelajaran berbasis proyek kami memungkinkan Anda belajar sambil membangun, cara yang terbukti efektif agar keterampilan baru 'menempel'.
**Terima kasih yang sebesar-besarnya untuk para penulis kami:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Terima kasih sebesar-besarnya kepada para penulis kami:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Terima kasih khusus 🙏 kepada para penulis, pengulas, dan kontributor konten [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** terutama Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Ucapan terima kasih khusus 🙏 kepada para penulis, reviewer, dan kontributor konten [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** terutama Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/id/00-Title.8af36cd35da1ac55.webp)|
@ -35,32 +35,42 @@ Azure Cloud Advocates di Microsoft dengan senang hati menawarkan kurikulum 10-mi
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](./README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Ingin Clone Secara Lokal?**
> Repositori ini mencakup lebih dari 50+ terjemahan bahasa yang secara signifikan memperbesar ukuran unduh. Untuk meng-clone tanpa terjemahan, gunakan sparse checkout:
> **Lebih suka Clone secara Lokal?**
>
> Repositori ini mencakup lebih dari 50+ terjemahan bahasa yang secara signifikan meningkatkan ukuran unduhan. Untuk clone tanpa terjemahan, gunakan sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Ini memberikan semua yang Anda butuhkan untuk menyelesaikan kursus dengan unduhan yang jauh lebih cepat.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ini memberi Anda semua yang Anda butuhkan untuk menyelesaikan kursus dengan unduhan yang jauh lebih cepat.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Jika Anda ingin mendukung bahasa terjemahan tambahan, daftarnya tersedia [di sini](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Jika Anda ingin bahasa terjemahan tambahan didukung, daftar bahasa tersebut ada [di sini](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Bergabung dengan Komunitas Kami
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Kami memiliki seri belajar dengan AI di Discord yang sedang berlangsung, pelajari lebih lanjut dan bergabunglah dengan kami di [Learn with AI Series](https://aka.ms/learnwithai/discord) dari tanggal 18 - 30 September, 2025. Anda akan mendapatkan tips dan trik menggunakan GitHub Copilot untuk Data Science.
Kami memiliki seri belajar Discord dengan AI yang sedang berjalan, pelajari lebih lanjut dan bergabunglah dengan kami di [Learn with AI Series](https://aka.ms/learnwithai/discord) dari tanggal 18 - 30 September 2025. Anda akan mendapatkan tips dan trik menggunakan GitHub Copilot untuk Ilmu Data.
![Learn with AI series](../../translated_images/id/1.2b28cdc6205e26fe.webp)
# Apakah Anda seorang pelajar?
# Apakah Anda seorang mahasiswa?
Mulailah dengan sumber daya berikut:
- [Halaman Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Di halaman ini, Anda akan menemukan sumber daya untuk pemula, paket pelajar dan bahkan cara mendapatkan voucher sertifikat gratis. Ini adalah halaman yang ingin Anda tandai dan periksa dari waktu ke waktu karena kami mengganti konten setidaknya setiap bulan.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Bergabunglah dengan komunitas global dari student ambassadors, ini bisa menjadi jalan Anda masuk ke Microsoft.
- [Halaman Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Di halaman ini, Anda akan menemukan sumber daya untuk pemula, paket-paket Student dan bahkan cara mendapatkan voucher sertifikat gratis. Ini adalah satu halaman yang ingin Anda tandai dan periksa dari waktu ke waktu karena kami mengganti konten setidaknya setiap bulan.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Bergabunglah dengan komunitas global para student ambassador, ini bisa menjadi jalan Anda masuk ke Microsoft.
# Memulai
@ -69,133 +79,133 @@ Mulailah dengan sumber daya berikut:
- **[Panduan Instalasi](INSTALLATION.md)** - Instruksi langkah demi langkah untuk pemula
- **[Panduan Penggunaan](USAGE.md)** - Contoh dan alur kerja umum
- **[Pemecahan Masalah](TROUBLESHOOTING.md)** - Solusi untuk masalah umum
- **[Panduan Berkontribusi](CONTRIBUTING.md)** - Cara berkontribusi ke proyek ini
- **[Untuk Guru](for-teachers.md)** - Panduan pengajaran dan sumber daya kelas
- **[Panduan Kontribusi](CONTRIBUTING.md)** - Cara berkontribusi pada proyek ini
- **[Untuk Pengajar](for-teachers.md)** - Panduan pengajaran dan sumber daya kelas
## 👨‍🎓 Untuk Pelajar
> **Pemula Lengkap**: Baru mengenal data science? Mulailah dengan [contoh yang ramah pemula](examples/README.md)! Contoh sederhana dan berkomentar baik ini akan membantu Anda memahami dasar-dasar sebelum menyelami kurikulum penuh.
> **[Pelajar](https://aka.ms/student-page)**: untuk menggunakan kurikulum ini secara mandiri, fork seluruh repo dan selesaikan latihan secara mandiri, mulai dengan kuis pra-ceramah. Kemudian baca ceramah dan selesaikan aktivitas lainnya. Cobalah membuat proyek dengan memahami pelajaran daripada menyalin kode solusi; meskipun kode tersebut tersedia di folder /solutions di setiap pelajaran yang berorientasi proyek. Pilihan lain adalah membentuk kelompok belajar dengan teman dan mempelajari konten bersama. Untuk studi lebih lanjut, kami merekomendasikan [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
## 👨‍🎓 Untuk Mahasiswa
> **Pemula Total**: Baru di ilmu data? Mulailah dengan [contoh yang ramah pemula](examples/README.md)! Contoh sederhana ini dengan komentar yang baik akan membantu Anda memahami dasar-dasarnya sebelum menyelam ke kurikulum lengkap.
> **[Mahasiswa](https://aka.ms/student-page)**: untuk menggunakan kurikulum ini sendiri, fork seluruh repo dan selesaikan latihan sendiri, mulai dengan kuis pra-lecture. Kemudian baca materi kuliah dan selesaikan sisa aktivitas. Cobalah untuk membuat proyek dengan memahami pelajarannya daripada menyalin kode solusi; namun, kode tersebut tersedia di folder /solutions di setiap pelajaran berorientasi proyek. Ide lain adalah membentuk kelompok belajar dengan teman-teman dan melalui konten bersama. Untuk studi lebih lanjut, kami sarankan [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Mulai Cepat:**
1. Periksa [Panduan Instalasi](INSTALLATION.md) untuk mengatur lingkungan Anda
2. Tinjau [Panduan Penggunaan](USAGE.md) untuk mempelajari cara menggunakan kurikulum
3. Mulai dengan Pelajaran 1 dan kerjakan secara urut
4. Bergabung dengan [komunitas Discord kami](https://aka.ms/ds4beginners/discord) untuk dukungan
1. Periksa [Panduan Instalasi](INSTALLATION.md) untuk menyiapkan lingkungan Anda
2. Tinjau [Panduan Penggunaan](USAGE.md) untuk belajar cara kerja dengan kurikulum
3. Mulai dengan Pelajaran 1 dan kerjakan secara berurutan
4. Bergabunglah dengan [komunitas Discord kami](https://aka.ms/ds4beginners/discord) untuk dukungan
## 👩‍🏫 Untuk Guru
## 👩‍🏫 Untuk Pengajar
> **Guru**: kami telah [menyertakan beberapa saran](for-teachers.md) tentang cara menggunakan kurikulum ini. Kami sangat mengharapkan masukan Anda [di forum diskusi kami](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Guru**: kami telah [menyediakan beberapa saran](for-teachers.md) tentang cara menggunakan kurikulum ini. Kami sangat mengharapkan masukan Anda [di forum diskusi kami](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Temui Tim
## Bertemu Tim
[![Video promo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video promo")
[![Video Promo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video Promo")
**Gif oleh** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Klik gambar di atas untuk melihat video tentang proyek dan orang-orang yang membuatnya!
> 🎥 Klik gambar di atas untuk video tentang proyek dan orang-orang yang membuatnya!
## Pedagogi
Kami memilih dua prinsip pedagogis saat membangun kurikulum ini: memastikan bahwa kurikulum berbasis proyek dan mencakup kuis yang sering. Pada akhir seri ini, siswa akan mempelajari prinsip dasar ilmu data, termasuk konsep etika, persiapan data, berbagai cara bekerja dengan data, visualisasi data, analisis data, studi kasus dunia nyata ilmu data, dan lainnya.
Kami telah memilih dua prinsip pedagogis saat membangun kurikulum ini: memastikan bahwa kurikulum berbasis proyek dan mencakup kuis yang sering. Pada akhir seri ini, siswa akan mempelajari prinsip dasar ilmu data, termasuk konsep etika, persiapan data, berbagai cara bekerja dengan data, visualisasi data, analisis data, kasus penggunaan ilmu data di dunia nyata, dan lainnya.
Selain itu, kuis dengan risiko rendah sebelum kelas menetapkan niat siswa untuk mempelajari topik, sementara kuis kedua setelah kelas memastikan retensi lebih lanjut. Kurikulum ini dirancang agar fleksibel dan menyenangkan serta dapat diikuti secara keseluruhan atau sebagian. Proyek dimulai dari yang kecil dan menjadi semakin kompleks pada akhir siklus 10 minggu.
Selain itu, kuis dengan tingkat kesulitan rendah sebelum kelas menetapkan niat siswa untuk mempelajari topik, sementara kuis kedua setelah kelas memastikan retensi lebih lanjut. Kurikulum ini dirancang agar fleksibel dan menyenangkan serta dapat diikuti secara keseluruhan atau sebagian. Proyek dimulai dari yang kecil dan menjadi semakin kompleks pada akhir siklus 10 minggu.
> Temukan [Kode Etik](CODE_OF_CONDUCT.md), [Kontribusi](CONTRIBUTING.md), panduan [Terjemahan](TRANSLATIONS.md) kami. Kami menyambut umpan balik konstruktif Anda!
> Temukan [Kode Etik](CODE_OF_CONDUCT.md), [Kontribusi](CONTRIBUTING.md), dan panduan [Terjemahan](TRANSLATIONS.md) kami. Kami menyambut umpan balik konstruktif Anda!
## Setiap pelajaran mencakup:
- Sketchnote opsional
- Video tambahan opsional
- Video pelengkap opsional
- Kuis pemanasan sebelum pelajaran
- Pelajaran tertulis
- Untuk pelajaran berbasis proyek, panduan langkah demi langkah tentang cara membangun proyek
- Untuk pelajaran berbasis proyek, panduan langkah demi langkah untuk membangun proyek
- Pemeriksaan pengetahuan
- Tantangan
- Bacaan tambahan
- Tugas
- [Kuis pasca pelajaran](https://ff-quizzes.netlify.app/en/)
- [Kuis pasca-pelajaran](https://ff-quizzes.netlify.app/en/)
> **Catatan tentang kuis**: Semua kuis terdapat di folder Quiz-App, dengan total 40 kuis masing-masing berisi tiga pertanyaan. Mereka terhubung dari dalam pelajaran, tetapi aplikasi kuis dapat dijalankan secara lokal atau dideploy ke Azure; ikuti petunjuk dalam folder `quiz-app`. Mereka sedang diterjemahkan secara bertahap.
> **Catatan tentang kuis**: Semua kuis terdapat di folder Quiz-App, dengan total 40 kuis masing-masing berisi tiga pertanyaan. Kuis ini terhubung di dalam pelajaran, namun aplikasi kuis dapat dijalankan secara lokal atau dideploy ke Azure; ikuti instruksi di folder `quiz-app`. Kuis tersebut sedang secara bertahap diterjemahkan.
## 🎓 Contoh Ramah Pemula
**Baru dalam Ilmu Data?** Kami telah membuat direktori [contoh khusus](examples/README.md) dengan kode sederhana yang diberi komentar dengan baik untuk membantu Anda memulai:
**Baru mengenal Ilmu Data?** Kami telah membuat [direktori contoh](examples/README.md) khusus dengan kode sederhana dan berkomentar baik untuk membantu Anda memulai:
- 🌟 **Hello World** - Program ilmu data pertama Anda
- 📂 **Memuat Data** - Pelajari cara membaca dan mengeksplorasi dataset
- 📂 **Memuat Data** - Pelajari cara membaca dan menjelajahi dataset
- 📊 **Analisis Sederhana** - Hitung statistik dan temukan pola
- 📈 **Visualisasi Dasar** - Membuat bagan dan grafik
- 🔬 **Proyek Dunia Nyata** - Alur kerja lengkap dari awal hingga selesai
- 📈 **Visualisasi Dasar** - Buat grafik dan diagram
- 🔬 **Proyek Dunia Nyata** - Alur kerja lengkap dari awal hingga akhir
Setiap contoh mencakup komentar rinci yang menjelaskan setiap langkah, sangat cocok untuk pemula mutlak!
Setiap contoh menyertakan komentar terperinci yang menjelaskan setiap langkah, membuatnya sempurna untuk pemula sejati!
👉 **[Mulai dengan contoh-contoh](examples/README.md)** 👈
👉 **[Mulai dengan contoh](examples/README.md)** 👈
## Pelajaran
|![ Sketchnote oleh @sketchthedocs https://sketchthedocs.dev](../../translated_images/id/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Ilmu Data Untuk Pemula: Peta Jalan - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
| Ilmu Data untuk Pemula: Peta Jalan - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
| Nomor Pelajaran | Topik | Kelompok Pelajaran | Tujuan Pembelajaran | Pelajaran Terhubung | Penulis |
| Nomor Pelajaran | Topik | Pengelompokan Pelajaran | Tujuan Pembelajaran | Pelajaran yang Terhubung | Penulis |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Mendefinisikan Ilmu Data | [Pendahuluan](1-Introduction/README.md) | Pelajari konsep dasar di balik ilmu data dan bagaimana kaitannya dengan kecerdasan buatan, pembelajaran mesin, dan big data. | [pelajaran](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika Ilmu Data | [Pendahuluan](1-Introduction/README.md) | Konsep Etika Data, Tantangan & Kerangka Kerja. | [pelajaran](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Mendefinisikan Data | [Pendahuluan](1-Introduction/README.md) | Bagaimana data diklasifikasikan dan sumber-sumber umumnya. | [pelajaran](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Pengenalan Statistik & Probabilitas | [Pendahuluan](1-Introduction/README.md) | Teknik matematis probabilitas dan statistik untuk memahami data. | [pelajaran](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Bekerja dengan Data Relasional | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan data relasional dan dasar-dasar mengeksplorasi serta menganalisis data relasional dengan Structured Query Language, juga dikenal sebagai SQL (diucapkan “see-quell”). | [pelajaran](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Bekerja dengan Data NoSQL | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan data non-relasional, berbagai jenisnya dan dasar-dasar mengeksplorasi serta menganalisis database dokumen. | [pelajaran](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Bekerja dengan Python | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Dasar-dasar menggunakan Python untuk eksplorasi data dengan pustaka seperti Pandas. Pemahaman dasar pemrograman Python dianjurkan. | [pelajaran](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Persiapan Data | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Topik tentang teknik data untuk membersihkan dan mentransformasi data guna menangani tantangan data yang hilang, tidak akurat, atau tidak lengkap. | [pelajaran](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 02 | Etika Ilmu Data | [Pendahuluan](1-Introduction/README.md) | Konsep, tantangan & kerangka kerja Etika Data. | [pelajaran](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Mendefinisikan Data | [Pendahuluan](1-Introduction/README.md) | Cara data diklasifikasikan dan sumber umumnya. | [pelajaran](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Pengantar Statistik & Probabilitas | [Pendahuluan](1-Introduction/README.md) | Teknik matematis probabilitas dan statistik untuk memahami data. | [pelajaran](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Bekerja dengan Data Relasional | [Bekerja dengan Data](2-Working-With-Data/README.md) | Pengenalan data relasional dan dasar eksplorasi serta analisis data relasional dengan Structured Query Language, yang dikenal sebagai SQL (diucapkan “see-quell”). | [pelajaran](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Bekerja dengan Data NoSQL | [Bekerja dengan Data](2-Working-With-Data/README.md) | Pengenalan data non-relasional, berbagai jenisnya, dan dasar eksplorasi serta analisis basis data dokumen. | [pelajaran](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Bekerja dengan Python | [Bekerja dengan Data](2-Working-With-Data/README.md) | Dasar penggunaan Python untuk eksplorasi data dengan perpustakaan seperti Pandas. Disarankan memahami dasar pemrograman Python. | [pelajaran](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Persiapan Data | [Bekerja dengan Data](2-Working-With-Data/README.md) | Topik teknik data untuk membersihkan dan mengubah data untuk mengatasi tantangan data yang hilang, tidak akurat, atau tidak lengkap. | [pelajaran](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisasi Kuantitas | [Visualisasi Data](3-Data-Visualization/README.md) | Pelajari cara menggunakan Matplotlib untuk memvisualisasikan data burung 🦆 | [pelajaran](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisasi Distribusi Data | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualisasikan pengamatan dan tren dalam sebuah interval. | [pelajaran](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisasi Proporsi | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualisasikan persentase diskrit dan berkelompok. | [pelajaran](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisasi Hubungan | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualisasikan koneksi dan korelasi antara set data dan variabelnya. | [pelajaran](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisasi yang Bermakna | [Visualisasi Data](3-Data-Visualization/README.md) | Teknik dan panduan untuk membuat visualisasi Anda bernilai untuk pemecahan masalah dan wawasan yang efektif. | [pelajaran](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Pengenalan siklus hidup Ilmu Data | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Pengenalan siklus hidup ilmu data dan langkah pertama yaitu memperoleh serta mengekstrak data. | [pelajaran](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analisis | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Fase siklus hidup ilmu data yang berfokus pada teknik untuk menganalisis data. | [pelajaran](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasi | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Fase siklus hidup ilmu data yang berfokus pada penyajian wawasan dari data dengan cara yang memudahkan pengambil keputusan untuk memahami. | [pelajaran](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 10 | Visualisasi Distribusi Data | [Visualisasi Data](3-Data-Visualization/README.md) | Visualisasi pengamatan dan tren dalam suatu interval. | [pelajaran](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisasi Proporsi | [Visualisasi Data](3-Data-Visualization/README.md) | Visualisasi persentase diskrit dan berkelompok. | [pelajaran](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisasi Hubungan | [Visualisasi Data](3-Data-Visualization/README.md) | Visualisasi koneksi dan korelasi antara kumpulan data dan variabelnya. | [pelajaran](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisasi yang Bermakna | [Visualisasi Data](3-Data-Visualization/README.md) | Teknik dan panduan untuk membuat visualisasi Anda bernilai guna pemecahan masalah dan wawasan yang efektif. | [pelajaran](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Pengenalan Siklus Hidup Ilmu Data | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Pengenalan siklus hidup ilmu data dan langkah pertamanya yaitu memperoleh dan mengekstrak data. | [pelajaran](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Menganalisis | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Fase siklus hidup ilmu data yang berfokus pada teknik menganalisis data. | [pelajaran](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasi | [Siklus Hidup](4-Data-Science-Lifecycle/README.md) | Fase siklus hidup ilmu data yang berfokus pada penyajian wawasan dari data dengan cara yang memudahkan pengambil keputusan memahaminya. | [pelajaran](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Ilmu Data di Cloud | [Data Cloud](5-Data-Science-In-Cloud/README.md) | Seri pelajaran ini memperkenalkan ilmu data di cloud dan manfaatnya. | [pelajaran](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 18 | Ilmu Data di Cloud | [Data Cloud](5-Data-Science-In-Cloud/README.md) | Melatih model menggunakan alat Low Code. |[pelajaran](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 19 | Ilmu Data di Cloud | [Data Cloud](5-Data-Science-In-Cloud/README.md) | Meng-deploy model dengan Azure Machine Learning Studio. | [pelajaran](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 20 | Ilmu Data di Dunia Nyata | [Di Dunia Nyata](6-Data-Science-In-Wild/README.md) | Proyek ilmu data yang dijalankan di dunia nyata. | [pelajaran](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 18 | Ilmu Data di Cloud | [Data Cloud](5-Data-Science-In-Cloud/README.md) | Pelatihan model menggunakan alat Low Code. |[pelajaran](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 19 | Ilmu Data di Cloud | [Data Cloud](5-Data-Science-In-Cloud/README.md) | Mendeploy model dengan Azure Machine Learning Studio. | [pelajaran](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 20 | Ilmu Data di Dunia Nyata | [Di Dunia Nyata](6-Data-Science-In-Wild/README.md) | Proyek yang digerakkan oleh ilmu data di dunia nyata. | [pelajaran](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Ikuti langkah-langkah berikut untuk membuka contoh ini dalam Codespace:
1. Klik menu drop-down Code dan pilih opsi Open with Codespaces.
Ikuti langkah-langkah ini untuk membuka contoh ini di Codespace:
1. Klik menu drop-down Kode dan pilih opsi Open with Codespaces.
2. Pilih + New codespace di bagian bawah panel.
Untuk info lebih lanjut, lihat [dokumentasi GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Ikuti langkah-langkah berikut untuk membuka repo ini dalam container menggunakan mesin lokal Anda dan VSCode dengan ekstensi VS Code Remote - Containers:
Ikuti langkah ini untuk membuka repo ini dalam container menggunakan mesin lokal Anda dan VSCode dengan ekstensi VS Code Remote - Containers:
1. Jika ini adalah kali pertama Anda menggunakan development container, pastikan sistem Anda memenuhi prasyarat (misalnya sudah menginstal Docker) dalam [dokumentasi memulai](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Jika ini pertama kali Anda menggunakan container pengembangan, pastikan sistem Anda memenuhi prasyarat (misalnya telah menginstal Docker) dalam [dokumentasi memulai](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Untuk menggunakan repositori ini, Anda bisa membuka repositori dalam volume Docker terisolasi:
Untuk menggunakan repositori ini, Anda dapat membuka repositori dalam volume Docker terisolasi:
**Catatan**: Di balik layar, ini akan menggunakan perintah Remote-Containers: **Clone Repository in Container Volume...** untuk meng-clone kode sumber ke dalam volume Docker daripada filesystem lokal. [Volumes](https://docs.docker.com/storage/volumes/) adalah mekanisme yang disarankan untuk mempertahankan data container.
**Catatan**: Secara internal, ini akan menggunakan perintah Remote-Containers: **Clone Repository in Container Volume...** untuk mengkloning kode sumber ke volume Docker alih-alih sistem file lokal. [Volume](https://docs.docker.com/storage/volumes/) adalah mekanisme yang disarankan untuk menyimpan data container.
Atau buka salinan repo yang sudah di-clone atau diunduh secara lokal:
Atau buka versi repo yang sudah dikloning atau diunduh secara lokal:
- Clone repositori ini ke filesystem lokal Anda.
- Kloning repositori ini ke sistem file lokal Anda.
- Tekan F1 dan pilih perintah **Remote-Containers: Open Folder in Container...**.
- Pilih salinan folder yang sudah di-clone, tunggu container mulai, dan coba gunakan.
- Pilih salinan folder yang sudah dikloning, tunggu container mulai, dan coba fitur-fiturnya.
## Akses Offline
Anda dapat menjalankan dokumentasi ini secara offline dengan menggunakan [Docsify](https://docsify.js.org/#/). Fork repo ini, [instal Docsify](https://docsify.js.org/#/quickstart) di mesin lokal Anda, lalu di folder root repo ini, ketik `docsify serve`. Situs web akan disajikan di port 3000 di localhost Anda: `localhost:3000`.
Anda dapat menjalankan dokumentasi ini secara offline dengan menggunakan [Docsify](https://docsify.js.org/#/). Fork repo ini, [pasang Docsify](https://docsify.js.org/#/quickstart) di mesin lokal Anda, kemudian di folder root repo ini, ketik `docsify serve`. Situs web akan disajikan di port 3000 di localhost Anda: `localhost:3000`.
> Catatan, notebook tidak akan dirender melalui Docsify, jadi saat Anda perlu menjalankan notebook, lakukan secara terpisah di VS Code yang menjalankan kernel Python.
> Catatan, notebook tidak akan dirender lewat Docsify, jadi saat Anda perlu menjalankan notebook, lakukan secara terpisah di VS Code yang menjalankan kernel Python.
## Kurikulum Lainnya
## Kurikulum Lain
Tim kami memproduksi kurikulum lain! Lihat:
Tim kami menghasilkan kurikulum lain! Periksa:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j untuk Pemula](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js untuk Pemula](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain untuk Pemula](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -218,7 +228,7 @@ Tim kami memproduksi kurikulum lain! Lihat:
### Pembelajaran Inti
[![ML untuk Pemula](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Ilmu Data untuk Pemula](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science untuk Pemula](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI untuk Pemula](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Keamanan Siber untuk Pemula](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Pengembangan Web untuk Pemula](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
@ -235,13 +245,13 @@ Tim kami memproduksi kurikulum lain! Lihat:
## Mendapatkan Bantuan
**Mengalami masalah?** Periksa [Panduan Pemecahan Masalah](TROUBLESHOOTING.md) kami untuk solusi atas masalah umum.
**Mengalami masalah?** Periksa [Panduan Pemecahan Masalah](TROUBLESHOOTING.md) kami untuk solusi masalah umum.
Jika Anda mengalami kebuntuan atau memiliki pertanyaan tentang membangun aplikasi AI. Bergabunglah dengan sesama pelajar dan pengembang berpengalaman dalam diskusi tentang MCP. Ini adalah komunitas yang mendukung di mana pertanyaan disambut dan pengetahuan dibagikan dengan bebas.
Jika Anda mengalami kesulitan atau memiliki pertanyaan tentang membangun aplikasi AI. Bergabunglah dengan sesama pelajar dan pengembang berpengalaman dalam diskusi tentang MCP. Ini adalah komunitas yang mendukung di mana pertanyaan diterima dan pengetahuan dibagikan secara bebas.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Jika Anda memiliki umpan balik produk atau menemui kesalahan saat membangun, kunjungi:
Jika Anda memiliki masukan produk atau menemukan kesalahan saat membangun, kunjungi:
[![Forum Pengembang Microsoft Foundry](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
@ -249,5 +259,5 @@ Jika Anda memiliki umpan balik produk atau menemui kesalahan saat membangun, kun
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Penafian**:
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk keakuratan, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidaktepatan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang penting, disarankan menggunakan terjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.
Dokumen ini telah diterjemahkan menggunakan layanan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Meskipun kami berusaha untuk akurasi, harap diingat bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang sah dan otoritatif. Untuk informasi penting, disarankan menggunakan jasa terjemahan manusia profesional. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang salah yang timbul dari penggunaan terjemahan ini.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Temukan semua sketchnote di sini!
Nitya Narasimhan, seniman
![sketchnote roadmap](../../../translated_images/id/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote roadmap](../../../translated_images/id/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "ms"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:00:11+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ms"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-28T18:58:26+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "ms"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:00:43+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ms"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:47:34+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "ms"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:01:40+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "ms"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T00:06:38+00:00",
@ -360,8 +378,8 @@
"language_code": "ms"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:40:47+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:07:12+00:00",
"source_file": "README.md",
"language_code": "ms"
},

@ -6,7 +6,7 @@
---
[![Video Mendefinisikan Sains Data](../../../../translated_images/ms/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video Mendefinisikan Sains Data](../../../../translated_images/ms/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Kuiz pra-kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Jika kita ingin menjadi lebih rumit, kita boleh memplot masa yang diambil untuk
Dalam cabaran ini, kita akan cuba mencari konsep yang relevan dengan bidang Sains Data dengan melihat teks. Kita akan mengambil artikel Wikipedia tentang Sains Data, memuat turun dan memproses teks tersebut, dan kemudian membina awan kata seperti ini:
![Awan Kata untuk Sains Data](../../../../translated_images/ms/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Awan Kata untuk Sains Data](../../../../translated_images/ms/ds_wordcloud.664a7c07dca57de0.webp)
Lawati [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') untuk membaca kodnya. Anda juga boleh menjalankan kod tersebut, dan melihat bagaimana ia melaksanakan semua transformasi data secara langsung.

@ -5,11 +5,11 @@
"source": [
"# Cabaran: Menganalisis Teks tentang Sains Data\n",
"\n",
"Dalam contoh ini, mari kita lakukan satu latihan mudah yang merangkumi semua langkah dalam proses tradisional sains data. Anda tidak perlu menulis sebarang kod, anda hanya perlu klik pada sel di bawah untuk melaksanakannya dan memerhatikan hasilnya. Sebagai cabaran, anda digalakkan untuk mencuba kod ini dengan data yang berbeza.\n",
"Dalam contoh ini, mari kita lakukan satu latihan ringkas yang merangkumi semua langkah dalam proses sains data tradisional. Anda tidak perlu menulis sebarang kod, anda hanya boleh klik pada sel di bawah untuk melaksanakannya dan memerhatikan hasilnya. Sebagai cabaran, anda digalakkan untuk mencuba kod ini dengan data yang berbeza.\n",
"\n",
"## Matlamat\n",
"\n",
"Dalam pelajaran ini, kita telah membincangkan pelbagai konsep berkaitan dengan Sains Data. Mari kita cuba menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan teks tentang Sains Data, mengekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n",
"Dalam pelajaran ini, kita telah membincangkan pelbagai konsep yang berkaitan dengan Sains Data. Mari cuba menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan sebuah teks tentang Sains Data, mengekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n",
"\n",
"Sebagai teks, saya akan menggunakan halaman tentang Sains Data dari Wikipedia:\n"
],
@ -34,7 +34,7 @@
"source": [
"## Langkah 1: Mendapatkan Data\n",
"\n",
"Langkah pertama dalam setiap proses sains data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n"
"Langkah pertama dalam setiap proses sains data adalah mendapatkan data. Kita akan menggunakan perpustakaan `requests` untuk melakukan itu:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Langkah 2: Menukar Data\n",
"\n",
"Langkah seterusnya adalah untuk menukar data kepada bentuk yang sesuai untuk diproses. Dalam kes kita, kita telah memuat turun kod sumber HTML dari halaman tersebut, dan kita perlu menukarnya kepada teks biasa.\n",
"Langkah seterusnya adalah menukar data ke bentuk yang sesuai untuk pemprosesan. Dalam kes kami, kami telah memuat turun kod sumber HTML dari halaman tersebut, dan kami perlu menukarnya menjadi teks biasa.\n",
"\n",
"Terdapat banyak cara untuk melakukan ini. Kita akan menggunakan objek [HTMLParser](https://docs.python.org/3/library/html.parser.html) terbina dalam yang paling mudah dari Python. Kita perlu mewarisi kelas `HTMLParser` dan mentakrifkan kod yang akan mengumpulkan semua teks di dalam tag HTML, kecuali tag `<script>` dan `<style>`.\n"
"Terdapat pelbagai cara untuk melakukan ini. Kami akan menggunakan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), sebuah perpustakaan Python yang popular untuk memparsing HTML. BeautifulSoup membolehkan kami mensasarkan elemen HTML tertentu, supaya kami dapat memfokuskan pada kandungan artikel utama dari Wikipedia dan mengurangkan beberapa menu navigasi, bar sisi, footer, dan kandungan lain yang tidak relevan (walaupun sesetengah teks asas mungkin masih kekal).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Pertama, kita perlu memasang perpustakaan BeautifulSoup untuk penguraian HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Langkah 3: Mendapatkan Wawasan\n",
"\n",
"Langkah yang paling penting adalah menukar data kita kepada satu bentuk yang membolehkan kita mendapatkan wawasan. Dalam kes kita, kita ingin mengekstrak kata kunci daripada teks dan melihat kata kunci mana yang lebih bermakna.\n",
"Langkah yang paling penting adalah untuk mengubah data kita menjadi sesuatu bentuk dari mana kita boleh mendapatkan wawasan. Dalam kes kami, kami ingin mengekstrak kata kunci dari teks, dan melihat kata kunci mana yang lebih bermakna.\n",
"\n",
"Kita akan menggunakan perpustakaan Python yang dipanggil [RAKE](https://github.com/aneesha/RAKE) untuk pengekstrakan kata kunci. Pertama, mari kita pasang perpustakaan ini sekiranya ia belum ada:\n"
"Kami akan menggunakan perpustakaan Python yang dipanggil [RAKE](https://github.com/aneesha/RAKE) untuk pengekstrakan kata kunci. Pertama, mari kita pasang perpustakaan ini sekiranya ia tidak tersedia: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Fungsi utama tersedia daripada objek `Rake`, yang boleh kita sesuaikan menggunakan beberapa parameter. Dalam kes kita, kita akan menetapkan panjang minimum kata kunci kepada 5 aksara, kekerapan minimum kata kunci dalam dokumen kepada 3, dan bilangan maksimum perkataan dalam kata kunci - kepada 2. Jangan ragu untuk mencuba nilai lain dan perhatikan hasilnya.\n"
"Fungsi utama tersedia daripada objek `Rake`, yang boleh kami sesuaikan menggunakan beberapa parameter. Dalam kes kami, kami akan menetapkan panjang minimum kata kunci kepada 5 aksara, kekerapan minimum suatu kata kunci dalam dokumen kepada 3, dan jumlah maksimum perkataan dalam suatu kata kunci - kepada 2. Sila cuba bermain dengan nilai-nilai lain dan perhatikan hasilnya.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Kami memperoleh senarai istilah bersama dengan tahap kepentingan yang berkaitan. Seperti yang anda lihat, disiplin yang paling relevan, seperti pembelajaran mesin dan data besar, berada di kedudukan teratas dalam senarai.\n",
"\n",
"## Langkah 4: Memvisualkan Hasil\n",
"Kami memperoleh senarai terma bersama-sama dengan tahap kepentingan yang berkaitan. Seperti yang anda lihat, disiplin yang paling relevan, seperti pembelajaran mesin dan data besar, hadir dalam senarai di kedudukan teratas.\n",
"\n",
"Manusia dapat mentafsirkan data dengan lebih baik dalam bentuk visual. Oleh itu, sering kali masuk akal untuk memvisualkan data bagi mendapatkan beberapa pandangan. Kita boleh menggunakan perpustakaan `matplotlib` dalam Python untuk melukis taburan mudah kata kunci dengan kaitannya:\n"
"## Langkah 4: Memvisualisasikan Keputusan\n",
"\n",
"Orang ramai boleh mentafsir data dengan lebih baik dalam bentuk visual. Oleh itu, sering masuk akal untuk memvisualisasikan data untuk mendapatkan beberapa pandangan. Kami boleh menggunakan perpustakaan `matplotlib` dalam Python untuk melukis taburan ringkas bagi kata kunci bersama kaitannya:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"Terdapat, bagaimanapun, cara yang lebih baik untuk memvisualisasikan kekerapan perkataan - menggunakan **Word Cloud**. Kita perlu memasang satu lagi perpustakaan untuk melukis word cloud daripada senarai kata kunci kita.\n"
"Walau bagaimanapun, terdapat cara yang lebih baik untuk memvisualisasikan kekerapan perkataan - menggunakan **Word Cloud**. Kita perlu memasang perpustakaan lain untuk melukis awan kata daripada senarai kata kunci kita.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"Objek `WordCloud` bertanggungjawab untuk menerima sama ada teks asal, atau senarai perkataan yang telah dikira terlebih dahulu dengan kekerapan masing-masing, dan mengembalikan imej, yang kemudiannya boleh dipaparkan menggunakan `matplotlib`:\n"
"Objek `WordCloud` bertanggungjawab untuk menerima sama ada teks asal, atau senarai perkataan yang telah dikira frekuensinya, dan mengembalikan imej, yang kemudian boleh dipaparkan menggunakan `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Kita juga boleh masukkan teks asal ke dalam `WordCloud` - mari kita lihat jika kita dapat hasil yang serupa:\n"
"Kita juga boleh memasukkan teks asal ke dalam `WordCloud` - mari kita lihat jika kita dapat memperoleh hasil yang serupa:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Anda boleh lihat bahawa awan kata kini kelihatan lebih menarik, tetapi ia juga mengandungi banyak bunyi (contohnya, perkataan yang tidak berkaitan seperti `Retrieved on`). Selain itu, kita mendapat lebih sedikit kata kunci yang terdiri daripada dua perkataan, seperti *data scientist* atau *computer science*. Ini kerana algoritma RAKE melakukan kerja yang jauh lebih baik dalam memilih kata kunci yang berkualiti daripada teks. Contoh ini menggambarkan betapa pentingnya pra-pemprosesan dan pembersihan data, kerana gambaran yang jelas pada akhirnya akan membolehkan kita membuat keputusan yang lebih baik.\n",
"Anda boleh lihat bahawa awan kata kini kelihatan lebih mengagumkan, tetapi ia juga mengandungi banyak bunyi bising (contohnya perkataan yang tidak berkaitan seperti `Retrieved on`). Selain itu, kita mendapat lebih sedikit kata kunci yang terdiri daripada dua perkataan, seperti *data scientist*, atau *computer science*. Ini kerana algoritma RAKE melakukan tugas yang jauh lebih baik dalam memilih kata kunci yang berkualiti daripada teks. Contoh ini menggambarkan kepentingan pemprosesan dan pembersihan data, kerana gambaran yang jelas pada akhirnya akan membolehkan kita membuat keputusan yang lebih baik.\n",
"\n",
"Dalam latihan ini, kita telah melalui proses mudah untuk mengekstrak beberapa makna daripada teks Wikipedia, dalam bentuk kata kunci dan awan kata. Contoh ini agak mudah, tetapi ia menunjukkan dengan baik semua langkah tipikal yang akan diambil oleh seorang saintis data semasa bekerja dengan data, bermula dari pemerolehan data hingga ke visualisasi.\n",
"Dalam latihan ini kami telah melalui proses mudah untuk mengekstrak beberapa makna daripada teks Wikipedia, dalam bentuk kata kunci dan awan kata. Contoh ini agak ringkas, tetapi ia menunjukkan dengan baik semua langkah biasa yang akan diambil oleh seorang saintis data ketika bekerja dengan data, bermula dari pemerolehan data, sehingga visualisasi.\n",
"\n",
"Dalam kursus kita, kita akan membincangkan semua langkah tersebut dengan lebih terperinci.\n"
"Dalam kursus kami, kami akan membincangkan semua langkah tersebut secara terperinci.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidakakuratan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sahih. Untuk maklumat penting, disarankan menggunakan terjemahan profesional oleh manusia. Kami tidak bertanggungjawab terhadap sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +417,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T09:59:21+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "ms"
}
},
"nbformat": 4,

@ -5,15 +5,15 @@
"source": [
"# Cabaran: Menganalisis Teks tentang Sains Data\n",
"\n",
"> *Dalam buku nota ini, kita bereksperimen menggunakan URL yang berbeza - artikel Wikipedia tentang Pembelajaran Mesin. Anda boleh lihat bahawa, tidak seperti Sains Data, artikel ini mengandungi banyak istilah, yang menjadikan analisis lebih bermasalah. Kita perlu mencari cara lain untuk membersihkan data selepas melakukan pengekstrakan kata kunci, untuk menyingkirkan beberapa gabungan kata yang kerap tetapi tidak bermakna.*\n",
"> *Dalam buku nota ini, kami bereksperimen dengan menggunakan URL berbeza - artikel wikipedia mengenai Pembelajaran Mesin. Anda boleh melihat bahawa, tidak seperti Sains Data, artikel ini mengandungi banyak istilah, yang menjadikan analisis lebih bermasalah. Kita perlu mencari cara lain untuk membersihkan data selepas melakukan pengekstrakan kata kunci, untuk menyingkirkan beberapa kombinasi perkataan yang kerap tetapi tidak bermakna.*\n",
"\n",
"Dalam contoh ini, mari kita lakukan latihan mudah yang merangkumi semua langkah dalam proses sains data tradisional. Anda tidak perlu menulis sebarang kod, anda hanya perlu klik pada sel di bawah untuk melaksanakannya dan memerhatikan hasilnya. Sebagai cabaran, anda digalakkan untuk mencuba kod ini dengan data yang berbeza.\n",
"Dalam contoh ini, mari kita lakukan latihan mudah yang merangkumi semua langkah proses sains data tradisional. Anda tidak perlu menulis sebarang kod, anda hanya boleh klik pada sel di bawah untuk menjalankannya dan melihat hasilnya. Sebagai cabaran, anda digalakkan mencuba kod ini dengan data yang berbeza.\n",
"\n",
"## Matlamat\n",
"\n",
"Dalam pelajaran ini, kita telah membincangkan pelbagai konsep berkaitan dengan Sains Data. Mari kita cuba menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan teks tentang Sains Data, mengekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n",
"Dalam pelajaran ini, kita telah membincangkan pelbagai konsep berkaitan dengan Sains Data. Mari cuba untuk menemui lebih banyak konsep berkaitan dengan melakukan **perlombongan teks**. Kita akan bermula dengan teks tentang Sains Data, ekstrak kata kunci daripadanya, dan kemudian cuba memvisualisasikan hasilnya.\n",
"\n",
"Sebagai teks, saya akan menggunakan halaman tentang Sains Data dari Wikipedia:\n"
"Sebagai teks, saya akan menggunakan halaman mengenai Sains Data dari Wikipedia:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Langkah 1: Mendapatkan Data\n",
"\n",
"Langkah pertama dalam setiap proses sains data adalah mendapatkan data. Kita akan menggunakan pustaka `requests` untuk melakukannya:\n"
"Langkah pertama dalam setiap proses sains data ialah mendapatkan data. Kita akan menggunakan perpustakaan `requests` untuk melakukan itu:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Langkah 2: Menukar Data\n",
"## Step 2: Menukar Data\n",
"\n",
"Langkah seterusnya adalah menukar data kepada bentuk yang sesuai untuk diproses. Dalam kes kita, kita telah memuat turun kod sumber HTML dari halaman tersebut, dan kita perlu menukarnya kepada teks biasa.\n",
"Langkah seterusnya adalah untuk menukar data ke dalam bentuk yang sesuai untuk diproses. Dalam kes kami, kami telah memuat turun kod sumber HTML dari halaman tersebut, dan kami perlu menukarnya menjadi teks biasa.\n",
"\n",
"Terdapat banyak cara untuk melakukannya. Kita akan menggunakan objek [HTMLParser](https://docs.python.org/3/library/html.parser.html) bawaan paling mudah dari Python. Kita perlu mewarisi kelas `HTMLParser` dan mentakrifkan kod yang akan mengumpulkan semua teks di dalam tag HTML, kecuali tag `<script>` dan `<style>`.\n"
"Terdapat banyak cara untuk melakukan ini. Kami akan menggunakan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), sebuah perpustakaan Python yang popular untuk menganalisis HTML. BeautifulSoup membolehkan kita menyasarkan elemen HTML tertentu, supaya kita dapat menumpukan pada kandungan artikel utama dari Wikipedia dan mengurangkan beberapa menu navigasi, bar sisi, kaki halaman, dan kandungan lain yang tidak relevan (walaupun beberapa teks asas mungkin masih kekal).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Mula-mula, kita perlu memasang perpustakaan BeautifulSoup untuk analisis HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Langkah 3: Mendapatkan Wawasan\n",
"## Langkah 3: Mendapatkan Pandangan\n",
"\n",
"Langkah yang paling penting adalah menukar data kita kepada bentuk yang membolehkan kita mendapatkan wawasan. Dalam kes kita, kita ingin mengekstrak kata kunci daripada teks dan melihat kata kunci mana yang lebih bermakna.\n",
"Langkah paling penting adalah menukar data kita menjadi sesuatu dari mana kita boleh mendapatkan pandangan. Dalam kes kita, kita ingin mengeluarkan kata kunci dari teks, dan melihat kata kunci mana yang lebih bermakna.\n",
"\n",
"Kita akan menggunakan perpustakaan Python yang dipanggil [RAKE](https://github.com/aneesha/RAKE) untuk pengekstrakan kata kunci. Pertama, mari kita pasang perpustakaan ini sekiranya ia belum ada:\n"
"Kita akan menggunakan perpustakaan Python yang dipanggil [RAKE](https://github.com/aneesha/RAKE) untuk pengeluar kata kunci. Pertama, mari pasang perpustakaan ini sekiranya ia tidak ada: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Fungsi utama tersedia daripada objek `Rake`, yang boleh kita sesuaikan menggunakan beberapa parameter. Dalam kes kita, kita akan menetapkan panjang minimum kata kunci kepada 5 aksara, kekerapan minimum kata kunci dalam dokumen kepada 3, dan bilangan maksimum perkataan dalam kata kunci - kepada 2. Jangan ragu untuk mencuba nilai lain dan perhatikan hasilnya.\n"
"Fungsi utama tersedia daripada objek `Rake`, yang boleh kita sesuaikan menggunakan beberapa parameter. Dalam kes kita, kita akan menetapkan panjang minimum bagi kata kunci kepada 5 aksara, kekerapan minimum kata kunci dalam dokumen kepada 3, dan bilangan maksimum perkataan dalam kata kunci - kepada 2. Sila cuba bermain dengan nilai-nilai lain dan perhatikan hasilnya.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Kami memperoleh senarai istilah bersama dengan tahap kepentingan yang berkaitan. Seperti yang anda lihat, disiplin yang paling relevan, seperti pembelajaran mesin dan data besar, berada di kedudukan teratas dalam senarai.\n",
"\n",
"## Langkah 4: Memvisualkan Hasil\n",
"\n",
"Manusia dapat mentafsirkan data dengan lebih baik dalam bentuk visual. Oleh itu, sering kali masuk akal untuk memvisualkan data bagi mendapatkan beberapa pandangan. Kita boleh menggunakan perpustakaan `matplotlib` dalam Python untuk melukis taburan mudah kata kunci dengan kaitannya:\n"
"\r\n",
"Kami memperoleh senarai istilah bersama dengan tahap kepentingan yang berkaitan. Seperti yang anda lihat, disiplin yang paling relevan, seperti pembelajaran mesin dan data besar, hadir dalam senarai di posisi teratas.\r\n",
"\r\n",
"## Langkah 4: Memvisualisasikan Hasil\r\n",
"\r\n",
"Orang ramai dapat mentafsir data dengan lebih baik dalam bentuk visual. Oleh itu, sering kali masuk akal untuk memvisualisasikan data bagi mendapatkan beberapa pandangan. Kita boleh menggunakan perpustakaan `matplotlib` dalam Python untuk melukis taburan mudah kata kunci dengan kaitannya:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Terdapat, bagaimanapun, cara yang lebih baik untuk memvisualisasikan kekerapan perkataan - menggunakan **Word Cloud**. Kita perlu memasang satu lagi perpustakaan untuk melukis word cloud daripada senarai kata kunci kita.\n"
"Walau bagaimanapun, terdapat cara yang lebih baik untuk memvisualisasikan kekerapan perkataan - menggunakan **Word Cloud**. Kita perlu memasang perpustakaan lain untuk memplot awan perkataan daripada senarai kata kunci kita.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"Objek `WordCloud` bertanggungjawab untuk mengambil sama ada teks asal, atau senarai perkataan yang telah dikira terlebih dahulu dengan kekerapan masing-masing, dan mengembalikan imej, yang kemudiannya boleh dipaparkan menggunakan `matplotlib`:\n"
"Objek `WordCloud` bertanggungjawab untuk menerima sama ada teks asal, atau senarai kata yang telah dikira terlebih dahulu bersama kekerapan mereka, dan mengembalikan imej, yang kemudian boleh dipaparkan menggunakan `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Kita juga boleh masukkan teks asal ke dalam `WordCloud` - mari kita lihat jika kita dapat hasil yang serupa:\n"
"Kita juga boleh memasukkan teks asal ke dalam `WordCloud` - mari kita lihat jika kita boleh mendapatkan keputusan yang serupa:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Anda dapat melihat bahawa awan perkataan kini kelihatan lebih menarik, tetapi ia juga mengandungi banyak bunyi (contohnya, perkataan yang tidak berkaitan seperti `Retrieved on`). Selain itu, kita mendapat lebih sedikit kata kunci yang terdiri daripada dua perkataan, seperti *data scientist* atau *computer science*. Ini kerana algoritma RAKE melakukan tugas yang jauh lebih baik dalam memilih kata kunci yang berkualiti daripada teks. Contoh ini menggambarkan betapa pentingnya pra-pemprosesan dan pembersihan data, kerana gambaran yang jelas pada akhirnya akan membolehkan kita membuat keputusan yang lebih baik.\n",
"Anda boleh lihat bahawa awan kata kini kelihatan lebih mengagumkan, tetapi ia juga mengandungi banyak bunyi (contohnya, perkataan yang tidak berkaitan seperti `Retrieved on`). Selain itu, kami mendapat kurang kata kunci yang terdiri daripada dua perkataan, seperti *data scientist*, atau *computer science*. Ini kerana algoritma RAKE melakukan kerja yang lebih baik dalam memilih kata kunci yang baik dari teks. Contoh ini menggambarkan kepentingan pra-pemprosesan dan pembersihan data, kerana gambaran yang jelas pada akhirnya akan membolehkan kita membuat keputusan yang lebih baik.\n",
"\n",
"Dalam latihan ini, kita telah melalui proses mudah untuk mengekstrak beberapa makna daripada teks Wikipedia, dalam bentuk kata kunci dan awan perkataan. Contoh ini agak mudah, tetapi ia menunjukkan dengan baik semua langkah tipikal yang akan diambil oleh seorang saintis data semasa bekerja dengan data, bermula dari pemerolehan data hingga ke visualisasi.\n",
"Dalam latihan ini kami telah melalui proses mudah untuk mengekstrak sedikit makna dari teks Wikipedia, dalam bentuk kata kunci dan awan kata. Contoh ini agak mudah, tetapi ia menunjukkan dengan baik semua langkah tipikal yang akan diambil oleh seorang saintis data apabila bekerja dengan data, bermula dari pemerolehan data, sehingga visualisasi.\n",
"\n",
"Dalam kursus kita, kita akan membincangkan semua langkah tersebut dengan lebih terperinci.\n"
"Dalam kursus kami, kami akan membincangkan semua langkah tersebut dengan terperinci.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Penafian**: \nDokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya hendaklah dianggap sebagai sumber yang sahih. Untuk maklumat penting, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +525,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:13:33+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "ms"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Teori Statistik dan Kebarangkalian adalah dua cabang Matematik yang sangat berkait rapat dan amat relevan dalam Sains Data. Walaupun mungkin untuk bekerja dengan data tanpa pengetahuan matematik yang mendalam, adalah lebih baik untuk memahami sekurang-kurangnya konsep asas. Di sini, kami akan memberikan pengenalan ringkas untuk membantu anda bermula.
[![Video Pengenalan](../../../../translated_images/ms/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Video Pengenalan](../../../../translated_images/ms/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Kuiz Pra-Kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Lebih sukar untuk menerangkan taburan kebarangkalian pemboleh ubah berterusan, d
Kita hanya boleh bercakap tentang kebarangkalian pemboleh ubah jatuh dalam julat nilai tertentu, contohnya P(t<sub>1</sub>≤X<t<sub>2</sub>). Dalam kes ini, taburan kebarangkalian diterangkan oleh **fungsi ketumpatan kebarangkalian** p(x), di mana
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ms/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/ms/probability-density.a8aad29f17a14afb.webp)
Analog berterusan bagi taburan seragam dipanggil **seragam berterusan**, yang ditakrifkan pada julat terhingga. Kebarangkalian bahawa nilai X jatuh ke dalam julat panjang l adalah berkadar dengan l, dan meningkat sehingga 1.
@ -73,11 +73,11 @@ Apabila kita menganalisis data dari dunia sebenar, data tersebut selalunya bukan
Berikut ialah plot kotak yang menunjukkan min, median dan kuartil untuk data kita:
![Plot Kotak Berat](../../../../translated_images/ms/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Plot Kotak Berat](../../../../translated_images/ms/weight-boxplot.1dbab1c03af26f8a.webp)
Memandangkan data kita mengandungi maklumat tentang **peranan** pemain yang berbeza, kita juga boleh membuat plot kotak mengikut peranan - ini akan membolehkan kita mendapatkan idea tentang bagaimana nilai parameter berbeza mengikut peranan. Kali ini kita akan mempertimbangkan ketinggian:
![Plot kotak mengikut peranan](../../../../translated_images/ms/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Plot kotak mengikut peranan](../../../../translated_images/ms/boxplot_byrole.036b27a1c3f52d42.webp)
Diagram ini mencadangkan bahawa, secara purata, ketinggian pemain bas pertama lebih tinggi daripada pemain bas kedua. Kemudian dalam pelajaran ini kita akan belajar bagaimana kita boleh menguji hipotesis ini dengan lebih formal, dan bagaimana untuk menunjukkan bahawa data kita adalah signifikan secara statistik untuk membuktikannya.
@ -85,7 +85,7 @@ Diagram ini mencadangkan bahawa, secara purata, ketinggian pemain bas pertama le
Untuk melihat bagaimana taburan data kita, kita boleh melukis graf yang dipanggil **histogram**. Paksi X akan mengandungi bilangan julat berat yang berbeza (dipanggil **bin**), dan paksi menegak akan menunjukkan bilangan kali sampel pemboleh ubah rawak berada dalam julat tertentu.
![Histogram data dunia sebenar](../../../../translated_images/ms/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram data dunia sebenar](../../../../translated_images/ms/weight-histogram.bfd00caf7fc30b14.webp)
Daripada histogram ini, anda boleh melihat bahawa semua nilai tertumpu di sekitar berat purata tertentu, dan semakin jauh kita dari berat tersebut - semakin sedikit berat dengan nilai tersebut ditemui. Iaitu, sangat tidak mungkin bahawa berat pemain besbol akan sangat berbeza daripada berat purata. Varians berat menunjukkan sejauh mana berat cenderung berbeza daripada purata.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Jika kita melukis histogram sampel yang dijana, kita akan melihat gambar yang sangat serupa dengan yang ditunjukkan di atas. Dan jika kita meningkatkan bilangan sampel dan bilangan bin, kita boleh menghasilkan gambar taburan normal yang lebih hampir kepada ideal:
![Taburan Normal dengan purata=0 dan sisihan piawai=1](../../../../translated_images/ms/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Taburan Normal dengan purata=0 dan sisihan piawai=1](../../../../translated_images/ms/normal-histogram.dfae0d67c202137d.webp)
*Taburan Normal dengan purata=0 dan sisihan piawai=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Dalam kes kita, nilai 0.53 menunjukkan bahawa terdapat beberapa korelasi antara berat dan tinggi seseorang. Kita juga boleh membuat plot taburan satu nilai terhadap yang lain untuk melihat hubungan secara visual:
![Hubungan antara berat dan tinggi](../../../../translated_images/ms/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Hubungan antara berat dan tinggi](../../../../translated_images/ms/weight-height-relationship.3f06bde4ca2aba99.webp)
> Lebih banyak contoh korelasi dan kovarians boleh didapati dalam [notebook yang disertakan](notebook.ipynb).

@ -1,6 +1,6 @@
# Pengenalan kepada Sains Data
![data in action](../../../translated_images/ms/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data in action](../../../translated_images/ms/data.48e22bb7617d8d92.webp)
> Foto oleh <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> di <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, anda akan meneroka bagaimana Sains Data didefinisikan dan mempelajari tentang pertimbangan etika yang perlu diambil kira oleh seorang saintis data. Anda juga akan mempelajari bagaimana data didefinisikan serta sedikit tentang statistik dan kebarangkalian, bidang akademik teras dalam Sains Data.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Bekerja dengan Python - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
[![Video Pengenalan](../../../../translated_images/ms/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Video Pengenalan](../../../../translated_images/ms/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Walaupun pangkalan data menawarkan cara yang sangat efisien untuk menyimpan data dan membuat pertanyaan menggunakan bahasa pertanyaan, cara yang paling fleksibel untuk memproses data adalah dengan menulis program anda sendiri untuk memanipulasi data. Dalam banyak kes, membuat pertanyaan pangkalan data mungkin lebih berkesan. Namun, dalam beberapa kes apabila pemprosesan data yang lebih kompleks diperlukan, ia tidak dapat dilakukan dengan mudah menggunakan SQL.
Pemprosesan data boleh diprogramkan dalam mana-mana bahasa pengaturcaraan, tetapi terdapat beberapa bahasa yang lebih tinggi tahapnya dalam bekerja dengan data. Saintis data biasanya memilih salah satu daripada bahasa berikut:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Plot Siri Masa](../../../../translated_images/ms/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Plot Siri Masa](../../../../translated_images/ms/timeseries-1.80de678ab1cf727e.webp)
Sekarang katakan setiap minggu kita menganjurkan pesta untuk rakan-rakan, dan kita mengambil tambahan 10 pek ais krim untuk pesta. Kita boleh mencipta siri lain, diindeks mengikut minggu, untuk menunjukkan itu:
```python
@ -77,7 +77,7 @@ Apabila kita menambah dua siri bersama-sama, kita mendapat jumlah keseluruhan:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Plot Siri Masa](../../../../translated_images/ms/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Plot Siri Masa](../../../../translated_images/ms/timeseries-2.aae51d575c55181c.webp)
> **Nota** bahawa kita tidak menggunakan sintaks mudah `total_items+additional_items`. Jika kita melakukannya, kita akan menerima banyak nilai `NaN` (*Not a Number*) dalam siri hasil. Ini kerana terdapat nilai yang hilang untuk beberapa titik indeks dalam siri `additional_items`, dan menambah `NaN` kepada apa-apa menghasilkan `NaN`. Oleh itu, kita perlu menentukan parameter `fill_value` semasa penambahan.
@ -86,7 +86,7 @@ Dengan siri masa, kita juga boleh **menyampel semula** siri dengan selang masa y
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Purata Siri Masa Bulanan](../../../../translated_images/ms/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Purata Siri Masa Bulanan](../../../../translated_images/ms/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -212,7 +212,7 @@ Masalah pertama yang akan kita fokuskan ialah pemodelan penyebaran wabak COVID-1
Oleh kerana kita ingin menunjukkan cara menangani data, kami mengajak anda untuk membuka [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) dan membacanya dari atas ke bawah. Anda juga boleh melaksanakan sel-sel, dan melakukan beberapa cabaran yang telah kami tinggalkan untuk anda di penghujungnya.
![COVID Spread](../../../../translated_images/ms/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/ms/covidspread.f3d131c4f1d260ab.webp)
> Jika anda tidak tahu cara menjalankan kod dalam Jupyter Notebook, lihat [artikel ini](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Contoh penuh menganalisis dataset ini menggunakan perkhidmatan kognitif [Text An
Buka [`notebook-papers.ipynb`](notebook-papers.ipynb) dan bacalah dari atas ke bawah. Anda juga boleh melaksanakan sel-sel, dan melakukan beberapa cabaran yang telah kami tinggalkan untuk anda di penghujungnya.
![Covid Medical Treatment](../../../../translated_images/ms/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/ms/covidtreat.b2ba59f57ca45fbc.webp)
## Memproses Data Imej

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Bekerja dengan Data
![data love](../../../translated_images/ms/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/ms/data-love.a22ef29e6742c852.webp)
> Foto oleh <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> di <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, anda akan mempelajari beberapa cara data boleh diuruskan, dimanipulasi, dan digunakan dalam aplikasi. Anda akan belajar tentang pangkalan data relasi dan bukan relasi serta bagaimana data boleh disimpan di dalamnya. Anda akan mempelajari asas-asas bekerja dengan Python untuk mengurus data, dan anda akan menemui beberapa cara yang pelbagai untuk bekerja dengan Python dalam mengurus dan melombong data.

@ -42,7 +42,7 @@ Buat scatterplot asas untuk menunjukkan hubungan antara harga per paun madu dan
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/ms/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/ms/scatter1.5e1aa5fd6706c5d1.webp)
Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bagaimana harga berkembang dari tahun ke tahun. Anda boleh melakukannya dengan menambah parameter 'hue' untuk menunjukkan perubahan dari tahun ke tahun:
@ -51,7 +51,7 @@ Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bag
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/ms/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/ms/scatter2.c0041a58621ca702.webp)
Dengan perubahan skema warna ini, anda dapat melihat dengan jelas perkembangan yang kuat dari tahun ke tahun dalam harga madu per paun. Malah, jika anda melihat set sampel dalam data untuk mengesahkan (pilih negeri tertentu, contohnya Arizona), anda dapat melihat pola kenaikan harga dari tahun ke tahun, dengan beberapa pengecualian:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Anda dapat melihat saiz titik semakin besar.
![scatterplot 3](../../../../translated_images/ms/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/ms/scatter3.3c160a3d1dcb36b3.webp)
Adakah ini kes mudah permintaan dan penawaran? Disebabkan faktor seperti perubahan iklim dan keruntuhan koloni, adakah madu semakin kurang tersedia untuk dibeli dari tahun ke tahun, dan oleh itu harga meningkat?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Jawapan: Ya, dengan beberapa pengecualian sekitar tahun 2003:
![line chart 1](../../../../translated_images/ms/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/ms/line1.f36eb465229a3b1f.webp)
✅ Oleh kerana Seaborn mengagregatkan data di sekitar satu garis, ia memaparkan "pengukuran berganda pada setiap nilai x dengan memplotkan purata dan selang keyakinan 95% di sekitar purata". [Sumber](https://seaborn.pydata.org/tutorial/relational.html). Tingkah laku yang memakan masa ini boleh dilumpuhkan dengan menambah `ci=None`.
@ -105,7 +105,7 @@ Soalan: Nah, pada tahun 2003 adakah kita juga melihat lonjakan dalam bekalan mad
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/ms/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/ms/line2.a5b3493dc01058af.webp)
Jawapan: Tidak begitu. Jika anda melihat jumlah pengeluaran, ia sebenarnya kelihatan meningkat pada tahun tersebut, walaupun secara amnya jumlah madu yang dihasilkan menurun sepanjang tahun-tahun ini.
@ -130,7 +130,7 @@ sns.relplot(
```
Dalam visualisasi ini, anda boleh membandingkan hasil per koloni dan bilangan koloni dari tahun ke tahun, bersebelahan dengan susunan kolum sebanyak 3:
![facet grid](../../../../translated_images/ms/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/ms/facet.6a34851dcd540050.webp)
Untuk dataset ini, tiada apa yang benar-benar menonjol berkaitan dengan bilangan koloni dan hasilnya, dari tahun ke tahun dan negeri ke negeri. Adakah terdapat cara lain untuk mencari korelasi antara dua pemboleh ubah ini?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/ms/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/ms/dual-line.a4c28ce659603fab.webp)
Walaupun tiada apa yang menonjol di mata sekitar tahun 2003, ia membolehkan kita mengakhiri pelajaran ini dengan nota yang sedikit lebih gembira: walaupun terdapat penurunan bilangan koloni secara keseluruhan, bilangan koloni semakin stabil walaupun hasil per koloni semakin menurun.

@ -57,7 +57,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Di sini, anda memasang pakej `ggplot2` dan kemudian mengimportnya ke dalam workspace menggunakan arahan `library("ggplot2")`. Untuk memplot sebarang plot dalam ggplot, fungsi `ggplot()` digunakan dan anda menentukan set data, pemboleh ubah x dan y sebagai atribut. Dalam kes ini, kita menggunakan fungsi `geom_line()` kerana kita ingin memplot plot garis.
![MaxWingspan-lineplot](../../../../../translated_images/ms/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/ms/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Apa yang anda perhatikan dengan segera? Nampaknya terdapat sekurang-kurangnya satu outlier - itu rentang sayap yang sangat besar! Rentang sayap lebih dari 2000 sentimeter bersamaan lebih dari 20 meter - adakah terdapat Pterodaktil berkeliaran di Minnesota? Mari kita siasat.
@ -75,7 +75,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Kita menentukan sudut dalam `theme` dan menentukan label paksi x dan y dalam `xlab()` dan `ylab()` masing-masing. `ggtitle()` memberikan nama kepada graf/plot.
![MaxWingspan-lineplot-improved](../../../../../translated_images/ms/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/ms/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Walaupun dengan putaran label ditetapkan kepada 45 darjah, masih terlalu banyak untuk dibaca. Mari cuba strategi lain: label hanya outlier tersebut dan tetapkan label dalam carta. Anda boleh menggunakan carta scatter untuk memberikan lebih ruang kepada pelabelan:
@ -91,7 +91,7 @@ Apa yang berlaku di sini? Anda menggunakan fungsi `geom_point()` untuk memplot t
Apa yang anda temui?
![MaxWingspan-scatterplot](../../../../../translated_images/ms/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/ms/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## Tapis data anda
@ -110,7 +110,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Kami mencipta dataframe baru `birds_filtered` dan kemudian memplot scatter plot. Dengan menapis outlier, data anda kini lebih koheren dan mudah difahami.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ms/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/ms/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Sekarang kita mempunyai set data yang lebih bersih sekurang-kurangnya dari segi rentang sayap, mari kita temui lebih banyak tentang burung-burung ini.
@ -151,7 +151,7 @@ birds_filtered %>% group_by(Category) %>%
```
Dalam snippet berikut, kami memasang pakej [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) dan [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) untuk membantu memanipulasi dan mengelompokkan data bagi memplot carta bar bertindan. Pertama, anda mengelompokkan data berdasarkan `Category` burung dan kemudian meringkaskan lajur `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Kemudian, plot carta bar menggunakan pakej `ggplot2` dan tentukan warna untuk kategori yang berbeza serta labelnya.
![Stacked bar chart](../../../../../translated_images/ms/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/ms/stacked-bar-chart.0c92264e89da7b39.webp)
Namun, carta bar ini sukar dibaca kerana terdapat terlalu banyak data yang tidak dikelompokkan. Anda perlu memilih hanya data yang ingin anda plot, jadi mari kita lihat panjang burung berdasarkan kategori mereka.
@ -166,7 +166,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Anda mula-mula mengira nilai unik dalam lajur `Category` dan kemudian menyusunnya ke dalam dataframe baru `birds_count`. Data yang disusun ini kemudian difaktorkan pada tahap yang sama supaya ia diplotkan dalam cara yang disusun. Menggunakan `ggplot2` anda kemudian memplot data dalam carta bar. `coord_flip()` memplot bar mendatar.
![category-length](../../../../../translated_images/ms/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/ms/category-length.7e34c296690e85d6.webp)
Carta bar ini menunjukkan pandangan yang baik tentang bilangan burung dalam setiap kategori. Sekilas pandang, anda dapat melihat bahawa bilangan burung terbesar di rantau ini adalah dalam kategori Itik/Angsa/BurungAir. Minnesota adalah 'tanah 10,000 tasik' jadi ini tidak mengejutkan!
@ -189,7 +189,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
Kami mengelompokkan data `birds_filtered` mengikut `Category` dan kemudian memplot graf bar.
![comparing data](../../../../../translated_images/ms/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/ms/comparingdata.f486a450d61c7ca5.webp)
Tiada yang mengejutkan di sini: burung kolibri mempunyai MaxLength paling kecil berbanding Pelikan atau Angsa. Data yang masuk akal secara logik adalah sesuatu yang baik!
@ -201,7 +201,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/ms/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/ms/superimposed-values.5363f0705a1da416.webp)
## 🚀 Cabaran

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![panjang maksimum per order](../../../../../translated_images/ms/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![panjang maksimum per order](../../../../../translated_images/ms/max-length-per-order.e5b283d952c78c12.webp)
Ini memberikan gambaran umum tentang taburan panjang badan per Order burung, tetapi ini bukan cara terbaik untuk memaparkan taburan sebenar. Tugas ini biasanya dilakukan dengan mencipta Histogram.
## Bekerja dengan histogram
@ -47,7 +47,7 @@ Ini memberikan gambaran umum tentang taburan panjang badan per Order burung, tet
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![taburan seluruh dataset](../../../../../translated_images/ms/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![taburan seluruh dataset](../../../../../translated_images/ms/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Seperti yang anda lihat, kebanyakan daripada 400+ burung dalam dataset ini berada dalam julat di bawah 2000 untuk Jisim Badan Maksimum mereka. Dapatkan lebih banyak wawasan tentang data dengan menukar parameter `bins` kepada nombor yang lebih tinggi, seperti 30:
@ -55,7 +55,7 @@ Seperti yang anda lihat, kebanyakan daripada 400+ burung dalam dataset ini berad
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![taburan-30bins](../../../../../translated_images/ms/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![taburan-30bins](../../../../../translated_images/ms/distribution-30bins.6a3921ea7a421bf7.webp)
Carta ini menunjukkan taburan dengan cara yang lebih terperinci. Carta yang kurang condong ke kiri boleh dibuat dengan memastikan anda hanya memilih data dalam julat tertentu:
@ -67,7 +67,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![histogram ditapis](../../../../../translated_images/ms/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![histogram ditapis](../../../../../translated_images/ms/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Cuba beberapa penapis dan titik data lain. Untuk melihat taburan penuh data, keluarkan penapis `['MaxBodyMass']` untuk menunjukkan taburan berlabel.
@ -81,7 +81,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Nampaknya terdapat korelasi yang dijangka antara kedua-dua elemen ini sepanjang paksi yang dijangka, dengan satu titik pertemuan yang sangat kuat:
![plot 2d](../../../../../translated_images/ms/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![plot 2d](../../../../../translated_images/ms/2d-plot.c504786f439bd7eb.webp)
Histogram berfungsi dengan baik secara lalai untuk data berangka. Bagaimana jika anda perlu melihat taburan mengikut data teks?
## Terokai dataset untuk taburan menggunakan data teks
@ -112,7 +112,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![lebar sayap dan konservasi](../../../../../translated_images/ms/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![lebar sayap dan konservasi](../../../../../translated_images/ms/wingspan-conservation-collation.4024e9aa6910866a.webp)
Nampaknya tidak ada korelasi yang baik antara lebar sayap minimum dan status konservasi. Uji elemen lain dalam dataset menggunakan kaedah ini. Anda juga boleh mencuba penapis yang berbeza. Adakah anda menemui sebarang korelasi?
@ -126,7 +126,7 @@ Mari kita bekerja dengan plot ketumpatan sekarang!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![plot ketumpatan](../../../../../translated_images/ms/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![plot ketumpatan](../../../../../translated_images/ms/density-plot.675ccf865b76c690.webp)
Anda dapat melihat bagaimana plot ini mencerminkan yang sebelumnya untuk data LebarSayap Minimum; ia hanya sedikit lebih lancar. Jika anda ingin melihat garis JisimBadanMax yang bergerigi dalam carta kedua yang anda bina, anda boleh melicinkannya dengan baik dengan menciptanya semula menggunakan kaedah ini:
@ -134,7 +134,7 @@ Anda dapat melihat bagaimana plot ini mencerminkan yang sebelumnya untuk data Le
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![ketumpatan jisim badan](../../../../../translated_images/ms/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![ketumpatan jisim badan](../../../../../translated_images/ms/bodymass-smooth.d31ce526d82b0a1f.webp)
Jika anda mahukan garis yang lancar, tetapi tidak terlalu lancar, edit parameter `adjust`:
@ -142,7 +142,7 @@ Jika anda mahukan garis yang lancar, tetapi tidak terlalu lancar, edit parameter
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![jisim badan kurang lancar](../../../../../translated_images/ms/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![jisim badan kurang lancar](../../../../../translated_images/ms/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Baca tentang parameter yang tersedia untuk jenis plot ini dan bereksperimen!
@ -152,7 +152,7 @@ Jenis carta ini menawarkan visualisasi yang sangat jelas. Dengan beberapa baris
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![jisim badan per order](../../../../../translated_images/ms/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![jisim badan per order](../../../../../translated_images/ms/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Cabaran

@ -88,7 +88,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, sebuah carta pai yang menunjukkan peratusan data ini mengikut dua kelas cendawan ini. Sangat penting untuk mendapatkan susunan label dengan betul, terutamanya di sini, jadi pastikan anda mengesahkan susunan dengan cara array label dibina!
![carta pai](../../../../../translated_images/ms/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![carta pai](../../../../../translated_images/ms/pie1-wb.685df063673751f4.webp)
## Donat!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![carta donat](../../../../../translated_images/ms/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![carta donat](../../../../../translated_images/ms/donut-wb.34e6fb275da9d834.webp)
Kod ini menggunakan dua perpustakaan - ggplot2 dan webr. Dengan menggunakan fungsi PieDonut dari perpustakaan webr, kita boleh mencipta carta donat dengan mudah!
@ -160,7 +160,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Menggunakan carta waffle, anda dapat melihat dengan jelas peratusan warna tudung dalam dataset cendawan ini. Menariknya, terdapat banyak cendawan bertudung hijau!
![carta waffle](../../../../../translated_images/ms/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![carta waffle](../../../../../translated_images/ms/waffle.aaa75c5337735a6e.webp)
Dalam pelajaran ini, anda belajar tiga cara untuk memvisualkan peratusan. Pertama, anda perlu mengelompokkan data anda ke dalam kategori dan kemudian memutuskan cara terbaik untuk memaparkan data - pai, donat, atau waffle. Semua ini menarik dan memberikan pengguna gambaran segera tentang dataset.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/ms/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/ms/scatter1.86b8900674d88b26.webp)
Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bagaimana harga berkembang dari tahun ke tahun. Anda boleh melakukannya dengan menambah parameter 'scale_color_gradientn' untuk menunjukkan perubahan dari tahun ke tahun:
@ -52,7 +52,7 @@ Sekarang, tunjukkan data yang sama dengan skema warna madu untuk menunjukkan bag
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/ms/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/ms/scatter2.4d1cbc693bad20e2.webp)
Dengan perubahan skema warna ini, anda dapat melihat dengan jelas perkembangan yang kuat dari tahun ke tahun dalam hal harga madu per paun. Malah, jika anda melihat set sampel dalam data untuk mengesahkan (pilih negeri tertentu, contohnya Arizona), anda dapat melihat pola kenaikan harga dari tahun ke tahun, dengan beberapa pengecualian:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Anda dapat melihat saiz titik semakin besar secara beransur-ansur.
![scatterplot 3](../../../../../translated_images/ms/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/ms/scatter3.722d21e6f20b3ea2.webp)
Adakah ini kes mudah permintaan dan penawaran? Disebabkan faktor seperti perubahan iklim dan keruntuhan koloni, adakah madu semakin kurang tersedia untuk dibeli dari tahun ke tahun, dan oleh itu harga meningkat?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Jawapan: Ya, dengan beberapa pengecualian sekitar tahun 2003:
![line chart 1](../../../../../translated_images/ms/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/ms/line1.299b576fbb2a59e6.webp)
Soalan: Baiklah, pada tahun 2003 adakah kita juga melihat lonjakan dalam bekalan madu? Bagaimana jika anda melihat jumlah pengeluaran dari tahun ke tahun?
@ -106,7 +106,7 @@ Soalan: Baiklah, pada tahun 2003 adakah kita juga melihat lonjakan dalam bekalan
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/ms/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/ms/line2.3b18fcda7176ceba.webp)
Jawapan: Tidak begitu. Jika anda melihat jumlah pengeluaran, ia sebenarnya kelihatan meningkat pada tahun tersebut, walaupun secara amnya jumlah madu yang dihasilkan menurun sepanjang tahun-tahun ini.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Dalam visualisasi ini, anda boleh membandingkan hasil per koloni dan bilangan koloni dari tahun ke tahun, bersebelahan dengan wrap yang ditetapkan pada 3 untuk kolum:
![facet grid](../../../../../translated_images/ms/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/ms/facet.491ad90d61c2a7cc.webp)
Untuk dataset ini, tiada apa-apa yang benar-benar menonjol berkaitan dengan bilangan koloni dan hasilnya, dari tahun ke tahun dan negeri ke negeri. Adakah terdapat cara lain untuk mencari korelasi antara dua pemboleh ubah ini?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/ms/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/ms/dual-line.fc4665f360a54018.webp)
Walaupun tiada apa-apa yang menonjol sekitar tahun 2003, ia membolehkan kita mengakhiri pelajaran ini dengan nota yang sedikit lebih gembira: walaupun terdapat penurunan bilangan koloni secara keseluruhan, bilangan koloni semakin stabil walaupun hasil per koloni semakin berkurangan.

@ -38,25 +38,25 @@ Dalam pelajaran sebelumnya, anda telah bereksperimen dengan membina pelbagai jen
Walaupun seorang saintis data berhati-hati memilih carta yang sesuai untuk data yang betul, terdapat banyak cara data boleh dipaparkan untuk membuktikan sesuatu, sering kali dengan mengorbankan integriti data itu sendiri. Terdapat banyak contoh carta dan infografik yang mengelirukan!
[![Bagaimana Carta Menipu oleh Alberto Cairo](../../../../../translated_images/ms/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Bagaimana carta menipu")
[![Bagaimana Carta Menipu oleh Alberto Cairo](../../../../../translated_images/ms/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Bagaimana carta menipu")
> 🎥 Klik imej di atas untuk ceramah persidangan tentang carta yang mengelirukan
Carta ini membalikkan paksi X untuk menunjukkan kebalikan daripada kebenaran, berdasarkan tarikh:
![carta buruk 1](../../../../../translated_images/ms/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![carta buruk 1](../../../../../translated_images/ms/bad-chart-1.596bc93425a8ac30.webp)
[Carta ini](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) lebih mengelirukan, kerana mata tertarik ke kanan untuk menyimpulkan bahawa, dari masa ke masa, kes COVID telah menurun di pelbagai daerah. Sebenarnya, jika anda melihat dengan teliti pada tarikh, anda akan mendapati bahawa ia telah disusun semula untuk memberikan trend menurun yang mengelirukan.
![carta buruk 2](../../../../../translated_images/ms/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![carta buruk 2](../../../../../translated_images/ms/bad-chart-2.62edf4d2f30f4e51.webp)
Contoh terkenal ini menggunakan warna DAN paksi Y yang terbalik untuk menipu: bukannya menyimpulkan bahawa kematian akibat senjata meningkat selepas penggubalan undang-undang mesra senjata, mata sebenarnya tertipu untuk berfikir sebaliknya:
![carta buruk 3](../../../../../translated_images/ms/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![carta buruk 3](../../../../../translated_images/ms/bad-chart-3.e201e2e915a230bc.webp)
Carta pelik ini menunjukkan bagaimana perkadaran boleh dimanipulasi, dengan kesan yang lucu:
![carta buruk 4](../../../../../translated_images/ms/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![carta buruk 4](../../../../../translated_images/ms/bad-chart-4.8872b2b881ffa96c.webp)
Membandingkan perkara yang tidak sebanding adalah satu lagi helah yang tidak jujur. Terdapat [laman web yang hebat](https://tylervigen.com/spurious-correlations) tentang 'korelasi palsu' yang memaparkan 'fakta' yang mengaitkan perkara seperti kadar perceraian di Maine dan penggunaan marjerin. Sebuah kumpulan Reddit juga mengumpulkan [penggunaan data yang buruk](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Labelkan paksi anda, sediakan legenda jika perlu, dan tawarkan tooltip untuk pem
Jika data anda berbentuk teks dan panjang pada paksi X, anda boleh memiringkan teks untuk kebolehbacaan yang lebih baik. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) menawarkan pemplotan 3D, jika data anda menyokongnya. Visualisasi data yang canggih boleh dihasilkan menggunakan ini.
![plot 3d](../../../../../translated_images/ms/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![plot 3d](../../../../../translated_images/ms/3d.db1734c151eee87d.webp)
## Paparan carta animasi dan 3D
Beberapa visualisasi data terbaik hari ini adalah animasi. Shirley Wu mempunyai visualisasi yang menakjubkan menggunakan D3, seperti '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', di mana setiap bunga adalah visualisasi sebuah filem. Contoh lain untuk Guardian ialah 'bussed out', pengalaman interaktif yang menggabungkan visualisasi dengan Greensock dan D3 serta format artikel scrollytelling untuk menunjukkan bagaimana NYC menangani masalah gelandangan dengan menghantar orang keluar dari bandar.
![busing](../../../../../translated_images/ms/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/ms/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: How America Moves its Homeless" daripada [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisasi oleh Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Walaupun pelajaran ini tidak mencukupi untuk mengajar perpustakaan visualisasi y
Anda akan melengkapkan aplikasi web yang akan memaparkan pandangan animasi rangkaian sosial ini. Ia menggunakan perpustakaan yang dibina untuk mencipta [visual rangkaian](https://github.com/emiliorizzo/vue-d3-network) menggunakan Vue.js dan D3. Apabila aplikasi berjalan, anda boleh menarik nod di skrin untuk menyusun semula data.
![liaisons](../../../../../translated_images/ms/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/ms/liaisons.90ce7360bcf84765.webp)
## Projek: Bina carta untuk menunjukkan rangkaian menggunakan D3.js

@ -1,6 +1,6 @@
# Visualisasi
![seekor lebah di atas bunga lavender](../../../translated_images/ms/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![seekor lebah di atas bunga lavender](../../../translated_images/ms/bee.0aa1d91132b12e3a.webp)
> Foto oleh <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> di <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Memvisualkan data adalah salah satu tugas paling penting bagi seorang saintis data. Gambar bernilai 1000 perkataan, dan visualisasi dapat membantu anda mengenal pasti pelbagai aspek menarik dalam data anda seperti lonjakan, nilai luar biasa, pengelompokan, kecenderungan, dan banyak lagi, yang dapat membantu anda memahami cerita yang ingin disampaikan oleh data anda.

@ -16,7 +16,7 @@ Pada tahap ini, anda mungkin telah menyedari bahawa sains data adalah satu prose
Pelajaran ini memberi tumpuan kepada 3 bahagian dalam kitaran hayat: pengumpulan, pemprosesan, dan penyelenggaraan.
![Rajah kitaran hayat sains data](../../../../translated_images/ms/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Rajah kitaran hayat sains data](../../../../translated_images/ms/data-science-lifecycle.a1e362637503c4fb.webp)
> Foto oleh [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Pengumpulan
@ -92,7 +92,7 @@ Terokai [Kitaran Hayat Proses Sains Data Pasukan](https://docs.microsoft.com/en-
|Proses Sains Data Pasukan (TDSP)|Proses standard industri untuk perlombongan data (CRISP-DM)|
|--|--|
|![Kitaran Hayat Proses Sains Data Pasukan](../../../../translated_images/ms/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Imej Proses Sains Data Alliance](../../../../translated_images/ms/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Kitaran Hayat Proses Sains Data Pasukan](../../../../translated_images/ms/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Imej Proses Sains Data Alliance](../../../../translated_images/ms/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Imej oleh [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Imej oleh [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Kuiz Pasca-Kuliah](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Kitaran Hayat Sains Data
![communication](../../../translated_images/ms/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/ms/communication.06d8e2a88d30d168.webp)
> Foto oleh <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> di <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Dalam pelajaran ini, anda akan meneroka beberapa aspek kitaran hayat Sains Data, termasuk analisis dan komunikasi berkaitan data.

@ -1,12 +1,12 @@
# Sains Data di Awan
![cloud-picture](../../../translated_images/ms/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/ms/cloud-picture.f5526de3c6c6387b.webp)
> Foto oleh [Jelleke Vanooteghem](https://unsplash.com/@ilumire) dari [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Apabila melibatkan sains data dengan data besar, awan boleh menjadi pengubah permainan. Dalam tiga pelajaran seterusnya, kita akan melihat apa itu awan dan mengapa ia sangat berguna. Kita juga akan meneroka dataset kegagalan jantung dan membina model untuk membantu menilai kebarangkalian seseorang mengalami kegagalan jantung. Kita akan menggunakan kuasa awan untuk melatih, menyebarkan, dan menggunakan model dengan dua cara berbeza. Satu cara menggunakan antara muka pengguna sahaja dalam pendekatan Low code/No code, dan cara lain menggunakan Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/ms/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/ms/project-schema.420e56d495624541.webp)
### Topik

@ -32,7 +32,7 @@ Terima kasih kepada pendemokrasian AI, pembangun kini lebih mudah untuk mereka b
* [Sains Data dalam Penjagaan Kesihatan](https://data-flair.training/blogs/data-science-in-healthcare/) - menonjolkan aplikasi seperti pengimejan perubatan (contohnya, MRI, X-Ray, CT-Scan), genomik (penjujukan DNA), pembangunan ubat (penilaian risiko, ramalan kejayaan), analitik ramalan (penjagaan pesakit & logistik bekalan), pengesanan & pencegahan penyakit dll.
![Aplikasi Sains Data di Dunia Sebenar](../../../../translated_images/ms/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Kredit Imej: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Aplikasi Sains Data di Dunia Sebenar](../../../../translated_images/ms/data-science-applications.4e5019cd8790ebac.webp) Kredit Imej: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Rajah ini menunjukkan domain lain dan contoh untuk menerapkan teknik sains data. Mahu meneroka aplikasi lain? Lihat bahagian [Kajian & Pembelajaran Kendiri](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) di bawah.

@ -13,7 +13,7 @@ Antara muka Explorer (seperti yang ditunjukkan dalam tangkapan skrin di bawah) m
2. Terokai [Katalog dataset](https://planetarycomputer.microsoft.com/catalog) - pelajari tujuan setiap dataset.
3. Gunakan Explorer - pilih dataset yang menarik, pilih pertanyaan dan pilihan rendering yang relevan.
![The Planetary Computer Explorer](../../../../translated_images/ms/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![The Planetary Computer Explorer](../../../../translated_images/ms/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Tugas Anda:`
Sekarang kaji visualisasi yang dipaparkan dalam pelayar dan jawab soalan berikut:

@ -1,4 +1,4 @@
# Data Science untuk Pemula - Kurikulum
# Sains Data untuk Pemula - Kurikulum
[![Open in GitHub Codespaces](https://github.com/codespaces/badge.svg)](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
@ -17,16 +17,16 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Azure Cloud Advocates di Microsoft berbesar hati untuk menawarkan kurikulum 10 minggu, 20 pelajaran semuanya mengenai Sains Data. Setiap pelajaran termasuk kuiz pra-pelajaran dan pasca-pelajaran, arahan bertulis untuk menyelesaikan pelajaran, penyelesaian, dan tugasan. Pedagogi berasaskan projek kami membolehkan anda belajar sambil membina, cara terbukti agar kemahiran baru 'melekat'.
Azure Cloud Advocates di Microsoft dengan sukacitanya menawarkan kurikulum 10 minggu, 20 pelajaran yang semuanya mengenai Sains Data. Setiap pelajaran termasuk kuiz pra-pelajaran dan pasca-pelajaran, arahan bertulis untuk melengkapkan pelajaran, penyelesaian, dan tugasan. Pedagogi berasaskan projek kami membolehkan anda belajar sambil membina, satu cara yang terbukti agar kemahiran baru melekat.
**Terima kasih yang tidak terhingga kepada penulis kami:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Terima kasih banyak kepada penulis kami:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Terima kasih khas 🙏 kepada penulis, penyemak dan penyumbang kandungan [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/),** khususnya Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Terima kasih khas 🙏 kepada penulis, pemeriksa dan penyumbang kandungan [Duta Pelajar Microsoft](https://studentambassadors.microsoft.com/),** khususnya Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/ms/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science For Beginners - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
| Sains Data Untuk Pemula - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
### 🌐 Sokongan Pelbagai Bahasa
@ -36,22 +36,32 @@ Azure Cloud Advocates di Microsoft berbesar hati untuk menawarkan kurikulum 10 m
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](./README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](../tl/README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Lebih Suka Klon Secara Tempatan?**
> Repositori ini termasuk 50+ terjemahan bahasa yang secara signifikan meningkatkan saiz muat turun. Untuk klon tanpa terjemahan, gunakan sparse checkout:
>
> Repositori ini termasuk lebih 50 terjemahan bahasa yang secara ketara meningkatkan saiz muat turun. Untuk klon tanpa terjemahan, gunakan sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Ini memberikan anda segala yang anda perlukan untuk menyelesaikan kursus dengan muat turun yang jauh lebih pantas.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ini memberikan anda segala yang anda perlukan untuk melengkapkan kursus dengan muat turun yang lebih pantas.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Jika anda mahu bahasa terjemahan tambahan disokong disenaraikan [di sini](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Jika anda ingin menyokong bahasa terjemahan tambahan disenaraikan [di sini](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Sertai Komuniti Kami
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Kami mempunyai siri pelajaran Discord belajar dengan AI yang sedang berjalan, ketahui lebih lanjut dan sertai kami di [Learn with AI Series](https://aka.ms/learnwithai/discord) dari 18 - 30 September, 2025. Anda akan mendapat petua dan trik menggunakan GitHub Copilot untuk Sains Data.
Kami mempunyai siri belajar Discord bersama AI yang sedang berlangsung, pelajari lebih lanjut dan sertai kami di [Learn with AI Series](https://aka.ms/learnwithai/discord) dari 18 - 30 September, 2025. Anda akan mendapat petua dan trik menggunakan GitHub Copilot untuk Sains Data.
![Learn with AI series](../../translated_images/ms/1.2b28cdc6205e26fe.webp)
@ -59,135 +69,135 @@ Kami mempunyai siri pelajaran Discord belajar dengan AI yang sedang berjalan, ke
Mulakan dengan sumber berikut:
- [Halaman Pusat Pelajar](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Di halaman ini, anda akan menemui sumber untuk pemula, Pek Pelajar dan juga cara untuk mendapatkan baucar sijil percuma. Ini adalah satu halaman yang anda mahu tandakan dan semak dari masa ke semasa kerana kami menukar kandungan sekurang-kurangnya sebulan sekali.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Sertai komuniti global duta pelajar, ini boleh jadi jalan anda ke Microsoft.
- [Halaman Pusat Pelajar](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Dalam halaman ini, anda akan dapati sumber untuk pemula, Pek Pelajar dan juga cara mendapatkan baucar sijil percuma. Ini adalah satu halaman yang anda mahu tandakan dan semak dari semasa ke semasa kerana kami menukar kandungan sekurang-kurangnya sebulan sekali.
- [Duta Pelajar Microsoft Learn](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Sertai komuniti global duta pelajar, ini mungkin menjadi jalan anda ke Microsoft.
# Memulakan
## 📚 Dokumentasi
- **[Panduan Pemasangan](INSTALLATION.md)** - Arahan langkah demi langkah untuk pemula
- **[Panduan Pemasangan](INSTALLATION.md)** - Arahan penyediaan langkah demi langkah untuk pemula
- **[Panduan Penggunaan](USAGE.md)** - Contoh dan aliran kerja biasa
- **[Penyelesaian Masalah](TROUBLESHOOTING.md)** - Penyelesaian untuk masalah biasa
- **[Panduan Menyumbang](CONTRIBUTING.md)** - Cara menyumbang kepada projek ini
- **[Untuk Guru](for-teachers.md)** - Panduan mengajar dan sumber bilik darjah
- **[Penyelesaian Masalah](TROUBLESHOOTING.md)** - Penyelesaian untuk isu biasa
- **[Panduan Menyumbang](CONTRIBUTING.md)** - Cara menyumbang ke projek ini
- **[Untuk Guru](for-teachers.md)** - Panduan pengajaran dan sumber kelas
## 👨‍🎓 Untuk Pelajar
> **Pemula Sepenuhnya**: Baru dalam sains data? Mula dengan [contoh mesra pemula kami](examples/README.md)! Contoh mudah yang disertakan dengan komen ini akan membantu anda memahami asas sebelum meneruskan kurikulum penuh.
> **[Pelajar](https://aka.ms/student-page)**: untuk menggunakan kurikulum ini sendiri, forklah repositori sepenuhnya dan selesaikan latihan sendiri, bermula dengan kuiz pra-ceramah. Kemudian baca kuliah dan selesaikan aktiviti yang lain. Cuba cipta projek dengan memahami pelajaran dan bukannya menyalin kod penyelesaian; namun, kod tersebut tersedia dalam folder /solutions dalam setiap pelajaran berorientasikan projek. Satu lagi idea adalah untuk membentuk kumpulan belajar bersama rakan dan meneliti kandungan bersama. Untuk pembelajaran lanjut, kami mengesyorkan [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Pemula Lengkap**: Baru dalam sains data? Mulakan dengan [contoh mesra pemula kami](examples/README.md)! Contoh mudah dan penuh komen ini akan membantu anda memahami asas sebelum menyelami kurikulum penuh.
> **[Pelajar](https://aka.ms/student-page)**: untuk menggunakan kurikulum ini sendiri, buat fork untuk keseluruhan repo dan selesaikan latihan secara sendiri, bermula dengan kuiz pra-ceramah. Kemudian baca ceramah dan lengkapkan aktiviti yang lain. Cuba bina projek dengan memahami pelajaran berbanding menyalin kod penyelesaian; bagaimanapun, kod tersebut tersedia dalam folder /solutions pada setiap pelajaran berorientasikan projek. Satu lagi idea ialah membentuk kumpulan belajar dengan rakan dan melalui kandungan bersama. Untuk kajian lanjut, kami mengesyorkan [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Mula Pantas:**
**Mula dengan Cepat:**
1. Semak [Panduan Pemasangan](INSTALLATION.md) untuk menyediakan persekitaran anda
2. Tinjau [Panduan Penggunaan](USAGE.md) untuk belajar cara bekerja dengan kurikulum
3. Mulakan dengan Pelajaran 1 dan teruskan secara berurutan
4. Sertai [komuniti Discord kami](https://aka.ms/ds4beginners/discord) untuk sokongan
## 👩‍🏫 Untuk Guru
> **Guru**: kami telah [menyertakan beberapa cadangan](for-teachers.md) tentang cara menggunakan kurikulum ini. Kami ingin mendengar maklum balas anda [di forum perbincangan kami](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Guru**: kami telah [menyediakan beberapa cadangan](for-teachers.md) tentang cara menggunakan kurikulum ini. Kami menghargai maklum balas anda [di forum perbincangan kami](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Kenali Pasukan
[![Video promosi](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video promosi")
[![Video promo](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Video promo")
**Gif oleh** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Klik imej di atas untuk video tentang projek dan orang-orang yang menciptakannya!
> 🎥 Klik imej di atas untuk video mengenai projek ini dan orang-orang yang menciptakannya!
## Pedagogi
Kami telah memilih dua prinsip pedagogi semasa membina kurikulum ini: memastikan ia berasaskan projek dan turut merangkumi kuiz secara kerap. Pada akhir siri ini, pelajar akan mempelajari prinsip asas sains data, termasuk konsep etika, penyediaan data, pelbagai cara bekerja dengan data, visualisasi data, analisis data, penggunaan sebenar sains data, dan banyak lagi.
Kami telah memilih dua prinsip pedagogi semasa membina kurikulum ini: memastikan ia berasaskan projek dan termasuk kuiz yang kerap. Pada akhir siri ini, pelajar akan mempelajari prinsip asas sains data, termasuk konsep etika, penyediaan data, pelbagai cara bekerja dengan data, visualisasi data, analisis data, kes penggunaan dunia sebenar dalam sains data, dan banyak lagi.
Selain itu, kuiz dengan risiko rendah sebelum kelas menetapkan niat pelajar untuk mempelajari sesuatu topik, manakala kuiz kedua selepas kelas memastikan pengekalan pengetahuan lebih lanjut. Kurikulum ini direka supaya fleksibel dan menyeronokkan dan boleh diikuti sepenuhnya atau sebahagian. Projek bermula dengan mudah dan menjadi semakin kompleks menjelang akhir kitaran 10 minggu.
Selain itu, kuiz berisiko rendah sebelum kelas menetapkan niat pelajar untuk mempelajari topik, manakala kuiz kedua selepas kelas memastikan pengekalan lanjut. Kurikulum ini direka untuk menjadi fleksibel dan menyeronokkan dan boleh diambil secara keseluruhan atau sebahagiannya. Projek-projek bermula kecil dan menjadi semakin kompleks pada akhir kitaran 10 minggu.
> Dapatkan [Kod Etika](CODE_OF_CONDUCT.md), [Menyumbang](CONTRIBUTING.md), [Panduan Terjemahan](TRANSLATIONS.md) kami. Kami mengalu-alukan maklum balas membina anda!
> Dapatkan [Kod Etika](CODE_OF_CONDUCT.md), [Panduan Menyumbang](CONTRIBUTING.md), [Terjemahan](TRANSLATIONS.md) kami. Kami mengalu-alukan maklum balas anda yang membina!
## Setiap pelajaran termasuk:
## Setiap pelajaran merangkumi:
- Nota lakaran pilihan
- Sketchnote pilihan
- Video tambahan pilihan
- Kuiz pemanasan sebelum pelajaran
- Pelajaran bertulis
- Untuk pelajaran berasaskan projek, panduan langkah demi langkah membina projek
- Semakan pengetahuan
- Satu cabaran
- Untuk pelajaran berasaskan projek, panduan langkah demi langkah bagaimana membina projek
- Pemeriksaan pengetahuan
- Cabaran
- Bacaan tambahan
- Tugasan
- [Kuiz selepas pelajaran](https://ff-quizzes.netlify.app/en/)
> **Nota tentang kuiz**: Semua kuiz terdapat dalam folder Quiz-App, dengan jumlah 40 kuiz mengandungi tiga soalan setiap satu. Ia dihubungkan dari dalam pelajaran, tetapi aplikasi kuiz boleh dijalankan secara lokal atau dihoskan di Azure; ikut arahan dalam folder `quiz-app`. Ia sedang diterjemahkan secara beransur-ansur.
> **Nota mengenai kuiz**: Semua kuiz terkandung dalam folder Quiz-App, dengan 40 kuiz keseluruhan, setiap satu mempunyai tiga soalan. Ia dipautkan dalam pelajaran, tetapi aplikasi kuiz boleh dijalankan secara lokal atau dideploy ke Azure; ikut arahan dalam folder `quiz-app`. Ia sedang diterjemahkan secara berperingkat.
## 🎓 Contoh Mesra Pemula
**Baru dalam Sains Data?** Kami telah mencipta direktori [contoh khusus](examples/README.md) dengan kod ringkas dan berkomentar untuk membantu anda bermula:
**Baru dalam Sains Data?** Kami telah mencipta direktori [contoh khas](examples/README.md) dengan kod mudah dan diberi ulasan untuk membantu anda bermula:
- 🌟 **Hello World** - Program data sains pertama anda
- 📂 **Memuat Data** - Belajar membaca dan meneroka set data
- 📊 **Analisis Ringkas** - Kirakan statistik dan cari corak
- 📈 **Visualisasi Asas** - Buat carta dan graf
- 🌟 **Hello World** - Program pertama sains data anda
- 📂 **Memuatkan Data** - Belajar membaca dan meneroka set data
- 📊 **Analisis Ringkas** - Mengira statistik dan mencari corak
- 📈 **Visualisasi Asas** - Membuat carta dan graf
- 🔬 **Projek Dunia Sebenar** - Aliran kerja lengkap dari mula hingga selesai
Setiap contoh termasuk komen terperinci yang menerangkan setiap langkah, menjadikannya sempurna untuk yang benar-benar baru!
Setiap contoh termasuk ulasan terperinci yang menerangkan setiap langkah, sesuai untuk pemula mutlak!
👉 **[Mulakan dengan contoh](examples/README.md)** 👈
## Pelajaran
|![ Nota lakaran oleh @sketchthedocs https://sketchthedocs.dev](../../translated_images/ms/00-Roadmap.4905d6567dff4753.webp)|
|![ Sketchnote oleh @sketchthedocs https://sketchthedocs.dev](../../translated_images/ms/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: Peta Jalan - _Nota lakaran oleh [@nitya](https://twitter.com/nitya)_ |
| Sains Data Untuk Pemula: Peta Jalan - _Sketchnote oleh [@nitya](https://twitter.com/nitya)_ |
| Nombor Pelajaran | Topik | Kumpulan Pelajaran | Objektif Pembelajaran | Pelajaran Berkaitan | Pengarang |
| Nombor Pelajaran | Topik | Pengelompokan Pelajaran | Objektif Pembelajaran | Pelajaran Pautan | Pengarang |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Mendefinisikan Sains Data | [Pengenalan](1-Introduction/README.md) | Pelajari konsep asas di sebalik sains data dan bagaimana ia berkaitan dengan kecerdasan buatan, pembelajaran mesin, dan data besar. | [pelajaran](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika Sains Data | [Pengenalan](1-Introduction/README.md) | Konsep, cabaran & kerangka etika data. | [pelajaran](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Mendefinisikan Data | [Pengenalan](1-Introduction/README.md) | Bagaimana data diklasifikasikan dan sumbernya yang biasa. | [pelajaran](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 02 | Etika Sains Data | [Pengenalan](1-Introduction/README.md) | Konsep Etika Data, Cabaran & Kerangka Kerja. | [pelajaran](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Mendefinisikan Data | [Pengenalan](1-Introduction/README.md) | Bagaimana data dikategorikan dan sumber umumnya. | [pelajaran](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Pengenalan Statistik & Kebarangkalian | [Pengenalan](1-Introduction/README.md) | Teknik matematik kebarangkalian dan statistik untuk memahami data. | [pelajaran](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Bekerja dengan Data Relasi | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan kepada data relasi dan asas untuk meneroka serta menganalisis data relasi dengan Bahasa Pertanyaan Berstruktur, juga dikenali sebagai SQL (disebut “see-quell”). | [pelajaran](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Bekerja dengan Data NoSQL | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan kepada data bukan relasi, pelbagai jenisnya dan asas penerokaan serta penganalisisan pangkalan data dokumen. | [pelajaran](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Bekerja dengan Python | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Asas menggunakan Python untuk penerokaan data dengan pustaka seperti Pandas. Pemahaman asas pengaturcaraan Python disyorkan. | [pelajaran](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Penyediaan Data | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Topik teknik data untuk membersih dan mengubah data bagi menangani cabaran data yang hilang, tidak tepat atau tidak lengkap. | [pelajaran](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisasi Kuantiti | [Visualisasi Data](3-Data-Visualization/README.md) | Belajar menggunakan Matplotlib untuk memvisualkan data burung 🦆 | [pelajaran](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisasi Taburan Data | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan pemerhatian dan trend dalam sesuatu interval. | [pelajaran](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisasi Peratusan | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan peratusan diskret dan bergrup. | [pelajaran](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisasi Hubungan | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan hubungan dan korelasi antara set data dan pembolehubahnya. | [pelajaran](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisasi Bermakna | [Visualisasi Data](3-Data-Visualization/README.md) | Teknik dan panduan untuk menjadikan visualisasi anda bernilai untuk menyelesaikan masalah dengan berkesan dan mendapatkan wawasan. | [pelajaran](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Pengenalan kepada kitaran hayat Sains Data | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Pengenalan kepada kitaran hayat sains data dan langkah pertama iaitu memperoleh dan mengekstrak data. | [pelajaran](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Menganalisis | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Fasa kitaran hayat sains data yang menumpukan pada teknik untuk menganalisis data. | [pelajaran](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasi | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Fasa kitaran hayat sains data yang menumpukan pada penyampaian wawasan daripada data dengan cara yang memudahkan pembuat keputusan memahaminya. | [pelajaran](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Sains Data di Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Siri pelajaran ini memperkenalkan sains data di awan dan manfaatnya. | [pelajaran](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 18 | Sains Data di Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Melatih model menggunakan alat Low Code. |[pelajaran](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 19 | Sains Data di Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Menyebarkan model dengan Azure Machine Learning Studio. | [pelajaran](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 20 | Sains Data Dalam Dunia Nyata | [Dalam Dunia Nyata](6-Data-Science-In-Wild/README.md) | Projek berpandukan sains data di dunia sebenar. | [pelajaran](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 05 | Bekerja dengan Data Relasi | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan kepada data relasi dan asas meneroka dan menganalisis data relasi dengan Bahasa Pertanyaan Berstruktur, juga dikenali sebagai SQL (disebut “see-quell”). | [pelajaran](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Bekerja dengan Data NoSQL | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Pengenalan kepada data bukan relasi, pelbagai jenisnya dan asas meneroka serta menganalisis pangkalan data dokumen. | [pelajaran](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Bekerja dengan Python | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Asas menggunakan Python untuk eksplorasi data dengan perpustakaan seperti Pandas. Pemahaman asas pengaturcaraan Python disyorkan. | [pelajaran](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Penyediaan Data | [Bekerja Dengan Data](2-Working-With-Data/README.md) | Topik teknik data untuk membersihkan dan mengubah data bagi mengendalikan cabaran data yang hilang, tidak tepat, atau tidak lengkap. | [pelajaran](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Memvisualkan Kuantiti | [Visualisasi Data](3-Data-Visualization/README.md) | Belajar menggunakan Matplotlib untuk memvisualkan data burung 🦆 | [pelajaran](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Memvisualkan Taburan Data | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan pemerhatian dan tren dalam selang. | [pelajaran](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Memvisualkan Peratusan | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan peratusan diskret dan berkumpulan. | [pelajaran](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Memvisualkan Hubungan | [Visualisasi Data](3-Data-Visualization/README.md) | Memvisualkan hubungan dan korelasi antara set data dan pembolehubahnya. | [pelajaran](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualisasi Bermakna | [Visualisasi Data](3-Data-Visualization/README.md) | Teknik dan panduan membuat visualisasi yang bernilai untuk menyelesaikan masalah dan mendapatkan wawasan secara berkesan. | [pelajaran](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Pengenalan ke kitaran hayat Sains Data | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Pengenalan kepada kitaran hayat sains data dan langkah pertama untuk memperoleh dan mengekstrak data. | [pelajaran](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Menganalisis | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Fasa dalam kitaran hayat sains data yang menumpukan pada teknik menganalisis data. | [pelajaran](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasi | [Kitaran Hayat](4-Data-Science-Lifecycle/README.md) | Fasa dalam kitaran hayat sains data yang menumpukan pada penyampaian wawasan dari data dengan cara yang memudahkan penggubal keputusan memahami. | [pelajaran](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Sains Data dalam Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Siri pelajaran ini memperkenalkan sains data dalam awan dan manfaatnya. | [pelajaran](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 18 | Sains Data dalam Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Melatih model menggunakan Alat Kod Rendah. |[pelajaran](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 19 | Sains Data dalam Awan | [Data Awan](5-Data-Science-In-Cloud/README.md) | Menyebarkan model dengan Azure Machine Learning Studio. | [pelajaran](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) dan [Maud](https://twitter.com/maudstweets) |
| 20 | Sains Data di Dunia Nyata | [Di Dunia Nyata](6-Data-Science-In-Wild/README.md) | Projek didorong oleh sains data dalam dunia sebenar. | [pelajaran](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Ikuti langkah ini untuk membuka contoh ini dalam Codespace:
1. Klik menu lungsur Code dan pilih pilihan Open with Codespaces.
2. Pilih + New codespace di bawah bahagian panel.
Untuk maklumat lanjut, sila semak [dokumentasi GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
1. Klik menu lungsur Kod dan pilih pilihan Buka dengan Codespaces.
2. Pilih + Codespace baru di bahagian bawah pane.
Untuk maklumat lanjut, lihat [dokumentasi GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Ikuti langkah ini untuk membuka repositori ini dalam bekas menggunakan mesin setempat anda dan VSCode dengan sambungan VS Code Remote - Containers:
## VSCode Jauh - Kontena
Ikut langkah berikut untuk membuka repo ini dalam kontena menggunakan mesin tempatan anda dan VSCode dengan sambungan VS Code Remote - Containers:
1. Jika ini kali pertama anda menggunakan bekas pembangunan, pastikan sistem anda memenuhi syarat prasyarat (cth: memasang Docker) dalam [dokumentasi memulakan](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Jika ini kali pertama anda menggunakan kontena pembangunan, pastikan sistem anda memenuhi syarat prasyarat (iaitu memasang Docker) dalam [dokumentasi memulakan](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Untuk menggunakan repositori ini, anda boleh buka repositori dalam volum Docker terpencil:
**Nota**: Secara teknikal, ini akan menggunakan arahan Remote-Containers: **Clone Repository in Container Volume...** untuk menggandakan kod sumber dalam volum Docker dan bukannya sistem fail tempatan. [Volume](https://docs.docker.com/storage/volumes/) adalah mekanisme pilihan untuk mengekalkan data bekas.
**Nota**: Di belakang tabir, ini akan menggunakan perintah Remote-Containers: **Clone Repository in Container Volume...** untuk klon kod sumber dalam volum Docker bukannya sistem fail tempatan. [Volum](https://docs.docker.com/storage/volumes/) adalah mekanisme yang disyorkan untuk menyimpan data kontena.
Atau buka salinan repositori yang digandakan atau dimuat turun secara tempatan:
Atau buka versi yang telah diklon atau dimuat turun secara tempatan:
- Gandakan repositori ini ke sistem fail tempatan anda.
- Klon repositori ini ke sistem fail tempatan anda.
- Tekan F1 dan pilih perintah **Remote-Containers: Open Folder in Container...**.
- Pilih salinan folder yang digandakan ini, tunggu bekas bermula, dan cuba ia.
- Pilih salinan folder yang telah diklon, tunggu kontena mula, dan cuba.
## Akses Luar Talian
Anda boleh menjalankan dokumentasi ini secara luar talian menggunakan [Docsify](https://docsify.js.org/#/). Fork repositori ini, [pasang Docsify](https://docsify.js.org/#/quickstart) pada mesin tempatan anda, kemudian pada folder akar repositori ini, taip `docsify serve`. Laman web akan dihidangkan pada port 3000 di localhost anda: `localhost:3000`.
Anda boleh menjalankan dokumentasi ini secara luar talian dengan menggunakan [Docsify](https://docsify.js.org/#/). Gandakan repo ini, [pasang Docsify](https://docsify.js.org/#/quickstart) pada mesin tempatan anda, kemudian dalam folder root repo ini, taip `docsify serve`. Laman web akan dihoskan di port 3000 pada localhost anda: `localhost:3000`.
> Nota, buku nota tidak akan dirender melalui Docsify, jadi apabila anda perlu menjalankan buku nota, jalankan secara berasingan dalam VS Code menggunakan kernel Python.
> Nota, buku nota tidak akan dipaparkan melalui Docsify, jadi apabila anda perlu menjalankan buku nota, lakukan secara berasingan dalam VS Code yang menjalankan kernel Python.
## Kurikulum Lain
@ -235,9 +245,9 @@ Pasukan kami menghasilkan kurikulum lain! Lihat:
## Mendapatkan Bantuan
**Menghadapi masalah?** Semak [Panduan Penyelesaian Masalah](TROUBLESHOOTING.md) kami untuk penyelesaian masalah yang biasa.
**Mengalami masalah?** Semak [Panduan Penyelesaian Masalah](TROUBLESHOOTING.md) kami untuk penyelesaian masalah biasa.
Jika anda tersekat atau mempunyai sebarang pertanyaan tentang membina aplikasi AI. Sertai pelajar lain dan pembangun berpengalaman dalam perbincangan tentang MCP. Ia adalah komuniti sokongan di mana soalan dialu-alukan dan pengetahuan dikongsi dengan bebas.
Jika anda tersekat atau mempunyai sebarang soalan mengenai membina aplikasi AI. Sertai rakan pembelajar dan pembangun berpengalaman dalam perbincangan mengenai MCP. Ia adalah komuniti yang menyokong di mana soalan dialu-alukan dan pengetahuan dikongsi dengan bebas.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
@ -249,5 +259,5 @@ Jika anda mempunyai maklum balas produk atau ralat semasa membina, lawati:
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Penafian**:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sahih. Untuk maklumat penting, terjemahan oleh penterjemah manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya hendaklah dianggap sebagai sumber yang sahih. Untuk maklumat yang kritikal, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Cari semua sketchnote di sini!
Nitya Narasimhan, artis
![sketchnote peta jalan](../../../translated_images/ms/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![sketchnote peta jalan](../../../translated_images/ms/00-Roadmap.4905d6567dff4753.webp)
---

@ -11,12 +11,24 @@
"source_file": "1-Introduction/01-defining-data-science/assignment.md",
"language_code": "tl"
},
"1-Introduction/01-defining-data-science/notebook.ipynb": {
"original_hash": "8f5eb7b3f7cc89e6d98fb32e1de65dec",
"translation_date": "2026-02-27T10:02:13+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "tl"
},
"1-Introduction/01-defining-data-science/solution/assignment.md": {
"original_hash": "a8f79b9c0484c35b4f26e8aec7fc4d56",
"translation_date": "2025-08-28T02:45:41+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/assignment.md",
"language_code": "tl"
},
"1-Introduction/01-defining-data-science/solution/notebook.ipynb": {
"original_hash": "090bbfbfcb0c40d3d6e3236f836164ea",
"translation_date": "2026-02-27T10:02:50+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "tl"
},
"1-Introduction/02-ethics/README.md": {
"original_hash": "58860ce9a4b8a564003d2752f7c72851",
"translation_date": "2025-10-03T16:48:59+00:00",
@ -95,6 +107,12 @@
"source_file": "2-Working-With-Data/07-python/assignment.md",
"language_code": "tl"
},
"2-Working-With-Data/07-python/notebook-covidspread.ipynb": {
"original_hash": "6335cccba01dc6ad7b15aba7a8c73f38",
"translation_date": "2026-02-27T10:03:45+00:00",
"source_file": "2-Working-With-Data/07-python/notebook-covidspread.ipynb",
"language_code": "tl"
},
"2-Working-With-Data/08-data-preparation/README.md": {
"original_hash": "1b560955ff39a2bcf2a049fce474a951",
"translation_date": "2025-09-06T00:21:29+00:00",
@ -360,8 +378,8 @@
"language_code": "tl"
},
"README.md": {
"original_hash": "9204a2806964384a56f5cb0f22bbe953",
"translation_date": "2026-02-06T08:42:34+00:00",
"original_hash": "f671e295a294a2559fc59d1524e001b4",
"translation_date": "2026-02-27T10:08:58+00:00",
"source_file": "README.md",
"language_code": "tl"
},

@ -6,7 +6,7 @@
---
[![Video ng Pagpapakilala sa Data Science](../../../../translated_images/tl/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.png)](https://youtu.be/beZ7Mb_oz9I)
[![Video ng Pagpapakilala sa Data Science](../../../../translated_images/tl/video-def-ds.6623ee2392ef1abf.webp)](https://youtu.be/beZ7Mb_oz9I)
## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Kung nais nating gawing mas komplikado, maaari nating i-plot ang oras na ginugol
Sa hamong ito, susubukan nating tukuyin ang mga konseptong may kaugnayan sa larangan ng Data Science sa pamamagitan ng pagsusuri sa mga teksto. Kukuha tayo ng isang artikulo mula sa Wikipedia tungkol sa Data Science, ida-download at ipoproseso ang teksto, at gagawa ng isang word cloud na ganito:
![Word Cloud para sa Data Science](../../../../translated_images/tl/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.png)
![Word Cloud para sa Data Science](../../../../translated_images/tl/ds_wordcloud.664a7c07dca57de0.webp)
Bisitahin ang [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') upang basahin ang code. Maaari mo ring patakbuhin ang code, at makita kung paano nito isinasagawa ang lahat ng data transformations sa real time.

@ -3,15 +3,15 @@
{
"cell_type": "markdown",
"source": [
"# Hamon: Pagsusuri ng Teksto tungkol sa Data Science\n",
"# Hamon: Pagsusuri ng Teksto tungkol sa Agham ng Datos\n",
"\n",
"Sa halimbawang ito, gagawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng hakbang ng tradisyunal na proseso ng data science. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang maisagawa ang mga ito at obserbahan ang resulta. Bilang hamon, hinihikayat kang subukan ang code na ito gamit ang iba't ibang datos.\n",
"Sa halimbawa na ito, gawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng hakbang ng isang tradisyunal na proseso ng agham ng datos. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang patakbuhin ang mga ito at obserbahan ang resulta. Bilang isang hamon, hinihikayat kang subukan ang code na ito sa iba't ibang datos.\n",
"\n",
"## Layunin\n",
"\n",
"Sa araling ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Data Science. Subukan nating tuklasin ang higit pang mga kaugnay na konsepto sa pamamagitan ng paggawa ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Data Science, kukunin ang mga keyword mula rito, at pagkatapos ay susubukan nating i-visualize ang resulta.\n",
"Sa leksyon na ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Agham ng Datos. Subukan nating tuklasin pa ang mga kaugnay na konsepto sa pamamagitan ng paggawa ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Agham ng Datos, kukuha ng mga keyword mula dito, at pagkatapos ay susubukan nating ipakita ang resulta.\n",
"\n",
"Bilang teksto, gagamitin ko ang pahina tungkol sa Data Science mula sa Wikipedia:\n"
"Bilang teksto, gagamitin ko ang pahina tungkol sa Agham ng Datos mula sa Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 1: Pagkuha ng Datos\n",
"## Step 1: Pagkuha ng Data\n",
"\n",
"Ang unang hakbang sa bawat proseso ng data science ay ang pagkuha ng datos. Gagamitin natin ang `requests` library para dito:\n"
"Ang unang hakbang sa bawat proseso ng data science ay ang pagkuha ng data. Gagamitin natin ang library na `requests` para gawin ito:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 2: Pagbabago ng Datos\n",
"## Step 2: Pagbago ng Datos\n",
"\n",
"Ang susunod na hakbang ay ang pag-convert ng datos sa anyo na angkop para sa pagproseso. Sa ating kaso, nag-download tayo ng HTML source code mula sa pahina, at kailangan natin itong gawing plain text.\n",
"Ang susunod na hakbang ay i-convert ang datos sa anyo na angkop para sa pagproseso. Sa aming kaso, nag-download kami ng source code ng HTML mula sa pahina, at kailangan naming i-convert ito sa plain text.\n",
"\n",
"Maraming paraan para magawa ito. Gagamitin natin ang pinakasimpleng built-in na [HTMLParser](https://docs.python.org/3/library/html.parser.html) object mula sa Python. Kailangan nating mag-subclass sa `HTMLParser` class at tukuyin ang code na magko-collect ng lahat ng teksto sa loob ng HTML tags, maliban sa `<script>` at `<style>` tags.\n"
"Maraming paraan upang gawin ito. Gagamitin namin ang [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), isang kilalang library ng Python para sa pag-parse ng HTML. Pinapayagan kami ng BeautifulSoup na tumutok sa mga partikular na elemento ng HTML, kaya maaari naming ituon ang pangunahing nilalaman ng artikulo mula sa Wikipedia at bawasan ang ilang mga navigation menu, sidebar, footer, at iba pang hindi mahalagang nilalaman (bagama't maaaring may ilang boilerplate na teksto na manatili).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Una, kailangan nating i-install ang BeautifulSoup na library para sa pag-parse ng HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 64,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification  • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 3: Pagkuha ng Mga Insight\n",
"## Step 3: Pagkuha ng Mga Pananaw\n",
"\n",
"Ang pinakamahalagang hakbang ay ang gawing anyo ang ating data kung saan makakakuha tayo ng mga insight. Sa ating kaso, nais nating kumuha ng mga keyword mula sa teksto, at tingnan kung aling mga keyword ang mas makabuluhan.\n",
"Ang pinakamahalagang hakbang ay ang gawing isang anyo ang ating data mula sa kung saan makakakuha tayo ng mga pananaw. Sa ating kaso, nais nating kunin ang mga keyword mula sa teksto, at tingnan kung alin sa mga keyword ang mas makabuluhan.\n",
"\n",
"Gagamit tayo ng Python library na tinatawag na [RAKE](https://github.com/aneesha/RAKE) para sa pagkuha ng mga keyword. Una, i-install natin ang library na ito kung sakaling wala pa ito:\n"
"Gagamitin natin ang Python library na tinatawag na [RAKE](https://github.com/aneesha/RAKE) para sa pagkuha ng mga keyword. Una, i-install muna natin ang library na ito kung sakaling wala pa ito: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Ang pangunahing functionality ay available mula sa `Rake` na object, na maaari nating i-customize gamit ang ilang mga parameter. Sa ating kaso, itatakda natin ang minimum na haba ng isang keyword sa 5 karakter, ang minimum na dalas ng isang keyword sa dokumento sa 3, at ang maximum na bilang ng mga salita sa isang keyword - sa 2. Malaya kang mag-eksperimento sa ibang mga halaga at obserbahan ang resulta.\n"
"Ang pangunahing functionality ay makukuha mula sa `Rake` na object, na maaari nating i-customize gamit ang ilang mga parameter. Sa aming kaso, itatakda namin ang minimum na haba ng isang keyword sa 5 karakter, minimum na dalas ng isang keyword sa dokumento sa 3, at maximum na bilang ng mga salita sa isang keyword - sa 2. Malaya kang mag-eksperimento sa ibang mga halaga at obserbahan ang resulta.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Nakuha namin ang isang listahan ng mga termino kasama ang kaukulang antas ng kahalagahan. Gaya ng makikita mo, ang mga pinaka-nauugnay na disiplina, tulad ng machine learning at big data, ay nasa mga nangungunang posisyon sa listahan.\n",
"Nakuha namin ang isang listahan ng mga termino kasama ang kaugnay na antas ng kahalagahan. Tulad ng nakikita mo, ang mga pinakamahalagang disiplina, tulad ng machine learning at big data, ay naroroon sa listahan sa mga nangungunang posisyon.\n",
"\n",
"## Hakbang 4: Pagpapakita ng Resulta\n",
"## Hakbang 4: Pag-visualize ng Resulta\n",
"\n",
"Mas nauunawaan ng mga tao ang datos kapag ito ay nasa anyong biswal. Kayat madalas na may saysay na i-visualize ang datos upang makakuha ng ilang mga pananaw. Maaari nating gamitin ang `matplotlib` library sa Python upang mag-plot ng simpleng distribusyon ng mga keyword kasama ang kanilang kaugnayan:\n"
"Mas nakakaunawa ang mga tao sa data kapag ito ay nasa anyong biswal. Kaya madalas na makatuwiran na i-visualize ang data upang makakuha ng mga pananaw. Maaari nating gamitin ang `matplotlib` na librarya sa Python upang iguhit ang simpleng distribusyon ng mga keyword kasama ang kanilang kaugnayan:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Mayroon, gayunpaman, mas mahusay na paraan upang maipakita ang dalas ng mga salita - gamit ang **Word Cloud**. Kailangan nating mag-install ng isa pang library upang maipakita ang word cloud mula sa ating listahan ng mga keyword.\n"
"Mayroon, gayunpaman, na mas mahusay pang paraan upang makita ang dalas ng mga salita - gamit ang **Word Cloud**. Kailangan nating mag-install ng isa pang library upang ma-plot ang word cloud mula sa ating listahan ng mga keyword.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"Ang `WordCloud` na object ay responsable sa pagtanggap ng alinman sa orihinal na teksto, o pre-computed na listahan ng mga salita kasama ang kanilang mga dalas, at nagbabalik ng isang imahe, na maaaring ipakita gamit ang `matplotlib`:\n"
"Ang `WordCloud` na object ay responsable sa pagtanggap ng orihinal na teksto, o pre-computed na listahan ng mga salita kasama ang kanilang mga dalas, at nagbabalik ng isang larawan, na maaaring ipakita gamit ang `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Maaari rin nating ipasa ang orihinal na teksto sa `WordCloud` - tingnan natin kung makakakuha tayo ng katulad na resulta:\n"
"Maaari din nating ipasa ang orihinal na teksto sa `WordCloud` - tingnan natin kung makakakuha tayo ng katulad na resulta:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Makikita mo na mas kahanga-hanga na ang word cloud ngayon, ngunit naglalaman din ito ng maraming ingay (halimbawa, mga hindi kaugnay na salita tulad ng `Retrieved on`). Bukod dito, mas kaunti ang mga keyword na binubuo ng dalawang salita, tulad ng *data scientist* o *computer science*. Ito ay dahil mas mahusay ang RAKE algorithm sa pagpili ng magagandang keyword mula sa teksto. Ipinapakita ng halimbawang ito ang kahalagahan ng pag-pre-process at paglilinis ng data, dahil ang malinaw na larawan sa dulo ay magbibigay-daan sa atin na makagawa ng mas mahusay na mga desisyon.\n",
"Makikita mo na ang word cloud ngayon ay mukhang mas kahanga-hanga, ngunit naglalaman din ito ng maraming ingay (hal. mga salitang walang kaugnayan tulad ng `Retrieved on`). Gayundin, nakakakuha tayo ng mas kaunting mga keyword na binubuo ng dalawang salita, tulad ng *data scientist*, o *computer science*. Ito ay dahil mas mahusay ang RAKE algorithm sa pagpili ng magagandang keyword mula sa teksto. Ipinapakita ng halimbawang ito ang kahalagahan ng pre-processing at paglilinis ng data, dahil ang malinaw na larawan sa huli ay magpapahintulot sa atin na gumawa ng mas mahusay na mga desisyon.\n",
"\n",
"Sa ehersisyong ito, dumaan tayo sa isang simpleng proseso ng pagkuha ng kahulugan mula sa teksto ng Wikipedia, sa anyo ng mga keyword at word cloud. Ang halimbawang ito ay medyo simple, ngunit mahusay nitong ipinapakita ang mga karaniwang hakbang na ginagawa ng isang data scientist kapag nagtatrabaho sa data, simula sa pagkuha ng data hanggang sa visualization.\n",
"Sa pagsasanay na ito, dumaan tayo sa isang simpleng proseso ng pagkuha ng kahulugan mula sa teksto ng Wikipedia, sa anyo ng mga keyword at word cloud. Simple ang halimbawang ito, ngunit mahusay nitong ipinapakita ang lahat ng karaniwang hakbang na gagawin ng isang data scientist kapag nagtatrabaho sa data, simula sa pagkuha ng data, hanggang sa visualisasyon.\n",
"\n",
"Sa ating kurso, tatalakayin natin nang detalyado ang lahat ng mga hakbang na ito.\n"
"Sa ating kurso, tatalakayin natin nang detalyado ang lahat ng mga hakbang na iyon. \n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Paunawa**: \nAng dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't sinisikap naming maging tumpak, pakitandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa orihinal nitong wika ang dapat ituring na opisyal na sanggunian. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Pahayag ng Pagwawaksi**: \nAng dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagamat nagsusumikap kami para sa katumpakan, mangyaring tandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o di-katumpakan. Ang orihinal na dokumento sa orihinal nitong wika ang dapat ituring na pinagmumulan ng katotohanan. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasaling-wika ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -418,12 +416,6 @@
},
"interpreter": {
"hash": "c28e7b6bf4e5b397b8288a85bf0a94ea8d3585ce2b01919feb195678ec71581b"
},
"coopTranslator": {
"original_hash": "50c0f0a5204a18405611cbe7e0fec56b",
"translation_date": "2025-09-02T10:09:35+00:00",
"source_file": "1-Introduction/01-defining-data-science/notebook.ipynb",
"language_code": "tl"
}
},
"nbformat": 4,

@ -5,13 +5,13 @@
"source": [
"# Hamon: Pagsusuri ng Teksto tungkol sa Data Science\n",
"\n",
"> *Sa notebook na ito, sinusubukan natin ang paggamit ng iba't ibang URL - artikulo sa Wikipedia tungkol sa Machine Learning. Makikita mo na, hindi tulad ng Data Science, ang artikulong ito ay naglalaman ng maraming termino, na nagiging mas mahirap ang pagsusuri. Kailangan nating mag-isip ng ibang paraan upang linisin ang data pagkatapos ng keyword extraction, upang maalis ang ilang madalas ngunit hindi makabuluhang kombinasyon ng mga salita.*\n",
"> *Sa notebook na ito, sinubukan naming gumamit ng iba't ibang URL - wikipedia na artikulo tungkol sa Machine Learning. Makikita mo na, hindi tulad ng Data Science, ang artikulong ito ay naglalaman ng maraming termino, kaya mas nagiging problema ang pagsusuri. Kailangan nating maghanap ng ibang paraan upang linisin ang data pagkatapos gawin ang keyword extraction, upang matanggal ang ilang madalas ngunit walang kahulugang kombinasyon ng mga salita.*\n",
"\n",
"Sa halimbawang ito, gawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng hakbang ng tradisyunal na proseso ng data science. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang maisagawa ang mga ito at obserbahan ang resulta. Bilang hamon, hinihikayat kang subukan ang code na ito gamit ang iba't ibang data.\n",
"Sa halimbawang ito, gawin natin ang isang simpleng ehersisyo na sumasaklaw sa lahat ng mga hakbang ng tradisyonal na proseso ng data science. Hindi mo kailangang magsulat ng anumang code, maaari mo lamang i-click ang mga cell sa ibaba upang patakbuhin ang mga ito at obserbahan ang resulta. Bilang isang hamon, hinihikayat kang subukan ang code na ito gamit ang iba't ibang data.\n",
"\n",
"## Layunin\n",
"\n",
"Sa araling ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Data Science. Subukan nating tuklasin ang mas maraming kaugnay na konsepto sa pamamagitan ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Data Science, mag-eextract ng mga keyword mula rito, at pagkatapos ay susubukan nating i-visualize ang resulta.\n",
"Sa araling ito, tinalakay natin ang iba't ibang konsepto na may kaugnayan sa Data Science. Subukan nating tuklasin ang mas marami pang kaugnay na konsepto sa pamamagitan ng paggawa ng **text mining**. Magsisimula tayo sa isang teksto tungkol sa Data Science, kukunin ang mga keyword mula dito, at pagkatapos ay susubukan nating i-visualize ang resulta.\n",
"\n",
"Bilang teksto, gagamitin ko ang pahina tungkol sa Data Science mula sa Wikipedia:\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 1: Pagkuha ng Datos\n",
"## Step 1: Pagkuha ng Data\n",
"\n",
"Ang unang hakbang sa bawat proseso ng data science ay ang pagkuha ng datos. Gagamitin natin ang `requests` library para dito:\n"
"Unang hakbang sa bawat proseso ng data science ay ang pagkuha ng data. Gagamit tayo ng `requests` na library para gawin iyon:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 2: Pagbabago ng Datos\n",
"## Hakbang 2: Pagbabago ng Data\n",
"\n",
"Ang susunod na hakbang ay ang pag-convert ng datos sa anyo na angkop para sa pagproseso. Sa ating kaso, nag-download tayo ng HTML source code mula sa pahina, at kailangan natin itong gawing plain text.\n",
"Ang susunod na hakbang ay i-convert ang data sa anyo na angkop para sa pagproseso. Sa aming kaso, na-download namin ang HTML source code mula sa pahina, at kailangan naming i-convert ito sa plain text.\n",
"\n",
"Maraming paraan para magawa ito. Gagamitin natin ang pinakasimpleng built-in na [HTMLParser](https://docs.python.org/3/library/html.parser.html) object mula sa Python. Kailangan nating mag-subclass sa `HTMLParser` class at tukuyin ang code na kokolekta ng lahat ng teksto sa loob ng mga HTML tag, maliban sa mga `<script>` at `<style>` na tag.\n"
"Maraming paraan para gawin ito. Gagamitin namin ang [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), isang popular na Python library para sa pag-parse ng HTML. Pinapayagan kami ng BeautifulSoup na i-target ang partikular na mga elemento ng HTML, kaya maaari naming ituon ang pangunahing nilalaman ng artikulo mula sa Wikipedia at bawasan ang ilang mga navigation menu, sidebar, footer, at iba pang di-kaugnay na nilalaman (bagaman maaaring may ilang boilerplate na teksto pa rin ang manatili).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Una, kailangan nating i-install ang BeautifulSoup library para sa pag-parse ng HTML:\n"
],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": null,
"source": [
"import sys\r\n",
"!{sys.executable} -m pip install beautifulsoup4"
],
"outputs": [],
"metadata": {}
},
{
"cell_type": "code",
"execution_count": 4,
"source": [
"from html.parser import HTMLParser\r\n",
"\r\n",
"class MyHTMLParser(HTMLParser):\r\n",
" script = False\r\n",
" res = \"\"\r\n",
" def handle_starttag(self, tag, attrs):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = True\r\n",
" def handle_endtag(self, tag):\r\n",
" if tag.lower() in [\"script\",\"style\"]:\r\n",
" self.script = False\r\n",
" def handle_data(self, data):\r\n",
" if str.strip(data)==\"\" or self.script:\r\n",
" return\r\n",
" self.res += ' '+data.replace('[ edit ]','')\r\n",
"\r\n",
"parser = MyHTMLParser()\r\n",
"parser.feed(text)\r\n",
"text = parser.res\r\n",
"print(text[:1000])"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Hakbang 3: Pagkuha ng Mga Pananaw\n",
"## Step 3: Pagkuha ng mga Pananaw\n",
"\n",
"Ang pinakamahalagang hakbang ay ang gawing isang anyo ang ating datos kung saan maaari tayong makakuha ng mga pananaw. Sa ating kaso, nais nating kumuha ng mga keyword mula sa teksto, at tingnan kung alin sa mga keyword ang mas makabuluhan.\n",
"Ang pinakamahalagang hakbang ay ang gawing isang anyo ang ating datos kung saan maaari tayong makakuha ng mga pananaw. Sa ating kaso, nais nating kunin ang mga keyword mula sa teksto, at tingnan kung alin sa mga keyword ang mas makabuluhan.\n",
"\n",
"Gagamit tayo ng Python library na tinatawag na [RAKE](https://github.com/aneesha/RAKE) para sa pagkuha ng mga keyword. Una, i-install natin ang library na ito kung sakaling wala pa ito:\n"
"Gagamitin natin ang Python library na tinatawag na [RAKE](https://github.com/aneesha/RAKE) para sa pagkuha ng mga keyword. Una, i-install natin ang library na ito sakaling wala pa ito: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Ang pangunahing functionality ay makukuha mula sa `Rake` na object, na maaari nating i-customize gamit ang ilang mga parameter. Sa ating kaso, itatakda natin ang minimum na haba ng isang keyword sa 5 karakter, ang minimum na dalas ng isang keyword sa dokumento sa 3, at ang maximum na bilang ng mga salita sa isang keyword - sa 2. Malaya kang mag-eksperimento sa ibang mga halaga at obserbahan ang resulta.\n"
"Ang pangunahing functionality ay makukuha mula sa `Rake` na object, na maaari nating i-customize gamit ang ilang mga parameter. Sa ating kaso, itatakda natin ang pinakamababang haba ng isang keyword sa 5 na karakter, pinakamababang dalas ng isang keyword sa dokumento sa 3, at pinakamataas na bilang ng mga salita sa isang keyword - sa 2. Malayang subukan ang iba pang mga halaga at obserbahan ang resulta.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Nakuha namin ang isang listahan ng mga termino kasama ang kaukulang antas ng kahalagahan. Tulad ng makikita mo, ang mga pinaka-nauugnay na disiplina, tulad ng machine learning at big data, ay nasa mga nangungunang posisyon sa listahan.\n",
"Nakuha namin ang isang listahan ng mga termino kasama ang kaugnay na antas ng kahalagahan. Tulad ng makikita mo, ang mga pinaka-mahahalagang disiplina, tulad ng machine learning at big data, ay naroroon sa listahan sa mga nangungunang posisyon.\n",
"\n",
"## Hakbang 4: Pagpapakita ng Resulta\n",
"## Step 4: Pagpapakita ng Resulta\n",
"\n",
"Mas naiintindihan ng mga tao ang datos kapag ito ay nasa biswal na anyo. Kayat madalas na may saysay na i-visualize ang datos upang makakuha ng ilang mga pananaw. Maaari nating gamitin ang `matplotlib` library sa Python upang mag-plot ng simpleng distribusyon ng mga keyword kasama ang kanilang kaugnayan:\n"
"Mas mahusay na naipapaliwanag ng mga tao ang data sa anyong biswal. Kaya't madalas ay may katuturan na ipakita ang data upang makakuha ng ilang mga pananaw. Maaari nating gamitin ang `matplotlib` na library sa Python upang iguhit ang simpleng distribusyon ng mga keyword kasama ang kanilang kabuluhan:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Mayroon, gayunpaman, mas mahusay na paraan upang maipakita ang dalas ng mga salita - gamit ang **Word Cloud**. Kailangan nating mag-install ng isa pang library upang maipakita ang word cloud mula sa ating listahan ng mga keyword.\n"
"Mayroon, gayunpaman, na mas mahusay na paraan upang makita ang dalas ng mga salita - gamit ang **Word Cloud**. Kailangan nating mag-install ng isa pang library upang ma-plot ang word cloud mula sa ating listahan ng mga keyword.\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Makikita mo na mas kahanga-hanga na ngayon ang word cloud, ngunit naglalaman din ito ng maraming ingay (halimbawa, mga hindi kaugnay na salita tulad ng `Retrieved on`). Bukod dito, mas kaunti ang mga keyword na binubuo ng dalawang salita, tulad ng *data scientist* o *computer science*. Ito ay dahil mas mahusay ang RAKE algorithm sa pagpili ng magagandang keyword mula sa teksto. Ang halimbawang ito ay nagpapakita ng kahalagahan ng pag-pre-process at paglilinis ng data, dahil ang malinaw na larawan sa dulo ay magbibigay-daan sa atin na gumawa ng mas mahusay na desisyon.\n",
"Makikita mo na ngayon ay mas kahanga-hanga na ang word cloud, ngunit naglalaman din ito ng maraming ingay (hal. mga salitang hindi kaugnay tulad ng `Retrieved on`). Gayundin, nakakakuha tayo ng mas kaunting mga keyword na binubuo ng dalawang salita, tulad ng *data scientist*, o *computer science*. Ito ay dahil mas maganda ang trabaho ng RAKE algorithm sa pagpili ng mga magandang keyword mula sa teksto. Ipinapakita ng halimbawang ito ang kahalagahan ng pagproseso at paglilinis ng datos, dahil ang malinaw na larawan sa huli ay magbibigay-daan sa atin upang makagawa ng mas mahusay na mga desisyon.\n",
"\n",
"Sa ehersisyong ito, dumaan tayo sa isang simpleng proseso ng pagkuha ng kahulugan mula sa teksto ng Wikipedia, sa anyo ng mga keyword at word cloud. Ang halimbawang ito ay medyo simple, ngunit mahusay nitong ipinapakita ang mga karaniwang hakbang na ginagawa ng isang data scientist kapag nagtatrabaho sa data, simula sa pagkuha ng data hanggang sa visualization.\n",
"Sa pagsasanay na ito, dinaanan natin ang isang simpleng proseso ng pagkuha ng kahulugan mula sa teksto ng Wikipedia, sa anyo ng mga keyword at word cloud. Ang halimbawang ito ay medyo simple, ngunit mahusay na ipinapakita ang lahat ng mga karaniwang hakbang na gagawin ng isang data scientist kapag nagtatrabaho sa datos, mula sa pagkuha ng datos, hanggang sa visualisasyon.\n",
"\n",
"Sa ating kurso, tatalakayin natin nang detalyado ang lahat ng mga hakbang na ito.\n"
"Sa ating kurso tatalakayin natin ang lahat ng mga hakbang na iyon nang detalyado. \n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Paunawa**: \nAng dokumentong ito ay isinalin gamit ang AI translation service na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't sinisikap naming maging tumpak, pakitandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang orihinal na wika ang dapat ituring na opisyal na sanggunian. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Pagtatanggal ng Pananagutan**:\nAng dokumentong ito ay isinalin gamit ang serbisyong AI na pagsasalin [Co-op Translator](https://github.com/Azure/co-op-translator). Bagamat nagsusumikap kami para sa katumpakan, mangyaring tandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o di-tumpak na impormasyon. Ang orihinal na dokumento sa orihinal nitong wika ang dapat ituring na pangunahing sanggunian. Para sa mahahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
]
}
],
@ -526,12 +524,6 @@
},
"interpreter": {
"hash": "86193a1ab0ba47eac1c69c1756090baa3b420b3eea7d4aafab8b85f8b312f0c5"
},
"coopTranslator": {
"original_hash": "dbdf34788efab64e5d817f1df38965a8",
"translation_date": "2025-09-02T10:23:49+00:00",
"source_file": "1-Introduction/01-defining-data-science/solution/notebook.ipynb",
"language_code": "tl"
}
},
"nbformat": 4,

@ -6,7 +6,7 @@
Ang Estadistika at Teorya ng Probabilidad ay dalawang malapit na kaugnay na larangan ng Matematika na mahalaga sa Data Science. Posibleng magtrabaho gamit ang datos nang hindi masyadong malalim ang kaalaman sa matematika, ngunit mas mainam pa rin na malaman ang ilang pangunahing konsepto. Dito, magbibigay kami ng maikling panimula na makakatulong sa iyong magsimula.
[![Intro Video](../../../../translated_images/tl/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.png)](https://youtu.be/Z5Zy85g4Yjw)
[![Intro Video](../../../../translated_images/tl/video-prob-and-stats.e4282e5efa2f2543.webp)](https://youtu.be/Z5Zy85g4Yjw)
## [Pre-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Mas mahirap ilarawan ang probability distribution ng isang continuous variable,
Maaari lamang nating pag-usapan ang probabilidad ng isang variable na nasa loob ng isang ibinigay na interval ng mga halaga, halimbawa P(t<sub>1</sub>≤X<t<sub>2</sub>). Sa kasong ito, ang probability distribution ay inilalarawan ng isang **probability density function** p(x), kung saan:
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/tl/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.png)
![P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx](../../../../translated_images/tl/probability-density.a8aad29f17a14afb.webp)
Ang continuous analog ng uniform distribution ay tinatawag na **continuous uniform**, na tinutukoy sa isang finite interval. Ang probabilidad na ang halaga X ay nasa loob ng isang interval na may haba l ay proporsyonal sa l, at tumataas hanggang 1.
@ -73,11 +73,11 @@ Kapag sinusuri natin ang datos mula sa totoong buhay, madalas na hindi sila rand
Narito ang box plot na nagpapakita ng mean, median, at quartiles para sa ating datos:
![Weight Box Plot](../../../../translated_images/tl/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.png)
![Weight Box Plot](../../../../translated_images/tl/weight-boxplot.1dbab1c03af26f8a.webp)
Dahil ang ating datos ay naglalaman ng impormasyon tungkol sa iba't ibang **roles** ng player, maaari rin tayong gumawa ng box plot ayon sa role - magbibigay ito sa atin ng ideya kung paano nagkakaiba ang mga halaga ng parameter sa bawat role. Sa pagkakataong ito, isasaalang-alang natin ang taas:
![Box plot by role](../../../../translated_images/tl/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.png)
![Box plot by role](../../../../translated_images/tl/boxplot_byrole.036b27a1c3f52d42.webp)
Ipinapakita ng diagram na ito na, sa karaniwan, ang taas ng mga first basemen ay mas mataas kaysa sa taas ng mga second basemen. Sa susunod na bahagi ng aralin, matututunan natin kung paano mas pormal na masusubok ang hypothesis na ito, at kung paano ipakita na ang ating datos ay statistically significant upang patunayan ito.
@ -85,7 +85,7 @@ Ipinapakita ng diagram na ito na, sa karaniwan, ang taas ng mga first basemen ay
Upang makita kung ano ang distribution ng ating datos, maaari tayong mag-plot ng graph na tinatawag na **histogram**. Ang X-axis ay maglalaman ng bilang ng iba't ibang weight intervals (tinatawag na **bins**), at ang vertical axis ay magpapakita ng bilang ng beses na ang sample ng ating random variable ay nasa loob ng isang ibinigay na interval.
![Histogram of real world data](../../../../translated_images/tl/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.png)
![Histogram of real world data](../../../../translated_images/tl/weight-histogram.bfd00caf7fc30b14.webp)
Mula sa histogram na ito, makikita mo na ang lahat ng mga halaga ay nakasentro sa paligid ng tiyak na mean weight, at habang lumalayo tayo mula sa mean weight - mas kaunti ang mga timbang na may ganitong halaga ang nakikita. Ibig sabihin, napaka-improbable na ang timbang ng isang baseball player ay malayo sa mean weight. Ang variance ng mga timbang ay nagpapakita kung gaano kalaki ang posibilidad na magkaiba ang mga timbang mula sa mean.
@ -102,7 +102,7 @@ samples = np.random.normal(mean,std,1000)
Kung ipo-plot natin ang histogram ng mga nabuong samples, makikita natin ang larawan na halos katulad ng ipinakita sa itaas. At kung dadagdagan natin ang bilang ng samples at ang bilang ng bins, maaari tayong makabuo ng larawan ng normal distribution na mas malapit sa ideal:
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/tl/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.png)
![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/tl/normal-histogram.dfae0d67c202137d.webp)
*Normal Distribution na may mean=0 at std.dev=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Sa ating kaso, ang halaga na 0.53 ay nagpapahiwatig na mayroong correlation sa pagitan ng timbang at taas ng isang tao. Maaari rin tayong gumawa ng scatter plot ng isang value laban sa isa pa upang makita ang relasyon nang biswal:
![Relasyon sa pagitan ng timbang at taas](../../../../translated_images/tl/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.png)
![Relasyon sa pagitan ng timbang at taas](../../../../translated_images/tl/weight-height-relationship.3f06bde4ca2aba99.webp)
> Mas maraming halimbawa ng correlation at covariance ang matatagpuan sa [kasamang notebook](notebook.ipynb).

@ -1,6 +1,6 @@
# Panimula sa Data Science
![data in action](../../../translated_images/tl/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.jpg)
![data in action](../../../translated_images/tl/data.48e22bb7617d8d92.webp)
> Larawan ni <a href="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> sa <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Sa mga araling ito, matutuklasan mo kung paano tinutukoy ang Data Science at matututo tungkol sa mga etikal na konsiderasyon na dapat isaalang-alang ng isang data scientist. Malalaman mo rin kung paano tinutukoy ang data at magkakaroon ng kaunting kaalaman tungkol sa estadistika at probabilidad, ang mga pangunahing akademikong larangan ng Data Science.

@ -4,7 +4,7 @@
| :-------------------------------------------------------------------------------------------------------: |
| Paggamit ng Python - _Sketchnote ni [@nitya](https://twitter.com/nitya)_ |
[![Intro Video](../../../../translated_images/tl/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.png)](https://youtu.be/dZjWOGbsN4Y)
[![Intro Video](../../../../translated_images/tl/video-ds-python.245247dc811db8e4.webp)](https://youtu.be/dZjWOGbsN4Y)
Bagama't ang mga database ay nagbibigay ng napaka-epektibong paraan upang mag-imbak ng data at mag-query gamit ang mga query language, ang pinaka-flexible na paraan ng pagproseso ng data ay ang pagsusulat ng sarili mong programa upang manipulahin ang data. Sa maraming pagkakataon, mas epektibo ang paggamit ng database query. Gayunpaman, sa ilang mga kaso kung saan mas kumplikadong pagproseso ng data ang kinakailangan, hindi ito madaling magawa gamit ang SQL.
@ -65,7 +65,7 @@ print(f"Length of index is {len(idx)}")
items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx)
items_sold.plot()
```
![Time Series Plot](../../../../translated_images/tl/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.png)
![Time Series Plot](../../../../translated_images/tl/timeseries-1.80de678ab1cf727e.webp)
Ngayon ipagpalagay na bawat linggo ay nag-oorganisa tayo ng party para sa mga kaibigan, at kumukuha ng karagdagang 10 pack ng ice-cream para sa party. Maaari tayong gumawa ng isa pang series, na naka-index sa linggo, upang ipakita iyon:
```python
@ -76,7 +76,7 @@ Kapag pinagsama natin ang dalawang series, makakakuha tayo ng kabuuang bilang:
total_items = items_sold.add(additional_items,fill_value=0)
total_items.plot()
```
![Time Series Plot](../../../../translated_images/tl/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.png)
![Time Series Plot](../../../../translated_images/tl/timeseries-2.aae51d575c55181c.webp)
> **Note** na hindi natin ginagamit ang simpleng syntax `total_items+additional_items`. Kung ginawa natin, makakakuha tayo ng maraming `NaN` (*Not a Number*) na halaga sa resulting series. Ito ay dahil may mga nawawalang halaga para sa ilang mga index point sa `additional_items` series, at ang pagdaragdag ng `NaN` sa anumang bagay ay nagreresulta sa `NaN`. Kaya kailangan nating tukuyin ang `fill_value` parameter sa panahon ng addition.
@ -85,7 +85,7 @@ Sa time series, maaari rin tayong mag-**resample** ng series gamit ang iba't iba
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```
![Monthly Time Series Averages](../../../../translated_images/tl/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.png)
![Monthly Time Series Averages](../../../../translated_images/tl/timeseries-3.f3147cbc8c624881.webp)
### DataFrame
@ -211,7 +211,7 @@ Ang unang problemang tututukan natin ay ang pagmomodelo ng pagkalat ng epidemya
Dahil nais naming ipakita kung paano magtrabaho sa data, inaanyayahan ka naming buksan ang [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) at basahin ito mula sa simula hanggang sa dulo. Maaari mo ring i-execute ang mga cells, at gawin ang ilang mga hamon na iniwan namin para sa iyo sa dulo.
![COVID Spread](../../../../translated_images/tl/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.png)
![COVID Spread](../../../../translated_images/tl/covidspread.f3d131c4f1d260ab.webp)
> Kung hindi mo alam kung paano magpatakbo ng code sa Jupyter Notebook, tingnan ang [artikulong ito](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -233,7 +233,7 @@ Ang isang buong halimbawa ng pagsusuri sa dataset na ito gamit ang [Text Analyti
Buksan ang [`notebook-papers.ipynb`](notebook-papers.ipynb) at basahin ito mula sa simula hanggang sa dulo. Maaari mo ring i-execute ang mga cells, at gawin ang ilang mga hamon na iniwan namin para sa iyo sa dulo.
![Covid Medical Treatment](../../../../translated_images/tl/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.png)
![Covid Medical Treatment](../../../../translated_images/tl/covidtreat.b2ba59f57ca45fbc.webp)
## Pagproseso ng Data ng Larawan

File diff suppressed because one or more lines are too long

@ -1,6 +1,6 @@
# Paggamit ng Data
![data love](../../../translated_images/tl/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.jpg)
![data love](../../../translated_images/tl/data-love.a22ef29e6742c852.webp)
> Larawan ni <a href="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> sa <a href="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Sa mga araling ito, matututuhan mo ang iba't ibang paraan kung paano maaaring pamahalaan, manipulahin, at gamitin ang data sa mga aplikasyon. Malalaman mo ang tungkol sa relational at non-relational na mga database at kung paano naiimbak ang data sa mga ito. Matututuhan mo ang mga pangunahing kaalaman sa paggamit ng Python para pamahalaan ang data, at madidiskubre mo ang maraming paraan kung paano maaaring gamitin ang Python upang pamahalaan at tuklasin ang data.

@ -42,7 +42,7 @@ Gumawa ng basic scatterplot upang ipakita ang relasyon sa pagitan ng presyo bawa
```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
```
![scatterplot 1](../../../../translated_images/tl/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.png)
![scatterplot 1](../../../../translated_images/tl/scatter1.5e1aa5fd6706c5d1.webp)
Ngayon, ipakita ang parehong data gamit ang isang honey color scheme upang ipakita kung paano nagbabago ang presyo sa paglipas ng mga taon. Magagawa mo ito sa pamamagitan ng pagdaragdag ng 'hue' parameter upang ipakita ang pagbabago, taon-taon:
@ -51,7 +51,7 @@ Ngayon, ipakita ang parehong data gamit ang isang honey color scheme upang ipaki
```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
```
![scatterplot 2](../../../../translated_images/tl/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.png)
![scatterplot 2](../../../../translated_images/tl/scatter2.c0041a58621ca702.webp)
Sa pagbabago ng color scheme na ito, makikita mo na malinaw na may malakas na pagtaas sa paglipas ng mga taon sa presyo ng pulot bawat libra. Sa katunayan, kung titingnan mo ang isang sample set sa data upang i-verify (pumili ng isang partikular na estado, Arizona halimbawa) makikita mo ang pattern ng pagtaas ng presyo taon-taon, na may ilang mga eksepsyon:
@ -80,7 +80,7 @@ sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspec
```
Makikita mo ang unti-unting pagtaas ng laki ng mga tuldok.
![scatterplot 3](../../../../translated_images/tl/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.png)
![scatterplot 3](../../../../translated_images/tl/scatter3.3c160a3d1dcb36b3.webp)
Ito ba ay simpleng kaso ng supply at demand? Dahil sa mga salik tulad ng pagbabago ng klima at colony collapse, mas kaunti ba ang pulot na magagamit para bilhin taon-taon, kaya't tumataas ang presyo?
@ -95,7 +95,7 @@ sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
```
Sagot: Oo, na may ilang mga eksepsyon sa paligid ng taong 2003:
![line chart 1](../../../../translated_images/tl/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.png)
![line chart 1](../../../../translated_images/tl/line1.f36eb465229a3b1f.webp)
✅ Dahil ang Seaborn ay nag-a-aggregate ng data sa isang linya, ipinapakita nito "ang maramihang sukat sa bawat x value sa pamamagitan ng pag-plot ng mean at ang 95% confidence interval sa paligid ng mean". [Source](https://seaborn.pydata.org/tutorial/relational.html). Ang time-consuming na behavior na ito ay maaaring i-disable sa pamamagitan ng pagdaragdag ng `ci=None`.
@ -105,7 +105,7 @@ Tanong: Sa 2003, makikita rin ba natin ang pagtaas sa supply ng pulot? Paano kun
sns.relplot(x="year", y="totalprod", kind="line", data=honey);
```
![line chart 2](../../../../translated_images/tl/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.png)
![line chart 2](../../../../translated_images/tl/line2.a5b3493dc01058af.webp)
Sagot: Hindi talaga. Kung titingnan mo ang kabuuang produksyon, tila ito ay tumaas sa partikular na taon, kahit na sa pangkalahatan ang dami ng pulot na ginagawa ay bumababa sa mga taong ito.
@ -130,7 +130,7 @@ sns.relplot(
```
Sa visualization na ito, maaari mong ihambing ang ani bawat kolonya at bilang ng mga kolonya taon-taon, magkatabi na may wrap na nakatakda sa 3 para sa mga column:
![facet grid](../../../../translated_images/tl/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.png)
![facet grid](../../../../translated_images/tl/facet.6a34851dcd540050.webp)
Para sa dataset na ito, walang partikular na kapansin-pansin tungkol sa bilang ng mga kolonya at kanilang ani, taon-taon at estado sa estado. Mayroon bang ibang paraan upang tingnan ang paghahanap ng ugnayan sa pagitan ng dalawang variable na ito?
@ -153,7 +153,7 @@ sns.despine(right=False)
plt.ylabel('colony yield')
ax.figure.legend();
```
![superimposed plots](../../../../translated_images/tl/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.png)
![superimposed plots](../../../../translated_images/tl/dual-line.a4c28ce659603fab.webp)
Habang walang kapansin-pansin sa mata sa paligid ng taong 2003, pinapayagan tayo nitong tapusin ang araling ito sa isang mas masayang tala: habang may pangkalahatang pagbaba sa bilang ng mga kolonya, ang bilang ng mga kolonya ay nagiging matatag kahit na ang kanilang ani bawat kolonya ay bumababa.

@ -60,7 +60,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Dito, ini-install mo ang `ggplot2` package at pagkatapos ay ini-import ito sa workspace gamit ang `library("ggplot2")` command. Para mag-plot ng anumang plot sa ggplot, ginagamit ang `ggplot()` function at tinutukoy mo ang dataset, x at y variables bilang attributes. Sa kasong ito, ginagamit natin ang `geom_line()` function dahil layunin nating mag-plot ng line plot.
![MaxWingspan-lineplot](../../../../../translated_images/tl/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.png)
![MaxWingspan-lineplot](../../../../../translated_images/tl/MaxWingspan-lineplot.b12169f99d26fdd2.webp)
Ano ang napansin mo agad? Mukhang mayroong hindi bababa sa isang outlier - napakalaki ng wingspan! Ang wingspan na higit sa 2000 sentimetro ay katumbas ng higit sa 20 metro - may mga Pterodactyl ba sa Minnesota? Suriin natin.
@ -78,7 +78,7 @@ ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) +
```
Tinutukoy natin ang anggulo sa `theme` at tinutukoy ang mga label ng x at y axis sa `xlab()` at `ylab()` ayon sa pagkakabanggit. Ang `ggtitle()` ay nagbibigay ng pangalan sa graph/plot.
![MaxWingspan-lineplot-improved](../../../../../translated_images/tl/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.png)
![MaxWingspan-lineplot-improved](../../../../../translated_images/tl/MaxWingspan-lineplot-improved.04b73b4d5a59552a.webp)
Kahit na may rotation ng mga label na nakatakda sa 45 degrees, masyadong marami ang mga ito para basahin. Subukan natin ang ibang estratehiya: lagyan lamang ng label ang mga outlier at itakda ang mga label sa loob ng chart. Maaari kang gumamit ng scatter chart upang magkaroon ng mas maraming espasyo para sa paglalagay ng label:
@ -94,7 +94,7 @@ Ano ang nangyayari dito? Ginamit mo ang `geom_point()` function upang mag-plot n
Ano ang natuklasan mo?
![MaxWingspan-scatterplot](../../../../../translated_images/tl/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.png)
![MaxWingspan-scatterplot](../../../../../translated_images/tl/MaxWingspan-scatterplot.60dc9e0e19d32700.webp)
## I-filter ang iyong data
@ -113,7 +113,7 @@ ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) +
```
Gumawa tayo ng bagong dataframe `birds_filtered` at pagkatapos ay nag-plot ng scatter plot. Sa pamamagitan ng pag-filter ng mga outlier, ang iyong data ay mas cohesive at mas madaling maunawaan.
![MaxWingspan-scatterplot-improved](../../../../../translated_images/tl/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.png)
![MaxWingspan-scatterplot-improved](../../../../../translated_images/tl/MaxWingspan-scatterplot-improved.7d0af81658c65f3e.webp)
Ngayon na mayroon tayong mas malinis na dataset, hindi bababa sa mga tuntunin ng wingspan, tuklasin natin ang higit pa tungkol sa mga ibon na ito.
@ -155,7 +155,7 @@ birds_filtered %>% group_by(Category) %>%
```
Sa sumusunod na snippet, ini-install natin ang [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) at [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) packages upang makatulong sa pag-manipula at pag-group ng data upang mag-plot ng stacked bar chart. Una, i-group mo ang data batay sa `Category` ng ibon at pagkatapos ay i-summarize ang `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` columns. Pagkatapos, i-plot ang bar chart gamit ang `ggplot2` package at tukuyin ang mga kulay para sa iba't ibang kategorya at mga label.
![Stacked bar chart](../../../../../translated_images/tl/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.png)
![Stacked bar chart](../../../../../translated_images/tl/stacked-bar-chart.0c92264e89da7b39.webp)
Gayunpaman, ang bar chart na ito ay hindi mababasa dahil masyadong maraming hindi naka-group na data. Kailangan mong piliin lamang ang data na nais mong i-plot, kaya't tingnan natin ang haba ng mga ibon batay sa kanilang kategorya.
@ -170,7 +170,7 @@ ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip()
```
Una mong binibilang ang mga unique na halaga sa `Category` column at pagkatapos ay inaayos ang mga ito sa isang bagong dataframe `birds_count`. Ang sorted data na ito ay pagkatapos ay factored sa parehong level upang ito ay ma-plot sa sorted na paraan. Gamit ang `ggplot2` ay i-plot mo ang data sa isang bar chart. Ang `coord_flip()` ay nag-plot ng horizontal bars.
![category-length](../../../../../translated_images/tl/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.png)
![category-length](../../../../../translated_images/tl/category-length.7e34c296690e85d6.webp)
Ang bar chart na ito ay nagpapakita ng magandang view ng bilang ng mga ibon sa bawat kategorya. Sa isang sulyap, makikita mo na ang pinakamalaking bilang ng mga ibon sa rehiyong ito ay nasa kategoryang Ducks/Geese/Waterfowl. Ang Minnesota ay ang 'land of 10,000 lakes' kaya't hindi ito nakakagulat!
@ -193,7 +193,7 @@ ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_fl
```
I-group natin ang `birds_filtered` data batay sa `Category` at pagkatapos ay mag-plot ng bar graph.
![comparing data](../../../../../translated_images/tl/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.png)
![comparing data](../../../../../translated_images/tl/comparingdata.f486a450d61c7ca5.webp)
Walang nakakagulat dito: ang mga hummingbird ay may pinakamaliit na MaxLength kumpara sa Pelicans o Geese. Maganda kapag ang data ay may lohikal na kahulugan!
@ -205,7 +205,7 @@ ggplot(data=birds_grouped, aes(x=Category)) +
geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+
coord_flip()
```
![super-imposed values](../../../../../translated_images/tl/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.png)
![super-imposed values](../../../../../translated_images/tl/superimposed-values.5363f0705a1da416.webp)
## 🚀 Hamon

@ -36,7 +36,7 @@ ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) +
geom_point() +
ggtitle("Max Length per order") + coord_flip()
```
![max length per order](../../../../../translated_images/tl/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.png)
![max length per order](../../../../../translated_images/tl/max-length-per-order.e5b283d952c78c12.webp)
Ipinapakita nito ang pangkalahatang pamamahagi ng haba ng katawan bawat Order ng ibon, ngunit hindi ito ang pinakamainam na paraan upang ipakita ang tunay na pamamahagi. Ang gawaing ito ay karaniwang ginagawa sa pamamagitan ng paglikha ng Histogram.
@ -48,7 +48,7 @@ Nag-aalok ang `ggplot2` ng mahusay na paraan upang ipakita ang pamamahagi ng dat
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) +
geom_histogram(bins=10)+ylab('Frequency')
```
![distribution over entire dataset](../../../../../translated_images/tl/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.png)
![distribution over entire dataset](../../../../../translated_images/tl/distribution-over-the-entire-dataset.d22afd3fa96be854.webp)
Makikita mo na karamihan sa 400+ na ibon sa dataset na ito ay nasa saklaw na mas mababa sa 2000 para sa kanilang Max Body Mass. Makakuha ng mas maraming insight sa datos sa pamamagitan ng pagbabago ng `bins` parameter sa mas mataas na numero, tulad ng 30:
@ -56,7 +56,7 @@ Makikita mo na karamihan sa 400+ na ibon sa dataset na ito ay nasa saklaw na mas
ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency')
```
![distribution-30bins](../../../../../translated_images/tl/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.png)
![distribution-30bins](../../../../../translated_images/tl/distribution-30bins.6a3921ea7a421bf7.webp)
Ipinapakita ng tsart na ito ang pamamahagi sa mas detalyadong paraan. Ang isang tsart na hindi masyadong skewed sa kaliwa ay maaaring malikha sa pamamagitan ng pagtiyak na pipiliin mo lamang ang datos sa loob ng isang ibinigay na saklaw:
@ -68,7 +68,7 @@ ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_histogram(bins=30)+ylab('Frequency')
```
![filtered histogram](../../../../../translated_images/tl/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.png)
![filtered histogram](../../../../../translated_images/tl/filtered-histogram.6bf5d2bfd8253322.webp)
✅ Subukan ang iba pang mga filter at puntos ng datos. Upang makita ang buong pamamahagi ng datos, alisin ang `['MaxBodyMass']` filter upang ipakita ang mga labeled distributions.
@ -82,7 +82,7 @@ ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) +
```
Mukhang may inaasahang ugnayan sa pagitan ng dalawang elementong ito sa isang inaasahang axis, na may isang partikular na malakas na punto ng convergence:
![2d plot](../../../../../translated_images/tl/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.png)
![2d plot](../../../../../translated_images/tl/2d-plot.c504786f439bd7eb.webp)
Ang histograms ay mahusay na gumagana bilang default para sa numeric na datos. Paano kung kailangan mong makita ang pamamahagi ayon sa text na datos?
@ -114,7 +114,7 @@ ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) +
scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern"))
```
![wingspan and conservation collation](../../../../../translated_images/tl/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.png)
![wingspan and conservation collation](../../../../../translated_images/tl/wingspan-conservation-collation.4024e9aa6910866a.webp)
Mukhang walang magandang ugnayan sa pagitan ng minimum wingspan at kalagayan ng konserbasyon. Subukan ang iba pang mga elemento ng dataset gamit ang pamamaraang ito. Maaari kang mag-eksperimento sa iba't ibang filter. May nakikita ka bang ugnayan?
@ -128,7 +128,7 @@ Subukan natin ang density plot ngayon!
ggplot(data = birds_filtered_1, aes(x = MinWingspan)) +
geom_density()
```
![density plot](../../../../../translated_images/tl/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.png)
![density plot](../../../../../translated_images/tl/density-plot.675ccf865b76c690.webp)
Makikita mo kung paano ginagaya ng plot ang naunang isa para sa Minimum Wingspan na datos; medyo mas maayos lang ito. Kung nais mong balikan ang jagged MaxBodyMass line sa pangalawang tsart na ginawa mo, maaari mo itong gawing mas maayos sa pamamagitan ng muling paggawa nito gamit ang pamamaraang ito:
@ -136,7 +136,7 @@ Makikita mo kung paano ginagaya ng plot ang naunang isa para sa Minimum Wingspan
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density()
```
![bodymass density](../../../../../translated_images/tl/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.png)
![bodymass density](../../../../../translated_images/tl/bodymass-smooth.d31ce526d82b0a1f.webp)
Kung nais mo ng maayos, ngunit hindi masyadong maayos na linya, i-edit ang `adjust` parameter:
@ -144,7 +144,7 @@ Kung nais mo ng maayos, ngunit hindi masyadong maayos na linya, i-edit ang `adju
ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) +
geom_density(adjust = 1/5)
```
![less smooth bodymass](../../../../../translated_images/tl/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.png)
![less smooth bodymass](../../../../../translated_images/tl/less-smooth-bodymass.10f4db8b683cc17d.webp)
✅ Basahin ang tungkol sa mga parameter na magagamit para sa ganitong uri ng plot at mag-eksperimento!
@ -154,7 +154,7 @@ Ang ganitong uri ng tsart ay nag-aalok ng magagandang paliwanag na visualization
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```
![bodymass per order](../../../../../translated_images/tl/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.png)
![bodymass per order](../../../../../translated_images/tl/bodymass-per-order.9d2b065dd931b928.webp)
## 🚀 Hamon

@ -83,7 +83,7 @@ pie(grouped$count,grouped$class, main="Edible?")
```
Voila, isang pie chart na nagpapakita ng proporsyon ng datos ayon sa dalawang klase ng kabute. Napakahalaga na makuha ang tamang pagkakasunod ng labels, lalo na dito, kaya siguraduhing i-verify ang pagkakasunod ng label array!
![pie chart](../../../../../translated_images/tl/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.png)
![pie chart](../../../../../translated_images/tl/pie1-wb.685df063673751f4.webp)
## Donuts!
@ -117,7 +117,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```
![donut chart](../../../../../translated_images/tl/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.png)
![donut chart](../../../../../translated_images/tl/donut-wb.34e6fb275da9d834.webp)
Ang code na ito ay gumagamit ng dalawang library - ggplot2 at webr. Gamit ang PieDonut function ng webr library, madali tayong makakagawa ng donut chart!
@ -155,7 +155,7 @@ waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual
Gamit ang waffle chart, makikita mo nang malinaw ang proporsyon ng mga cap colors sa dataset ng kabute. Nakakatuwa, maraming green-capped mushrooms!
![waffle chart](../../../../../translated_images/tl/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.png)
![waffle chart](../../../../../translated_images/tl/waffle.aaa75c5337735a6e.webp)
Sa araling ito, natutunan mo ang tatlong paraan upang ipakita ang proporsyon. Una, kailangan mong i-group ang iyong datos sa mga kategorya at pagkatapos ay magdesisyon kung alin ang pinakamahusay na paraan upang ipakita ang datos - pie, donut, o waffle. Lahat ay masarap at nagbibigay ng instant snapshot ng dataset sa user.

@ -42,7 +42,7 @@ library(ggplot2)
ggplot(honey, aes(x = priceperlb, y = state)) +
geom_point(colour = "blue")
```
![scatterplot 1](../../../../../translated_images/tl/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.png)
![scatterplot 1](../../../../../translated_images/tl/scatter1.86b8900674d88b26.webp)
Ngayon, ipakita ang parehong data gamit ang isang kulay ng pulot upang ipakita kung paano nagbago ang presyo sa paglipas ng mga taon. Magagawa mo ito sa pamamagitan ng pagdaragdag ng parameter na 'scale_color_gradientn' upang ipakita ang pagbabago, taon-taon:
@ -52,7 +52,7 @@ Ngayon, ipakita ang parehong data gamit ang isang kulay ng pulot upang ipakita k
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7))
```
![scatterplot 2](../../../../../translated_images/tl/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.png)
![scatterplot 2](../../../../../translated_images/tl/scatter2.4d1cbc693bad20e2.webp)
Sa pagbabago ng color scheme na ito, makikita mo na malinaw na may malakas na pagtaas sa paglipas ng mga taon sa presyo ng pulot bawat libra. Sa katunayan, kung titingnan mo ang isang sample set sa data upang i-verify (pumili ng isang partikular na estado, Arizona halimbawa) makikita mo ang pattern ng pagtaas ng presyo taon-taon, na may ilang mga pagbubukod:
@ -83,7 +83,7 @@ ggplot(honey, aes(x = priceperlb, y = state)) +
```
Makikita mo ang unti-unting pagtaas ng laki ng mga tuldok.
![scatterplot 3](../../../../../translated_images/tl/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.png)
![scatterplot 3](../../../../../translated_images/tl/scatter3.722d21e6f20b3ea2.webp)
Ito ba ay simpleng kaso ng supply at demand? Dahil sa mga salik tulad ng pagbabago ng klima at colony collapse, mas kaunti ba ang pulot na magagamit para bilhin taon-taon, kaya't tumataas ang presyo?
@ -98,7 +98,7 @@ qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab
```
Sagot: Oo, na may ilang mga pagbubukod sa paligid ng taong 2003:
![line chart 1](../../../../../translated_images/tl/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.png)
![line chart 1](../../../../../translated_images/tl/line1.299b576fbb2a59e6.webp)
Tanong: Sa 2003, makikita rin ba natin ang pagtaas sa supply ng pulot? Paano kung tingnan mo ang kabuuang produksyon taon-taon?
@ -106,7 +106,7 @@ Tanong: Sa 2003, makikita rin ba natin ang pagtaas sa supply ng pulot? Paano kun
qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod")
```
![line chart 2](../../../../../translated_images/tl/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.png)
![line chart 2](../../../../../translated_images/tl/line2.3b18fcda7176ceba.webp)
Sagot: Hindi talaga. Kung titingnan mo ang kabuuang produksyon, tila ito ay tumaas sa partikular na taon na iyon, kahit na sa pangkalahatan ang dami ng pulot na ginagawa ay bumababa sa mga taong ito.
@ -126,7 +126,7 @@ ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) +
```
Sa visualization na ito, maaari mong ihambing ang ani bawat kolonya at bilang ng mga kolonya taon-taon, magkatabi na may wrap na nakatakda sa 3 para sa mga column:
![facet grid](../../../../../translated_images/tl/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.png)
![facet grid](../../../../../translated_images/tl/facet.491ad90d61c2a7cc.webp)
Para sa dataset na ito, walang partikular na kapansin-pansin tungkol sa bilang ng mga kolonya at kanilang ani, taon-taon at estado sa estado. Mayroon bang ibang paraan upang tingnan ang paghahanap ng ugnayan sa pagitan ng dalawang variable na ito?
@ -143,7 +143,7 @@ plot(honey$year, honey$yieldpercol, pch = 17, col = 3,
axis(side = 4, at = pretty(range(y2)))
mtext("colony yield", side = 4, line = 3)
```
![superimposed plots](../../../../../translated_images/tl/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.png)
![superimposed plots](../../../../../translated_images/tl/dual-line.fc4665f360a54018.webp)
Habang walang kapansin-pansin sa mata sa paligid ng taong 2003, pinapayagan tayo nitong tapusin ang araling ito sa mas masayang tala: habang may pangkalahatang pagbaba sa bilang ng mga kolonya, ang bilang ng mga kolonya ay nagiging matatag kahit na ang kanilang ani bawat kolonya ay bumababa.

@ -38,25 +38,25 @@ Sa mga nakaraang aralin, sinubukan mong gumawa ng iba't ibang uri ng visualisasy
Kahit na maingat ang isang data scientist sa pagpili ng tamang tsart para sa tamang datos, maraming paraan upang maipakita ang datos sa paraang nagpapakita ng isang punto, madalas sa kapinsalaan ng datos mismo. Maraming halimbawa ng mapanlinlang na tsart at infographics!
[![Paano Nagsisinungaling ang mga Tsart ni Alberto Cairo](../../../../../translated_images/tl/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Paano Nagsisinungaling ang mga Tsart")
[![Paano Nagsisinungaling ang mga Tsart ni Alberto Cairo](../../../../../translated_images/tl/tornado.2880ffc7f135f82b.webp)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Paano Nagsisinungaling ang mga Tsart")
> 🎥 I-click ang larawan sa itaas para sa isang talakayan tungkol sa mapanlinlang na mga tsart
Ang tsart na ito ay binabaliktad ang X axis upang ipakita ang kabaligtaran ng katotohanan, batay sa petsa:
![masamang tsart 1](../../../../../translated_images/tl/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.png)
![masamang tsart 1](../../../../../translated_images/tl/bad-chart-1.596bc93425a8ac30.webp)
[Ang tsart na ito](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) ay mas mapanlinlang pa, dahil ang mata ay naaakit sa kanan upang isipin na, sa paglipas ng panahon, ang mga kaso ng COVID ay bumaba sa iba't ibang mga county. Sa katunayan, kung titingnan mong mabuti ang mga petsa, makikita mong inayos ang mga ito upang magmukhang pababa ang trend.
![masamang tsart 2](../../../../../translated_images/tl/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.jpg)
![masamang tsart 2](../../../../../translated_images/tl/bad-chart-2.62edf4d2f30f4e51.webp)
Ang kilalang halimbawa na ito ay gumagamit ng kulay AT baliktad na Y axis upang manlinlang: sa halip na isipin na tumaas ang mga pagkamatay dahil sa baril pagkatapos ng pagpasa ng batas na pabor sa baril, ang mata ay nalilinlang upang isipin ang kabaligtaran:
![masamang tsart 3](../../../../../translated_images/tl/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.jpg)
![masamang tsart 3](../../../../../translated_images/tl/bad-chart-3.e201e2e915a230bc.webp)
Ang kakaibang tsart na ito ay nagpapakita kung paano maaaring manipulahin ang proporsyon, na nagdudulot ng nakakatawang epekto:
![masamang tsart 4](../../../../../translated_images/tl/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.jpg)
![masamang tsart 4](../../../../../translated_images/tl/bad-chart-4.8872b2b881ffa96c.webp)
Ang paghahambing ng mga bagay na hindi maihahambing ay isa pang mapanlinlang na taktika. Mayroong [kahanga-hangang website](https://tylervigen.com/spurious-correlations) na nagpapakita ng 'spurious correlations' na nagtatampok ng 'mga katotohanan' na nag-uugnay sa mga bagay tulad ng rate ng diborsyo sa Maine at ang pagkonsumo ng margarina. Ang isang Reddit group ay nangongolekta rin ng [pangit na paggamit](https://www.reddit.com/r/dataisugly/top/?t=all) ng datos.
@ -91,13 +91,13 @@ Lagyan ng label ang iyong mga axis, magbigay ng legend kung kinakailangan, at ma
Kung ang iyong datos ay tekstwal at mahaba sa X axis, maaari mong i-anggulo ang teksto para sa mas madaling basahin. Ang [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) ay nag-aalok ng 3D plotting, kung sinusuportahan ito ng iyong datos. Ang mga sopistikadong visualisasyon ng datos ay maaaring gawin gamit ito.
![3d plots](../../../../../translated_images/tl/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.png)
![3d plots](../../../../../translated_images/tl/3d.db1734c151eee87d.webp)
## Animation at 3D na pagpapakita ng tsart
Ang ilan sa mga pinakamahusay na visualisasyon ng datos ngayon ay animated. Si Shirley Wu ay may mga kamangha-manghang gawa gamit ang D3, tulad ng '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kung saan ang bawat bulaklak ay isang visualisasyon ng isang pelikula. Isa pang halimbawa para sa Guardian ay 'bussed out', isang interactive na karanasan na pinagsasama ang mga visualisasyon gamit ang Greensock at D3 kasama ang isang scrollytelling na format ng artikulo upang ipakita kung paano hinahawakan ng NYC ang problema nito sa mga walang tirahan sa pamamagitan ng pagdadala ng mga tao palabas ng lungsod.
![busing](../../../../../translated_images/tl/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.png)
![busing](../../../../../translated_images/tl/busing.8157cf1bc89a3f65.webp)
> "Bussed Out: Paano Inililipat ng Amerika ang mga Walang Tirahan" mula sa [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Mga visualisasyon nina Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Bagama't hindi sapat ang araling ito upang talakayin nang malalim ang mga makapa
Kukumpletuhin mo ang isang web app na magpapakita ng isang animated na view ng social network na ito. Gumagamit ito ng isang library na ginawa upang lumikha ng isang [visual ng isang network](https://github.com/emiliorizzo/vue-d3-network) gamit ang Vue.js at D3. Kapag tumatakbo na ang app, maaari mong hilahin ang mga node sa screen upang i-shuffle ang datos.
![liaisons](../../../../../translated_images/tl/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.png)
![liaisons](../../../../../translated_images/tl/liaisons.90ce7360bcf84765.webp)
## Proyekto: Gumawa ng tsart upang ipakita ang isang network gamit ang D3.js

@ -1,6 +1,6 @@
# Mga Biswal na Presentasyon
![isang bubuyog sa bulaklak ng lavender](../../../translated_images/tl/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.jpg)
![isang bubuyog sa bulaklak ng lavender](../../../translated_images/tl/bee.0aa1d91132b12e3a.webp)
> Larawan ni <a href="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> sa <a href="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Ang pagbibiswal ng datos ay isa sa pinakamahalagang gawain ng isang data scientist. Ang mga larawan ay nagkakahalaga ng 1000 salita, at ang isang biswal na presentasyon ay makakatulong sa iyong matukoy ang iba't ibang kawili-wiling bahagi ng iyong datos tulad ng biglaang pagtaas, mga outlier, mga pangkat, mga uso, at marami pang iba, na makakatulong sa iyong maunawaan ang kwento na nais ipahayag ng iyong datos.

@ -16,7 +16,7 @@ Sa puntong ito, malamang napagtanto mo na ang data science ay isang proseso. Ang
Ang araling ito ay nakatuon sa 3 bahagi ng lifecycle: pagkuha, pagproseso, at pagpapanatili.
![Diagram ng lifecycle ng data science](../../../../translated_images/tl/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.jpg)
![Diagram ng lifecycle ng data science](../../../../translated_images/tl/data-science-lifecycle.a1e362637503c4fb.webp)
> Larawan mula sa [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Pagkuha
@ -92,7 +92,7 @@ Suriin ang [Team Data Science Process lifecycle](https://docs.microsoft.com/en-u
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
|![Team Data Science Lifecycle](../../../../translated_images/tl/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.png) | ![Data Science Process Alliance Image](../../../../translated_images/tl/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.png) |
|![Team Data Science Lifecycle](../../../../translated_images/tl/tdsp-lifecycle2.e19029d598e2e73d.webp) | ![Data Science Process Alliance Image](../../../../translated_images/tl/CRISP-DM.8bad2b4c66e62aa7.webp) |
| Larawan mula sa [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Larawan mula sa [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ds/quiz/27)

@ -1,6 +1,6 @@
# Ang Lifecycle ng Data Science
![communication](../../../translated_images/tl/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.jpg)
![communication](../../../translated_images/tl/communication.06d8e2a88d30d168.webp)
> Larawan ni <a href="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> sa <a href="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Sa mga araling ito, tatalakayin mo ang ilang aspeto ng lifecycle ng Data Science, kabilang ang pagsusuri at komunikasyon tungkol sa datos.

@ -1,12 +1,12 @@
# Data Science sa Cloud
![cloud-picture](../../../translated_images/tl/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.jpg)
![cloud-picture](../../../translated_images/tl/cloud-picture.f5526de3c6c6387b.webp)
> Larawan ni [Jelleke Vanooteghem](https://unsplash.com/@ilumire) mula sa [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Kapag pinag-uusapan ang paggawa ng data science gamit ang malalaking datos, ang cloud ay maaaring maging isang malaking tulong. Sa susunod na tatlong aralin, tatalakayin natin kung ano ang cloud at kung bakit ito napaka-kapaki-pakinabang. Susuriin din natin ang isang dataset tungkol sa heart failure at gagawa ng modelo upang makatulong sa pagsusuri ng posibilidad na magkaroon ng heart failure ang isang tao. Gagamitin natin ang kapangyarihan ng cloud upang sanayin, i-deploy, at gamitin ang modelo sa dalawang magkaibang paraan. Ang isang paraan ay gamit lamang ang user interface sa isang Low code/No code na paraan, at ang isa pang paraan ay gamit ang Azure Machine Learning Software Developer Kit (Azure ML SDK).
![project-schema](../../../translated_images/tl/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.png)
![project-schema](../../../translated_images/tl/project-schema.420e56d495624541.webp)
### Mga Paksa

@ -32,7 +32,7 @@ Dahil sa democratization ng AI, mas madali na ngayon para sa mga developer na ma
* [Data Science sa Healthcare](https://data-flair.training/blogs/data-science-in-healthcare/) - binibigyang-diin ang mga aplikasyon tulad ng medical imaging (hal., MRI, X-Ray, CT-Scan), genomics (DNA sequencing), pagbuo ng gamot (pagtatasa ng panganib, prediksyon ng tagumpay), predictive analytics (pangangalaga sa pasyente at logistics ng suplay), pagsubaybay at pag-iwas sa sakit, atbp.
![Mga Aplikasyon ng Data Science sa Tunay na Mundo](../../../../translated_images/tl/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.png) Kredito ng Imahe: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
![Mga Aplikasyon ng Data Science sa Tunay na Mundo](../../../../translated_images/tl/data-science-applications.4e5019cd8790ebac.webp) Kredito ng Imahe: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Ipinapakita ng larawan ang iba pang mga domain at halimbawa ng paggamit ng mga teknik sa data science. Gusto mo bang tuklasin ang iba pang aplikasyon? Tingnan ang seksyong [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) sa ibaba.

@ -13,7 +13,7 @@ Ang interface ng Explorer (makikita sa screenshot sa ibaba) ay nagbibigay-daan s
2. I-explore ang dataset [Catalog](https://planetarycomputer.microsoft.com/catalog) - alamin ang layunin ng bawat isa.
3. Gamitin ang Explorer - pumili ng dataset na interesado ka, piliin ang kaugnay na query at rendering option.
![Ang Planetary Computer Explorer](../../../../translated_images/tl/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.png)
![Ang Planetary Computer Explorer](../../../../translated_images/tl/planetary-computer-explorer.c1e95a9b053167d6.webp)
`Ang Iyong Gawain:`
Pag-aralan ang visualization na na-render sa browser at sagutin ang mga sumusunod:

@ -17,41 +17,51 @@
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
Ang Azure Cloud Advocates sa Microsoft ay masayang nag-aalok ng 10-linggong, 20-leksyon na kurikulum tungkol sa Data Science. Bawat leksyon ay may kasamang pre-lesson at post-lesson quizzes, mga nakasulat na tagubilin para tapusin ang leksyon, isang solusyon, at isang asignatura. Ang aming project-based pedagogy ay nagpapahintulot sa iyo na matuto habang gumagawa, isang napatunayan na paraan para maitanim ang mga bagong kasanayan.
Ang Azure Cloud Advocates sa Microsoft ay natutuwa na mag-alok ng isang 10-linggong, 20-aralin na kurikulum tungkol sa Data Science. Bawat aralin ay may kasamang pre-lesson at post-lesson quizzes, nakasulat na mga instruksyon para tapusin ang aralin, solusyon, at isang assignment. Ang aming project-based pedagogy ay nagbibigay-daan sa iyo na matuto habang nagtatayo, isang napatunayang paraan para ang mga bagong kasanayan ay manatili.
**Taos-pusong pasasalamat sa aming mga may-akda:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**Lubos na pasasalamat sa aming mga awtor:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer).
**🙏 Espesyal na pasasalamat 🙏 sa aming mga [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) na mga may-akda, tagasuri at mga contributor sa nilalaman,** lalo na kina Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
**🙏 Espesyal na pasasalamat 🙏 sa aming mga [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) na mga awtor, tagasuri, at mga nag-aambag ng nilalaman,** lalo na kina Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200),
[Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar , [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/)
|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/tl/00-Title.8af36cd35da1ac55.webp)|
|:---:|
| Data Science Para sa mga Nagsisimula - _Sketchnote ni [@nitya](https://twitter.com/nitya)_ |
### 🌐 Suporta sa Maramihang Wika
### 🌐 Suporta sa Maraming Wika
#### Sinusuportahan sa pamamagitan ng GitHub Action (Automated at Palaging Napapanahon)
<!-- CO-OP TRANSLATOR LANGUAGES TABLE START -->
[Arabic](../ar/README.md) | [Bengali](../bn/README.md) | [Bulgarian](../bg/README.md) | [Burmese (Myanmar)](../my/README.md) | [Chinese (Simplified)](../zh-CN/README.md) | [Chinese (Traditional, Hong Kong)](../zh-HK/README.md) | [Chinese (Traditional, Macau)](../zh-MO/README.md) | [Chinese (Traditional, Taiwan)](../zh-TW/README.md) | [Croatian](../hr/README.md) | [Czech](../cs/README.md) | [Danish](../da/README.md) | [Dutch](../nl/README.md) | [Estonian](../et/README.md) | [Finnish](../fi/README.md) | [French](../fr/README.md) | [German](../de/README.md) | [Greek](../el/README.md) | [Hebrew](../he/README.md) | [Hindi](../hi/README.md) | [Hungarian](../hu/README.md) | [Indonesian](../id/README.md) | [Italian](../it/README.md) | [Japanese](../ja/README.md) | [Kannada](../kn/README.md) | [Korean](../ko/README.md) | [Lithuanian](../lt/README.md) | [Malay](../ms/README.md) | [Malayalam](../ml/README.md) | [Marathi](../mr/README.md) | [Nepali](../ne/README.md) | [Nigerian Pidgin](../pcm/README.md) | [Norwegian](../no/README.md) | [Persian (Farsi)](../fa/README.md) | [Polish](../pl/README.md) | [Portuguese (Brazil)](../pt-BR/README.md) | [Portuguese (Portugal)](../pt-PT/README.md) | [Punjabi (Gurmukhi)](../pa/README.md) | [Romanian](../ro/README.md) | [Russian](../ru/README.md) | [Serbian (Cyrillic)](../sr/README.md) | [Slovak](../sk/README.md) | [Slovenian](../sl/README.md) | [Spanish](../es/README.md) | [Swahili](../sw/README.md) | [Swedish](../sv/README.md) | [Tagalog (Filipino)](./README.md) | [Tamil](../ta/README.md) | [Telugu](../te/README.md) | [Thai](../th/README.md) | [Turkish](../tr/README.md) | [Ukrainian](../uk/README.md) | [Urdu](../ur/README.md) | [Vietnamese](../vi/README.md)
> **Mas gusto mo bang I-clone Lokal?**
> Ang repositoryong ito ay may kasamang 50+ na pagsasalin sa wika na malaki ang dagdag sa laki ng pag-download. Para mag-clone nang walang mga pagsasalin, gamitin ang sparse checkout:
> **Mas gusto mo bang I-clone Lokally?**
>
> Kasama sa repository na ito ang mahigit 50 na mga pagsasalin ng wika na nagpapalaki ng sukat ng pag-download. Para mag-clone nang walang mga pagsasalin, gamitin ang sparse checkout:
>
> **Bash / macOS / Linux:**
> ```bash
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'
> ```
> Binibigyan ka nito ng lahat ng kailangan mo para matapos ang kurso nang mas mabilis ang pag-download.
>
> **CMD (Windows):**
> ```cmd
> git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
> cd Data-Science-For-Beginners
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Ito ang magbibigay sa iyo ng lahat ng kailangan mo para tapusin ang kurso nang mas mabilis ang pag-download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Kung nais mo ng karagdagang suporta sa mga salin ng wika, nakalista ito [dito](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Kung nais mong magkaroon ng karagdagang mga sinusuportahang wika ng pagsasalin, nakalista ang mga ito [dito](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
#### Sumali sa Aming Komunidad
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Mayroon kaming Discord na serye sa pagkatuto kasama ang AI, alamin pa at sumali sa amin sa [Learn with AI Series](https://aka.ms/learnwithai/discord) mula Setyembre 18 - 30, 2025. Makakakuha ka ng mga tip at diskarte sa paggamit ng GitHub Copilot para sa Data Science.
Mayroon kaming ongoing na Discord learn with AI series, matuto pa at sumali sa amin sa [Learn with AI Series](https://aka.ms/learnwithai/discord) mula Setyembre 18 - 30, 2025. Makakakuha ka ng mga tips at tricks sa paggamit ng GitHub Copilot para sa Data Science.
![Learn with AI series](../../translated_images/tl/1.2b28cdc6205e26fe.webp)
@ -59,174 +69,195 @@ Mayroon kaming Discord na serye sa pagkatuto kasama ang AI, alamin pa at sumali
Magsimula gamit ang mga sumusunod na resources:
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Sa pahinang ito, makikita mo ang mga beginner resources, Student packs at maging mga paraan para makakuha ng libreng sertipikasyon voucher. Ito ang pahinang nais mong i-bookmark at tingnan paminsan-minsan habang nagpapalit kami ng nilalaman buwan-buwan.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Sumali sa isang pandaigdigang komunidad ng student ambassadors, ito ang posibleng daan mo papasok sa Microsoft.
- [Student Hub page](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Sa pahinang ito, makikita mo ang mga beginner resources, Student packs at pati na rin mga paraan para makakuha ng libreng cert voucher. Ito ay isang pahina na nais mong i-bookmark at tingnan paminsan-minsan dahil nagbabago kami ng content kahit buwan-buwan.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Sumali sa isang global na komunidad ng student ambassadors, ito ang maaaring maging daan mo patungo sa Microsoft.
# Pagsisimula
## 📚 Dokumentasyon
- **[Installation Guide](INSTALLATION.md)** - Mga hakbang-hakbang na tagubilin para sa setup ng mga nagsisimula
- **[Usage Guide](USAGE.md)** - Mga halimbawa at karaniwang workflow
- **[Troubleshooting](TROUBLESHOOTING.md)** - Mga solusyon sa karaniwang problema
- **[Installation Guide](INSTALLATION.md)** - Mga sunud-sunod na tagubilin sa pag-setup para sa mga nagsisimula
- **[Usage Guide](USAGE.md)** - Mga halimbawa at karaniwang workflows
- **[Troubleshooting](TROUBLESHOOTING.md)** - Mga solusyon sa mga karaniwang problema
- **[Contributing Guide](CONTRIBUTING.md)** - Paano mag-ambag sa proyektong ito
- **[For Teachers](for-teachers.md)** - Gabay sa pagtuturo at mga resources para sa klase
- **[Para sa mga Guro](for-teachers.md)** - Patnubay sa pagtuturo at mga gamit sa klase
## 👨‍🎓 Para sa mga Estudyante
> **Mga ganap na Nagsisimula**: Bago ka ba sa data science? Magsimula sa aming [beginner-friendly examples](examples/README.md)! Ang mga simpleng halimbawa na may komento ay tutulong sa iyo na maunawaan ang mga batayan bago sumabak sa buong kurikulum.
> **[Mga Estudyante](https://aka.ms/student-page)**: para gamitin ang kurikulum na ito nang mag-isa, mag-fork ng buong repo at kumpletuhin ang mga pagsasanay nang mag-isa, simula sa pre-lecture quiz. Pagkatapos basahin ang leksyon at tapusin ang mga natitirang gawain. Subukang likhain ang mga proyekto sa pamamagitan ng pag-unawa sa mga leksyon sa halip na kopyahin ang code ng solusyon; gayunpaman, ang code na iyon ay makikita sa mga /solutions folder sa bawat proyekto-oriented na leksyon. Isa pang ideya ay bumuo ng study group kasama ang mga kaibigan at sabay na pag-aralan ang nilalaman. Para sa karagdagang pag-aaral, inirerekomenda namin ang [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Lubos na Nagsisimula**: Bago ka ba sa data science? Magsimula sa aming [mga beginner-friendly na halimbawa](examples/README.md)! Ang mga simpleng ito, na may maayos na paliwanag, ay tutulong sa iyo maunawaan ang mga batayan bago pasukin ang buong kurikulum.
> **[Mga Estudyante](https://aka.ms/student-page)**: para magamit ang kurikulum na ito sa sarili mo, i-fork ang buong repo at tapusin ang mga pagsasanay mag-isa, simula sa isang pre-lecture quiz. Pagkatapos basahin ang lektura at kumpletuhin ang mga gugulin. Subukang likhain ang mga proyekto sa pamamagitan ng pag-unawa sa mga aralin sa halip na kopyahin ang solution code; gayunpaman, ang code na iyon ay makikita sa mga /solutions folder sa bawat aralin na nakatuon sa proyekto. Isa pang ideya ay bumuo ng isang study group kasama ang mga kaibigan at sabay-sabay na pag-aralan ang nilalaman. Para sa mas malalim na pag-aaral, inirerekomenda namin ang [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Mabilis na Pagsisimula:**
1. Tingnan ang [Installation Guide](INSTALLATION.md) para i-setup ang iyong environment
2. Suriin ang [Usage Guide](USAGE.md) para matutunan kung paano gamitin ang kurikulum
3. Magsimula sa Lesson 1 at sundan nang sunod-sunod
1. Suriin ang [Installation Guide](INSTALLATION.md) upang i-setup ang iyong kapaligiran
2. Balikan ang [Usage Guide](USAGE.md) upang matutunan kung paano gamitin ang kurikulum
3. Magsimula sa Aralin 1 at sumunod nang sunud-sunod
4. Sumali sa aming [Discord community](https://aka.ms/ds4beginners/discord) para sa suporta
## 👩‍🏫 Para sa mga Guro
> **Mga Guro**: [Isinama namin ang ilang mga suhestiyon](for-teachers.md) kung paano gamitin ang kurikulum na ito. Nais naming marinig ang inyong mga puna [sa aming discussion forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Guro**: naglagay kami ng [ilang mga mungkahi](for-teachers.md) kung paano gamitin ang kurikulum na ito. Masaya kaming matanggap ang iyong feedback [sa aming discussion forum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
## Kilalanin ang Koponan
## Kilalanin ang Team
[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video")
**Gif mula kay** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
**Gif ni** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal)
> 🎥 Pindutin ang imahe sa itaas para sa isang video tungkol sa proyekto at sa mga taong gumawa nito!
> 🎥 Pindutin ang larawan sa itaas para sa isang video tungkol sa proyekto at ang mga taong lumikha nito!
## Pedagohiya
Pinili namin ang dalawang pedagogical na prinsipyo habang binubuo ang kurikulum na ito: tiyakin na ito ay nakabatay sa proyekto at may kasamang madalas na mga pagsusulit. Sa pagtatapos ng seryeng ito, matututuhan ng mga estudyante ang mga pangunahing prinsipyo ng agham ng datos, kabilang ang mga konseptong etikal, paghahanda ng datos, iba't ibang paraan ng pagtatrabaho sa datos, pagvisualisa ng datos, pagsusuri ng datos, mga totoong gamit ng agham ng datos, at iba pa.
Pinili namin ang dalawang pedagogical tenet habang binubuo ang kurikulum na ito: tiyakin na ito ay nakabatay sa proyekto at na ito ay may madalas na quiz. Sa pagtatapos ng seryeng ito, matututuhan ng mga estudyante ang mga pangunahing prinsipyo ng data science, kabilang ang mga etikal na konsepto, paghahanda ng data, iba't ibang paraan ng pagtatrabaho sa data, pag-visualize ng data, pagsusuri ng data, mga totoong gamit ng data science, at iba pa.
Bukod dito, ang mababang-taya na pagsusulit bago ang klase ay nagtatalaga ng layunin ng estudyante sa pag-aaral ng isang paksa, habang ang pangalawang pagsusulit pagkatapos ng klase ay nagsisigurong mas matagal na pananatili ng kaalaman. Ang kurikulum na ito ay idinisenyo upang maging flexible at masaya at maaaring kunin nang buo o paunti-unti. Ang mga proyekto ay nagsisimula sa maliit at lumalalim ang komplikasyon sa pagtatapos ng 10-linggong siklo.
Bilang karagdagan, ang low-stakes na quiz bago ang klase ay nagtatakda ng layunin ng estudyante sa pag-aaral ng isang paksa, habang ang pangalawang quiz pagkatapos ng klase ay nagsisiguro ng mas matibay na retention. Dinisenyo ang kurikulum na ito upang maging flexible at kasiya-siya at maaaring kunin nang buo o bahagi lamang. Ang mga proyekto ay nagsisimula sa maliit at lalong nagiging komplikado sa pagtatapos ng 10 linggong siklo.
> Hanapin ang aming [Code of Conduct](CODE_OF_CONDUCT.md), [Contributing](CONTRIBUTING.md), at [Translation](TRANSLATIONS.md) na mga gabay. Malugod naming tinatanggap ang iyong makabuluhang puna!
> Hanapin ang aming [Code of Conduct](CODE_OF_CONDUCT.md), mga gabay sa [Contributing](CONTRIBUTING.md), [Translation](TRANSLATIONS.md). Tinatanggap namin ang inyong makabuluhang puna!
## Bawat aralin ay may kasamang:
- Opsyonal na sketchnote
- Opsyonal na karagdagang video
- Opsyonal na supplemental na video
- Pre-lesson warmup quiz
- Nakalistang aralin
- Para sa mga aralin na nakabatay sa proyekto, mga hakbang-hakbang na gabay kung paano buuin ang proyekto
- Mga pagsusuri ng kaalaman
- Nakasaad na aralin
- Para sa mga aralin na nakabatay sa proyekto, mga step-by-step na gabay kung paano buuin ang proyekto
- Mga pagsusuri sa kaalaman
- Isang hamon
- Karagdagang babasahin
- Supplemental na pagbasa
- Takdang-aralin
- [Post-lesson quiz](https://ff-quizzes.netlify.app/en/)
> **Isang tala tungkol sa mga pagsusulit**: Lahat ng pagsusulit ay nasa loob ng Quiz-App folder, na may kabuuang 40 pagsusulit na tig-tatlong tanong bawat isa. Nakaugnay ang mga ito sa loob ng mga aralin, ngunit ang quiz app ay maaaring patakbuhin nang lokal o i-deploy sa Azure; sundin ang mga tagubilin sa `quiz-app` folder. Unti-unting nilalokalisa ang mga ito.
> **Tungkol sa mga quiz**: Lahat ng mga quiz ay nilalaman sa Quiz-App folder, para sa kabuuang 40 na quiz na tig-3 tanong bawat isa. Nakalink ang mga ito mula sa loob ng mga aralin, ngunit ang quiz app ay maaaring patakbuhin nang lokal o ideploy sa Azure; sundin ang mga tagubilin sa `quiz-app` folder. Unti-unti rin itong nililokalisa.
## 🎓 Mga Halimbawang Madaling Simulan
## 🎓 Mga Halimbawang Magaan Para sa Nagsisimula
**Bago sa Agham ng Datos?** Nilikha namin ang isang espesyal na [examples directory](examples/README.md) na may simpleng mga malinaw na pinaliwanag na code upang tulungan kang magsimula:
**Bago ka ba sa Data Science?** Nilikha namin ang isang espesyal na [examples directory](examples/README.md) na may simpleng, maayos ang pagkakakomento na code upang matulungan kang magsimula:
- 🌟 **Hello World** - Ang iyong unang programang agham ng datos
- 📂 **Pag-load ng Datos** - Matutunan kung paano basahin at suriin ang mga dataset
- 📊 **Simpleng Pagsusuri** - Kalkulahin ang mga estadistika at hanapin ang mga pattern
- 📈 **Pangunahing Visualisasyon** - Gumawa ng mga tsart at grap
- 🔬 **Totoong Proyekto** - Kumpletong daloy ng trabaho mula simula hanggang katapusan
- 🌟 **Hello World** - Ang iyong unang data science na programa
- 📂 **Loading Data** - Matutong magbasa at mag-explore ng mga dataset
- 📊 **Simple Analysis** - Kalkulahin ang mga istatistika at tuklasin ang mga pattern
- 📈 **Basic Visualization** - Gumawa ng mga tsart at grap
- 🔬 **Real-World Project** - Kumpletong workflow mula simula hanggang matapos
Bawat halimbawa ay may detalyadong mga komento na nagpapaliwanag sa bawat hakbang, kaya perpekto ito para sa mga ganap na baguhan!
Bawat halimbawa ay may detalyadong mga komento na nagpapaliwanag sa bawat hakbang, kaya't perpekto ito para sa mga ganap na nagsisimula!
👉 **[Magsimula sa mga halimbawa](examples/README.md)** 👈
👉 **[Simulan sa mga halimbawa](examples/README.md)** 👈
## Mga Aralin
|![ Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/tl/00-Roadmap.4905d6567dff4753.webp)|
|:---:|
| Data Science For Beginners: Roadmap - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Numero ng Aralin | Paksa | Pangkat ng Aralin | Mga Layunin ng Pagkatuto | Nakaugnay na Aralin | May-akda |
| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Pagpapakahulugan sa Agham ng Datos | [Introduction](1-Introduction/README.md) | Matutunan ang mga pangunahing konsepto sa likod ng agham ng datos at kung paano ito nauugnay sa artipisyal na intelihensiya, machine learning, at malalaking datos. | [lesson](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika sa Agham ng Datos | [Introduction](1-Introduction/README.md) | Mga Konsepto, Hamon, at Balangkas ng Etika sa Datos. | [lesson](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Pagpapakahulugan ng Datos | [Introduction](1-Introduction/README.md) | Paano ikinaklasipika ang datos at ang mga karaniwang pinagkukunan nito. | [lesson](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Panimula sa Estadistika at Probabilidad | [Introduction](1-Introduction/README.md) | Mga teknikang matematika ng probabilidad at estadistika upang maunawaan ang datos. | [lesson](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Paggamit ng Relational Data | [Working With Data](2-Working-With-Data/README.md) | Panimula sa relational data at mga pangunahing pamamaraan ng pagsusuri at pag-explore gamit ang Structured Query Language o SQL (binibigkas bilang “see-quell”). | [lesson](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Paggamit ng NoSQL Data | [Working With Data](2-Working-With-Data/README.md) | Panimula sa non-relational data, iba't ibang uri nito, at mga pangunahing pamamaraan ng pagsusuri at pag-explore ng mga document database. | [lesson](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Paggamit ng Python | [Working With Data](2-Working-With-Data/README.md) | Mga pangunahing gamit ng Python para sa pag-explore ng datos gamit ang mga librarya tulad ng Pandas. Inirerekomenda ang pundamental na kaalaman sa programming ng Python. | [lesson](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Paghahanda ng Datos | [Working With Data](2-Working-With-Data/README.md) | Mga paksa sa mga teknik sa paglilinis at pag-transform ng datos upang harapin ang mga hamon ng nawawala, maling, o hindi kumpletong datos. | [lesson](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Pagvisualisa ng Dami | [Data Visualization](3-Data-Visualization/README.md) | Matutunan kung paano gamitin ang Matplotlib upang i-visualize ang datos ng mga ibon 🦆 | [lesson](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Pagvisualisa ng Pamamahagi ng Datos | [Data Visualization](3-Data-Visualization/README.md) | Pagvisualisa ng mga obserbasyon at mga trend sa loob ng isang interval. | [lesson](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Pagvisualisa ng Proportion | [Data Visualization](3-Data-Visualization/README.md) | Pagvisualisa ng mga discrete at pangkat na porsyento. | [lesson](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Pagvisualisa ng Mga Ugnayan | [Data Visualization](3-Data-Visualization/README.md) | Pagvisualisa ng mga koneksyon at korelasyon sa pagitan ng mga datos at kanilang mga variable. | [lesson](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Makabuluhang Visualisasyon | [Data Visualization](3-Data-Visualization/README.md) | Mga teknik at patnubay sa paggawa ng mga visualisasyon na may halaga para sa epektibong paglutas ng problema at pagkuha ng mga insight. | [lesson](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Panimula sa Siklo ng Agham ng Datos | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Panimula sa siklo ng agham ng datos at unang hakbang nito sa pagkuha at pag-extract ng datos. | [lesson](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Pagsusuri | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Ang yugto ng siklo ng agham ng datos na ito ay nakatuon sa mga teknik para sa pagsusuri ng datos. | [lesson](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasyon | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Ang yugtong ito ng siklo ng agham ng datos ay nakatuon sa pagpapahayag ng mga insight mula sa datos sa paraang mas madali itong maintindihan ng mga tagagawa ng desisyon. | [lesson](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Agham ng Datos sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Ang seryeng ito ng mga aralin ay nagpapakilala sa agham ng datos sa cloud at mga benepisyo nito. | [lesson](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 18 | Agham ng Datos sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Pagsasanay ng mga modelo gamit ang Low Code tools. |[lesson](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 19 | Agham ng Datos sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Pagde-deploy ng mga modelo gamit ang Azure Machine Learning Studio. | [lesson](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 20 | Agham ng Datos sa Realidad | [In the Wild](6-Data-Science-In-Wild/README.md) | Mga proyektong pinagagana ng agham ng datos sa totoong mundo. | [lesson](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| Data Science Para sa mga Nagsisimula: Roadmap - _Sketchnote ni [@nitya](https://twitter.com/nitya)_ |
| Numero ng Aralin | Paksa | Pagtatalaga ng Aralin | Mga Layunin sa Pagkatuto | Nakalink na Aralin | May-akda |
| :--------------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: |
| 01 | Pagpapakahulugan ng Data Science | [Introduction](1-Introduction/README.md) | Matutunan ang mga pangunahing konsepto sa likod ng data science at kung paano ito nauugnay sa artificial intelligence, machine learning, at big data. | [aralin](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etika sa Data Science | [Introduction](1-Introduction/README.md) | Mga Konsepto, Hamon at Framework ng Etika sa Data. | [aralin](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Pagpapakahulugan ng Data | [Introduction](1-Introduction/README.md) | Paano ikinaklasipika ang data at mga karaniwang pinagmulan nito. | [aralin](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Panimula sa Estadistika at Probabilidad | [Introduction](1-Introduction/README.md) | Mga matematikal na teknik sa probabilidad at estadistika upang maunawaan ang data. | [aralin](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Paggamit ng Relational Data | [Working With Data](2-Working-With-Data/README.md) | Panimula sa relational data at mga batayan ng pagsusuri at pag-explore ng relational data gamit ang Structured Query Language, na kilala rin bilang SQL (binibigkas na “see-quell”). | [aralin](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Paggamit ng NoSQL Data | [Working With Data](2-Working-With-Data/README.md) | Panimula sa non-relational data, iba't ibang uri nito at mga batayan ng pagsusuri at pag-explore ng document databases. | [aralin](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Paggamit ng Python | [Working With Data](2-Working-With-Data/README.md) | Mga batayan sa paggamit ng Python para sa pag-explore ng data gamit ang mga libraries gaya ng Pandas. Inirerekomenda ang pundamental na pagkaunawa sa Python programming. | [aralin](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Paghahanda ng Data | [Working With Data](2-Working-With-Data/README.md) | Mga paksa tungkol sa mga teknik ng paglinis at pag-transform ng data upang harapin ang mga hamon ng nawawala, maling datos, o hindi kumpletong data. | [aralin](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Pag-visualize ng Mga Dami | [Data Visualization](3-Data-Visualization/README.md) | Matutunan kung paano gamitin ang Matplotlib upang i-visualize ang bird data 🦆 | [aralin](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Pag-visualize ng Pamamahagi ng Data | [Data Visualization](3-Data-Visualization/README.md) | Pag-visualize ng mga obserbasyon at mga uso sa loob ng isang interval. | [aralin](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Pag-visualize ng Mga Proportion | [Data Visualization](3-Data-Visualization/README.md) | Pag-visualize ng discrete at grouped na mga porsyento. | [aralin](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Pag-visualize ng Mga Ugnayan | [Data Visualization](3-Data-Visualization/README.md) | Pag-visualize ng mga koneksyon at korelasyon sa pagitan ng mga set ng data at kanilang mga variable. | [aralin](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Makabuluhang Pag-visualize | [Data Visualization](3-Data-Visualization/README.md) | Mga teknik at gabay para gawing mahalaga ang iyong mga visualizations para sa epektibong paglutas ng problema at mga insight. | [aralin](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Panimula sa lifecycle ng Data Science | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Panimula sa lifecycle ng data science at ang unang hakbang ng pagkuha at pag-extract ng data. | [aralin](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Pagsusuri | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Nakatuon ang yugtong ito ng lifecycle ng data science sa mga teknik para suriin ang data. | [aralin](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikasyon | [Lifecycle](4-Data-Science-Lifecycle/README.md) | Nakatuon ang yugtong ito ng lifecycle ng data science sa paglalahad ng mga insight mula sa data sa paraang mas madaling maunawaan ng mga decision maker. | [aralin](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Ipinapakilala ng seryeng ito ang data science sa cloud at ang mga benepisyo nito. | [aralin](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Pagsasanay ng mga modelo gamit ang Low Code na mga tool. |[aralin](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science sa Cloud | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Pag-deploy ng mga modelo gamit ang Azure Machine Learning Studio. | [aralin](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) at [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science sa Totoong Mundo | [In the Wild](6-Data-Science-In-Wild/README.md) | Mga proyekto ng data science na ginamit sa totoong mundo. | [aralin](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Sundin ang mga hakbang na ito upang buksan ang halimbawa na ito sa isang Codespace:
1. I-click ang drop-down na menu ng Code at piliin ang opsyon na Open with Codespaces.
2. Piliin ang + New codespace sa ilalim ng pane.
Para sa karagdagang impormasyon, tingnan ang [GitHub documentation](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
Sundin ang mga hakbang na ito upang buksan ang sample na ito sa isang Codespace:
1. Pindutin ang Code drop-down menu at piliin ang Open with Codespaces na opsyon.
2. Piliin ang + New codespace sa ibaba ng pane.
Para sa karagdagang info, tingnan ang [GitHub documentation](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Sundin ang mga hakbang na ito upang buksan ang repo na ito sa isang container gamit ang iyong lokal na makina at VSCode gamit ang VS Code Remote - Containers extension:
1. Kung ito ang unang pagkakataon mong gumamit ng development container, siguraduhing pumasa ang iyong sistema sa mga kinakailangan (hal. mayroon kang naka-install na Docker) sa [the getting started documentation](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Kung ito ang unang pagkakataon na gagamitin mo ang development container, tiyakin na ang iyong sistema ay tumutugon sa mga kinakailangan (hal. naka-install ang Docker) sa [getting started documentation](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Para gamitin ang repositoryo na ito, maaari mong buksan ang repositoryo sa isang isolated Docker volume:
Upang magamit ang repository na ito, maaari mong buksan ang repository sa isang isolated Docker volume:
**Tandaan**: Sa likod nito, gagamitin nito ang Remote-Containers: **Clone Repository in Container Volume...** command para i-clone ang source code sa isang Docker volume sa halip na sa lokal na filesystem. Ang mga [Volumes](https://docs.docker.com/storage/volumes/) ay ang inirerekomendang mekanismo para sa pagpapanatili ng data ng container.
**Tandaan**: Sa ilalim nito, gagamitin ang Remote-Containers: **Clone Repository in Container Volume...** na command upang i-clone ang source code sa Docker volume sa halip na sa lokal na filesystem. [Volumes](https://docs.docker.com/storage/volumes/) ang preferred na mekanismo para sa pag-save ng data ng container.
O buksan ang locally cloned o downloaded na bersyon ng repositoryo:
O buksan ang lokal na na-clone o na-download na bersyon ng repository:
- I-clone ang repositoryong ito sa iyong lokal na filesystem.
- Pindutin ang F1 at piliin ang **Remote-Containers: Open Folder in Container...** command.
- Piliin ang naka-clone na kopya ng folder na ito, maghintay hanggang magsimula ang container, at subukan ito.
- I-clone ang repository na ito sa lokal na filesystem mo.
- Pindutin ang F1 at piliin ang **Remote-Containers: Open Folder in Container...** na command.
- Piliin ang na-clone na folder na ito, maghintay na magsimula ang container, at subukan.
## Offline na pag-access
## Offline access
Maaari mong patakbuhin ang dokumentasyong ito offline gamit ang [Docsify](https://docsify.js.org/#/). I-fork ang repo na ito, [i-install ang Docsify](https://docsify.js.org/#/quickstart) sa iyong lokal na makina, pagkatapos sa root folder ng repo na ito, itype ang `docsify serve`. Ang website ay ihahain sa port 3000 sa iyong localhost: `localhost:3000`.
Maaari mong patakbuhin ang dokumentasyong ito offline gamit ang [Docsify](https://docsify.js.org/#/). I-fork ang repo na ito, [i-install ang Docsify](https://docsify.js.org/#/quickstart) sa iyong lokal na makina, pagkatapos sa root folder ng repo na ito, i-type ang `docsify serve`. Ang website ay ise-serve sa port 3000 sa iyong localhost: `localhost:3000`.
> Tandaan, hindi mare-render ang mga notebook sa pamamagitan ng Docsify, kaya kapag kailangan mong patakbuhin ang isang notebook, gawin ito nang hiwalay sa VS Code gamit ang Python kernel.
> Tandaan, hindi mapapakita ang mga notebook gamit ang Docsify, kaya kapag kailangan mong patakbuhin ang isang notebook, gawin iyon nang hiwalay sa VS Code na nagpapatakbo ng Python kernel.
## Iba Pang Kurikulum
Ang aming koponan ay gumagawa ng iba pang mga kurikulum! Tingnan ang:
Gumagawa ang aming team ng iba pang mga kurikulum! Tingnan ang:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[![LangChain4j for Beginners](https://img.shields.io/badge/LangChain4j%20for%20Beginners-22C55E?style=for-the-badge&&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchain4j-for-beginners)
[![LangChain.js para sa mga Nagsisimula](https://img.shields.io/badge/LangChain.js%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[![LangChain para sa mga Nagsisimula](https://img.shields.io/badge/LangChain%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=0553D6)](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
### Azure / Edge / MCP / Agents
### Azure / Edge / MCP / Mga Ahente
[![AZD para sa mga Nagsisimula](https://img.shields.io/badge/AZD%20for%20Beginners-0078D4?style=for-the-badge&labelColor=E5E7EB&color=0078D4)](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Edge AI para sa mga Nagsisimula](https://img.shields.io/badge/Edge%20AI%20for%20Beginners-00B8E4?style=for-the-badge&labelColor=E5E7EB&color=00B8E4)](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![MCP para sa mga Nagsisimula](https://img.shields.io/badge/MCP%20for%20Beginners-009688?style=for-the-badge&labelColor=E5E7EB&color=009688)](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[![AI Agents para sa mga Nagsisimula](https://img.shields.io/badge/AI%20Agents%20for%20Beginners-00C49A?style=for-the-badge&labelColor=E5E7EB&color=00C49A)](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Generative AI Series
[![Generative AI para sa mga Nagsisimula](https://img.shields.io/badge/Generative%20AI%20for%20Beginners-8B5CF6?style=for-the-badge&labelColor=E5E7EB&color=8B5CF6)](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[![Generative AI (.NET)](https://img.shields.io/badge/Generative%20AI%20(.NET)-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[![Generative AI (Java)](https://img.shields.io/badge/Generative%20AI%20(Java)-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[![Generative AI (JavaScript)](https://img.shields.io/badge/Generative%20AI%20(JavaScript)-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
---
### Core Learning
### Pangunahing Pagkatuto
[![ML para sa mga Nagsisimula](https://img.shields.io/badge/ML%20for%20Beginners-22C55E?style=for-the-badge&labelColor=E5E7EB&color=22C55E)](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[![Data Science para sa mga Nagsisimula](https://img.shields.io/badge/Data%20Science%20for%20Beginners-84CC16?style=for-the-badge&labelColor=E5E7EB&color=84CC16)](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[![AI para sa mga Nagsisimula](https://img.shields.io/badge/AI%20for%20Beginners-A3E635?style=for-the-badge&labelColor=E5E7EB&color=A3E635)](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[![Cybersecurity para sa mga Nagsisimula](https://img.shields.io/badge/Cybersecurity%20for%20Beginners-F97316?style=for-the-badge&labelColor=E5E7EB&color=F97316)](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[![Web Dev para sa mga Nagsisimula](https://img.shields.io/badge/Web%20Dev%20for%20Beginners-EC4899?style=for-the-badge&labelColor=E5E7EB&color=EC4899)](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[![IoT para sa mga Nagsisimula](https://img.shields.io/badge/IoT%20for%20Beginners-14B8A6?style=for-the-badge&labelColor=E5E7EB&color=14B8A6)](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[![XR Development para sa mga Nagsisimula](https://img.shields.io/badge/XR%20Development%20for%20Beginners-38BDF8?style=for-the-badge&labelColor=E5E7EB&color=38BDF8)](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot Series
[![Copilot para sa AI Paired Programming](https://img.shields.io/badge/Copilot%20for%20AI%20Paired%20Programming-FACC15?style=for-the-badge&labelColor=E5E7EB&color=FACC15)](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[![Copilot para sa C#/.NET](https://img.shields.io/badge/Copilot%20for%20C%23/.NET-FBBF24?style=for-the-badge&labelColor=E5E7EB&color=FBBF24)](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
[![Copilot Adventure](https://img.shields.io/badge/Copilot%20Adventure-FDE68A?style=for-the-badge&labelColor=E5E7EB&color=FDE68A)](https://github.com/microsoft/CopilotAdventures?WT.mc_id=academic-105485-koreyst)
<!-- CO-OP TRANSLATOR OTHER COURSES END -->
## Getting Help
## Pagkuha ng Tulong
**Nakakaranas ng problema?** Tingnan ang aming [Troubleshooting Guide](TROUBLESHOOTING.md) para sa mga solusyon sa mga karaniwang problema.
**Nakakaranas ng mga problema?** Suriin ang aming [Gabayan sa Pag-troubleshoot](TROUBLESHOOTING.md) para sa mga solusyon sa mga karaniwang problema.
Kung ikaw ay na-stuck o may mga tanong tungkol sa paggawa ng mga AI app, sumali sa mga kapwa nag-aaral at karanasang mga developer sa mga talakayan tungkol sa MCP. Ito ay isang sumusuportang komunidad kung saan malugod ang mga tanong at malayang ibinabahagi ang kaalaman.
Kung ikaw ay natigil o may mga tanong tungkol sa paggawa ng mga AI na app. Sumali sa kapwa mga nag-aaral at mga bihasang developer sa mga talakayan tungkol sa MCP. Isang sumusuportang komunidad kung saan malugod ang mga tanong at malayang naibabahagi ang kaalaman.
[![Microsoft Foundry Discord](https://dcbadge.limes.pink/api/server/nTYy5BXMWG)](https://discord.gg/nTYy5BXMWG)
Kung mayroon kang feedback sa produkto o mga error habang nagbuo, bisitahin:
Kung mayroon kang puna sa produkto o mga error habang nagtatayo, bisitahin ang:
[![Microsoft Foundry Developer Forum](https://img.shields.io/badge/GitHub-Microsoft_Foundry_Developer_Forum-blue?style=for-the-badge&logo=github&color=000000&logoColor=fff)](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Pahayag ng Pagtatanggol**:
Ang dokumentong ito ay naisalin gamit ang serbisyong AI na pagsasalin na [Co-op Translator](https://github.com/Azure/co-op-translator). Bagama't nagsusumikap kami para sa katumpakan, mangyaring tandaan na maaaring may mga pagkakamali o kamalian ang mga awtomatikong pagsasalin. Ang orihinal na dokumento sa kanyang likas na wika ang dapat ituring na pangunahing sanggunian. Para sa mahahalagang impormasyon, inirerekomenda ang propesyonal na pagsasaling pantao. Hindi kami mananagot sa anumang hindi pagkakaintindihan o maling interpretasyon na nagmula sa paggamit ng pagsasaling ito.
**Pahayag ng Hindi Pananagutan**:
Ang dokumentong ito ay isinalin gamit ang serbisyong AI na pagsasalin [Co-op Translator](https://github.com/Azure/co-op-translator). Bagamat aming pinagsisikapang maging tumpak ang pagsasalin, pakiusap na tandaan na maaaring may mga pagkakamali o di-tiyak na bahagi ang awtomatikong pagsasalin. Ang orihinal na dokumento sa orihinal nitong wika ang dapat ituring na pangunahing sanggunian. Para sa mahahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na dulot ng paggamit ng pagsasaling ito.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->

@ -4,7 +4,7 @@ Hanapin ang lahat ng sketchnotes dito!
Nitya Narasimhan, artista
![roadmap sketchnote](../../../translated_images/tl/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.png)
![roadmap sketchnote](../../../translated_images/tl/00-Roadmap.4905d6567dff4753.webp)
---

Loading…
Cancel
Save