[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
@ -144,7 +144,7 @@ Se vogliamo complicare ulteriormente le cose, possiamo tracciare il tempo impieg
In questa sfida, cercheremo di individuare concetti rilevanti per il campo della Data Science analizzando dei testi. Prenderemo un articolo di Wikipedia sulla Data Science, scaricheremo e processeremo il testo, e poi costruiremo una nuvola di parole come questa:


Visita [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') per leggere il codice. Puoi anche eseguire il codice e vedere come effettua tutte le trasformazioni dei dati in tempo reale.
"# Sfida: Analizzare un Testo sulla Scienza dei Dati\n",
"# Sfida: Analisi del testo sulla Data Science\n",
"\n",
"In questo esempio, faremo un semplice esercizio che copre tutti i passaggi di un processo tradizionale di scienza dei dati. Non è necessario scrivere alcun codice, puoi semplicemente cliccare sulle celle qui sotto per eseguirle e osservare il risultato. Come sfida, ti incoraggiamo a provare questo codice con dati diversi.\n",
"In questo esempio, facciamo un semplice esercizio che copre tutti i passaggi di un processo tradizionale di data science. Non devi scrivere alcun codice, puoi semplicemente cliccare sulle celle qui sotto per eseguirle e osservare il risultato. Come sfida, ti incoraggiamo a provare questo codice con dati diversi.\n",
"\n",
"## Obiettivo\n",
"\n",
"In questa lezione, abbiamo discusso diversi concetti legati alla Scienza dei Dati. Proviamo a scoprire più concetti correlati facendo un po' di **text mining**. Partiremo da un testo sulla Scienza dei Dati, estrarremo parole chiave da esso e poi cercheremo di visualizzare il risultato.\n",
"In questa lezione, abbiamo discusso diversi concetti legati alla Data Science. Proviamo a scoprire altri concetti correlati facendo un po' di **text mining**. Inizieremo con un testo sulla Data Science, ne estrarremo le parole chiave e poi cercheremo di visualizzare il risultato.\n",
"\n",
"Come testo, utilizzerò la pagina sulla Scienza dei Dati da Wikipedia:\n"
"Come testo, utilizzerò la pagina sulla Data Science di Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 1: Ottenere i Dati\n",
"## Step 1: Ottenere i dati\n",
"\n",
"Il primo passo in ogni processo di data science è ottenere i dati. Utilizzeremo la libreria `requests` per farlo:\n"
"Il primo passo in ogni processo di data science è ottenere i dati. Useremo la libreria `requests` per farlo:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 2: Trasformare i dati\n",
"## Passo 2: Trasformare i Dati\n",
"\n",
"Il passo successivo è convertire i dati in una forma adatta per l'elaborazione. Nel nostro caso, abbiamo scaricato il codice sorgente HTML dalla pagina e dobbiamo convertirlo in testo semplice.\n",
"Il passo successivo è convertire i dati nella forma adatta per l'elaborazione. Nel nostro caso, abbiamo scaricato il codice sorgente HTML della pagina e dobbiamo convertirlo in testo semplice.\n",
"\n",
"Ci sono molti modi per farlo. Utilizzeremo l'oggetto [HTMLParser](https://docs.python.org/3/library/html.parser.html) integrato di Python, che è il più semplice. Dobbiamo creare una sottoclasse della classe `HTMLParser` e definire il codice che raccoglierà tutto il testo all'interno dei tag HTML, escludendo i tag `<script>` e `<style>`.\n"
"Ci sono molti modi per farlo. Useremo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), una popolare libreria Python per il parsing di HTML. BeautifulSoup ci permette di indirizzare specifici elementi HTML, così possiamo concentrarci sul contenuto principale dell'articolo da Wikipedia e ridurre alcuni menu di navigazione, barre laterali, piè di pagina e altri contenuti irrilevanti (anche se potrebbe rimanere ancora del testo di base).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Per prima cosa, dobbiamo installare la libreria BeautifulSoup per l'analisi HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 3: Ottenere informazioni\n",
"## Step 3: Ottenere Insight\n",
"\n",
"Il passo più importante è trasformare i nostri dati in una forma da cui possiamo trarre informazioni utili. Nel nostro caso, vogliamo estrarre parole chiave dal testo e vedere quali di queste sono più significative.\n",
"Il passaggio più importante è trasformare i nostri dati in una forma da cui possiamo trarre insight. Nel nostro caso, vogliamo estrarre parole chiave dal testo e vedere quali parole chiave sono più significative.\n",
"\n",
"Utilizzeremo una libreria Python chiamata [RAKE](https://github.com/aneesha/RAKE) per l'estrazione delle parole chiave. Per prima cosa, installiamo questa libreria nel caso in cui non sia già presente:\n"
"Useremo la libreria Python chiamata [RAKE](https://github.com/aneesha/RAKE) per l'estrazione delle parole chiave. Per prima cosa, installiamo questa libreria nel caso non sia presente:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"La funzionalità principale è disponibile dall'oggetto `Rake`, che possiamo personalizzare utilizzando alcuni parametri. Nel nostro caso, imposteremo la lunghezza minima di una parola chiave a 5 caratteri, la frequenza minima di una parola chiave nel documento a 3 e il numero massimo di parole in una parola chiave a 2. Sentiti libero di sperimentare con altri valori e osservare il risultato.\n"
"La funzionalità principale è disponibile dall'oggetto `Rake`, che possiamo personalizzare usando alcuni parametri. Nel nostro caso, imposteremo la lunghezza minima di una parola chiave a 5 caratteri, la frequenza minima di una parola chiave nel documento a 3, e il numero massimo di parole in una parola chiave a 2. Sentiti libero di sperimentare con altri valori e osservare il risultato.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Abbiamo ottenuto un elenco di termini insieme al relativo grado di importanza. Come puoi vedere, le discipline più rilevanti, come machine learning e big data, sono presenti nelle prime posizioni della lista.\n",
"Abbiamo ottenuto un elenco di termini insieme al grado di importanza associato. Come puoi vedere, le discipline più rilevanti, come il machine learning e i big data, sono presenti nella lista nelle posizioni più alte.\n",
"\n",
"## Passaggio 4: Visualizzare il Risultato\n",
"## Passo 4: Visualizzare il Risultato\n",
"\n",
"Le persone interpretano meglio i dati in forma visiva. Pertanto, spesso ha senso visualizzare i dati per trarre alcune intuizioni. Possiamo utilizzare la libreria `matplotlib` in Python per tracciare una semplice distribuzione delle parole chiave con la loro rilevanza:\n"
"Le persone possono interpretare meglio i dati in forma visiva. Pertanto spesso ha senso visualizzare i dati per ricavare alcune informazioni. Possiamo utilizzare la libreria `matplotlib` in Python per tracciare una semplice distribuzione delle parole chiave con la loro rilevanza:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"C'è, tuttavia, un modo ancora migliore per visualizzare le frequenze delle parole - usando **Word Cloud**. Avremo bisogno di installare un'altra libreria per tracciare la word cloud dalla nostra lista di parole chiave.\n"
"C'è, tuttavia, un modo ancora migliore per visualizzare la frequenza delle parole: utilizzare **Word Cloud**. Dovremo installare un'altra libreria per tracciare la word cloud dalla nostra lista di parole chiave.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"L'oggetto `WordCloud` è responsabile di accettare sia il testo originale, sia una lista pre-calcolata di parole con le loro frequenze, e restituisce un'immagine, che può essere poi visualizzata utilizzando `matplotlib`:\n"
"L'oggetto `WordCloud` è responsabile di prendere in input o il testo originale, o una lista pre-calcolata di parole con le loro frequenze, e restituisce un'immagine, che può poi essere mostrata utilizzando `matplotlib`:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Puoi vedere che la word cloud ora appare più impressionante, ma contiene anche molto rumore (ad esempio, parole non correlate come `Retrieved on`). Inoltre, otteniamo meno parole chiave composte da due termini, come *data scientist* o *computer science*. Questo accade perché l'algoritmo RAKE fa un lavoro molto migliore nel selezionare buone parole chiave dal testo. Questo esempio illustra l'importanza della pre-elaborazione e pulizia dei dati, poiché avere un quadro chiaro alla fine ci permetterà di prendere decisioni migliori.\n",
"Puoi vedere che la word cloud ora appare più impressionante, ma contiene anche molto rumore (ad esempio parole non correlate come `Retrieved on`). Inoltre, otteniamo meno parole chiave composte da due parole, come *data scientist* o *computer science*. Questo perché l'algoritmo RAKE fa un lavoro molto migliore nel selezionare buone parole chiave dal testo. Questo esempio illustra l'importanza della pre-elaborazione e pulizia dei dati, poiché un quadro chiaro alla fine ci permetterà di prendere decisioni migliori.\n",
"\n",
"In questo esercizio abbiamo seguito un processo semplice per estrarre un significato da un testo di Wikipedia, sotto forma di parole chiave e word cloud. Questo esempio è piuttosto semplice, ma dimostra bene tutti i passaggi tipici che un data scientist affronta quando lavora con i dati, partendo dall'acquisizione dei dati fino alla visualizzazione.\n",
"In questo esercizio abbiamo seguito un processo semplice per estrarre un significato dal testo di Wikipedia, sotto forma di parole chiave e word cloud. Questo esempio è abbastanza semplice, ma dimostra bene tutti i passaggi tipici che un data scientist compie quando lavora con i dati, a partire dall'acquisizione dei dati fino alla visualizzazione.\n",
"\n",
"Nel nostro corso discuteremo tutti questi passaggi in dettaglio.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nQuesto documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Avvertenza**:\nQuesto documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Pur impegnandoci per la precisione, si prega di notare che le traduzioni automatiche possono contenere errori o inesattezze. Il documento originale nella sua lingua madre deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale umana. Non ci assumiamo alcuna responsabilità per eventuali malintesi o interpretazioni errate derivanti dall'uso di questa traduzione.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Sfida: Analisi del Testo sulla Data Science\n",
"\n",
"> *In questo notebook, sperimentiamo l'uso di un URL diverso - articolo di Wikipedia su Machine Learning. Si può notare che, a differenza di Data Science, questo articolo contiene molti termini, rendendo l'analisi più problematica. Dobbiamo trovare un altro modo per ripulire i dati dopo l'estrazione delle parole chiave, per eliminare alcune combinazioni di parole frequenti ma poco significative.*\n",
"> *In questo notebook, sperimentiamo con l'uso di diversi URL - articolo di Wikipedia sul Machine Learning. Puoi vedere che, a differenza di Data Science, questo articolo contiene molti termini, rendendo l'analisi più problematica. Dobbiamo trovare un altro modo per pulire i dati dopo aver fatto l'estrazione delle parole chiave, per eliminare alcune combinazioni di parole frequenti ma non significative.*\n",
"\n",
"In questo esempio, facciamo un semplice esercizio che copre tutti i passaggi di un tradizionale processo di data science. Non è necessario scrivere alcun codice, puoi semplicemente cliccare sulle celle qui sotto per eseguirle e osservare il risultato. Come sfida, ti invitiamo a provare questo codice con dati diversi.\n",
"In questo esempio, facciamo un semplice esercizio che copre tutti i passaggi di un processo tradizionale di data science. Non devi scrivere alcun codice, puoi semplicemente cliccare sulle celle qui sotto per eseguirle e osservare il risultato. Come sfida, ti incoraggiamo a provare questo codice con dati diversi.\n",
"\n",
"## Obiettivo\n",
"\n",
"In questa lezione, abbiamo discusso diversi concetti relativi alla Data Science. Proviamo a scoprire altri concetti correlati facendo un po' di **text mining**. Inizieremo con un testo sulla Data Science, estrarremo parole chiave da esso e poi cercheremo di visualizzare il risultato.\n",
"In questa lezione, abbiamo discusso diversi concetti relativi alla Data Science. Proviamo a scoprire altri concetti correlati facendo un po' di **text mining**. Inizieremo con un testo sulla Data Science, estrarremo le parole chiave da esso e poi cercheremo di visualizzare il risultato.\n",
"\n",
"Come testo, utilizzerò la pagina su Data Science da Wikipedia:\n"
"Come testo, userò la pagina sulla Data Science da Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 1: Ottenere i dati\n",
"## Step 1: Ottenere i dati\n",
"\n",
"Il primo passo in ogni processo di data science è ottenere i dati. Utilizzeremo la libreria `requests` per farlo:\n"
"Il primo passo in ogni processo di data science è ottenere i dati. Useremo la libreria `requests` per farlo:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 2: Trasformare i dati\n",
"## Passo 2: Trasformare i Dati\n",
"\n",
"Il passo successivo è convertire i dati in una forma adatta all'elaborazione. Nel nostro caso, abbiamo scaricato il codice sorgente HTML dalla pagina e dobbiamo convertirlo in testo semplice.\n",
"Il passo successivo è convertire i dati nella forma adatta per l'elaborazione. Nel nostro caso, abbiamo scaricato il codice sorgente HTML dalla pagina e dobbiamo convertirlo in testo semplice.\n",
"\n",
"Ci sono molti modi per farlo. Utilizzeremo l'oggetto [HTMLParser](https://docs.python.org/3/library/html.parser.html) integrato più semplice di Python. Dobbiamo creare una sottoclasse della classe `HTMLParser` e definire il codice che raccoglierà tutto il testo all'interno dei tag HTML, ad eccezione dei tag `<script>` e `<style>`.\n"
"Ci sono molti modi per farlo. Useremo [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), una popolare libreria Python per il parsing HTML. BeautifulSoup ci permette di mirare a specifici elementi HTML, così possiamo concentrarci sul contenuto principale dell'articolo di Wikipedia e ridurre alcuni menu di navigazione, barre laterali, footer e altri contenuti irrilevanti (anche se un po' di testo standard potrebbe ancora rimanere).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Prima, dobbiamo installare la libreria BeautifulSoup per il parsing HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Passaggio 3: Ottenere approfondimenti\n",
"## Step 3: Ottenere approfondimenti\n",
"\n",
"Il passo più importante è trasformare i nostri dati in una forma da cui possiamo trarre approfondimenti. Nel nostro caso, vogliamo estrarre parole chiave dal testo e vedere quali parole chiave sono più significative.\n",
"Il passaggio più importante è trasformare i nostri dati in una forma da cui possiamo trarre approfondimenti. Nel nostro caso, vogliamo estrarre parole chiave dal testo e vedere quali parole chiave sono più significative.\n",
"\n",
"Utilizzeremo una libreria Python chiamata [RAKE](https://github.com/aneesha/RAKE) per l'estrazione delle parole chiave. Per prima cosa, installiamo questa libreria nel caso in cui non sia già presente:\n"
"Useremo la libreria Python chiamata [RAKE](https://github.com/aneesha/RAKE) per l'estrazione delle parole chiave. Per prima cosa, installiamo questa libreria nel caso non fosse presente: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"La funzionalità principale è disponibile dall'oggetto `Rake`, che possiamo personalizzare utilizzando alcuni parametri. Nel nostro caso, imposteremo la lunghezza minima di una parola chiave a 5 caratteri, la frequenza minima di una parola chiave nel documento a 3 e il numero massimo di parole in una parola chiave a 2. Sentiti libero di sperimentare con altri valori e osservare il risultato.\n"
"La funzionalità principale è disponibile dall'oggetto `Rake`, che possiamo personalizzare usando alcuni parametri. Nel nostro caso, imposteremo la lunghezza minima di una parola chiave a 5 caratteri, la frequenza minima di una parola chiave nel documento a 3, e il numero massimo di parole in una parola chiave a 2. Sentiti libero di sperimentare con altri valori e osservare il risultato.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Abbiamo ottenuto un elenco di termini insieme al relativo grado di importanza. Come puoi vedere, le discipline più rilevanti, come machine learning e big data, sono presenti nelle prime posizioni della lista.\n",
"Abbiamo ottenuto un elenco di termini insieme al grado di importanza associato. Come puoi vedere, le discipline più rilevanti, come il machine learning e i big data, sono presenti nella lista nelle posizioni più alte.\n",
"\n",
"## Passaggio 4: Visualizzare il Risultato\n",
"## Passo 4: Visualizzare il Risultato\n",
"\n",
"Le persone interpretano meglio i dati in forma visiva. Pertanto, spesso ha senso visualizzare i dati per trarre alcune intuizioni. Possiamo utilizzare la libreria `matplotlib` in Python per tracciare una semplice distribuzione delle parole chiave con la loro rilevanza:\n"
"Le persone riescono a interpretare meglio i dati in forma visiva. Perciò spesso ha senso visualizzare i dati per ricavarne alcune intuizioni. Possiamo usare la libreria `matplotlib` in Python per tracciare una semplice distribuzione delle parole chiave con la loro rilevanza:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"C'è, tuttavia, un modo ancora migliore per visualizzare le frequenze delle parole - usando **Word Cloud**. Avremo bisogno di installare un'altra libreria per tracciare la word cloud dalla nostra lista di parole chiave.\n"
"C'è, tuttavia, un modo ancora migliore per visualizzare le frequenze delle parole - usando **Word Cloud**. Dovremo installare un'altra libreria per tracciare la word cloud dalla nostra lista di parole chiave.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"L'oggetto `WordCloud` è responsabile di accettare sia il testo originale, sia un elenco pre-calcolato di parole con le loro frequenze, e restituisce un'immagine, che può poi essere visualizzata utilizzando `matplotlib`:\n"
"L'oggetto `WordCloud` è responsabile di prendere in input sia un testo originale, sia una lista pre-calcolata di parole con le loro frequenze, e restituisce un'immagine, che può poi essere visualizzata utilizzando `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Possiamo anche passare il testo originale a `WordCloud` - vediamo se riusciamo a ottenere un risultato simile:\n"
"Possiamo anche passare il testo originale a `WordCloud` - vediamo se siamo in grado di ottenere un risultato simile:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Puoi vedere che la word cloud ora appare più impressionante, ma contiene anche molto rumore (ad esempio, parole non correlate come `Retrieved on`). Inoltre, otteniamo meno parole chiave composte da due termini, come *data scientist* o *computer science*. Questo perché l'algoritmo RAKE fa un lavoro molto migliore nel selezionare buone parole chiave dal testo. Questo esempio illustra l'importanza della pre-elaborazione e pulizia dei dati, poiché avere un quadro chiaro alla fine ci permetterà di prendere decisioni migliori.\n",
"Puoi vedere che la word cloud ora appare più impressionante, ma contiene anche molto rumore (ad es. parole non correlate come `Retrieved on`). Inoltre, otteniamo meno parole chiave composte da due parole, come *data scientist* o *computer science*. Questo perché l'algoritmo RAKE fa un lavoro molto migliore nella selezione di buone parole chiave dal testo. Questo esempio illustra l'importanza della pre-elaborazione e pulizia dei dati, perché un quadro chiaro alla fine ci permetterà di prendere decisioni migliori.\n",
"\n",
"In questo esercizio abbiamo seguito un processo semplice per estrarre un significato da un testo di Wikipedia, sotto forma di parole chiave e word cloud. Questo esempio è piuttosto semplice, ma dimostra bene tutti i passaggi tipici che un data scientist affronta quando lavora con i dati, a partire dall'acquisizione dei dati fino alla visualizzazione.\n",
"In questo esercizio abbiamo attraversato un semplice processo di estrazione di significato dal testo di Wikipedia, sotto forma di parole chiave e word cloud. Questo esempio è abbastanza semplice, ma dimostra bene tutti i passaggi tipici che un data scientist seguirà lavorando con i dati, dall'acquisizione dei dati fino alla visualizzazione.\n",
"\n",
"Nel nostro corso discuteremo tutti questi passaggi in dettaglio.\n"
"Nel nostro corso discuteremo tutti questi passaggi in dettaglio.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Disclaimer**: \nQuesto documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non siamo responsabili per eventuali incomprensioni o interpretazioni errate derivanti dall'uso di questa traduzione.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Disclaimer**: \nQuesto documento è stato tradotto utilizzando il servizio di traduzione AI [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si raccomanda una traduzione professionale effettuata da un traduttore umano. Non ci assumiamo alcuna responsabilità per eventuali incomprensioni o interpretazioni errate derivanti dall’uso di questa traduzione.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
La Statistica e la Teoria della Probabilità sono due aree della Matematica strettamente correlate e molto rilevanti per la Data Science. È possibile lavorare con i dati senza una conoscenza approfondita della matematica, ma è comunque meglio conoscere almeno alcuni concetti di base. Qui presenteremo una breve introduzione che ti aiuterà a iniziare.
@ -30,7 +30,7 @@ La distribuzione discreta più nota è la **distribuzione uniforme**, in cui c'
Possiamo solo parlare della probabilità che una variabile cada in un determinato intervallo di valori, ad esempio P(t<sub>1</sub>≤X<t<sub>2</sub>). In questo caso, la distribuzione di probabilità è descritta da una **funzione di densità di probabilità** p(x), tale che
Un analogo continuo della distribuzione uniforme è chiamato **uniforme continuo**, che è definito su un intervallo finito. La probabilità che il valore X cada in un intervallo di lunghezza l è proporzionale a l e cresce fino a 1.
@ -73,11 +73,11 @@ Quando analizziamo dati reali, spesso non sono variabili casuali in senso strett
Ecco il box plot che mostra media, mediana e quartili per i nostri dati:


Poiché i nostri dati contengono informazioni sui diversi **ruoli** dei giocatori, possiamo anche creare un box plot per ruolo - questo ci permetterà di capire come i valori dei parametri differiscono tra i ruoli. Questa volta considereremo l'altezza:


Questo diagramma suggerisce che, in media, l'altezza dei giocatori di prima base è maggiore rispetto a quella dei giocatori di seconda base. Più avanti in questa lezione impareremo come possiamo testare questa ipotesi in modo più formale e come dimostrare che i nostri dati sono statisticamente significativi per mostrarlo.
@ -85,7 +85,7 @@ Questo diagramma suggerisce che, in media, l'altezza dei giocatori di prima base
Per vedere quale sia la distribuzione dei nostri dati, possiamo tracciare un grafico chiamato **istogramma**. L'asse X conterrà un numero di diversi intervalli di peso (i cosiddetti **bin**), e l'asse verticale mostrerà il numero di volte in cui il campione della variabile casuale è stato all'interno di un determinato intervallo.


Da questo istogramma puoi vedere che tutti i valori sono centrati attorno a un certo peso medio, e più ci si allontana da quel peso, meno pesi di quel valore vengono incontrati. Ovvero, è molto improbabile che il peso di un giocatore di baseball sia molto diverso dal peso medio. La varianza dei pesi mostra l'entità con cui i pesi tendono a differire dalla media.
Se tracciamo l'istogramma dei campioni generati, vedremo un'immagine molto simile a quella mostrata sopra. E se aumentiamo il numero di campioni e il numero di bin, possiamo generare un'immagine di una distribuzione normale più vicina all'ideale:


*Distribuzione Normale con media=0 e dev.stand=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Nel nostro caso, il valore 0.53 indica che c'è una certa correlazione tra il peso e l'altezza di una persona. Possiamo anche creare un grafico a dispersione di un valore rispetto all'altro per vedere la relazione visivamente:


> Altri esempi di correlazione e covarianza possono essere trovati nel [notebook allegato](notebook.ipynb).


> Foto di <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> su <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In queste lezioni, scoprirai come viene definita la Scienza dei Dati e imparerai le considerazioni etiche che un data scientist deve tenere a mente. Inoltre, apprenderai come vengono definiti i dati e acquisirai alcune nozioni di statistica e probabilità, i domini accademici fondamentali della Scienza dei Dati.
Sebbene i database offrano modi molto efficienti per memorizzare i dati e interrogarli utilizzando linguaggi di query, il modo più flessibile per elaborare i dati è scrivere un proprio programma per manipolarli. In molti casi, eseguire una query su un database sarebbe un metodo più efficace. Tuttavia, in alcuni casi in cui è necessaria un'elaborazione dei dati più complessa, non è facilmente realizzabile utilizzando SQL.
L'elaborazione dei dati può essere programmata in qualsiasi linguaggio di programmazione, ma ci sono alcuni linguaggi che sono più adatti per lavorare con i dati. Gli scienziati dei dati di solito preferiscono uno dei seguenti linguaggi:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")


Ora supponiamo che ogni settimana organizziamo una festa per gli amici e prendiamo 10 confezioni di gelato in più per la festa. Possiamo creare un'altra serie, indicizzata per settimana, per dimostrarlo:
```python
@ -75,7 +75,7 @@ Quando sommiamo due serie, otteniamo il numero totale:


> **Nota** che non stiamo usando la sintassi semplice `total_items+additional_items`. Se lo facessimo, otterremmo molti valori `NaN` (*Not a Number*) nella serie risultante. Questo perché ci sono valori mancanti per alcuni punti dell'indice nella serie `additional_items`, e sommare `NaN` a qualsiasi cosa risulta in `NaN`. Pertanto, dobbiamo specificare il parametro `fill_value` durante l'addizione.
@ -84,7 +84,7 @@ Con le serie temporali, possiamo anche **ricampionare** la serie con intervalli
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


### DataFrame
@ -210,7 +210,7 @@ Il primo problema su cui ci concentreremo è la modellazione della diffusione ep
Poiché vogliamo dimostrare come gestire i dati, ti invitiamo ad aprire [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) e leggerlo dall'inizio alla fine. Puoi anche eseguire le celle e affrontare alcune sfide che abbiamo lasciato per te alla fine.


> Se non sai come eseguire il codice in Jupyter Notebook, dai un'occhiata a [questo articolo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Un esempio completo di analisi di questo dataset utilizzando il servizio cogniti
Apri [`notebook-papers.ipynb`](notebook-papers.ipynb) e leggilo dall'inizio alla fine. Puoi anche eseguire le celle e affrontare alcune sfide che abbiamo lasciato per te alla fine.
> Foto di <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> su <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In queste lezioni, imparerai alcuni dei modi in cui i dati possono essere gestiti, manipolati e utilizzati nelle applicazioni. Scoprirai i database relazionali e non relazionali e come i dati possono essere archiviati al loro interno. Imparerai le basi per lavorare con Python nella gestione dei dati e scoprirai alcune delle numerose modalità con cui puoi utilizzare Python per gestire e analizzare i dati.
Ora, mostra gli stessi dati con una palette di colori che richiami il miele per evidenziare come il prezzo si evolve nel corso degli anni. Puoi farlo aggiungendo un parametro 'hue' per mostrare il cambiamento anno dopo anno:
@ -51,7 +51,7 @@ Ora, mostra gli stessi dati con una palette di colori che richiami il miele per
Con questo cambiamento di colori, puoi vedere chiaramente una forte progressione nel corso degli anni in termini di prezzo del miele per libbra. Infatti, se guardi un campione di dati per verificare (scegli uno stato, ad esempio l'Arizona), puoi osservare un pattern di aumento dei prezzi anno dopo anno, con poche eccezioni:
È un semplice caso di domanda e offerta? A causa di fattori come il cambiamento climatico e il collasso delle colonie, c'è meno miele disponibile per l'acquisto anno dopo anno, e quindi il prezzo aumenta?
✅ Poiché Seaborn aggrega i dati attorno a una linea, visualizza "le misurazioni multiple per ogni valore x tracciando la media e l'intervallo di confidenza al 95% attorno alla media". [Fonte](https://seaborn.pydata.org/tutorial/relational.html). Questo comportamento dispendioso in termini di tempo può essere disabilitato aggiungendo `ci=None`.
@ -105,7 +105,7 @@ Domanda: Bene, nel 2003 possiamo anche vedere un picco nella fornitura di miele?
Risposta: Non proprio. Se guardi la produzione totale, sembra effettivamente essere aumentata in quell'anno particolare, anche se generalmente parlando la quantità di miele prodotta è in calo durante questi anni.
@ -130,7 +130,7 @@ sns.relplot(
```
In questa visualizzazione, puoi confrontare la resa per colonia e il numero di colonie anno dopo anno, fianco a fianco con un wrap impostato a 3 per le colonne:
Per questo dataset, nulla si distingue particolarmente riguardo al numero di colonie e alla loro resa, anno dopo anno e stato per stato. C'è un modo diverso per cercare di trovare una correlazione tra queste due variabili?
Sebbene nulla salti all'occhio intorno all'anno 2003, ci permette di concludere questa lezione con una nota un po' più positiva: mentre il numero di colonie è generalmente in calo, il numero di colonie si sta stabilizzando anche se la loro resa per colonia è in diminuzione.
Qui, installi il pacchetto `ggplot2` e lo importi nello spazio di lavoro utilizzando il comando `library("ggplot2")`. Per tracciare un grafico in ggplot, si utilizza la funzione `ggplot()` specificando il dataset e le variabili x e y come attributi. In questo caso, utilizziamo la funzione `geom_line()` poiché vogliamo creare un grafico a linee.
Cosa noti immediatamente? Sembra esserci almeno un valore anomalo: che apertura alare! Un'apertura alare di oltre 2000 centimetri equivale a più di 20 metri: ci sono Pterodattili che volano in Minnesota? Indaghiamo.
Specifichiamo l'angolo nel `theme` e indichiamo le etichette degli assi x e y con `xlab()` e `ylab()` rispettivamente. La funzione `ggtitle()` assegna un titolo al grafico.
Anche con la rotazione delle etichette impostata a 45 gradi, ce ne sono troppe per essere leggibili. Proviamo una strategia diversa: etichettiamo solo i valori anomali e posizioniamo le etichette all'interno del grafico. Puoi utilizzare un grafico a dispersione per avere più spazio per le etichette:
@ -91,7 +91,7 @@ Cosa succede qui? Hai utilizzato la funzione `geom_point()` per tracciare punti
Abbiamo creato un nuovo dataframe `birds_filtered` e poi tracciato un grafico a dispersione. Filtrando i valori anomali, i tuoi dati ora sono più coerenti e comprensibili.
Nel seguente snippet, installiamo i pacchetti [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) e [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) per aiutare a manipolare e raggruppare i dati al fine di tracciare un grafico a barre impilate. Prima, raggruppi i dati per la `Categoria` degli uccelli e poi riassumi le colonne `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Poi, tracci il grafico a barre utilizzando il pacchetto `ggplot2` specificando i colori per le diverse categorie e le etichette.


Questo grafico a barre, tuttavia, è illeggibile perché ci sono troppi dati non raggruppati. Devi selezionare solo i dati che vuoi tracciare, quindi osserviamo la lunghezza degli uccelli in base alla loro categoria.
Prima conti i valori unici nella colonna `Categoria` e poi li ordini in un nuovo dataframe `birds_count`. Questi dati ordinati vengono poi fattorizzati allo stesso livello in modo che vengano tracciati in ordine. Utilizzando `ggplot2`, tracci i dati in un grafico a barre. La funzione `coord_flip()` traccia barre orizzontali.
Questo grafico a barre mostra una buona panoramica del numero di uccelli in ogni categoria. A colpo d'occhio, vedi che il maggior numero di uccelli in questa regione appartiene alla categoria Anatre/Oche/UccelliAcquatici. Il Minnesota è la "terra dei 10.000 laghi", quindi non è sorprendente!
Nulla di sorprendente qui: i colibrì hanno la lunghezza massima più bassa rispetto ai Pellicani o alle Oche. È positivo quando i dati hanno senso logico!


Questo fornisce una panoramica della distribuzione generale della lunghezza corporea per Ordine di uccelli, ma non è il modo ottimale per mostrare le vere distribuzioni. Questo compito è solitamente gestito creando un Istogramma.
@ -48,7 +48,7 @@ Questo fornisce una panoramica della distribuzione generale della lunghezza corp
Come puoi vedere, la maggior parte dei 400+ uccelli in questo dataset rientra nella fascia sotto i 2000 per la loro Massa Corporea Massima. Ottieni maggiori informazioni sui dati modificando il parametro `bins` a un numero più alto, ad esempio 30:
@ -56,7 +56,7 @@ Come puoi vedere, la maggior parte dei 400+ uccelli in questo dataset rientra ne
Questo grafico mostra la distribuzione in modo un po' più dettagliato. Un grafico meno sbilanciato a sinistra potrebbe essere creato assicurandoti di selezionare solo i dati entro un determinato intervallo:
✅ Prova altri filtri e punti dati. Per vedere la distribuzione completa dei dati, rimuovi il filtro `['MaxBodyMass']` per mostrare distribuzioni etichettate.


Non sembra esserci una buona correlazione tra apertura alare minima e stato di conservazione. Testa altri elementi del dataset utilizzando questo metodo. Puoi provare diversi filtri. Trovi qualche correlazione?
@ -127,7 +127,7 @@ Lavoriamo ora con i grafici di densità!


Puoi vedere come il grafico rispecchia quello precedente per i dati di Apertura Alare Minima; è solo un po' più fluido. Se volessi rivedere quella linea frastagliata della MaxMassaCorporea nel secondo grafico che hai costruito, potresti renderla molto più fluida ricreandola utilizzando questo metodo:
@ -135,7 +135,7 @@ Puoi vedere come il grafico rispecchia quello precedente per i dati di Apertura


✅ Leggi i parametri disponibili per questo tipo di grafico e sperimenta!
@ -153,7 +153,7 @@ Questo tipo di grafico offre visualizzazioni esplicative molto belle. Con poche
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voilà, un grafico a torta che mostra le proporzioni di questi dati secondo le due classi di funghi. È molto importante ottenere l'ordine corretto delle etichette, soprattutto qui, quindi assicurati di verificare l'ordine con cui viene costruito l'array delle etichette!


## Ciambelle!
@ -123,7 +123,7 @@ library(webr)
PieDonut(habitat, aes(habitat, count=count))
```


Questo codice utilizza due librerie: ggplot2 e webr. Utilizzando la funzione PieDonut della libreria webr, possiamo creare facilmente un grafico a ciambella!
Utilizzando un grafico a waffle, puoi vedere chiaramente le proporzioni dei colori del cappello in questo dataset sui funghi. Interessante notare che ci sono molti funghi con cappelli verdi!


In questa lezione, hai imparato tre modi per visualizzare le proporzioni. Prima, devi raggruppare i tuoi dati in categorie e poi decidere qual è il modo migliore per visualizzarli - torta, ciambella o waffle. Tutti sono deliziosi e gratificano l'utente con un'istantanea del dataset.
Ora, mostra gli stessi dati con una scala di colori che richiami il miele per evidenziare come il prezzo si evolve nel corso degli anni. Puoi farlo aggiungendo un parametro 'scale_color_gradientn' per mostrare il cambiamento anno dopo anno:
@ -52,7 +52,7 @@ Ora, mostra gli stessi dati con una scala di colori che richiami il miele per ev
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Con questo cambiamento di schema di colori, puoi vedere chiaramente una forte progressione nel corso degli anni in termini di prezzo del miele per libbra. Infatti, se guardi un sottoinsieme di dati per verificare (scegli uno stato, ad esempio l'Arizona), puoi osservare un pattern di aumento dei prezzi anno dopo anno, con poche eccezioni:
È un semplice caso di domanda e offerta? A causa di fattori come il cambiamento climatico e il collasso delle colonie, c'è meno miele disponibile per l'acquisto anno dopo anno, e quindi il prezzo aumenta?
Risposta: Non proprio. Se guardi la produzione totale, sembra effettivamente essere aumentata in quell'anno particolare, anche se generalmente la quantità di miele prodotta è in calo durante questi anni.
In questa visualizzazione, puoi confrontare la resa per colonia e il numero di colonie anno dopo anno, fianco a fianco con un wrap impostato a 3 per le colonne:
Per questo dataset, nulla di particolarmente evidente emerge riguardo al numero di colonie e alla loro resa, anno dopo anno e stato per stato. C'è un modo diverso per cercare una correlazione tra queste due variabili?
Sebbene nulla salti all'occhio intorno all'anno 2003, questo ci permette di concludere la lezione con una nota un po' più positiva: mentre il numero di colonie è generalmente in calo, sembra stabilizzarsi anche se la loro resa per colonia diminuisce.
@ -38,25 +38,25 @@ Nelle lezioni precedenti, hai sperimentato la creazione di vari tipi di visualiz
Anche se un data scientist sceglie con attenzione il grafico giusto per i dati, ci sono molti modi in cui i dati possono essere visualizzati per dimostrare un punto, spesso a scapito della veridicità dei dati stessi. Esistono molti esempi di grafici e infografiche ingannevoli!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Clicca sull'immagine sopra per una conferenza sui grafici ingannevoli
Questo grafico inverte l'asse X per mostrare l'opposto della verità, basandosi sulla data:
[Questo grafico](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) è ancora più ingannevole, poiché l'occhio è attirato verso destra per concludere che, nel tempo, i casi di COVID siano diminuiti nelle varie contee. In realtà, se si osservano attentamente le date, si scopre che sono state riorganizzate per creare questa falsa tendenza al ribasso.
Questo esempio noto utilizza il colore E un asse Y invertito per ingannare: invece di concludere che le morti per armi da fuoco siano aumentate dopo l'approvazione di una legislazione favorevole alle armi, l'occhio è ingannato a pensare che sia vero il contrario:
Confrontare l'incomparabile è un altro trucco discutibile. Esiste un [sito web meraviglioso](https://tylervigen.com/spurious-correlations) dedicato alle 'correlazioni spurie' che mostra 'fatti' correlando cose come il tasso di divorzi nel Maine e il consumo di margarina. Un gruppo su Reddit raccoglie anche [usi discutibili](https://www.reddit.com/r/dataisugly/top/?t=all) dei dati.
@ -91,13 +91,13 @@ Etichetta gli assi, fornisci una legenda se necessario e offri tooltip per una m
Se i tuoi dati sono testuali e verbosi sull'asse X, puoi angolare il testo per migliorarne la leggibilità. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) offre la possibilità di creare grafici in 3D, se i tuoi dati lo supportano. Con esso è possibile produrre visualizzazioni sofisticate.
Alcune delle migliori visualizzazioni dei dati oggi sono animate. Shirley Wu ha creato visualizzazioni straordinarie con D3, come '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', dove ogni fiore rappresenta una visualizzazione di un film. Un altro esempio per il Guardian è 'bussed out', un'esperienza interattiva che combina visualizzazioni con Greensock e D3, oltre a un formato di articolo scrollytelling per mostrare come NYC gestisce il problema dei senzatetto bussando le persone fuori dalla città.
> "Bussed Out: How America Moves its Homeless" dal [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualizzazioni di Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Sebbene questa lezione non sia sufficiente per approfondire l'insegnamento di qu
Completerai un'app web che visualizzerà una vista animata di questa rete sociale. Utilizza una libreria progettata per creare una [visualizzazione di una rete](https://github.com/emiliorizzo/vue-d3-network) utilizzando Vue.js e D3. Quando l'app è in esecuzione, puoi spostare i nodi sullo schermo per riorganizzare i dati.


> Foto di <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> su <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Visualizzare i dati è uno dei compiti più importanti per un data scientist. Un'immagine vale più di mille parole, e una visualizzazione può aiutarti a identificare tutti i tipi di aspetti interessanti nei tuoi dati, come picchi, valori anomali, raggruppamenti, tendenze e molto altro, che possono aiutarti a comprendere la storia che i tuoi dati stanno cercando di raccontare.
@ -16,7 +16,7 @@ A questo punto probabilmente hai capito che la data science è un processo. Ques
Questa lezione si concentra su 3 parti del ciclo di vita: acquisizione, elaborazione e manutenzione.


> Foto di [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Acquisizione
@ -92,7 +92,7 @@ Esplora il [Team Data Science Process lifecycle](https://docs.microsoft.com/en-u
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Immagine di [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Immagine di [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
> Foto di <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> su <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
In queste lezioni, esplorerai alcuni aspetti del ciclo di vita della Data Science, inclusa l'analisi e la comunicazione dei dati.
> Foto di [Jelleke Vanooteghem](https://unsplash.com/@ilumire) da [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Quando si tratta di fare data science con big data, il cloud può essere una svolta. Nelle prossime tre lezioni, vedremo cos'è il cloud e perché può essere molto utile. Esploreremo anche un dataset relativo all'insufficienza cardiaca e costruiremo un modello per aiutare a valutare la probabilità che qualcuno abbia un'insufficienza cardiaca. Utilizzeremo la potenza del cloud per addestrare, distribuire e utilizzare un modello in due modi diversi. Un modo utilizzando solo l'interfaccia utente in modalità Low code/No code, l'altro modo utilizzando l'Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Grazie alla democratizzazione dell'AI, gli sviluppatori trovano sempre più faci
* [Data Science nella Sanità](https://data-flair.training/blogs/data-science-in-healthcare/) - evidenzia applicazioni come imaging medico (ad esempio, MRI, raggi X, TAC), genomica (sequenziamento del DNA), sviluppo di farmaci (valutazione del rischio, previsione del successo), analisi predittiva (cura dei pazienti e logistica delle forniture), monitoraggio e prevenzione delle malattie ecc.
 Crediti Immagine: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Crediti Immagine: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
La figura mostra altri domini ed esempi per l'applicazione delle tecniche di data science. Vuoi esplorare altre applicazioni? Dai un'occhiata alla sezione [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) qui sotto.
Gli Azure Cloud Advocates di Microsoft sono lieti di offrire un curriculum di 10 settimane, 20 lezioni tutto dedicato alla Data Science. Ogni lezione include quiz pre-lezione e post-lezione, istruzioni scritte per completare la lezione, una soluzione e un incarico. La nostra pedagogia basata su progetti permette di imparare mentre si costruisce, un metodo comprovato affinché le nuove competenze "rimangano".
Gli Azure Cloud Advocates di Microsoft sono lieti di offrire un curriculum di 10 settimane, 20 lezioni tutto riguardo la Data Science. Ogni lezione include quiz pre-lezione e post-lezione, istruzioni scritte per completare la lezione, una soluzione e un compito. Il nostro approccio basato su progetti ti permette di imparare costruendo, un modo comprovato affinché le nuove competenze "rimangano".
> Questo repository include oltre 50 traduzioni linguistiche che aumentano notevolmente la dimensione del download. Per clonare senza traduzioni, usa lo sparse checkout:
>
> Questo repository include oltre 50 traduzioni in lingue che aumentano significativamente la dimensione del download. Per clonare senza traduzioni, usa il sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Questo ti fornisce tutto il necessario per completare il corso con un download molto più veloce.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Se desideri avere ulteriori lingue di traduzione supportate, sono elencate [qui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Se desideri avere lingue di traduzione aggiuntive supportate sono elencate [qui](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Abbiamo una serie Discord learn with AI in corso, scopri di più e unisciti a noi su [Learn with AI Series](https://aka.ms/learnwithai/discord) dal 18 al 30 settembre 2025. Riceverai consigli e trucchi su come usare GitHub Copilot per la Data Science.
Abbiamo una serie Discord "impara con AI" in corso, scopri di più e unisciti a noi su [Learn with AI Series](https://aka.ms/learnwithai/discord) dal 18 al 30 settembre 2025. Riceverai suggerimenti e trucchi per usare GitHub Copilot per la Data Science.

@ -59,33 +69,33 @@ Abbiamo una serie Discord learn with AI in corso, scopri di più e unisciti a no
Inizia con le seguenti risorse:
- [Pagina Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) In questa pagina troverai risorse per principianti, pacchetti per studenti e anche modi per ottenere un voucher gratuito per la certificazione. Questa è una pagina che vuoi mettere tra i preferiti e controllare di tanto in tanto perché aggiorniamo il contenuto almeno una volta al mese.
- [Pagina Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) In questa pagina troverai risorse per principianti, pacchetti per studenti e anche modi per ottenere un voucher per certificazione gratuita. Questa è una pagina da aggiungere ai preferiti e controllare di tanto in tanto perché aggiorniamo i contenuti almeno mensilmente.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Unisciti a una comunità globale di ambasciatori studenteschi, questo potrebbe essere il tuo modo per entrare in Microsoft.
# Iniziare
## 📚 Documentazione
- **[Guida all’Installazione](INSTALLATION.md)** - Istruzioni passo passo per configurare l’ambiente per principianti
- **[Guida all’Installazione](INSTALLATION.md)** - Istruzioni passo-passo per l’installazione per principianti
- **[Guida all’Uso](USAGE.md)** - Esempi e flussi di lavoro comuni
- **[Risoluzione Problemi](TROUBLESHOOTING.md)** - Soluzioni ai problemi comuni
- **[Guida per Contribuire](CONTRIBUTING.md)** - Come contribuire a questo progetto
- **[Risoluzione dei Problemi](TROUBLESHOOTING.md)** - Soluzioni a problemi comuni
- **[Guida al Contributo](CONTRIBUTING.md)** - Come contribuire a questo progetto
- **[Per Insegnanti](for-teachers.md)** - Guida didattica e risorse per la classe
## 👨🎓 Per Studenti
> **Principianti Completi**: Nuovo alla data science? Inizia con i nostri [esempi per principianti](examples/README.md)! Questi esempi semplici e ben commentati ti aiuteranno a capire le basi prima di immergerti nell’intero curriculum.
> **[Studenti](https://aka.ms/student-page)**: per usare questo curriculum in autonomia, fai il fork dell’intero repo e completa gli esercizi da solo, iniziando con un quiz pre-lezione. Quindi leggi la lezione e completa il resto delle attività. Cerca di creare i progetti comprendendo le lezioni anziché copiare il codice della soluzione; tuttavia quel codice è disponibile nelle cartelle /solutions in ogni lezione incentrata sul progetto. Un'altra idea potrebbe essere quella di formare un gruppo di studio con amici e seguire insieme il contenuto. Per ulteriori studi, consigliamo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
## 👨🎓 Per gli Studenti
> **Principianti Assoluti**: Nuovo alla data science? Inizia con i nostri [esempi per principianti](examples/README.md)! Questi esempi semplici e ben commentati ti aiuteranno a capire le basi prima di entrare nel curriculum completo.
> **[Studenti](https://aka.ms/student-page)**: per usare questo curriculum da solo, fai il fork dell’intero repository e completa gli esercizi autonomamente, iniziando con un quiz pre-lezione. Poi leggi la lezione e completa le altre attività. Cerca di creare i progetti comprendendo le lezioni anziché copiare il codice soluzione; tuttavia, quel codice è disponibile nelle cartelle /solutions in ogni lezione orientata al progetto. Un’altra idea sarebbe formare un gruppo di studio con amici e attraversare i contenuti insieme. Per ulteriori studi, raccomandiamo [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Avvio Rapido:**
1. Controlla la [Guida all’Installazione](INSTALLATION.md) per configurare il tuo ambiente
**Inizio Rapido:**
1. Controlla la [Guida all’Installazione](INSTALLATION.md) per configurare l’ambiente
2. Rivedi la [Guida all’Uso](USAGE.md) per imparare come lavorare con il curriculum
3. Inizia con la Lezione 1 e procedi in ordine
4. Unisciti alla nostra [community Discord](https://aka.ms/ds4beginners/discord) per supporto
3. Inizia con la Lezione 1 e procedi in ordine sequenziale
4. Unisciti alla nostra [comunità Discord](https://aka.ms/ds4beginners/discord) per supporto
## 👩🏫 Per Insegnanti
## 👩🏫 Per gli Insegnanti
> **Insegnanti**: abbiamo [incluso alcuni suggerimenti](for-teachers.md) su come utilizzare questo curriculum. Ci farebbe piacere ricevere il vostro feedback [nel nostro forum di discussione](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Insegnanti**: abbiamo [incluso alcuni suggerimenti](for-teachers.md) su come usare questo curriculum. Ci piacerebbe ricevere il vostro feedback [nel nostro forum di discussione](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
@ -95,11 +105,11 @@ Inizia con le seguenti risorse:
## Pedagogia
Abbiamo scelto due principi pedagogici nella costruzione di questo curriculum: garantire che sia basato su progetti e che includa quiz frequenti. Alla fine di questa serie, gli studenti avranno appreso i principi base della data science, inclusi concetti etici, preparazione dei dati, diversi modi di lavorare con i dati, visualizzazione dei dati, analisi dei dati, casi d'uso reali della data science e altro ancora.
Abbiamo scelto due principi pedagogici mentre costruivamo questo curriculum: assicurare che sia basato su progetti e che includa quiz frequenti. Alla fine di questa serie, gli studenti avranno appreso i principi base della scienza dei dati, inclusi concetti etici, preparazione dei dati, diversi modi di lavorare con i dati, visualizzazione dei dati, analisi dei dati, casi d'uso reali della scienza dei dati e altro ancora.
Inoltre, un quiz a basso rischio prima di una lezione imposta l'intenzione dello studente verso l'apprendimento di un argomento, mentre un secondo quiz dopo la lezione assicura una maggiore ritenzione. Questo curriculum è stato progettato per essere flessibile e divertente e può essere seguito tutto o in parte. I progetti iniziano piccoli e diventano sempre più complessi alla fine del ciclo di 10 settimane.
Inoltre, un quiz a basso rischio prima di una lezione pone l'intenzione dello studente verso l'apprendimento di un argomento, mentre un secondo quiz dopo la lezione garantisce una maggiore ritenzione. Questo curriculum è stato progettato per essere flessibile e divertente e può essere seguito nella sua interezza o in parte. I progetti iniziano piccoli e diventano progressivamente più complessi alla fine del ciclo di 10 settimane.
> Trova il nostro [Codice di Condotta](CODE_OF_CONDUCT.md), le linee guida per [Contribuire](CONTRIBUTING.md), [Traduzioni](TRANSLATIONS.md). Accogliamo con piacere il tuo feedback costruttivo!
> Trova il nostro [Codice di Condotta](CODE_OF_CONDUCT.md), le linee guida per [Contributi](CONTRIBUTING.md) e [Traduzioni](TRANSLATIONS.md). Accogliamo con piacere il tuo feedback costruttivo!
## Ogni lezione include:
@ -107,26 +117,26 @@ Inoltre, un quiz a basso rischio prima di una lezione imposta l'intenzione dello
- Video supplementare opzionale
- Quiz di riscaldamento pre-lezione
- Lezione scritta
- Per le lezioni basate su progetti, guide passo-passo su come costruire il progetto
- Verifiche di conoscenza
- Per le lezioni basate su progetti, guide passo-passo per costruire il progetto
> **Una nota sui quiz**: Tutti i quiz si trovano nella cartella Quiz-App, per un totale di 40 quiz con tre domande ciascuno. Sono linkati all'interno delle lezioni, ma l'app del quiz può essere eseguita localmente o distribuita su Azure; segui le istruzioni nella cartella `quiz-app`. Sono gradualmente in fase di localizzazione.
> **Una nota sui quiz**: Tutti i quiz sono contenuti nella cartella Quiz-App, per un totale di 40 quiz da tre domande ciascuno. Sono collegati all'interno delle lezioni, ma l'app dei quiz può essere eseguita localmente o distribuita su Azure; segui le istruzioni nella cartella `quiz-app`. Sono in fase di traduzione progressiva.
## 🎓 Esempi per Principianti
## 🎓 Esempi adatti ai principianti
**Sei nuovo alla Data Science?** Abbiamo creato una cartella speciale di [esempi](examples/README.md) con codice semplice e ben commentato per aiutarti a iniziare:
**Sei nuovo alla Scienza dei Dati?** Abbiamo creato una speciale [directory di esempi](examples/README.md) con codice semplice e ben commentato per aiutarti a iniziare:
- 🌟 **Hello World** - Il tuo primo programma di data science
- 📂 **Caricamento Dati** - Impara a leggere ed esplorare dataset
- 📊 **Analisi Semplice** - Calcola statistiche e trova pattern
- 📈 **Visualizzazione Base** - Crea grafici e diagrammi
- 🔬 **Progetto Reale** - Workflow completo dall'inizio alla fine
- 🌟 **Hello World** - Il tuo primo programma di scienza dei dati
- 📂 **Caricamento dati** - Impara a leggere ed esplorare dataset
- 📊 **Analisi semplice** - Calcola statistiche e trova pattern
- 📈 **Visualizzazione di base** - Crea grafici e diagrammi
- 🔬 **Progetto reale** - Flusso di lavoro completo dall'inizio alla fine
Ogni esempio include commenti dettagliati che spiegano ogni passo, perfetto per principianti assoluti!
Ogni esempio include commenti dettagliati che spiegano ogni passaggio, perfetto per principianti assoluti!
👉 **[Inizia con gli esempi](examples/README.md)** 👈
@ -135,67 +145,67 @@ Ogni esempio include commenti dettagliati che spiegano ogni passo, perfetto per
||
|:---:|
| Data Science For Beginners: Roadmap - _Sketchnote di [@nitya](https://twitter.com/nitya)_ |
| Scienza dei Dati per Principianti: Roadmap - _Sketchnote di [@nitya](https://twitter.com/nitya)_ |
| Numero Lezione | Argomento | Gruppo di Lezioni | Obiettivi di Apprendimento | Lezione Collegata | Autore |
| Numero Lezione | Argomento | Raggruppamento Lezione | Obiettivi di Apprendimento | Lezione Collegata | Autore |
| 01 | Definizione di Data Science | [Introduzione](1-Introduction/README.md) | Impara i concetti base dietro la data science e come è collegata all'intelligenza artificiale, machine learning e big data. | [lezione](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etica della Data Science | [Introduzione](1-Introduction/README.md) | Concetti, sfide e quadri etici nella data science. | [lezione](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definizione di Dati | [Introduzione](1-Introduction/README.md) | Come vengono classificati i dati e le loro fonti comuni. | [lezione](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 01 | Definizione di Scienza dei Dati | [Introduzione](1-Introduction/README.md) | Impara i concetti base della scienza dei dati e come si relazione con intelligenza artificiale, machine learning e big data. | [lezione](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etica nella Scienza dei Dati | [Introduzione](1-Introduction/README.md) | Concetti, sfide e framework dell'etica dei dati. | [lezione](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definizione di Dati | [Introduzione](1-Introduction/README.md) | Come i dati sono classificati e le loro fonti comuni. | [lezione](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduzione a Statistica e Probabilità | [Introduzione](1-Introduction/README.md) | Tecniche matematiche di probabilità e statistica per comprendere i dati. | [lezione](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Lavorare con Dati Relazionali | [Lavorare con Dati](2-Working-With-Data/README.md) | Introduzione ai dati relazionali e le basi per esplorare e analizzare dati relazionali con il Structured Query Language, noto come SQL (“see-quell”). | [lezione](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Lavorare con Dati NoSQL | [Lavorare con Dati](2-Working-With-Data/README.md) | Introduzione ai dati non relazionali, i vari tipi e le basi per esplorare e analizzare database a documenti. | [lezione](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Lavorare con Python | [Lavorare con Dati](2-Working-With-Data/README.md) | Basi dell'uso di Python per l'esplorazione dei dati con librerie come Pandas. È consigliata una conoscenza di base della programmazione Python. | [lezione](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparazione dei Dati | [Lavorare con Dati](2-Working-With-Data/README.md) | Argomenti sulle tecniche di pulizia e trasformazione dati per gestire problemi di dati mancanti, inaccurati o incompleti. | [lezione](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizzazione delle Quantità | [Visualizzazione Dati](3-Data-Visualization/README.md) | Impara a usare Matplotlib per visualizzare dati sugli uccelli 🦆 | [lezione](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 05 | Lavorare con Dati Relazionali | [Lavorare con i Dati](2-Working-With-Data/README.md) | Introduzione ai dati relazionali e basi dell'esplorazione e analisi con il Structured Query Language, noto come SQL (pronunciato “see-quell”). | [lezione](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Lavorare con Dati NoSQL | [Lavorare con i Dati](2-Working-With-Data/README.md) | Introduzione ai dati non relazionali, i vari tipi e le basi dell'esplorazione e analisi di database documentali. | [lezione](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Lavorare con Python | [Lavorare con i Dati](2-Working-With-Data/README.md) | Basi dell'uso di Python per l'esplorazione dati con librerie come Pandas. Si raccomanda una comprensione di base della programmazione Python. | [lezione](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Preparazione dei Dati | [Lavorare con i Dati](2-Working-With-Data/README.md) | Tecniche di pulizia e trasformazione dei dati per affrontare dati mancanti, inaccurati o incompleti. | [lezione](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualizzazione di Quantità | [Visualizzazione Dati](3-Data-Visualization/README.md) | Impara a usare Matplotlib per visualizzare dati sugli uccelli 🦆 | [lezione](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualizzare Distribuzioni di Dati | [Visualizzazione Dati](3-Data-Visualization/README.md) | Visualizzare osservazioni e tendenze all'interno di un intervallo. | [lezione](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualizzare Relazioni | [Visualizzazione Dati](3-Data-Visualization/README.md) | Visualizzare connessioni e correlazioni tra set di dati e loro variabili. | [lezione](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizzazioni Significative | [Visualizzazione Dati](3-Data-Visualization/README.md) | Tecniche e consigli per rendere le tue visualizzazioni utili per una risoluzione efficace dei problemi e per ottenere insight. | [lezione](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduzione al ciclo di vita della Data Science | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Introduzione al ciclo di vita della data science e al suo primo passo di acquisizione ed estrazione dati. | [lezione](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analisi | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Questa fase del ciclo di vita della data science si concentra su tecniche di analisi dei dati. | [lezione](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicazione | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Questa fase del ciclo di vita della data science si concentra sulla presentazione degli insight dai dati in modo che i decisori possano comprenderli meglio. | [lezione](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science nel Cloud | [Dati nel Cloud](5-Data-Science-In-Cloud/README.md) | Questa serie di lezioni introduce la data science nel cloud e i suoi vantaggi. | [lezione](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science nel Cloud | [Dati nel Cloud](5-Data-Science-In-Cloud/README.md) | Addestramento di modelli usando strumenti Low Code. |[lezione](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science nel Cloud | [Dati nel Cloud](5-Data-Science-In-Cloud/README.md) | Deploy di modelli con Azure Machine Learning Studio. | [lezione](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science nella vita reale | [In natura](6-Data-Science-In-Wild/README.md) | Progetti di data science applicati al mondo reale. | [lezione](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 12 | Visualizzare Relazioni | [Visualizzazione Dati](3-Data-Visualization/README.md) | Visualizzare connessioni e correlazioni tra set di dati e le loro variabili. | [lezione](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Visualizzazioni Significative | [Visualizzazione Dati](3-Data-Visualization/README.md) | Tecniche e linee guida per rendere le tue visualizzazioni utili per una risoluzione efficace dei problemi e approfondimenti. | [lezione](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduzione al ciclo di vita della Scienza dei Dati | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Introduzione al ciclo di vita della scienza dei dati e al primo passo di acquisizione ed estrazione dei dati. | [lezione](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analisi | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Questa fase del ciclo di vita della scienza dei dati si concentra sulle tecniche di analisi dei dati. | [lezione](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Comunicazione | [Ciclo di Vita](4-Data-Science-Lifecycle/README.md) | Questa fase del ciclo di vita della scienza dei dati si concentra sulla presentazione degli insight dai dati in modo che i decisori possano comprenderli più facilmente. | [lezione](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Scienza dei Dati nel Cloud | [Dati Cloud](5-Data-Science-In-Cloud/README.md) | Questa serie di lezioni introduce la scienza dei dati nel cloud e i suoi benefici. | [lezione](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 18 | Scienza dei Dati nel Cloud | [Dati Cloud](5-Data-Science-In-Cloud/README.md) | Addestramento di modelli usando strumenti Low Code. |[lezione](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 19 | Scienza dei Dati nel Cloud | [Dati Cloud](5-Data-Science-In-Cloud/README.md) | Distribuzione di modelli con Azure Machine Learning Studio. | [lezione](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) e [Maud](https://twitter.com/maudstweets) |
| 20 | Scienza dei Dati nella Vita Reale | [Nel Mondo Reale](6-Data-Science-In-Wild/README.md) | Progetti di scienza dei dati applicati nel mondo reale. | [lezione](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Segui questi passaggi per aprire questo esempio in un Codespace:
1. Clicca sul menu a discesa Code e seleziona l'opzione Open with Codespaces.
2. Seleziona + New codespace in fondo al pannello.
Per maggiori informazioni, consulta la [documentazione GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
1. Clicca sul menu a discesa Codice e seleziona l'opzione Apri con Codespaces.
2. Seleziona + Nuovo codespace in fondo al pannello.
Per maggiori informazioni, consulta la [documentazione di GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Segui questi passaggi per aprire questo repository in un container usando la tua macchina locale e VSCode con l'estensione VS Code Remote - Containers:
Segui questi passaggi per aprire questo repository in un container usando il tuo computer locale e VSCode con l'estensione VS Code Remote - Containers:
1. Se è la prima volta che usi un container di sviluppo, assicurati che il tuo sistema soddisfi i prerequisiti (ad esempio avere Docker installato) nella [documentazione per iniziare](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Se è la prima volta che usi un container di sviluppo, assicurati che il tuo sistema soddisfi i prerequisiti (ad esempio, avere Docker installato) nella [documentazione introduttiva](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Per usare questo repository, puoi aprirlo in un volume Docker isolato:
Per usare questo repository, puoi aprire il repository in un volume Docker isolato:
**Nota**: In background, questo utilizzerà il comando Remote-Containers: **Clone Repository in Container Volume...** per clonare il codice sorgente in un volume Docker invece che nel filesystem locale. I [volumi](https://docs.docker.com/storage/volumes/) sono il meccanismo preferito per conservare i dati di un container.
**Nota**: Sotto il cofano, questo utilizzerà il comando Remote-Containers: **Clona Repository in Volume Container...** per clonare il codice sorgente in un volume Docker invece che nel filesystem locale. I [volumi](https://docs.docker.com/storage/volumes/) sono il meccanismo preferito per la persistenza dei dati del container.
Oppure aprire una copia localmente clonata o scaricata del repository:
Oppure apri una versione clonata o scaricata localmente del repository:
- Clona questo repository nel filesystem locale.
- Premi F1 e seleziona il comando **Remote-Containers: Open Folder in Container...**.
- Seleziona la copia clonata di questa cartella, attendil'avvio del container e prova ad usarlo.
- Clona questo repository nel tuo filesystem locale.
- Premi F1 e seleziona il comando **Remote-Containers: Apri cartella in container...**.
- Seleziona la copia clonata di questa cartella, aspetta che il container si avvii e prova.
## Accesso Offline
Puoi usare questa documentazione offline con [Docsify](https://docsify.js.org/#/). Fai il fork di questo repo, [installa Docsify](https://docsify.js.org/#/quickstart) sulla tua macchina locale, quindi nella cartella root di questo repo digita `docsify serve`. Il sito web sarà servito sulla porta 3000 in localhost: `localhost:3000`.
Puoi eseguire questa documentazione offline usando [Docsify](https://docsify.js.org/#/). Fai un fork di questo repo, [installa Docsify](https://docsify.js.org/#/quickstart) sul tuo computer locale, quindi nella cartella radice di questo repo digita `docsify serve`. Il sito sarà servito sulla porta 3000 del tuo localhost: `localhost:3000`.
> Nota, i notebook non verranno renderizzati via Docsify, quindi quando devi eseguire un notebook, fallo separatamente in VS Code usando un kernel Python.
> Nota, i notebook non verranno renderizzati tramite Docsify, quindi quando devi eseguire un notebook, fallo separatamente in VS Code usando un kernel Python.
## Altri Curricula
Il nostro team produce altri curricula! Dai un’occhiata a:
Il nostro team produce altri curricula! Dai un'occhiata:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
---
@ -216,7 +226,7 @@ Il nostro team produce altri curricula! Dai un’occhiata a:
---
### Apprendimento di Base
### Apprendimento Base
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -228,26 +238,26 @@ Il nostro team produce altri curricula! Dai un’occhiata a:
---
### Serie Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Incontri problemi?** Consulta la nostra [Guida alla risoluzione dei problemi](TROUBLESHOOTING.md) per soluzioni ai problemi comuni.
**Hai riscontrato problemi?** Consulta la nostra [Guida alla Risoluzione dei Problemi](TROUBLESHOOTING.md) per soluzioni ai problemi comuni.
Se ti blocchi o hai domande sulla creazione di app AI. Unisciti ad altri studenti e sviluppatori esperti nelle discussioni su MCP. È una comunità di supporto dove le domande sono benvenute e la conoscenza viene condivisa liberamente.
Se sei bloccato o hai domande sulla creazione di app AI, unisciti ad altri studenti e sviluppatori esperti nelle discussioni su MCP. È una comunità di supporto dove le domande sono benvenute e la conoscenza viene condivisa liberamente.
[](https://aka.ms/foundry/forum)
---
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Avvertenza**:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si consiglia una traduzione professionale effettuata da un umano. Non ci assumiamo alcuna responsabilità per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione.
**Disclaimer**:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Pur impegnandoci per l’accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o inesattezze. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, si consiglia una traduzione professionale effettuata da un traduttore umano. Non ci assumiamo alcuna responsabilità per eventuali incomprensioni o interpretazioni errate derivanti dall’uso di questa traduzione.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Quiz przed wykładem](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Jeśli chcemy podejść do tego jeszcze bardziej szczegółowo, możemy zestawi
W tym wyzwaniu spróbujemy znaleźć koncepcje związane z dziedziną Data Science, analizując teksty. Weźmiemy artykuł z Wikipedii na temat Data Science, pobierzemy i przetworzymy tekst, a następnie stworzymy chmurę słów, taką jak ta:


Odwiedź [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), aby zapoznać się z kodem. Możesz również uruchomić kod i zobaczyć, jak w czasie rzeczywistym wykonuje wszystkie transformacje danych.
"W tym przykładzie wykonamy proste ćwiczenie obejmujące wszystkie kroki tradycyjnego procesu Data Science. Nie musisz pisać żadnego kodu, wystarczy kliknąć na poniższe komórki, aby je uruchomić i obserwować wynik. Jako wyzwanie, zachęcamy do wypróbowania tego kodu z różnymi danymi.\n",
"W tym przykładzie wykonamy proste ćwiczenie, które obejmuje wszystkie kroki tradycyjnego procesu data science. Nie musisz pisać żadnego kodu, możesz po prostu kliknąć w komórki poniżej, aby je wykonać i obserwować rezultat. Jako wyzwanie zachęcam do wypróbowania tego kodu na różnych danych.\n",
"\n",
"## Cel\n",
"\n",
"W tej lekcji omawialiśmy różne pojęcia związane z Data Science. Spróbujmy odkryć więcej powiązanych koncepcji, wykonując **analizę tekstu**. Zaczniemy od tekstu o Data Science, wyodrębnimy z niego słowa kluczowe, a następnie spróbujemy zwizualizować wynik.\n",
"W tej lekcji omawialiśmy różne pojęcia związane z Data Science. Spróbujmy odkryć więcej powiązanych koncepcji, wykonując **eksplorację tekstu**. Zaczniemy od tekstu o Data Science, wyodrębnimy z niego słowa kluczowe, a następnie spróbujemy zwizualizować wynik.\n",
"\n",
"Jako tekst wykorzystamy stronę o Data Science z Wikipedii:\n"
"Jako tekst użyję strony o Data Science z Wikipedii:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Krok 1: Pobieranie danych\n",
"\n",
"Pierwszym krokiem w każdym procesie analizy danych jest pobranie danych. W tym celu użyjemy biblioteki `requests`:\n"
"Pierwszym krokiem w każdym procesie data science jest pobranie danych. Użyjemy do tego biblioteki `requests`:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Krok 2: Przekształcanie danych\n",
"\n",
"Kolejnym krokiem jest przekształcenie danych w formę odpowiednią do przetwarzania. W naszym przypadku pobraliśmy kod źródłowy HTML ze strony i musimy go zamienić na zwykły tekst.\n",
"Kolejnym krokiem jest konwersja danych do formy odpowiedniej do przetwarzania. W naszym przypadku pobraliśmy kod źródłowy HTML ze strony i musimy go przekształcić na zwykły tekst.\n",
"\n",
"Istnieje wiele sposobów, aby to zrobić. Skorzystamy z najprostszego wbudowanego obiektu [HTMLParser](https://docs.python.org/3/library/html.parser.html) z języka Python. Musimy utworzyć podklasę klasy `HTMLParser` i zdefiniować kod, który będzie zbierał cały tekst znajdujący się wewnątrz znaczników HTML, z wyjątkiem znaczników `<script>` i `<style>`.\n"
"Istnieje wiele sposobów, by to zrobić. Użyjemy [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), popularnej biblioteki Pythona do parsowania HTML. BeautifulSoup pozwala nam skierować uwagę na konkretne elementy HTML, dzięki czemu możemy skupić się na głównej treści artykułu z Wikipedii i ograniczyć niektóre menu nawigacyjne, panele boczne, stopki oraz inne nieistotne treści (choć pewien tekst standardowy może pozostać).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najpierw musimy zainstalować bibliotekę BeautifulSoup do parsowania HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Krok 3: Uzyskiwanie wniosków\n",
"## Krok 3: Uzyskiwanie Wglądu\n",
"\n",
"Najważniejszym krokiem jest przekształcenie naszych danych w formę, z której możemy wyciągnąć wnioski. W naszym przypadku chcemy wyodrębnić słowa kluczowe z tekstu i sprawdzić, które z nich są bardziej znaczące.\n",
"Najważniejszym krokiem jest przekształcenie naszych danych w formę, z której możemy wyciągnąć wnioski. W naszym przypadku chcemy wydobyć słowa kluczowe z tekstu i zobaczyć, które słowa kluczowe są bardziej znaczące.\n",
"\n",
"Użyjemy biblioteki Python o nazwie [RAKE](https://github.com/aneesha/RAKE) do ekstrakcji słów kluczowych. Najpierw zainstalujmy tę bibliotekę, jeśli nie jest jeszcze dostępna:\n"
"Użyjemy biblioteki Pythona o nazwie [RAKE](https://github.com/aneesha/RAKE) do ekstrakcji słów kluczowych. Najpierw zainstalujmy tę bibliotekę, jeśli nie jest obecna: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Główna funkcjonalność jest dostępna z obiektu `Rake`, który możemy dostosować za pomocą niektórych parametrów. W naszym przypadku ustawimy minimalną długość słowa kluczowego na 5 znaków, minimalną częstotliwość występowania słowa kluczowego w dokumencie na 3 oraz maksymalną liczbę słów w słowie kluczowym na 2. Śmiało eksperymentuj z innymi wartościami i obserwuj wynik.\n"
"Główna funkcjonalność jest dostępna z obiektu `Rake`, który możemy dostosować za pomocą niektórych parametrów. W naszym przypadku ustawimy minimalną długość słowa kluczowego na 5 znaków, minimalną częstość występowania słowa kluczowego w dokumencie na 3 oraz maksymalną liczbę słów w słowie kluczowym - na 2. Zachęcam do eksperymentowania z innymi wartościami i obserwowania rezultatu.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Uzyskaliśmy listę terminów wraz z przypisanym stopniem ważności. Jak widać, najbardziej istotne dziedziny, takie jak uczenie maszynowe i big data, znajdują się na szczycie listy.\n",
"Uzyskaliśmy listę terminów wraz z przypisanym stopniem ważności. Jak widać, najbardziej istotne dyscypliny, takie jak uczenie maszynowe i big data, znajdują się na czołowych pozycjach na liście.\n",
"\n",
"## Krok 4: Wizualizacja Wyniku\n",
"## Krok 4: Wizualizacja wyniku\n",
"\n",
"Ludzie najlepiej interpretują dane w formie wizualnej. Dlatego często warto zwizualizować dane, aby wyciągnąć pewne wnioski. Możemy użyć biblioteki `matplotlib` w Pythonie, aby przedstawić prosty rozkład słów kluczowych wraz z ich istotnością:\n"
"Ludzie najlepiej interpretują dane w formie wizualnej. Dlatego często ma sens wizualizacja danych, aby wyciągnąć pewne wnioski. Możemy użyć biblioteki `matplotlib` w Pythonie, aby wyrysować prosty rozkład słów kluczowych z ich relewancją:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Istnieje jednak jeszcze lepszy sposób na wizualizację częstotliwości słów - za pomocą **Word Cloud**. Będziemy musieli zainstalować kolejną bibliotekę, aby wygenerować chmurę słów z naszej listy słów kluczowych.\n"
"Istnieje jednak jeszcze lepszy sposób wizualizacji częstotliwości słów - za pomocą **Chmury słów**. Będziemy musieli zainstalować inną bibliotekę, aby narysować chmurę słów z naszej listy słów kluczowych.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"Obiekt `WordCloud` jest odpowiedzialny za przyjmowanie oryginalnego tekstu lub wstępnie obliczonej listy słów z ich częstotliwościami i zwraca obraz, który następnie można wyświetlić za pomocą `matplotlib`:\n"
"Obiekt `WordCloud` odpowiada za przyjmowanie albo oryginalnego tekstu, albo wcześniej obliczonej listy słów wraz z ich częstotliwościami, i zwraca obraz, który następnie można wyświetlić za pomocą `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Możemy również przekazać oryginalny tekst do `WordCloud` - zobaczmy, czy uda nam się uzyskać podobny wynik:\n"
"Możemy również przekazać oryginalny tekst do `WordCloud` - zobaczmy, czy uda nam się uzyskać podobny rezultat:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Możesz zauważyć, że chmura słów wygląda teraz bardziej imponująco, ale zawiera również sporo szumu (np. niepowiązane słowa, takie jak `Retrieved on`). Dodatkowo, otrzymujemy mniej słów kluczowych składających się z dwóch wyrazów, takich jak *data scientist* czy *computer science*. Dzieje się tak, ponieważ algorytm RAKE znacznie lepiej radzi sobie z wybieraniem odpowiednich słów kluczowych z tekstu. Ten przykład ilustruje, jak ważne jest wstępne przetwarzanie i czyszczenie danych, ponieważ klarowny obraz na końcu pozwala podejmować lepsze decyzje.\n",
"Możesz zauważyć, że chmura słów wygląda teraz bardziej imponująco, ale zawiera też wiele szumów (np. niezwiązane słowa takie jak `Retrieved on`). Ponadto otrzymujemy mniej haseł składających się z dwóch słów, takich jak *data scientist* czy *computer science*. Wynika to z faktu, że algorytm RAKE znacznie lepiej radzi sobie z wybieraniem dobrych słów kluczowych z tekstu. Ten przykład ilustruje znaczenie wstępnego przetwarzania i oczyszczania danych, ponieważ jasny obraz na końcu pozwoli nam podejmować lepsze decyzje.\n",
"\n",
"W tym ćwiczeniu przeszliśmy przez prosty proces wydobywania znaczenia z tekstu z Wikipedii w formie słów kluczowych i chmury słów. Ten przykład jest dość prosty, ale dobrze pokazuje wszystkie typowe kroki, jakie podejmuje data scientist podczas pracy z danymi, począwszy od pozyskiwania danych, aż po wizualizację.\n",
"W tym ćwiczeniu przeszliśmy przez prosty proces wydobywania znaczenia z tekstu Wikipedii w postaci słów kluczowych i chmury słów. Ten przykład jest dość prosty, ale dobrze pokazuje wszystkie typowe kroki, które podejmie data scientist pracując z danymi, począwszy od pozyskania danych, aż po wizualizację.\n",
"\n",
"W naszym kursie omówimy wszystkie te kroki szczegółowo.\n"
"Na naszym kursie omówimy wszystkie te kroki szczegółowo.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Zastrzeżenie**: \nTen dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby zapewnić dokładność, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Zrzeczenie się odpowiedzialności**:\nNiniejszy dokument został przetłumaczony przy użyciu usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Choć staramy się zapewnić dokładność, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w języku źródłowym powinien być traktowany jako autorytatywne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za wszelkie nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"> *W tym notatniku eksperymentujemy z użyciem różnych URL - artykułu z Wikipedii o Machine Learning. Możesz zauważyć, że w przeciwieństwie do Data Science, ten artykuł zawiera wiele terminów, co sprawia, że analiza staje się bardziej problematyczna. Musimy wymyślić inny sposób na oczyszczenie danych po ekstrakcji słów kluczowych, aby pozbyć się niektórych częstych, ale mało znaczących kombinacji słów.*\n",
"> *W tym notatniku eksperymentujemy z użyciem różnych URL – artykułu z Wikipedii na temat Machine Learning. Możesz zauważyć, że w przeciwieństwie do Data Science, ten artykuł zawiera wiele terminów, co utrudnia analizę. Musimy więc wymyślić inny sposób oczyszczania danych po ekstrakcji słów kluczowych, aby pozbyć się niektórych często występujących, lecz nieważnych kombinacji słów.*\n",
"\n",
"W tym przykładzie wykonamy proste ćwiczenie, które obejmuje wszystkie kroki tradycyjnego procesu Data Science. Nie musisz pisać żadnego kodu, możesz po prostu kliknąć na poniższe komórki, aby je uruchomić i zaobserwować wynik. Jako wyzwanie, zachęcamy Cię do wypróbowania tego kodu z różnymi danymi.\n",
"W tym przykładzie wykonajmy proste ćwiczenie obejmujące wszystkie etapy tradycyjnego procesu data science. Nie musisz pisać żadnego kodu – możesz po prostu kliknąć na poniższe komórki, aby je wykonać i zaobserwować rezultat. Jako wyzwanie zachęcam do wypróbowania tego kodu na różnych danych.\n",
"\n",
"## Cel\n",
"\n",
"W tej lekcji omawialiśmy różne koncepcje związane z Data Science. Spróbujmy odkryć więcej powiązanych koncepcji, wykonując **eksplorację tekstu**. Zaczniemy od tekstu o Data Science, wyodrębnimy z niego słowa kluczowe, a następnie spróbujemy zwizualizować wynik.\n",
"W tej lekcji omawialiśmy różne koncepcje związane z Data Science. Spróbujmy odkryć więcej powiązanych koncepcji, wykonując **eksplorację tekstu**. Zaczniemy od tekstu o Data Science, wyekstrahujemy z niego słowa kluczowe, a następnie spróbujemy zwizualizować wynik.\n",
"\n",
"Jako tekst użyjemy strony o Data Science z Wikipedii:\n"
"Jako tekst wykorzystam stronę Wikipedii o Data Science:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Krok 1: Pobieranie danych\n",
"\n",
"Pierwszym krokiem w każdym procesie analizy danych jest pobranie danych. Użyjemy do tego biblioteki `requests`:\n"
"Pierwszym krokiem w każdym procesie analizy danych jest pobranie danych. Do tego użyjemy biblioteki `requests`:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Krok 2: Przekształcanie danych\n",
"\n",
"Kolejnym krokiem jest przekształcenie danych w formę odpowiednią do przetwarzania. W naszym przypadku pobraliśmy kod źródłowy HTML ze strony i musimy go zamienić na zwykły tekst.\n",
"Kolejnym krokiem jest konwersja danych do formy odpowiedniej do przetwarzania. W naszym przypadku pobraliśmy kod źródłowy HTML ze strony i musimy go przekształcić w zwykły tekst.\n",
"\n",
"Istnieje wiele sposobów, aby to zrobić. Skorzystamy z najprostszego wbudowanego obiektu [HTMLParser](https://docs.python.org/3/library/html.parser.html) w Pythonie. Musimy rozszerzyć klasę `HTMLParser` i zdefiniować kod, który będzie zbierał cały tekst znajdujący się wewnątrz znaczników HTML, z wyjątkiem znaczników `<script>` i `<style>`.\n"
"Istnieje wiele sposobów, aby to zrobić. Użyjemy [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), popularnej biblioteki Pythona do parsowania HTML. BeautifulSoup pozwala nam wybierać konkretne elementy HTML, dzięki czemu możemy skupić się na głównej treści artykułu z Wikipedii i zredukować niektóre menu nawigacyjne, panele boczne, stopki i inne nieistotne treści (choć część standardowego tekstu może się nadal pojawić).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Najpierw musimy zainstalować bibliotekę BeautifulSoup do analizowania HTML:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Krok 3: Uzyskiwanie wniosków\n",
"\n",
"Najważniejszym krokiem jest przekształcenie naszych danych w formę, z której możemy wyciągnąć wnioski. W naszym przypadku chcemy wyodrębnić słowa kluczowe z tekstu i sprawdzić, które z nich są bardziej znaczące.\n",
"\n",
"Użyjemy biblioteki Python o nazwie [RAKE](https://github.com/aneesha/RAKE) do ekstrakcji słów kluczowych. Najpierw zainstalujmy tę bibliotekę, jeśli nie jest jeszcze dostępna:\n"
"## Step 3: Pozyskiwanie informacji\r\n",
"\r\n",
"Najważniejszym krokiem jest przekształcenie naszych danych w formę, z której możemy wyciągać wnioski. W naszym przypadku chcemy wyodrębnić słowa kluczowe z tekstu i zobaczyć, które słowa kluczowe są bardziej znaczące.\r\n",
"\r\n",
"Użyjemy biblioteki Pythona o nazwie [RAKE](https://github.com/aneesha/RAKE) do wyodrębniania słów kluczowych. Najpierw zainstalujmy tę bibliotekę, jeśli nie jest jeszcze dostępna:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Główna funkcjonalność jest dostępna z obiektu `Rake`, który możemy dostosować za pomocą niektórych parametrów. W naszym przypadku ustawimy minimalną długość słowa kluczowego na 5 znaków, minimalną częstotliwość występowania słowa kluczowego w dokumencie na 3 oraz maksymalną liczbę słów w słowie kluczowym na 2. Możesz swobodnie eksperymentować z innymi wartościami i obserwować wynik.\n"
"Główna funkcjonalność jest dostępna z obiektu `Rake`, który możemy dostosować za pomocą kilku parametrów. W naszym przypadku ustawimy minimalną długość słowa kluczowego na 5 znaków, minimalną częstotliwość słowa kluczowego w dokumencie na 3 oraz maksymalną liczbę słów w słowie kluczowym na 2. Zachęcamy do eksperymentowania z innymi wartościami i obserwowania efektów.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Uzyskaliśmy listę terminów wraz z przypisanym stopniem ważności. Jak widać, najbardziej istotne dziedziny, takie jak uczenie maszynowe i big data, znajdują się na szczycie listy.\n",
"Uzyskaliśmy listę terminów wraz z przypisanym stopniem ważności. Jak widać, najważniejsze dyscypliny, takie jak uczenie maszynowe i big data, znajdują się na czołowych pozycjach na liście.\n",
"\n",
"## Krok 4: Wizualizacja Wyniku\n",
"## Krok 4: Wizualizacja wyniku\n",
"\n",
"Ludzie najlepiej interpretują dane w formie wizualnej. Dlatego często warto zwizualizować dane, aby wyciągnąć pewne wnioski. Możemy użyć biblioteki `matplotlib` w Pythonie, aby przedstawić prosty rozkład słów kluczowych wraz z ich istotnością:\n"
"Ludzie najlepiej interpretują dane w formie wizualnej. Dlatego często ma sens zwizualizowanie danych, aby wyciągnąć pewne wnioski. Możemy użyć biblioteki `matplotlib` w Pythonie, aby narysować prosty rozkład słów kluczowych wraz z ich istotnością:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Istnieje jednak jeszcze lepszy sposób na wizualizację częstotliwości słów - za pomocą **Word Cloud**. Będziemy musieli zainstalować kolejną bibliotekę, aby wygenerować chmurę słów z naszej listy słów kluczowych.\n"
"Istnieje jednak jeszcze lepszy sposób na wizualizację częstotliwości słów - za pomocą **Chmury słów**. Będziemy musieli zainstalować inną bibliotekę, aby narysować chmurę słów z naszej listy słów kluczowych.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"Obiekt `WordCloud` jest odpowiedzialny za przyjmowanie oryginalnego tekstu lub wstępnie obliczonej listy słów z ich częstotliwościami i zwraca obraz, który następnie można wyświetlić za pomocą `matplotlib`:\n"
"Obiekt `WordCloud` jest odpowiedzialny za przyjmowanie albo oryginalnego tekstu, albo wcześniej obliczonej listy słów z ich częstotliwościami, i zwraca obraz, który następnie można wyświetlić za pomocą `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Możemy również przekazać oryginalny tekst do `WordCloud` - zobaczmy, czy uda nam się uzyskać podobny wynik:\n"
"Możemy również przekazać oryginalny tekst do `WordCloud` - zobaczmy, czy uda nam się uzyskać podobny rezultat:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Możesz zauważyć, że chmura słów wygląda teraz bardziej imponująco, ale zawiera również sporo szumu (np. niepowiązane słowa, takie jak `Retrieved on`). Dodatkowo, otrzymujemy mniej słów kluczowych składających się z dwóch wyrazów, takich jak *data scientist* czy *computer science*. Dzieje się tak, ponieważ algorytm RAKE znacznie lepiej radzi sobie z wybieraniem odpowiednich słów kluczowych z tekstu. Ten przykład ilustruje, jak ważne jest wstępne przetwarzanie i czyszczenie danych, ponieważ klarowny obraz na końcu pozwala podejmować lepsze decyzje.\n",
"Widać, że chmura słów wygląda teraz bardziej imponująco, ale zawiera też dużo szumów (np. niezwiązane słowa takie jak `Retrieved on`). Ponadto otrzymujemy mniej słów kluczowych składających się z dwóch wyrazów, takich jak *data scientist* czy *computer science*. Wynika to z faktu, że algorytm RAKE znacznie lepiej radzi sobie z wyborem dobrych słów kluczowych z tekstu. Ten przykład ilustruje znaczenie wstępnego przetwarzania i czyszczenia danych, ponieważ na koniec uzyskamy czytelny obraz, który pozwoli nam podejmować lepsze decyzje.\n",
"\n",
"W tym ćwiczeniu przeszliśmy przez prosty proces wydobywania sensu z tekstu z Wikipedii w formie słów kluczowych i chmury słów. Ten przykład jest dość prosty, ale dobrze pokazuje wszystkie typowe kroki, jakie podejmuje data scientist podczas pracy z danymi, począwszy od pozyskiwania danych, aż po wizualizację.\n",
"W tym ćwiczeniu przeszedłeś przez prosty proces wydobywania pewnego znaczenia z tekstu Wikipedii w formie słów kluczowych i chmury słów. Ten przykład jest dość prosty, ale dobrze demonstruje wszystkie typowe kroki, które podejmie data scientist podczas pracy z danymi, zaczynając od pozyskania danych, aż po wizualizację.\n",
"\n",
"W naszym kursie omówimy wszystkie te kroki szczegółowo.\n"
"W naszym kursie szczegółowo omówimy wszystkie te kroki.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Zastrzeżenie**: \nTen dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Zastrzeżenie**: \nNiniejszy dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mimo że dążymy do dokładności, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub niedokładności. Oryginalny dokument w języku źródłowym powinien być uznawany za autorytatywne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Statystyka i teoria prawdopodobieństwa to dwie ściśle powiązane dziedziny matematyki, które mają ogromne znaczenie w nauce o danych. Można pracować z danymi bez głębokiej wiedzy matematycznej, ale warto znać przynajmniej podstawowe pojęcia. Poniżej przedstawiamy krótkie wprowadzenie, które pomoże Ci zacząć.
## [Quiz przed wykładem](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Trudniej jest opisać rozkład prawdopodobieństwa zmiennej ciągłej, której w
Możemy mówić jedynie o prawdopodobieństwie, że zmienna przyjmie wartość z określonego przedziału, np. P(t<sub>1</sub>≤X<t<sub>2</sub>). W takim przypadku rozkład prawdopodobieństwa opisuje **funkcja gęstości prawdopodobieństwa** p(x), taka że
Ciągłym odpowiednikiem rozkładu jednostajnego jest **rozkład jednostajny ciągły**, który jest zdefiniowany na skończonym przedziale. Prawdopodobieństwo, że wartość X znajdzie się w przedziale o długości l, jest proporcjonalne do l i rośnie do 1.
@ -73,11 +73,11 @@ Analizując dane z rzeczywistości, często nie są one zmiennymi losowymi w sen
Oto wykres pudełkowy pokazujący średnią, medianę i kwartyle dla naszych danych:
Ponieważ nasze dane zawierają informacje o różnych **rolach** graczy, możemy również stworzyć wykres pudełkowy według roli - pozwoli nam to zorientować się, jak wartości parametrów różnią się w zależności od roli. Tym razem rozważymy wzrost:


Ten diagram sugeruje, że średni wzrost pierwszobazowych jest wyższy niż wzrost drugobazowych. Później w tej lekcji dowiemy się, jak formalniej przetestować tę hipotezę i jak wykazać, że nasze dane są statystycznie istotne, aby to pokazać.
@ -85,7 +85,7 @@ Ten diagram sugeruje, że średni wzrost pierwszobazowych jest wyższy niż wzro
Aby zobaczyć, jaki jest rozkład naszych danych, możemy narysować wykres zwany **histogramem**. Oś X zawiera liczbę różnych przedziałów wag (tzw. **koszyków**), a oś pionowa pokazuje liczbę przypadków, w których próbka zmiennej losowej znalazła się w danym przedziale.


Z tego histogramu można zauważyć, że wszystkie wartości są skoncentrowane wokół pewnej średniej wagi, a im dalej od tej wagi, tym rzadziej spotykamy takie wartości. Innymi słowy, jest bardzo mało prawdopodobne, aby waga gracza baseballowego znacznie różniła się od średniej wagi. Wariancja wag pokazuje, w jakim stopniu wagi mogą różnić się od średniej.
Jeśli narysujemy histogram wygenerowanych próbek, zobaczymy obraz bardzo podobny do tego pokazanego powyżej. A jeśli zwiększymy liczbę próbek i liczbę koszyków, możemy wygenerować obraz rozkładu normalnego, który jest bliższy ideałowi:


*Rozkład normalny ze średnią=0 i odch.std.=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
W naszym przypadku wartość 0.53 wskazuje, że istnieje pewna korelacja między wagą a wzrostem osoby. Możemy również wykonać wykres punktowy jednej wartości względem drugiej, aby zobaczyć relację wizualnie:


> Więcej przykładów korelacji i kowariancji można znaleźć w [dołączonym notatniku](notebook.ipynb).


> Zdjęcie autorstwa <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephena Dawsona</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
W tych lekcjach odkryjesz, czym jest Data Science, oraz poznasz kwestie etyczne, które musi brać pod uwagę data scientist. Dowiesz się również, jak definiowane są dane, a także zapoznasz się z podstawami statystyki i prawdopodobieństwa, które są kluczowymi dziedzinami akademickimi w Data Science.
Bazy danych oferują bardzo efektywne sposoby przechowywania danych i ich przeszukiwania za pomocą języków zapytań, ale najbardziej elastycznym sposobem przetwarzania danych jest napisanie własnego programu do ich manipulacji. W wielu przypadkach zapytanie do bazy danych byłoby bardziej efektywne. Jednak w sytuacjach, gdy potrzebne jest bardziej złożone przetwarzanie danych, nie zawsze można to łatwo zrobić za pomocą SQL.
Przetwarzanie danych można zaprogramować w dowolnym języku programowania, ale istnieją języki, które są bardziej zaawansowane w pracy z danymi. Naukowcy zajmujący się danymi zazwyczaj preferują jeden z następujących języków:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Załóżmy teraz, że co tydzień organizujemy imprezę dla znajomych i zabieramy dodatkowe 10 opakowań lodów na imprezę. Możemy stworzyć kolejną serię, indeksowaną tygodniami, aby to pokazać:
```python
@ -75,7 +75,7 @@ Gdy dodamy dwie serie, otrzymamy całkowitą liczbę:
> **Uwaga**: Nie używamy prostego zapisu `total_items+additional_items`. Gdybyśmy to zrobili, otrzymalibyśmy wiele wartości `NaN` (*Not a Number*) w wynikowej serii. Dzieje się tak, ponieważ brakuje wartości dla niektórych punktów indeksu w serii `additional_items`, a dodanie `NaN` do czegokolwiek skutkuje `NaN`. Dlatego musimy określić parametr `fill_value` podczas dodawania.
@ -84,7 +84,7 @@ W przypadku szeregów czasowych możemy również **próbkować** serię z róż
@ -210,7 +210,7 @@ Pierwszym problemem, na którym się skupimy, jest modelowanie rozprzestrzeniani
Ponieważ chcemy pokazać, jak radzić sobie z danymi, zapraszamy do otwarcia [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) i przeczytania go od góry do dołu. Możesz również uruchomić komórki i wykonać wyzwania, które zostawiliśmy na końcu.
> Jeśli nie wiesz, jak uruchomić kod w Jupyter Notebook, zapoznaj się z [tym artykułem](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Pełny przykład analizy tego zbioru danych za pomocą usługi [Text Analytics f
Otwórz [`notebook-papers.ipynb`](notebook-papers.ipynb) i przeczytaj go od góry do dołu. Możesz również uruchomić komórki i wykonać wyzwania, które zostawiliśmy na końcu.


> Zdjęcie autorstwa <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> na <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
W tych lekcjach nauczysz się, jak dane mogą być zarządzane, manipulowane i wykorzystywane w aplikacjach. Dowiesz się o bazach danych relacyjnych i nierelacyjnych oraz o tym, jak dane mogą być w nich przechowywane. Poznasz podstawy pracy z Pythonem w celu zarządzania danymi oraz odkryjesz różne sposoby pracy z Pythonem, aby zarządzać i analizować dane.
Teraz pokaż te same dane z kolorystyką nawiązującą do miodu, aby zobrazować, jak cena zmienia się na przestrzeni lat. Możesz to zrobić, dodając parametr 'hue', który pokaże zmiany rok po roku:
@ -51,7 +51,7 @@ Teraz pokaż te same dane z kolorystyką nawiązującą do miodu, aby zobrazowa
Dzięki tej zmianie kolorystyki możesz zauważyć wyraźny wzrost ceny na przestrzeni lat. Jeśli spojrzysz na próbkę danych (na przykład dla stanu Arizona), zobaczysz wzorzec wzrostu cen rok po roku, z kilkoma wyjątkami:
Czy to prosty przypadek podaży i popytu? Czy z powodu takich czynników jak zmiany klimatyczne i zapaść kolonii dostępność miodu maleje z roku na rok, a cena rośnie?
✅ Ponieważ Seaborn agreguje dane w jednej linii, wyświetla "wiele pomiarów dla każdej wartości x, rysując średnią i 95% przedział ufności wokół średniej". [Źródło](https://seaborn.pydata.org/tutorial/relational.html). To czasochłonne zachowanie można wyłączyć, dodając `ci=None`.
@ -105,7 +105,7 @@ Pytanie: Czy w 2003 roku można również zauważyć wzrost podaży miodu? Co je
Odpowiedź: Niekoniecznie. Jeśli spojrzysz na całkowitą produkcję, wydaje się, że w tym konkretnym roku faktycznie wzrosła, mimo że ogólnie rzecz biorąc ilość produkowanego miodu maleje w tych latach.
@ -130,7 +130,7 @@ sns.relplot(
```
Na tej wizualizacji możesz porównać wydajność na kolonię i liczbę kolonii rok po roku, obok siebie, z ustawieniem wrap na 3 dla kolumn:
Dla tego zbioru danych nic szczególnego nie wyróżnia się w odniesieniu do liczby kolonii i ich wydajności rok po roku oraz stan po stanie. Czy istnieje inny sposób na znalezienie korelacji między tymi dwiema zmiennymi?
Chociaż nic szczególnego nie rzuca się w oczy w okolicach roku 2003, pozwala to zakończyć tę lekcję na nieco bardziej optymistycznej nucie: mimo ogólnego spadku liczby kolonii, ich liczba stabilizuje się, nawet jeśli wydajność na kolonię maleje.
Tutaj instalujesz pakiet `ggplot2`, a następnie importujesz go do przestrzeni roboczej za pomocą polecenia `library("ggplot2")`. Aby wykreślić dowolny wykres w ggplot, używana jest funkcja `ggplot()`, w której określasz zestaw danych, zmienne x i y jako atrybuty. W tym przypadku używamy funkcji `geom_line()`, ponieważ chcemy wykreślić wykres liniowy.
Co zauważasz od razu? Wydaje się, że jest co najmniej jeden odstający wynik - to całkiem spora rozpiętość skrzydeł! Rozpiętość skrzydeł ponad 2000 centymetrów to ponad 20 metrów - czy w Minnesocie żyją pterodaktyle? Zbadajmy to.
Nawet przy obrocie etykiet o 45 stopni jest ich zbyt wiele, aby je odczytać. Spróbujmy innej strategii: oznacz tylko te odstające wyniki i ustaw etykiety wewnątrz wykresu. Możesz użyć wykresu punktowego, aby zrobić więcej miejsca na etykiety:
@ -91,7 +91,7 @@ Co tu się dzieje? Użyłeś funkcji `geom_point()`, aby wykreślić punkty. Dzi
Stworzyliśmy nową ramkę danych `birds_filtered`, a następnie wykreśliliśmy wykres punktowy. Po odfiltrowaniu odstających wyników dane są teraz bardziej spójne i zrozumiałe.
W poniższym fragmencie instalujemy pakiety [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) i [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0), aby pomóc w manipulacji i grupowaniu danych w celu wykreślenia wykresu słupkowego. Najpierw grupujesz dane według `Category` ptaków, a następnie podsumowujesz kolumny `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Następnie wykreślasz wykres słupkowy za pomocą pakietu `ggplot2`, określając kolory dla różnych kategorii i etykiety.


Ten wykres słupkowy jest jednak nieczytelny, ponieważ jest zbyt wiele niepogrupowanych danych. Musisz wybrać tylko dane, które chcesz wykreślić, więc spójrzmy na długość ptaków w zależności od ich kategorii.
Najpierw liczysz unikalne wartości w kolumnie `Category`, a następnie sortujesz je w nowej ramce danych `birds_count`. Te posortowane dane są następnie uwzględniane na tym samym poziomie, aby były wykreślone w uporządkowany sposób. Korzystając z `ggplot2`, wykreślasz dane na wykresie słupkowym. Funkcja `coord_flip()` wykreśla poziome słupki.
Ten wykres słupkowy pokazuje dobry widok liczby ptaków w każdej kategorii. Na pierwszy rzut oka widać, że największa liczba ptaków w tym regionie należy do kategorii Kaczki/Gęsi/Wodnopławy. Minnesota to "kraina 10 000 jezior", więc to nie jest zaskakujące!


To daje przegląd ogólnego rozkładu długości ciała w zależności od rzędu ptaków, ale nie jest to optymalny sposób na przedstawienie prawdziwych rozkładów. Do tego celu zazwyczaj używa się histogramu.
@ -48,7 +48,7 @@ To daje przegląd ogólnego rozkładu długości ciała w zależności od rzędu


Jak widać, większość z ponad 400 ptaków w tym zbiorze danych mieści się w zakresie poniżej 2000 dla ich maksymalnej masy ciała. Uzyskaj więcej informacji o danych, zmieniając parametr `bins` na wyższą wartość, na przykład 30:
@ -56,7 +56,7 @@ Jak widać, większość z ponad 400 ptaków w tym zbiorze danych mieści się w
Ten wykres pokazuje rozkład w nieco bardziej szczegółowy sposób. Wykres mniej przesunięty w lewo można stworzyć, wybierając dane tylko z określonego zakresu:


Nie wydaje się, aby istniała dobra korelacja między minimalną rozpiętością skrzydeł a statusem ochrony. Przetestuj inne elementy zbioru danych, korzystając z tej metody. Możesz również wypróbować różne filtry. Czy znajdujesz jakąś korelację?
@ -127,7 +127,7 @@ Przejdźmy teraz do pracy z wykresami gęstości!
Widać, że wykres odzwierciedla poprzedni dla danych o minimalnej rozpiętości skrzydeł; jest po prostu nieco bardziej płynny. Jeśli chciałbyś powrócić do tego poszarpanego wykresu MaxBodyMass z drugiego wykresu, który stworzyłeś, możesz go bardzo dobrze wygładzić, odtwarzając go za pomocą tej metody:
@ -135,7 +135,7 @@ Widać, że wykres odzwierciedla poprzedni dla danych o minimalnej rozpiętości


✅ Przeczytaj o dostępnych parametrach dla tego typu wykresu i eksperymentuj!
@ -153,7 +153,7 @@ Ten typ wykresu oferuje piękne wizualizacje wyjaśniające. Na przykład, za po
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voila, wykres kołowy pokazujący proporcje tych danych według dwóch klas grzybów. Bardzo ważne jest, aby kolejność etykiet była poprawna, szczególnie tutaj, więc upewnij się, że weryfikujesz kolejność, w jakiej budowana jest tablica etykiet!
Korzystając z wykresu gofrowego, możesz wyraźnie zobaczyć proporcje kolorów kapeluszy w tym zestawie danych o grzybach. Co ciekawe, jest wiele grzybów z zielonymi kapeluszami!
W tej lekcji nauczyłeś się trzech sposobów wizualizacji proporcji. Najpierw musisz pogrupować swoje dane w kategorie, a następnie zdecydować, który sposób ich wyświetlania jest najlepszy - koło, pierścień czy gofr. Wszystkie są apetyczne i dają użytkownikowi natychmiastowy wgląd w zestaw danych.
Teraz pokaż te same dane z kolorystyką inspirowaną miodem, aby zobrazować, jak cena zmienia się na przestrzeni lat. Możesz to zrobić, dodając parametr 'scale_color_gradientn', który pokazuje zmiany rok po roku:
@ -52,7 +52,7 @@ Teraz pokaż te same dane z kolorystyką inspirowaną miodem, aby zobrazować, j
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Dzięki tej zmianie kolorystyki można zauważyć wyraźny postęp w cenie miodu za funt na przestrzeni lat. Jeśli spojrzysz na próbkę danych, aby to zweryfikować (na przykład wybierając stan Arizona), można dostrzec wzorzec wzrostu cen rok po roku, z kilkoma wyjątkami:
Czy to prosty przypadek podaży i popytu? Z powodu takich czynników jak zmiany klimatyczne i zjawisko zaniku kolonii, czy dostępność miodu na sprzedaż zmniejsza się rok po roku, a co za tym idzie, cena wzrasta?
Odpowiedź: Niekoniecznie. Jeśli spojrzysz na całkowitą produkcję, wydaje się, że faktycznie wzrosła w tym konkretnym roku, mimo że ogólnie rzecz biorąc ilość produkowanego miodu maleje w tych latach.
Dla tego zestawu danych nic szczególnego nie wyróżnia się w odniesieniu do liczby kolonii i ich wydajności rok po roku oraz stan po stanie. Czy istnieje inny sposób na znalezienie korelacji między tymi dwoma zmiennymi?
Chociaż nic szczególnego nie rzuca się w oczy w okolicach roku 2003, pozwala nam to zakończyć tę lekcję na nieco bardziej optymistycznej nucie: mimo ogólnego spadku liczby kolonii, liczba kolonii stabilizuje się, nawet jeśli ich wydajność na kolonię maleje.
@ -38,25 +38,25 @@ W poprzednich lekcjach eksperymentowałeś z tworzeniem różnych interesującyc
Nawet jeśli data scientist starannie dobierze odpowiedni wykres do danych, istnieje wiele sposobów, w jakie dane mogą być przedstawione w sposób wprowadzający w błąd, często kosztem ich wiarygodności. Istnieje wiele przykładów mylących wykresów i infografik!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Kliknij obrazek powyżej, aby obejrzeć prezentację na temat mylących wykresów
Ten wykres odwraca oś X, aby pokazać coś odwrotnego do prawdy, bazując na dacie:
[Ten wykres](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) jest jeszcze bardziej mylący, ponieważ wzrok kieruje się w prawo, sugerując, że liczba przypadków COVID spadła w różnych hrabstwach. W rzeczywistości, jeśli przyjrzysz się dokładnie datom, zauważysz, że zostały one przestawione, aby stworzyć fałszywy trend spadkowy.
Ten znany przykład używa koloru ORAZ odwróconej osi Y, aby wprowadzić w błąd: zamiast wniosku, że liczba zgonów z użyciem broni wzrosła po wprowadzeniu przyjaznego broni ustawodawstwa, wzrok zostaje oszukany, by myśleć, że jest odwrotnie:
Porównywanie rzeczy nieporównywalnych to kolejny nieuczciwy trik. Istnieje [świetna strona internetowa](https://tylervigen.com/spurious-correlations) poświęcona 'fałszywym korelacjom', pokazująca 'fakty', takie jak korelacja między wskaźnikiem rozwodów w Maine a spożyciem margaryny. Grupa na Reddicie również zbiera [brzydkie przykłady](https://www.reddit.com/r/dataisugly/top/?t=all) użycia danych.
@ -91,13 +91,13 @@ Oznacz osie, dodaj legendę, jeśli to konieczne, i oferuj podpowiedzi, aby uła
Jeśli Twoje dane są tekstowe i obszerne na osi X, możesz ustawić tekst pod kątem, aby poprawić czytelność. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) oferuje wykresy 3D, jeśli Twoje dane to umożliwiają. Zaawansowane wizualizacje danych można tworzyć za jego pomocą.
Niektóre z najlepszych wizualizacji danych są dziś animowane. Shirley Wu stworzyła niesamowite wizualizacje za pomocą D3, takie jak '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', gdzie każdy kwiat jest wizualizacją filmu. Innym przykładem jest projekt dla Guardiana 'bussed out', interaktywne doświadczenie łączące wizualizacje z Greensock i D3 oraz artykuł w formacie 'scrollytelling', pokazujący, jak Nowy Jork radzi sobie z problemem bezdomności, wysyłając ludzi poza miasto.
> "Bussed Out: How America Moves its Homeless" z [Guardiana](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Wizualizacje autorstwa Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Chociaż ta lekcja nie wystarczy, aby szczegółowo nauczyć się tych potężny
Ukończysz aplikację internetową, która wyświetli animowany widok tej sieci społecznej. Wykorzystuje ona bibliotekę stworzoną do [wizualizacji sieci](https://github.com/emiliorizzo/vue-d3-network) za pomocą Vue.js i D3. Gdy aplikacja działa, możesz przeciągać węzły na ekranie, aby przemieszczać dane.


> Zdjęcie autorstwa <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> na <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Wizualizacja danych to jedno z najważniejszych zadań data scientistów. Obrazy są warte tysiąca słów, a wizualizacja może pomóc w identyfikacji różnych interesujących aspektów danych, takich jak skoki, wartości odstające, grupowania, tendencje i wiele innych, które pomagają zrozumieć historię, jaką opowiadają dane.
@ -16,7 +16,7 @@ Na tym etapie prawdopodobnie zdajesz sobie sprawę, że nauka o danych to proces
Ta lekcja skupia się na 3 częściach cyklu życia: zbieraniu, przetwarzaniu i utrzymaniu.


> Zdjęcie autorstwa [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Zbieranie
@ -92,7 +92,7 @@ Zapoznaj się z [cyklem życia procesu nauki o danych zespołu](https://docs.mic
|Proces nauki o danych zespołu (TDSP)|Standardowy proces dla eksploracji danych (CRISP-DM)|
|--|--|
| |  |
| |  |
| Obraz autorstwa [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Obraz autorstwa [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Quiz po wykładzie](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Zdjęcie autorstwa <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> na <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
W tych lekcjach poznasz niektóre aspekty cyklu życia Data Science, w tym analizę i komunikację związaną z danymi.
> Zdjęcie autorstwa [Jelleke Vanooteghem](https://unsplash.com/@ilumire) z [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Jeśli chodzi o analizę danych z dużymi zbiorami danych, chmura może być prawdziwym przełomem. W ciągu najbliższych trzech lekcji dowiemy się, czym jest chmura i dlaczego może być bardzo pomocna. Zbadamy również zbiór danych dotyczących niewydolności serca i zbudujemy model, który pomoże ocenić prawdopodobieństwo wystąpienia niewydolności serca u danej osoby. Wykorzystamy moc chmury, aby wytrenować, wdrożyć i używać modelu na dwa różne sposoby. Jeden sposób polega na użyciu wyłącznie interfejsu użytkownika w podejściu Low code/No code, a drugi sposób na wykorzystaniu Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Dzięki demokratyzacji AI, programistom jest teraz łatwiej projektować i integ
* [Data Science w Ochronie Zdrowia](https://data-flair.training/blogs/data-science-in-healthcare/) - podkreśla zastosowania takie jak obrazowanie medyczne (np. MRI, RTG, tomografia komputerowa), genomika (sekwencjonowanie DNA), rozwój leków (ocena ryzyka, przewidywanie sukcesu), analiza predykcyjna (opieka nad pacjentem i logistyka dostaw), śledzenie i zapobieganie chorobom itp.
 Źródło obrazu: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Źródło obrazu: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Rysunek pokazuje inne dziedziny i przykłady zastosowania technik data science. Chcesz odkryć inne zastosowania? Sprawdź sekcję [Przegląd i Samodzielna Nauka](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) poniżej.
# Data Science dla początkujących - Program nauczania
# Data Science dla Początkujących - Program Nauczania
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Zespół Azure Cloud Advocates w Microsoft ma przyjemność zaoferować 10-tygodniowy kurs składający się z 20 lekcji, poświęcony całkowicie Data Science. Każda lekcja zawiera quizy przed i po lekcji, pisemne instrukcje realizacji lekcji, rozwiązanie oraz zadanie. Nasza projektowo-oparta metodologia pozwala uczyć się podczas tworzenia, co jest sprawdzonym sposobem na trwałe przyswajanie nowych umiejętności.
Zespół Azure Cloud Advocates w Microsoft ma przyjemność zaoferować 10-tygodniowy program nauczania składający się z 20 lekcji, dotyczący Data Science. Każda lekcja zawiera quizy przed i po lekcji, pisemne instrukcje do wykonania lekcji, rozwiązanie oraz zadanie. Nasza metodologia oparta na projektach pozwala uczyć się podczas budowania, co jest sprawdzonym sposobem na utrwalenie nowych umiejętności.
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> To daje Ci wszystko, czego potrzebujesz, aby ukończyć kurs, z dużo szybszym pobieraniem.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Jeśli chcesz, by dodatkowe języki tłumaczeń zostały wspierane, są one wymienione [tutaj](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Jeśli chcesz, aby obsługiwane były dodatkowe języki tłumaczeń, są one wymienione [tutaj](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Prowadzimy serię nauki na Discordzie z AI, dowiedz się więcej i dołącz do nas na [Learn with AI Series](https://aka.ms/learnwithai/discord) w dniach 18 - 30 września 2025. Otrzymasz porady i triki dotyczące używania GitHub Copilot w Data Science.
Mamy trwającą serię "Learn with AI" na Discordzie, dowiedz się więcej i dołącz do nas na [Learn with AI Series](https://aka.ms/learnwithai/discord) w dniach 18 - 30 września 2025. Otrzymasz wskazówki i triki dotyczące używania GitHub Copilot do Data Science.

# Jesteś studentem?
Rozpocznij z następującymi zasobami:
Zacznij z następującymi zasobami:
- [Strona Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tej stronie znajdziesz materiały dla początkujących, pakiety dla studentów, a nawet sposoby na zdobycie darmowego vouchera na certyfikat. To strona, którą warto dodać do zakładek i regularnie odwiedzać, gdyż co najmniej raz w miesiącu zmieniamy zawartość.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Dołącz do globalnej społeczności ambasadorów studenckich, może to być Twoja droga do Microsoft.
- [Strona Student Hub](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Na tej stronie znajdziesz zasoby dla początkujących, pakiety dla studentów a nawet sposoby na zdobycie darmowego vouchera na certyfikat. To jedna ze stron, którą warto dodać do zakładek i sprawdzać od czasu do czasu, ponieważ treść jest zmieniana co najmniej raz w miesiącu.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Dołącz do globalnej społeczności ambasadorów studenckich, to może być Twoja droga do Microsoftu.
# Jak zacząć
# Pierwsze kroki
## 📚 Dokumentacja
- **[Przewodnik instalacji](INSTALLATION.md)** - Instrukcje krok po kroku dla początkujących
- **[Przewodnik użytkowania](USAGE.md)** - Przykłady i typowe workflow
- **[Rozwiązywanie problemów](TROUBLESHOOTING.md)** - Rozwiązania powszechnych problemów
- **[Przewodnik współtworzenia](CONTRIBUTING.md)** - Jak przyczynić się do projektu
- **[Dla nauczycieli](for-teachers.md)** - Wskazówki i zasoby do nauczania
- **[Przewodnik użycia](USAGE.md)** - Przykłady i typowe przepływy pracy
- **[Rozwiązywanie problemów](TROUBLESHOOTING.md)** - Rozwiązania typowych problemów
- **[Przewodnik dla współtwórców](CONTRIBUTING.md)** - Jak przyczyniać się do tego projektu
- **[Dla nauczycieli](for-teachers.md)** - Wskazówki dydaktyczne i zasoby do klasy
## 👨🎓 Dla studentów
> **Całkowici początkujący**: Nowi w data science? Zacznij od naszych [przyjaznych dla początkujących przykładów](examples/README.md)! Te proste, dobrze skomentowane przykłady pomogą Ci zrozumieć podstawy, zanim przejdziesz do pełnego programu.
> **[Studenci](https://aka.ms/student-page)**: aby korzystać z tego programu samodzielnie, zrób fork całego repozytorium i wykonuj ćwiczenia samodzielnie, zaczynając od quizu przedwykładowego. Następnie przeczytaj wykład i wykonaj resztę aktywności. Staraj się tworzyć projekty, rozumiejąc lekcje, zamiast kopiować kod z rozwiązania; jednak ten kod jest dostępny w folderach /solutions w każdej lekcji zorientowanej na projekt. Innym pomysłem jest utworzenie grupy naukowej z przyjaciółmi i wspólne przerabianie materiału. Do dalszej nauki polecamy [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Kompletni początkujący**: Nowy w data science? Zacznij od naszych [przyjaznych przykładów dla początkujących](examples/README.md)! Te proste, dobrze komentowane przykłady pomogą Ci zrozumieć podstawy zanim zagłębisz się w cały program.
> **[Studenci](https://aka.ms/student-page)**: aby korzystać z tego programu samodzielnie, forkuj całe repozytorium i wykonuj ćwiczenia samodzielnie, zaczynając od quizu przed wykładem. Następnie przeczytaj wykład i wykonaj pozostałe aktywności. Staraj się tworzyć projekty, rozumiejąc lekcje, zamiast kopiować kod rozwiązania; jednakże kod ten jest dostępny w folderach /solutions w każdej lekcji zorientowanej na projekt. Innym pomysłem jest stworzenie grupy naukowej z przyjaciółmi i wspólne przechodzenie przez materiał. Do dalszej nauki polecamy [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Szybki start:**
1. Sprawdź [Przewodnik instalacji](INSTALLATION.md), aby skonfigurować środowisko
2. Przejrzyj [Przewodnik użytkowania](USAGE.md), aby nauczyć się korzystać z programu
1. Sprawdź [Przewodnik instalacji](INSTALLATION.md) aby skonfigurować środowisko
2. Przejrzyj [Przewodnik użycia](USAGE.md), aby nauczyć się pracować z programem
3. Zacznij od Lekcji 1 i kontynuuj kolejno
4. Dołącz do naszej społeczności na [Discordzie](https://aka.ms/ds4beginners/discord) po wsparcie
4. Dołącz do naszej społeczności na [Discord](https://aka.ms/ds4beginners/discord) aby uzyskać wsparcie
## 👩🏫 Dla nauczycieli
> **Nauczyciele**: umieściliśmy [kilka sugestii](for-teachers.md) dotyczących korzystania z tego programu nauczania. Chętnie poznamy wasze opinie [na naszym forum dyskusyjnym](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Nauczyciele**: przygotowaliśmy [kilka sugestii](for-teachers.md) dotyczących korzystania z tego programu. Chętnie poznamy Wasze opinie [na naszym forum dyskusyjnym](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Kliknij powyższy obrazek, aby obejrzeć film o projekcie i ludziach, którzy go stworzyli!
> 🎥 Kliknij powyższy obraz, aby obejrzeć wideo o projekcie i ludziach, którzy go stworzyli!
## Pedagogika
Podczas tworzenia tego programu nauczania wybraliśmy dwie zasady pedagogiczne: zapewnienie, że jest on oparty na projektach oraz że zawiera częste quizy. Pod koniec tej serii studenci poznają podstawowe zasady data science, w tym koncepcje etyczne, przygotowanie danych, różne sposoby pracy z danymi, wizualizację danych, analizę danych, zastosowania data science w rzeczywistych przypadkach oraz więcej.
Podczas tworzenia tego programu nauczania wybraliśmy dwa założenia pedagogiczne: zapewnienie, że jest oparty na projektach oraz że zawiera częste quizy. Pod koniec tej serii uczniowie poznają podstawowe zasady nauki o danych, w tym koncepcje etyczne, przygotowanie danych, różne sposoby pracy z danymi, wizualizację danych, analizę danych, rzeczywiste zastosowania nauki o danych i wiele więcej.
Dodatkowo, quiz o niskiej stawce przed zajęciami ustawia intencję studenta na naukę danego tematu, natomiast drugi quiz po zajęciach zapewnia lepsze utrwalenie wiedzy. Ten program nauczania został zaprojektowany tak, aby był elastyczny i przyjemny, i można go realizować w całości lub w części. Projekty zaczynają się od małych i stają się coraz bardziej skomplikowane pod koniec 10-tygodniowego cyklu.
Dodatkowo quiz o niskiej stawce przed zajęciami ustawia intencję ucznia do nauki tematu, podczas gdy drugi quiz po zajęciach zapewnia dalsze utrwalenie. Ten program nauczania został zaprojektowany tak, aby był elastyczny i przyjazny, i można go realizować w całości lub częściowo. Projekty zaczynają się od małych i stają się coraz bardziej złożone do końca 10-tygodniowego cyklu.
> Znajdź nasze [Zasady postępowania](CODE_OF_CONDUCT.md), [Wkład w projekt](CONTRIBUTING.md), [Tłumaczenia](TRANSLATIONS.md). Czekamy na Twoją konstruktywną opinię!
> Znajdź nasz [Kodeks Postępowania](CODE_OF_CONDUCT.md), [Zasady Współpracy](CONTRIBUTING.md), [Wytyczne dotyczące tłumaczeń](TRANSLATIONS.md). Zapraszamy do konstruktywnej krytyki!
## Każda lekcja zawiera:
- Opcjonalną sketchnotkę
- Opcjonalne dodatkowe wideo
- Opcjonalną notatkę wizualną
- Opcjonalny dodatkowy film
- Quiz rozgrzewkowy przed lekcją
- Lekcję pisaną
- Dla lekcji opartych na projektach, przewodniki krok po kroku jak zbudować projekt
- Sprawdzenia wiedzy
- Pisemną lekcję
- W przypadku lekcji opartych na projekcie – przewodniki krok po kroku, jak zbudować projekt
- Sprawdziany wiedzy
- Wyzwanie
- Dodatkową lekturę
- Zadanie domowe
- Zadanie
- [Quiz po lekcji](https://ff-quizzes.netlify.app/en/)
> **Uwaga o quizach**: Wszystkie quizy znajdują się w folderze Quiz-App, jest ich łącznie 40, każdy z trzema pytaniami. Są one powiązane z lekcjami, ale aplikację do quizów można uruchomić lokalnie lub wdrożyć do Azure; postępuj zgodnie z instrukcjami w folderze `quiz-app`. Są one stopniowo lokalizowane.
> **Uwaga o quizach**: Wszystkie quizy znajdują się w folderze Quiz-App, łącznie 40 quizów po trzy pytania każdy. Są one powiązane z lekcjami, ale aplikację quizową można uruchomić lokalnie lub wdrożyć w Azure; postępuj według instrukcji w folderze `quiz-app`. Stopniowo są lokalizowane.
## 🎓 Przykłady przyjazne dla początkujących
**Nowy w Data Science?** Stworzyliśmy specjalny [folder z przykładami](examples/README.md) z prostym, dobrze skomentowanym kodem, który pomoże Ci zacząć:
**Nowy w nauce o danych?** Stworzyliśmy specjalny [folder z przykładami](examples/README.md) z prostym, dobrze skomentowanym kodem, aby pomóc Ci zacząć:
- 🌟 **Hello World**- Twój pierwszy program data science
- 📂 **Ładowanie danych** - Naucz się czytać i eksplorować zbiory danych
- 📊 **Prosta analiza**- Oblicz statystyki i znajdź wzorce
- 📈 **Podstawowa wizualizacja**- Twórz wykresy i diagramy
- 🔬 **Projekt w świecie rzeczywistym** - Kompletny przepływ pracy od początku do końca
- 🌟 **Hello World**– Twój pierwszy program do nauki o danych
- 📂 **Ładowanie danych** – Naucz się czytać i eksplorować zestawy danych
- 📊 **Prosta analiza**– Oblicz statystyki i znajdź wzorce
- 📈 **Podstawowa wizualizacja**– Twórz wykresy i grafiki
- 🔬 **Projekt z prawdziwego świata** – Kompletny proces od początku do końca
Każdy przykład zawiera szczegółowe komentarze wyjaśniające każdy krok, co czyni go idealnym dla absolutnych początkujących!
@ -133,65 +143,65 @@ Każdy przykład zawiera szczegółowe komentarze wyjaśniające każdy krok, co
## Lekcje
||
||
|:---:|
| Data Science dla początkujących: Plan działania - _Sketchnotka autorstwa [@nitya](https://twitter.com/nitya)_ |
| Nauka o danych dla początkujących: Mapa drogowa - _Notatka wizualna autorstwa [@nitya](https://twitter.com/nitya)_ |
| Numer lekcji | Temat | Grupa lekcji | Cele naukowe | Powiązana lekcja | Autor |
| Numer lekcji | Temat | Grupowanie lekcji | Cele nauczania | Powiązana lekcja | Autor |
| 01 | Definicja Data Science | [Wprowadzenie](1-Introduction/README.md) | Poznaj podstawowe koncepcje związane z data science oraz jej powiązania ze sztuczną inteligencją, uczeniem maszynowym i big data. | [lekcja](1-Introduction/01-defining-data-science/README.md) [wideo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etyka w Data Science | [Wprowadzenie](1-Introduction/README.md) | Koncepcje etyki danych, wyzwania i ramy postępowania. | [lekcja](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definicja danych | [Wprowadzenie](1-Introduction/README.md) | Jak klasyfikowane są dane i jakie są ich typowe źródła. | [lekcja](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Wprowadzenie do statystyki i rachunku prawdopodobieństwa | [Wprowadzenie](1-Introduction/README.md) | Techniki matematyczne rachunku prawdopodobieństwa i statystyki do analizy danych. | [lekcja](1-Introduction/04-stats-and-probability/README.md) [wideo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Praca z danymi relacyjnymi | [Praca z danymi](2-Working-With-Data/README.md) | Wprowadzenie do danych relacyjnych oraz podstaw eksploracji i analizy danych z użyciem strukturalnego języka zapytań SQL (czytane „sekwel”). | [lekcja](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Praca z danymi NoSQL | [Praca z danymi](2-Working-With-Data/README.md) | Wprowadzenie do danych nierelacyjnych, ich różnych typów oraz podstaw eksploracji i analizy baz dokumentów. | [lekcja](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Praca z Pythonem | [Praca z danymi](2-Working-With-Data/README.md) | Podstawy używania Pythona do eksploracji danych z bibliotekami takimi jak Pandas. Zaleca się podstawową znajomość programowania w Pythonie. | [lekcja](2-Working-With-Data/07-python/README.md) [wideo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Przygotowanie danych | [Praca z danymi](2-Working-With-Data/README.md) | Tematy dotyczące technik czyszczenia i przekształcania danych w celu radzenia sobie z brakującymi, niedokładnymi lub niekompletnymi danymi. | [lekcja](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Wizualizacja ilości | [Wizualizacja danych](3-Data-Visualization/README.md) | Naucz się używać Matplotlib do wizualizacji danych ptaków 🦆 | [lekcja](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Wizualizacja rozkładów danych | [Wizualizacja danych](3-Data-Visualization/README.md) | Wizualizacja obserwacji i trendów w obrębie przedziału. | [lekcja](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Wizualizacja zależności | [Wizualizacja danych](3-Data-Visualization/README.md) | Wizualizacja powiązań i korelacji między zestawami danych i ich zmiennymi. | [lekcja](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Znaczące wizualizacje | [Wizualizacja danych](3-Data-Visualization/README.md) | Techniki i wskazówki, jak tworzyć wartościowe wizualizacje dla skutecznego rozwiązywania problemów i uzyskiwania wglądu. | [lekcja](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Wprowadzenie do cyklu życia data science | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Wprowadzenie do cyklu życia data science i jego pierwszego etapu pozyskiwania i ekstrakcji danych. | [lekcja](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Ta faza cyklu życia data science koncentruje się na technikach analizy danych. | [lekcja](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacja | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Ta faza cyklu życia data science koncentruje się na prezentacji wniosków z danych w sposób ułatwiający zrozumienie przez decydentów. | [lekcja](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Ta seria lekcji wprowadza data science w chmurze i jej korzyści. | [lekcja](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Trenowanie modeli za pomocą narzędzi Low Code. |[lekcja](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Wdrażanie modeli przy użyciu Azure Machine Learning Studio. | [lekcja](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science w praktyce | [Na żywo](6-Data-Science-In-Wild/README.md) | Projekty data science realizowane w świecie rzeczywistym. | [lekcja](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Definicja nauki o danych | [Wprowadzenie](1-Introduction/README.md) | Poznaj podstawowe pojęcia nauki o danych oraz jej powiązania ze sztuczną inteligencją, uczeniem maszynowym i big data. | [lekcja](1-Introduction/01-defining-data-science/README.md) [wideo](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etyka w nauce o danych | [Wprowadzenie](1-Introduction/README.md) | Pojęcia, wyzwania i ramy etyki danych. | [lekcja](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definicja danych | [Wprowadzenie](1-Introduction/README.md) | Jak klasyfikowane są dane i ich najczęstsze źródła. | [lekcja](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Wprowadzenie do statystyki i prawdopodobieństwa | [Wprowadzenie](1-Introduction/README.md) | Matematyczne techniki prawdopodobieństwa i statystyki do zrozumienia danych. | [lekcja](1-Introduction/04-stats-and-probability/README.md) [wideo](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Praca z danymi relacyjnymi | [Praca z danymi](2-Working-With-Data/README.md) | Wprowadzenie do danych relacyjnych oraz podstawy eksploracji i analizy danych relacyjnych za pomocą języka zapytań strukturalnych, znanego jako SQL (wym. „see-quell”). | [lekcja](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Praca z danymi NoSQL | [Praca z danymi](2-Working-With-Data/README.md) | Wprowadzenie do danych nierelacyjnych, ich różnych typów oraz podstawy eksploracji i analizy baz dokumentowych. | [lekcja](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Praca z Pythonem | [Praca z danymi](2-Working-With-Data/README.md) | Podstawy użycia Pythona do eksploracji danych z bibliotekami takimi jak Pandas. Zalecana jest podstawowa znajomość programowania w Pythonie. | [lekcja](2-Working-With-Data/07-python/README.md) [wideo](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Przygotowanie danych | [Praca z danymi](2-Working-With-Data/README.md) | Tematy dotyczące technik czyszczenia i przekształcania danych do radzenia sobie z brakującymi, nieprecyzyjnymi lub niekompletnymi danymi. | [lekcja](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Wizualizacja ilości | [Wizualizacja danych](3-Data-Visualization/README.md) | Naucz się korzystać z Matplotlib do wizualizacji danych o ptakach 🦆 | [lekcja](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Wizualizacja rozkładów danych | [Wizualizacja danych](3-Data-Visualization/README.md) | Wizualizacja obserwacji i trendów w przedziale czasowym. | [lekcja](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Wizualizacja relacji | [Wizualizacja danych](3-Data-Visualization/README.md) | Wizualizacja połączeń i korelacji między zestawami danych i ich zmiennymi. | [lekcja](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Znaczące wizualizacje | [Wizualizacja danych](3-Data-Visualization/README.md) | Techniki i wskazówki, jak tworzyć wizualizacje wartościowe dla efektywnego rozwiązywania problemów i uzyskiwania spostrzeżeń. | [lekcja](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Wprowadzenie do cyklu życia nauki o danych | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Wprowadzenie do cyklu życia nauki o danych oraz jego pierwszego kroku – pozyskiwania i ekstrakcji danych. | [lekcja](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiza | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Ta faza cyklu życia nauki o danych koncentruje się na technikach analizy danych. | [lekcja](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Komunikacja | [Cykl życia](4-Data-Science-Lifecycle/README.md) | Ta faza cyklu życia nauki o danych koncentruje się na prezentowaniu spostrzeżeń z danych w sposób ułatwiający zrozumienie decydentom. | [lekcja](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Nauka o danych w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Seria lekcji wprowadzająca naukę o danych w chmurze oraz jej korzyści. | [lekcja](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 18 | Nauka o danych w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Trenowanie modeli za pomocą narzędzi Low Code. |[lekcja](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 19 | Nauka o danych w chmurze | [Dane w chmurze](5-Data-Science-In-Cloud/README.md) | Wdrażanie modeli z wykorzystaniem Azure Machine Learning Studio. | [lekcja](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) i [Maud](https://twitter.com/maudstweets) |
| 20 | Nauka o danych w praktyce | [W terenie](6-Data-Science-In-Wild/README.md) | Projekty nauki o danych w rzeczywistym świecie. | [lekcja](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Wykonaj poniższe kroki, aby otworzyć ten przykład w Codespace:
Wykonaj następujące kroki, aby otworzyć ten przykład w Codespace:
1. Kliknij menu rozwijane Kod i wybierz opcję Otwórz w Codespaces.
2. Wybierz + Nowy codespace u dołu panelu.
2. Na dole panelu wybierz + Nowy codespace.
Więcej informacji znajdziesz w [dokumentacji GitHub](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Wykonaj poniższe kroki, aby otworzyć to repozytorium w kontenerze, używając lokalnego komputera i VSCode oraz rozszerzenia VS Code Remote - Containers:
Wykonaj następujące kroki, aby otworzyć to repozytorium w kontenerze, używając lokalnej maszyny i VSCode z rozszerzeniem VS Code Remote - Containers:
1. Jeśli to Twój pierwszy raz używania kontenera deweloperskiego, upewnij się, że Twój system spełnia wymagania wstępne (np. ma zainstalowany Docker) w [dokumentacji wprowadzającej](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Jeśli używasz kontenera deweloperskiego po raz pierwszy, upewnij się, że Twój system spełnia wymagania wstępne (np. ma zainstalowany Docker) w [dokumentacji rozpoczęcia pracy](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Aby użyć tego repozytorium, możesz otworzyć repozytorium w izolowanym wolumenie Docker:
Aby użyć tego repozytorium, możesz otworzyć repozytorium w izolowanym wolumenie Dockera:
**Uwaga**: W praktyce użyje to polecenia Remote-Containers: **Clone Repository in Container Volume...**, aby sklonować kod źródłowy do wolumenu Dockera zamiast systemu plików lokalnych. [Wolumeny](https://docs.docker.com/storage/volumes/) są preferowanym mechanizmem do przechowywania danych kontenera.
**Uwaga**: Pod maską użyje to polecenia Remote-Containers: **Klonuj repozytorium w wolumenie kontenera...** do sklonowania kodu źródłowego w wolumenie Dockera zamiast w lokalnym systemie plików. [Wolumeny](https://docs.docker.com/storage/volumes/) są preferowanym mechanizmem do przechowywania danych kontenera.
Lub otwórz lokalnie sklonowaną lub pobraną wersję repozytorium:
- Sklonuj to repozytorium do lokalnego systemu plików.
- Naciśnij F1 i wybierz polecenie **Remote-Containers: Open Folder in Container...**.
- Wybierz sklonowaną kopię tego folderu, poczekaj na uruchomienie kontenera i wypróbuj.
- Sklonuj to repozytorium na lokalny system plików.
- Naciśnij F1 i wybierz polecenie **Remote-Containers: Otwórz folder w kontenerze...**.
- Wybierz sklonowaną kopię tego folderu, poczekaj, aż kontener się uruchomi i wypróbuj.
## Dostęp offline
Możesz uruchomić tę dokumentację offline, używając [Docsify](https://docsify.js.org/#/). Rozgałęź to repozytorium, [zainstaluj Docsify](https://docsify.js.org/#/quickstart) na swoim komputerze, a następnie w głównym folderze repozytorium wpisz `docsify serve`. Strona będzie serwowana na porcie 3000 na Twoim localhost: `localhost:3000`.
Możesz przeglądać tę dokumentację offline, używając [Docsify](https://docsify.js.org/#/). Sklonuj to repozytorium, [zainstaluj Docsify](https://docsify.js.org/#/quickstart) na swojej lokalnej maszynie, a następnie w folderze głównym repozytorium wpisz `docsify serve`. Strona internetowa będzie dostępna na porcie 3000 na twoim localhost: `localhost:3000`.
> Uwaga, notatniki nie będą renderowane przez Docsify, więc gdy musisz uruchomić notatnik, zrób to osobno w VS Code z uruchomionym jądrem Pythona.
> Uwaga, notatniki nie będą renderowane przez Docsify, więc gdy potrzebujesz uruchomić notatnik, zrób to osobno w VS Code z uruchomionym jądrem Pythona.
## Inne programy nauczania
Nasz zespół tworzy także inne programy nauczania! Sprawdź:
Nasz zespół tworzy również inne programy! Zobacz:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -216,7 +226,7 @@ Nasz zespół tworzy także inne programy nauczania! Sprawdź:
---
### Podstawowe nauki
### Podstawowa nauka
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -228,16 +238,16 @@ Nasz zespół tworzy także inne programy nauczania! Sprawdź:
---
### Seria Copilot
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
Jeśli utkniesz lub masz pytania dotyczące tworzenia aplikacji AI, dołącz do innych uczących się oraz doświadczonych programistów w dyskusjach o MCP. To wspierająca społeczność, gdzie pytania są mile widziane, a wiedza jest swobodnie dzielona.
Jeśli utkniesz lub masz pytania dotyczące tworzenia aplikacji AI. Dołącz do innych uczących się i doświadczonych programistów w dyskusjach o MCP. To wspierająca społeczność, gdzie pytania są mile widziane, a wiedza swobodnie dzielona.
@ -249,5 +259,5 @@ Jeśli masz uwagi dotyczące produktu lub napotkasz błędy podczas tworzenia, o
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Zastrzeżenie**:
Niniejszy dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mimo że staramy się zapewnić dokładność, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub niedokładności. Za źródło autorytatywne należy uważać oryginalny dokument w jego oryginalnym języku. W przypadku informacji o kluczowym znaczeniu zalecane jest skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.
Niniejszy dokument został przetłumaczony przy użyciu usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy starań, aby tłumaczenie było poprawne, prosimy mieć na uwadze, że tłumaczenia automatyczne mogą zawierać błędy lub niedokładności. Oryginalny dokument w języku źródłowym powinien być uznawany za autorytatywne źródło. W przypadku informacji krytycznych zalecane jest skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.
Ten dokument został przetłumaczony za pomocą usługi tłumaczenia AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż staramy się zapewnić dokładność, prosimy mieć na uwadze, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.
## [Ders Öncesi Testi](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Daha karmaşık bir analiz yapmak istersek, her modül için harcanan zamanı ö
Bu zorlukta, metinlere bakarak Veri Bilimi alanıyla ilgili kavramları bulmaya çalışacağız. Veri Bilimi ile ilgili bir Wikipedia makalesi alacak, metni indirecek ve işleyeceğiz, ardından aşağıdaki gibi bir kelime bulutu oluşturacağız:


Kodları incelemek için [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') dosyasını ziyaret edin. Ayrıca kodu çalıştırabilir ve tüm veri dönüşümlerinin gerçek zamanlı olarak nasıl gerçekleştirildiğini görebilirsiniz.
"Bu örnekte, geleneksel bir veri bilimi sürecinin tüm adımlarınıkapsayan basit bir alıştırma yapacağız. Herhangi bir kod yazmanıza gerek yok, sadece aşağıdaki hücrelere tıklayarak onları çalıştırabilir ve sonucu gözlemleyebilirsiniz. Bir zorluk olarak, bu kodu farklı verilerle denemeniz teşvik edilmektedir.\n",
"Bu örnekte, geleneksel bir veri bilimi sürecinin tüm adımlarınıiçeren basit bir egzersiz yapalım. Herhangi bir kod yazmanıza gerek yok, sadece aşağıdaki hücrelere tıklayarak onları çalıştırabilir ve sonucu gözlemleyebilirsiniz. Bir zorluk olarak, bu kodu farklı verilerle denemeniz teşvik edilir.\n",
"\n",
"## Amaç\n",
"\n",
"Bu derste, Veri Bilimi ile ilgili farklı kavramları tartıştık. Şimdi, **metin madenciliği** yaparak daha fazla ilgili kavram keşfetmeye çalışalım. Veri Bilimi hakkında bir metinle başlayacağız, bu metinden anahtar kelimeleri çıkaracağız ve ardından sonucu görselleştirmeye çalışacağız.\n",
"Bu derste, Veri Bilimi ile ilgili farklı kavramlar üzerinde durduk. Bazı **metin madenciliği** yaparak daha fazla ilgili kavram keşfetmeye çalışalım. Veri Bilimi hakkında bir metinle başlayacağız, ondan anahtar kelimeler çıkaracağız ve ardından sonucu görselleştirmeye çalışacağız.\n",
"\n",
"Metin olarak, Wikipedia'daki Veri Bilimi sayfasını kullanacağım:\n"
"Bir metin olarak, Wikipedia'daki Veri Bilimi sayfasını kullanacağım:\n"
],
"metadata": {}
},
@ -34,7 +34,7 @@
"source": [
"## Adım 1: Veriyi Alma\n",
"\n",
"Her veri bilimi sürecindeki ilk adım, veriyi almaktır. Bunu yapmak için `requests` kütüphanesini kullanacağız:\n"
"Her veri bilimi sürecinin ilk adımı veriyi almaktır. Bunu yapmak için `requests` kütüphanesini kullanacağız:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Adım 2: Veriyi Dönüştürme\n",
"\n",
"Bir sonraki adım, veriyi işleme için uygun bir forma dönüştürmektir. Bizim durumumuzda, sayfadan HTML kaynak kodunu indirdik ve bunu düz metne çevirmemiz gerekiyor.\n",
"Bir sonraki adım, veriyi işlenebilir forma dönüştürmektir. Bizim durumumuzda, sayfadan HTML kaynak kodunu indirdik ve bunu düz metne çevirmemiz gerekiyor.\n",
"\n",
"Bunun yapılabileceği birçok yöntem vardır. Python'un yerleşik [HTMLParser](https://docs.python.org/3/library/html.parser.html) nesnesini kullanacağız. `HTMLParser` sınıfını alt sınıf olarak tanımlayıp, `<script>` ve `<style>` etiketleri hariç HTML etiketlerinin içindeki tüm metni toplayacak kodu yazmamız gerekiyor.\n"
"Bunun yapılabileceği birçok yol vardır. HTML ayrıştırmak için popüler bir Python kütüphanesi olan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) kullanacağız. BeautifulSoup, belirli HTML öğelerine odaklanmamıza olanak tanır; böylece Wikipedia'daki ana makale içeriğine odaklanabilir ve bazı gezinme menüleri, yan çubuklar, dipnotlar ve diğer ilgisiz içerikleri azaltabiliriz (yine de bazı şablon metinler kalabilir).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"İlk olarak, HTML ayrıştırma için BeautifulSoup kütüphanesini kurmamız gerekiyor:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Adım 3: İçgörüler Elde Etme\n",
"## Adım 3: İçgörü Elde Etme\n",
"\n",
"En önemli adım, verilerimizi içgörüler çıkarabileceğimiz bir forma dönüştürmektir. Bizim durumumuzda, metinden anahtar kelimeleri çıkarmak ve hangi anahtar kelimelerin daha anlamlı olduğunu görmek istiyoruz.\n",
"En önemli adım, verilerimizi içgörü çıkarabileceğimiz bir formata dönüştürmektir. Bizim durumumuzda, metinden anahtar kelimeleri çıkarmak ve hangi anahtar kelimelerin daha anlamlı olduğunu görmek istiyoruz.\n",
"\n",
"Anahtar kelime çıkarımı için [RAKE](https://github.com/aneesha/RAKE) adlıbir Python kütüphanesi kullanacağız. Öncelikle, bu kütüphane yüklü değilse yükleyelim:\n"
"Anahtar kelime çıkarımı için [RAKE](https://github.com/aneesha/RAKE) adlı Python kütüphanesini kullanacağız. Öncelikle, bu kütüphane yüklü değilse yükleyelim:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Ana işlevsellik, bazı parametreler kullanarak özelleştirebileceğimiz `Rake` nesnesinden sağlanır. Bizim durumumuzda, bir anahtar kelimenin minimum uzunluğunu 5 karakter, bir anahtar kelimenin belgede minimum sıklığını 3 ve bir anahtar kelimedeki maksimum kelime sayısını 2 olarak ayarlayacağız. Diğer değerlerle oynamaktan çekinmeyin ve sonucu gözlemleyin.\n"
"Ana işlevsellik `Rake` nesnesinden kullanılabilir ve bazı parametrelerle özelleştirilebilir. Bizim durumumuzda, bir anahtar kelimenin minimum uzunluğunu 5 karakter, belgede bir anahtar kelimenin minimum sıklığını 3 ve bir anahtar kelimedeki maksimum kelime sayısını 2 olarak belirleyeceğiz. Diğer değerlerle oynamaktan çekinmeyin ve sonucu gözlemleyin.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Önem derecesiyle birlikte bir terimler listesi elde ettik. Gördüğünüz gibi, makine öğrenimi ve büyük veri gibi en ilgili disiplinler listenin üst sıralarında yer alıyor.\n",
"Bir önem derecesiyle birlikte terimlerin bir listesini elde ettik. Görebileceğiniz gibi, makine öğrenimi ve büyük veri gibi en alakalı disiplinler listenin üst sıralarında yer almaktadır.\n",
"\n",
"## Adım 4: Sonucu Görselleştirme\n",
"## Adım 4: Sonucun Görselleştirilmesi\n",
"\n",
"İnsanlar veriyi en iyi görsel biçimde yorumlayabilir. Bu nedenle, bazı içgörüler elde etmek için veriyi görselleştirmek genellikle mantıklıdır. Python'da `matplotlib` kütüphanesini kullanarak anahtar kelimelerin önem derecesiyle basit bir dağılımını çizebiliriz:\n"
"İnsanlar veriyi en iyi görsel biçimde yorumlayabilir. Bu yüzden bazı içgörüler elde etmek için veriyi görselleştirmek çoğunlukla mantıklıdır. Python'da `matplotlib` kütüphanesini kullanarak anahtar kelimelerin önemleriyle basit dağılımını çizebiliriz:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Bununla birlikte, kelime frekanslarını görselleştirmenin daha iyi bir yolu vardır - **Kelime Bulutu** kullanmak. Anahtar kelime listemizden kelime bulutunu çizmek için başka bir kütüphane yüklememiz gerekecek.\n"
"Ancak, kelime sıklıklarını görselleştirmenin çok daha iyi bir yolu vardır - **Kelime Bulutu** kullanmak. Anahtar kelime listemizden kelime bulutu çizmek için başka bir kütüphane kurmamız gerekecek.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` nesnesi, ya orijinal metni ya da önceden hesaplanmış kelimeler ve frekanslarının bir listesini alıp, ardından `matplotlib` kullanılarak görüntülenebilecek bir resim döndürmekten sorumludur:\n"
"`WordCloud` nesnesi, ya orijinal metni ya da önceden hesaplanmış kelimeler ve frekanslarından oluşan listeyi alır ve ardından `matplotlib` kullanılarak gösterilebilen bir görüntü döndürür:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Kelime bulutu artık daha etkileyici görünüyor, ancak aynı zamanda çok fazla gürültü içeriyor (örneğin, `Retrieved on` gibi alakasız kelimeler). Ayrıca, *data scientist* veya *computer science* gibi iki kelimeden oluşan anahtar kelimeleri daha az elde ediyoruz. Bunun nedeni, RAKE algoritmasının metinden iyi anahtar kelimeler seçme konusunda çok daha iyi bir iş çıkarmasıdır. Bu örnek, veri ön işleme ve temizlemenin önemini göstermektedir, çünkü sonunda net bir tablo elde etmek daha iyi kararlar almamızı sağlayacaktır.\n",
"Şimdi kelime bulutunun daha etkileyici göründüğünü görebilirsiniz, ancak aynı zamanda birçok gürültü içeriyor (örneğin, `Retrieved on` gibi ilgisiz kelimeler). Ayrıca, *data scientist* veya *computer science* gibi iki kelimeden oluşan daha az anahtar kelime elde ediyoruz. Bunun nedeni RAKE algoritmasının metinden iyi anahtar kelimeler seçmede çok daha başarılı olmasıdır. Bu örnek, veri ön işleme ve temizlemenin önemini göstermektedir, çünkü sonunda net bir resim elde etmek daha iyi kararlar almamıza olanak tanıyacaktır.\n",
"\n",
"Bu alıştırmada, Wikipedia metninden anahtar kelimeler ve kelime bulutu şeklinde bir anlam çıkarma sürecini basit bir şekilde ele aldık. Bu örnek oldukça basit, ancak bir veri bilimcinin veri ile çalışırken izlediği tipik adımları iyi bir şekilde göstermektedir; veri ediniminden görselleştirmeye kadar.\n",
"Bu alıştırmada, Wikipedia metninden anahtar kelimeler ve kelime bulutu şeklinde bir anlam çıkarma sürecinden geçtik. Bu örnek oldukça basittir, ancak bir veri bilimcisinin veri ile çalışırken alacağı tüm tipik adımları iyi bir şekilde göstermektedir; veri ediniminden başlayarak görselleştirmeye kadar.\n",
"\n",
"Kursumuzda bu adımların hepsini detaylı bir şekilde tartışacağız.\n"
"Kursumuzda bu adımların tümünü ayrıntılı olarak tartışacağız. \n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Feragatname**:\nBu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Orijinal belgenin kendi dilindeki hali, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan herhangi bir yanlış anlama veya yanlış yorumlama durumunda sorumluluk kabul edilmez.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Feragatname**:\nBu belge, AI çeviri servisi [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayınız. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanılması sonucu oluşabilecek yanlış anlamalar veya yorum hatalarından sorumlu tutulamayız.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Meydan Okuma: Veri Bilimi Hakkında Metin Analizi\n",
"\n",
"> *Bu not defterinde, farklı URL'ler - Makine Öğrenimi üzerine bir Wikipedia makalesi - kullanmayı deniyoruz. Görebileceğiniz gibi, Veri Bilimi'nden farklı olarak, bu makale birçok terim içeriyor ve bu da analizi daha sorunlu hale getiriyor. Anahtar kelime çıkarımı yaptıktan sonra, sık kullanılan ancak anlamlı olmayan kelime kombinasyonlarından kurtulmak için veriyi temizlemenin başka bir yolunu bulmamız gerekiyor.*\n",
"> *Bu not defterinde, Farklı bir URL - Wikipedia makalesi olan Makine Öğrenimi üzerinde denemeler yapıyoruz. Veri Bilimi ile karşılaştırıldığında, bu makalenin çok fazla terim içerdiğini görebilirsiniz; bu da analizi daha sorunlu hale getiriyor. Anahtar kelime çıkarımı yaptıktan sonra veriyi temizlemek için başka bir yol bulmamız gerekiyor; böylece bazı sık kullanılan ama anlamlı olmayan kelime kombinasyonlarından kurtulabiliriz.*\n",
"\n",
"Bu örnekte, geleneksel bir veri bilimi sürecinin tüm adımlarını kapsayan basit bir egzersiz yapalım. Herhangi bir kod yazmanıza gerek yok, sadece aşağıdaki hücrelere tıklayarak onları çalıştırabilir ve sonucu gözlemleyebilirsiniz. Bir zorluk olarak, bu kodu farklı verilerle denemeniz teşvik edilmektedir.\n",
"Bu örnekte, geleneksel bir veri bilimi sürecinin tüm adımlarını kapsayan basit bir egzersiz yapalım. Herhangi bir kod yazmanıza gerek yok, yalnızca aşağıdaki hücrelere tıklayarak çalıştırabilir ve sonucu gözlemleyebilirsiniz. Bir meydan okuma olarak, bu kodu farklı verilerle denemeniz teşvik edilir.\n",
"\n",
"## Amaç\n",
"\n",
"Bu derste, Veri Bilimi ile ilgili farklı kavramları tartıştık. Şimdi, **metin madenciliği** yaparak daha fazla ilgili kavram keşfetmeye çalışalım. Veri Bilimi hakkında bir metinle başlayacağız, bu metinden anahtar kelimeler çıkaracağız ve ardından sonucu görselleştirmeye çalışacağız.\n",
"Bu derste, Veri Bilimi ile ilgili farklı kavramlardan bahsettik. Bazı **metin madenciliği** yaparak daha fazla ilgili kavram keşfetmeye çalışalım. Veri Bilimi hakkında bir metinle başlayacağız, ondan anahtar kelimeler çıkaracağız ve ardından sonucu görselleştirmeye çalışacağız.\n",
"\n",
"Metin olarak, Wikipedia'daki Veri Bilimi sayfasını kullanacağım:\n"
"Metin olarak, Wikipedia’daki Veri Bilimi sayfasını kullanacağım:\n"
],
"metadata": {}
},
@ -37,7 +37,7 @@
"source": [
"## Adım 1: Veriyi Alma\n",
"\n",
"Her veri bilimi sürecindeki ilk adım, veriyi almaktır. Bunu yapmak için `requests` kütüphanesini kullanacağız:\n"
"Her veri bilimi sürecinin ilk adımı veriyi almaktır. Bunu yapmak için `requests` kütüphanesini kullanacağız:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Adım 2: Verilerin Dönüştürülmesi\n",
"## 2. Adım: Veriyi Dönüştürme\n",
"\n",
"Bir sonraki adım, verileri işleme uygun bir forma dönüştürmektir. Bizim durumumuzda, sayfadan HTML kaynak kodunu indirdik ve bunu düz metne dönüştürmemiz gerekiyor.\n",
"Bir sonraki adım, veriyi işleme için uygun formata dönüştürmektir. Bizim durumumuzda, sayfanın HTML kaynak kodunu indirdik ve bunu düz metne çevirmemiz gerekiyor.\n",
"\n",
"Bunun yapılabileceği birçok yöntem vardır. Biz, Python'daki en basit yerleşik [HTMLParser](https://docs.python.org/3/library/html.parser.html) nesnesini kullanacağız. `HTMLParser` sınıfını alt sınıf olarak tanımlamamız ve `<script>` ve `<style>` etiketleri dışındaki tüm HTML etiketlerinin içindeki metni toplayacak kodu tanımlamamız gerekiyor.\n"
"Bunu yapmanın birçok yolu vardır. Biz, HTML ayrıştırma için popüler bir Python kütüphanesi olan [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) kullanacağız. BeautifulSoup, belirli HTML öğelerini hedeflememize olanak tanır, böylece Wikipedia'nın ana makale içeriğine odaklanabilir ve bazı menüleri, yan çubukları, altbilgileri ve diğer ilgisiz içerikleri azaltabiliriz (ancak bazı standart metinler yine de kalabilir).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"İlk olarak, HTML ayrıştırma için BeautifulSoup kütüphanesini kurmamız gerekiyor:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -118,9 +116,9 @@
"source": [
"## Adım 3: İçgörüler Elde Etme\n",
"\n",
"En önemli adım, verilerimizi içgörüler çıkarabileceğimiz bir forma dönüştürmektir. Bizim durumumuzda, metinden anahtar kelimeleri çıkarmak ve hangi anahtar kelimelerin daha anlamlı olduğunu görmek istiyoruz.\n",
"En önemli adım, verilerimizi içgörü çıkarabileceğimiz bir forma dönüştürmektir. Bizim durumumuzda, metinden anahtar kelimeleri çıkarmak ve hangi anahtar kelimelerin daha anlamlı olduğunu görmek istiyoruz.\n",
"\n",
"Anahtar kelime çıkarımı için [RAKE](https://github.com/aneesha/RAKE) adlı Python kütüphanesini kullanacağız. Öncelikle, bu kütüphane yüklü değilse yükleyelim:\n"
"Anahtar kelime çıkarımı için [RAKE](https://github.com/aneesha/RAKE) adlı Python kütüphanesini kullanacağız. Öncelikle, bu kütüphane yoksa yükleyelim:\n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Ana işlevsellik, bazı parametreler kullanarak özelleştirebileceğimiz `Rake` nesnesinden sağlanır. Bizim durumumuzda, bir anahtar kelimenin minimum uzunluğunu 5 karakter, bir anahtar kelimenin belgede minimum sıklığını 3 ve bir anahtar kelimedeki maksimum kelime sayısını 2 olarak ayarlayacağız. Diğer değerlerle oynamaktan çekinmeyin ve sonucu gözlemleyin.\n"
"Ana işlevsellik `Rake` nesnesinden sağlanmaktadır ve bazı parametreler kullanılarak özelleştirilebilir. Bizim durumumuzda, bir anahtar kelimenin minimum uzunluğunu 5 karakter olarak, dokümandaki minimum anahtar kelime sıklığını 3 olarak ve bir anahtar kelimedeki maksimum kelime sayısını 2 olarak ayarlayacağız. Diğer değerlerle oynamaktan çekinmeyin ve sonucu gözlemleyin.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Önem derecesiyle birlikte bir terimler listesi elde ettik. Gördüğünüz gibi, makine öğrenimi ve büyük veri gibi en ilgili disiplinler listenin üst sıralarında yer alıyor.\n",
"\n",
"## Adım 4: Sonucu Görselleştirme\n",
"\n",
"İnsanlar veriyi en iyi görsel biçimde yorumlayabilir. Bu nedenle, bazı içgörüler elde etmek için veriyi görselleştirmek genellikle mantıklıdır. Python'da `matplotlib` kütüphanesini kullanarak anahtar kelimelerin önem derecesiyle basit bir dağılımını çizebiliriz:\n"
"\r\n",
"Önem dereceleriyle birlikte bir terimler listesi elde ettik. Gördüğünüz gibi, makine öğrenimi ve büyük veri gibi en ilgili disiplinler listenin üst sıralarında yer almaktadır.\r\n",
"\r\n",
"## Adım 4: Sonucun Görselleştirilmesi\r\n",
"\r\n",
"İnsanlar verileri en iyi görsel biçimde yorumlayabilir. Bu nedenle, bazı çıkarımlar yapmak için verileri görselleştirmek genellikle mantıklıdır. Python'da `matplotlib` kütüphanesini kullanarak anahtar kelimelerin alaka düzeyleri ile basit dağılımını çizebiliriz:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"Bununla birlikte, kelime frekanslarını görselleştirmenin daha iyi bir yolu vardır - **Kelime Bulutu** kullanmak. Anahtar kelime listemizden kelime bulutunu çizmek için başka bir kütüphane yüklememiz gerekecek.\n"
"Ancak, kelime sıklıklarını görselleştirmenin çok daha iyi bir yolu vardır - **Word Cloud** kullanmak. Anahtar kelime listemizden kelime bulutunu çizmek için başka bir kütüphane yüklememiz gerekecek.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud` nesnesi, ya orijinal metni ya da önceden hesaplanmış kelimeler ve frekanslarının listesini alıp, ardından `matplotlib` kullanılarak görüntülenebilecek bir resim döndürmekten sorumludur:\n"
"`WordCloud` nesnesi, orijinal metni veya önceden hesaplanmış kelime ve frekans listelerini alıp bir görüntü döndürmekten sorumludur, bu görüntü daha sonra `matplotlib` kullanılarak gösterilebilir:\n"
],
"metadata": {}
},
@ -490,11 +489,11 @@
{
"cell_type": "markdown",
"source": [
"Kelime bulutu artık daha etkileyici görünüyor, ancak aynı zamanda çok fazla gürültü içeriyor (örneğin, `Retrieved on` gibi alakasız kelimeler). Ayrıca, *data scientist* veya *computer science* gibi iki kelimeden oluşan anahtar kelimeleri daha az elde ediyoruz. Bunun nedeni, RAKE algoritmasının metinden iyi anahtar kelimeler seçmede çok daha başarılı olmasıdır. Bu örnek, veri ön işleme ve temizlemenin önemini göstermektedir, çünkü sonunda net bir tablo, daha iyi kararlar almamızı sağlayacaktır.\n",
"Şimdi kelime bulutunun daha etkileyici göründüğünü görebilirsiniz, ancak aynı zamanda çok fazla gürültü (örneğin `Retrieved on` gibi alakasız kelimeler) içeriyor. Ayrıca, *veri bilimci* veya *bilgisayar bilimi* gibi iki kelimeden oluşan daha az anahtar kelime elde ediyoruz. Bunun nedeni, RAKE algoritmasının metinden iyi anahtar kelimeleri seçmede çok daha başarılı olmasıdır. Bu örnek, veri ön işleme ve temizlemenin önemini göstermektedir, çünkü sonunda net bir resim, daha iyi kararlar almamıza olanak tanır.\n",
"\n",
"Bu alıştırmada, Wikipedia metninden anahtar kelimeler ve kelime bulutu şeklinde bir anlam çıkarmanın basit bir sürecini ele aldık. Bu örnek oldukça basit, ancak bir veri bilimcinin veriyle çalışırken izlediği tipik adımları iyi bir şekilde göstermektedir; veri ediniminden görselleştirmeye kadar.\n",
"Bu alıştırmada, Wikipedia metninden anahtar kelimeler ve kelime bulutu biçiminde bazı anlamlar çıkarmak için basit bir süreçten geçtik. Bu örnek oldukça basittir, ancak bir veri bilimcisinin veriyle çalışırken, veri ediniminden görselleştirmeye kadar atacağı tipik tüm adımları iyi bir şekilde göstermektedir.\n",
"\n",
"Kursumuzda bu adımların hepsini detaylı bir şekilde tartışacağız.\n"
"Kursumuzda bu adımların tümünü detaylı olarak tartışacağız.\n"
],
"metadata": {}
},
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Feragatname**:\nBu belge, [Co-op Translator](https://github.com/Azure/co-op-translator) adlı bir yapay zeka çeviri hizmeti kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hata veya yanlışlıklar içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel bir insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlama veya yanlış yorumlamalardan sorumlu değiliz.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Feragatname**:\nBu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba göstermemize rağmen, otomatik çevirilerin hatalar veya yanlışlıklar içerebileceğini lütfen unutmayınız. Orijinal belge, kendi ana dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucunda ortaya çıkabilecek yanlış anlamalar veya yanlış yorumlar için sorumluluk kabul edilmemektedir.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
İstatistik ve Olasılık Teorisi, Matematiğin birbiriyle yakından ilişkili ve Veri Bilimi açısından oldukça önemli iki alanıdır. Matematik hakkında derin bir bilgiye sahip olmadan veriyle çalışmak mümkün olsa da, en azından bazı temel kavramları bilmek her zaman daha iyidir. Burada, başlangıç yapmanıza yardımcı olacak kısa bir giriş sunacağız.
## [Ders Öncesi Testi](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Sürekli bir değişkenin olasılık dağılımını tanımlamak daha zordur; bu
Bir değişkenin belirli bir değer aralığına düşme olasılığından bahsedebiliriz, örneğin P(t<sub>1</sub>≤X<t<sub>2</sub>). Bu durumda, olasılık dağılımı**olasılık yoğunluk fonksiyonu** p(x) ile tanımlanır, öyle ki:
Sürekli uniform dağılımın bir analogu, sonlu bir aralıkta tanımlanır. X'in uzunluğu *l* olan bir aralığa düşme olasılığı*l* ile orantılıdır ve 1'e kadar yükselir.
@ -73,11 +73,11 @@ Gerçek hayattan veri analiz ettiğimizde, bu veriler tam anlamıyla rastgele de
İşte verilerimiz için ortalama, medyan ve çeyrekleri gösteren kutu grafiği:
Verilerimiz farklı oyuncu **rolleri** hakkında bilgi içerdiğinden, rollere göre kutu grafiği de yapabiliriz - bu, parametre değerlerinin roller arasında nasıl farklılık gösterdiği hakkında fikir edinmemizi sağlar. Bu sefer boyu ele alacağız:


Bu diyagram, ortalama olarak birinci basemenlerin boyunun ikinci basemenlerden daha yüksek olduğunu göstermektedir. Bu dersin ilerleyen bölümlerinde bu hipotezi daha resmi bir şekilde nasıl test edebileceğimizi ve verilerimizin bu durumu göstermek için istatistiksel olarak anlamlı olduğunu nasıl kanıtlayabileceğimizi öğreneceğiz.
@ -85,7 +85,7 @@ Bu diyagram, ortalama olarak birinci basemenlerin boyunun ikinci basemenlerden d
Verilerimizin dağılımını görmek için **histogram** adı verilen bir grafik çizebiliriz. X ekseni, farklı kilo aralıklarını (sözde **binler**) içerir ve dikey eksen, rastgele değişken örneğimizin belirli bir aralıkta olduğu zamanların sayısını gösterir.


Bu histogramdan, tüm değerlerin belirli bir ortalama kilonun etrafında toplandığını ve bu kilodan uzaklaştıkça, o değerdeki kiloların daha az sıklıkla karşılaşıldığını görebilirsiniz. Yani, bir beyzbol oyuncusunun kilosunun ortalama kilodan çok farklı olması oldukça olasılık dışıdır. Kiloların varyansı, kiloların ortalamadan ne kadar farklı olma olasılığını gösterir.
Üretilen örneklerin histogramını çizersek, yukarıda gösterilen resme çok benzeyen bir görüntü görürüz. Örnek sayısını ve bin sayısını artırırsak, ideal bir normal dağılıma daha yakın bir görüntü oluşturabiliriz:


*Ortalama=0 ve std.dev=1 ile Normal Dağılım*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Bizim durumumuzda, 0.53 değeri, bir kişinin ağırlığı ile boyu arasında bir miktar korelasyon olduğunu gösterir. Ayrıca, ilişkiyi görsel olarak görmek için bir değeri diğerine karşı dağılım grafiği yapabiliriz:


> Korelasyon ve kovaryans ile ilgili daha fazla örnek [eşlik eden defterde](notebook.ipynb) bulunabilir.


> Fotoğraf: <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> tarafından <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> üzerinde
Bu derslerde, Veri Bilimi'nin nasıl tanımlandığını keşfedecek ve bir veri bilimcinin dikkate alması gereken etik konuları öğreneceksiniz. Ayrıca verinin nasıl tanımlandığını öğrenecek ve Veri Bilimi'nin temel akademik alanları olan istatistik ve olasılık hakkında biraz bilgi edineceksiniz.
Veritabanları, verileri depolamak ve sorgulamak için oldukça verimli yollar sunarken, veri işleme konusunda en esnek yöntem, kendi programınızı yazarak veriyi manipüle etmektir. Çoğu durumda, bir veritabanı sorgusu yapmak daha etkili bir yol olabilir. Ancak, daha karmaşık veri işleme gerektiğinde, SQL kullanarak bunu kolayca yapmak mümkün olmayabilir.
Veri işleme herhangi bir programlama diliyle yapılabilir, ancak bazı diller veriyle çalışmak açısından daha üst seviyedir. Veri bilimciler genellikle aşağıdaki dillerden birini tercih eder:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")


Şimdi, her hafta arkadaşlarımız için bir parti düzenlediğimizi ve parti için ek olarak 10 paket dondurma aldığımızı varsayalım. Bunu göstermek için haftalık olarak indekslenmiş başka bir seri oluşturabiliriz:


> **Not**: Basit `total_items+additional_items` sözdizimini kullanmıyoruz. Eğer kullansaydık, sonuç serisinde birçok `NaN` (*Not a Number*) değeri alırdık. Bunun nedeni, `additional_items` serisindeki bazı indeks noktaları için eksik değerler olmasıdır ve `NaN` ile herhangi bir şeyi toplamak `NaN` sonucunu verir. Bu nedenle toplama sırasında `fill_value` parametresini belirtmemiz gerekir.
@ -84,7 +84,7 @@ Zaman serileriyle, farklı zaman aralıklarıyla seriyi yeniden örnekleyebiliri
monthly = total_items.resample("1M").mean()
ax = monthly.plot(kind='bar')
```


Verilerle nasıl başa çıkılacağını göstermek istediğimiz için, [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) dosyasını açmanızı ve baştan sona okumanızı öneriyoruz. Hücreleri çalıştırabilir ve sonunda sizin için bıraktığımız bazı zorlukları deneyebilirsiniz.
> Jupyter Notebook'ta kod nasıl çalıştırılır bilmiyorsanız, [bu makaleye](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) göz atabilirsiniz.
@ -232,7 +232,7 @@ Bu veri setini [Text Analytics for Health](https://docs.microsoft.com/azure/cogn
[`notebook-papers.ipynb`](notebook-papers.ipynb) dosyasını açın ve baştan sona okuyun. Hücreleri çalıştırabilir ve sonunda sizin için bıraktığımız bazı zorlukları deneyebilirsiniz.
> Fotoğraf: <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a>, <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> üzerinden
Bu derslerde, verilerin nasıl yönetilebileceği, işlenebileceği ve uygulamalarda kullanılabileceği yolları öğreneceksiniz. İlişkisel ve ilişkisel olmayan veritabanlarını ve verilerin bu veritabanlarında nasıl saklanabileceğini keşfedeceksiniz. Verileri yönetmek için Python ile çalışmanın temellerini öğrenecek ve Python ile verileri yönetmek ve analiz etmek için kullanabileceğiniz birçok yöntemi keşfedeceksiniz.
Şimdi, aynı verileri yıllar içinde fiyatın nasıl değiştiğini göstermek için bal renk şemasıyla gösterin. Bunu, yıllar içinde değişimi göstermek için bir 'hue' parametresi ekleyerek yapabilirsiniz:
Bu renk şeması değişikliğiyle, yıllar içinde pound başına bal fiyatında güçlü bir ilerleme olduğunu açıkça görebilirsiniz. Gerçekten de, verilerde bir örnek seti inceleyerek (örneğin Arizona'yı seçerek) yıllar içinde fiyat artışlarının bir desenini, birkaç istisna dışında görebilirsiniz:
Bu basit bir arz ve talep meselesi mi? İklim değişikliği ve koloni çöküşü gibi faktörler nedeniyle, yıllar içinde satın alınabilecek daha az bal mı var ve bu nedenle fiyat mı artıyor?
✅ Seaborn, verileri tek bir çizgi etrafında topladığı için "her x değerindeki birden fazla ölçümü ortalamayı ve ortalama etrafındaki %95 güven aralığını çizerek" gösterir. [Kaynak](https://seaborn.pydata.org/tutorial/relational.html). Bu zaman alıcı davranış, `ci=None` eklenerek devre dışı bırakılabilir.
@ -105,7 +105,7 @@ Soru: Peki, 2003 yılında bal arzında bir artış da görebiliyor muyuz? Yıll
Cevap: Pek değil. Toplam üretime bakarsanız, aslında o yıl üretimin arttığını görürsünüz, ancak genel olarak bu yıllar boyunca üretilen bal miktarının azaldığı görülmektedir.
@ -130,7 +130,7 @@ sns.relplot(
```
Bu görselleştirmede, koloni başına verim ve koloni sayısını yıllar içinde yan yana, sütunlar için wrap 3 olarak ayarlanmış şekilde karşılaştırabilirsiniz:
Bu veri seti için, eyaletler ve yıllar arasında koloni sayısı ve verim açısından belirgin bir şey öne çıkmıyor. Bu iki değişken arasında bir korelasyon bulmanın farklı bir yolu var mı?
2003 yılı civarında göze çarpan bir şey olmasa da, bu dersi biraz daha mutlu bir notla bitirmemize olanak tanıyor: kolonilerin sayısı genel olarak azalıyor olsa da, koloni sayısı sabitleniyor, ancak koloni başına verim azalıyor.
Burada `ggplot2` paketini yüklüyor ve ardından `library("ggplot2")` komutuyla çalışma alanına dahil ediyorsunuz. ggplot'ta herhangi bir grafik çizmek için `ggplot()` fonksiyonu kullanılır ve veri seti, x ve y değişkenleri öznitelik olarak belirtilir. Bu durumda, bir çizgi grafiği çizmeyi hedeflediğimiz için `geom_line()` fonksiyonunu kullanıyoruz.
Hemen ne fark ediyorsunuz? En az bir aykırı değer var gibi görünüyor - bu oldukça büyük bir kanat açıklığı! 2000+ santimetrelik bir kanat açıklığı 20 metreden fazladır - Minnesota'da Pterodaktiller mi dolaşıyor? Hadi bunu araştıralım.
Etiketlerin 45 derece döndürülmesine rağmen, okunamayacak kadar çok etiket var. Farklı bir strateji deneyelim: yalnızca aykırı değerleri etiketleyin ve etiketleri grafik içinde ayarlayın. Daha fazla alan yaratmak için bir dağılım grafiği kullanabilirsiniz:
@ -91,7 +91,7 @@ Burada ne oluyor? `geom_point()` fonksiyonunu kullanarak dağılım noktaları
Yeni bir `birds_filtered` veri çerçevesi oluşturduk ve ardından bir dağılım grafiği çizdik. Aykırı değerleri filtreleyerek, verileriniz artık daha tutarlı ve anlaşılır hale geldi.
Aşağıdaki kod parçasında, verileri manipüle etmek ve gruplamak için [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ve [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketlerini yüklüyoruz. Daha sonra `ggplot2` paketini kullanarak bir çubuk grafik çiziyoruz ve farklı kategoriler için renkleri ve etiketleri belirtiyoruz.


Ancak bu çubuk grafiği okunamaz çünkü çok fazla gruplandırılmamış veri var. Çizmek istediğiniz verileri seçmeniz gerekiyor, bu yüzden kuşların kategorilerine göre uzunluklarına bakalım.
Önce `Category` sütunundaki benzersiz değerleri sayar ve ardından bunları yeni bir `birds_count` veri çerçevesine sıralarsınız. Bu sıralanmış veriler aynı seviyede faktörlenir, böylece sıralı bir şekilde çizilir. `ggplot2` kullanarak verileri bir çubuk grafikte çizersiniz. `coord_flip()` yatay çubuklar çizer.
Bu çubuk grafiği, her kategorideki kuş sayısının iyi bir görünümünü sunar. Bir bakışta, bu bölgedeki en büyük kuş sayısının Ördekler/Kazlar/Su Kuşları kategorisinde olduğunu görüyorsunuz. Minnesota '10.000 gölün ülkesi' olduğu için bu şaşırtıcı değil!
Burada şaşırtıcı bir şey yok: sinek kuşlarının Maksimum Uzunluğu, Pelikanlar veya Kazlarla karşılaştırıldığında en azdır. Verilerin mantıklı olması güzel bir şey!


Bu, her kuş takımına göre vücut uzunluğunun genel dağılımını gösterir, ancak gerçek dağılımları göstermek için en uygun yol değildir. Bu görev genellikle bir Histogram oluşturarak gerçekleştirilir.
@ -48,7 +48,7 @@ Bu, her kuş takımına göre vücut uzunluğunun genel dağılımını gösteri


Gördüğünüz gibi, bu veri kümesindeki 400'den fazla kuşun çoğu, Max Body Mass değerinin 2000'in altında olduğu aralığa düşmektedir. `bins` parametresini daha yüksek bir sayıya, örneğin 30'a değiştirerek veriler hakkında daha fazla bilgi edinin:
@ -56,7 +56,7 @@ Gördüğünüz gibi, bu veri kümesindeki 400'den fazla kuşun çoğu, Max Body
Bu grafik, dağılımı biraz daha ayrıntılı bir şekilde gösterir. Daha az sola eğimli bir grafik, yalnızca belirli bir aralıktaki verileri seçerek oluşturulabilir:
✅ Diğer filtreleri ve veri noktalarını deneyin. Verilerin tam dağılımını görmek için, etiketli dağılımları göstermek için `['MaxBodyMass']` filtresini kaldırın.


Minimum kanat açıklığı ile koruma durumu arasında iyi bir korelasyon görünmüyor. Bu yöntemi kullanarak veri kümesinin diğer öğelerini test edin. Farklı filtreler de deneyebilirsiniz. Herhangi bir korelasyon buluyor musunuz?
@ -127,7 +127,7 @@ Hadi yoğunluk grafikleriyle çalışalım!
Grafiğin, Minimum Kanat Açıklığı verileri için önceki grafiği nasıl yansıttığını görebilirsiniz; sadece biraz daha düzgün. İkinci grafikte oluşturduğunuz o keskin MaxBodyMass çizgisini yeniden oluşturup bu yöntemle çok iyi bir şekilde düzeltebilirsiniz:
@ -135,7 +135,7 @@ Grafiğin, Minimum Kanat Açıklığı verileri için önceki grafiği nasıl ya


✅ Bu tür grafik için mevcut parametreler hakkında okuyun ve deneyin!
@ -153,7 +153,7 @@ Bu tür grafikler, açıklayıcı görselleştirmeler sunar. Örneğin, birkaç
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


İşte, bu iki mantar sınıfına göre verilerin oranlarını gösteren bir pasta grafiği. Etiketlerin sırasını doğru almak oldukça önemlidir, özellikle burada, bu yüzden etiket dizisinin oluşturulma sırasını doğruladığınızdan emin olun!
Bir waffle grafiği kullanarak, bu mantar veri setindeki şapka renklerinin oranlarını açıkça görebilirsiniz. İlginç bir şekilde, birçok yeşil şapkalı mantar var!
Bu derste, oranları görselleştirmenin üç yolunu öğrendiniz. Öncelikle, verilerinizi kategorilere ayırmanız ve ardından verileri göstermek için en iyi yolu seçmeniz gerekiyor - pasta, donut veya waffle. Hepsi lezzetli ve kullanıcıya bir veri setinin anlık görüntüsünü sunar.
Şimdi, aynı verileri yıllar içinde fiyatın nasıl değiştiğini göstermek için bal renk şemasıyla gösterin. Bunu, yıllar içinde değişimi göstermek için 'scale_color_gradientn' parametresini ekleyerek yapabilirsiniz:
Bu renk şeması değişikliğiyle, pound başına bal fiyatında yıllar içinde açık bir ilerleme olduğunu görebilirsiniz. Gerçekten de, verilerde bir örnek seti doğrulamak için (örneğin Arizona'yı seçin) yıllar içinde fiyat artışlarının bir modelini birkaç istisna dışında görebilirsiniz:
Bu basit bir arz ve talep meselesi mi? İklim değişikliği ve koloni çöküşü gibi faktörler nedeniyle, yıllar içinde satın alınabilecek daha az bal mı var ve bu nedenle fiyat mı artıyor?
Bu görselleştirmede, koloni başına verim ve koloni sayısını yıllar içinde yan yana, sütunlar için 3 olarak ayarlanmış bir wrap ile karşılaştırabilirsiniz:
Bu veri seti için, eyaletler ve yıllar arasında koloni sayısı ve verim açısından dikkat çeken bir şey yok. Bu iki değişken arasında bir korelasyon bulmanın farklı bir yolu var mı?
2003 yılı civarında göze çarpan bir şey olmasa da, bu dersi biraz daha mutlu bir notla bitirmemize olanak tanıyor: genel olarak azalan koloni sayısına rağmen, koloni sayısı sabitleniyor, ancak koloni başına verim azalıyor.
@ -38,25 +38,25 @@ Bu derste şunları gözden geçireceksiniz:
Bir veri bilimcisi doğru veri için doğru grafiği seçmekte dikkatli olsa bile, veriler genellikle bir noktayı kanıtlamak için, çoğu zaman verilerin kendisini baltalama pahasına, yanıltıcı bir şekilde sunulabilir. Yanıltıcı grafikler ve infografikler için birçok örnek vardır!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Yanıltıcı grafikler hakkında bir konferans konuşması için yukarıdaki görsele tıklayın
Bu grafik, X eksenini ters çevirerek tarihe dayalı olarak gerçeğin tam tersini gösteriyor:


[Bu grafik](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) daha da yanıltıcıdır, çünkü göz sağa çekilerek COVID vakalarının zamanla azaldığı sonucuna varır. Ancak, tarihlere dikkatlice bakarsanız, bu yanıltıcı düşüş eğilimini vermek için yeniden düzenlendiklerini görürsünüz.


Bu kötü şöhretli örnek, yanıltmak için renk ve ters çevrilmiş bir Y ekseni kullanır: Silah dostu yasaların geçmesinden sonra silahlı ölümlerin arttığı sonucuna varmak yerine, göz tam tersinin doğru olduğunu düşünmek için kandırılır:


Bu garip grafik, oranın nasıl manipüle edilebileceğini komik bir şekilde gösteriyor:


Karşılaştırılamaz olanı karşılaştırmak, başka bir gölgeli numaradır. [Harika bir web sitesi](https://tylervigen.com/spurious-correlations), Maine'deki boşanma oranı ile margarin tüketimi gibi şeyleri ilişkilendiren 'uydurma korelasyonlar' sergiliyor. Bir Reddit grubu da verilerin [çirkin kullanımlarını](https://www.reddit.com/r/dataisugly/top/?t=all) topluyor.
@ -91,13 +91,13 @@ Eksenlerinizi etiketleyin, gerekirse bir açıklama ekleyin ve verilerin daha iy
Verileriniz X ekseninde metinsel ve ayrıntılıysa, daha iyi okunabilirlik için metni açılı hale getirebilirsiniz. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html), verileriniz destekliyorsa 3D grafikler sunar. Bununla sofistike veri görselleştirmeleri üretilebilir.
Bugün en iyi veri görselleştirmelerinden bazıları animasyonludur. Shirley Wu, '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)' gibi D3 ile yapılmış harika örnekler sunar; burada her çiçek bir filmin görselleştirmesidir. Guardian için başka bir örnek ise 'bussed out', NYC'nin evsiz sorununu insanları şehirden otobüsle çıkararak nasıl ele aldığını göstermek için görselleştirmeleri Greensock ve D3 ile birleştiren bir interaktif deneyimdir.
> "Bussed Out: How America Moves its Homeless" [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Görselleştirmeler Nadieh Bremer & Shirley Wu tarafından.
@ -107,7 +107,7 @@ Bu ders, bu güçlü görselleştirme kütüphanelerini öğretmek için yeterli
Bir sosyal ağın animasyonlu bir görünümünü gösterecek bir web uygulamasını tamamlayacaksınız. Bu, Vue.js ve D3 kullanarak bir [ağ görselleştirmesi](https://github.com/emiliorizzo/vue-d3-network) oluşturmak için yapılmış bir kütüphane kullanır. Uygulama çalışırken, düğümleri ekranda sürükleyerek verileri karıştırabilirsiniz.
@ -16,7 +16,7 @@ Bu noktada, veri biliminin bir süreç olduğunu muhtemelen fark etmişsinizdir.
Bu ders, yaşam döngüsünün 3 kısmına odaklanıyor: veri toplama, işleme ve bakım.


> Fotoğraf: [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Veri Toplama
@ -92,7 +92,7 @@ Veri Bilimi Yaşam Döngüsünün birçok versiyonu vardır; her adım farklı i
|Team Data Science Process (TDSP)|Endüstriler arası veri madenciliği için standart süreç (CRISP-DM)|
|--|--|
| |  |
| |  |
| Görsel: [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Görsel: [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Ders Sonrası Quiz](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Fotoğraf: <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a>, <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a> üzerinden
Bu derslerde, Veri Bilimi yaşam döngüsünün bazı yönlerini, veri analizi ve iletişim dahil olmak üzere keşfedeceksiniz.
> Fotoğraf: [Jelleke Vanooteghem](https://unsplash.com/@ilumire) tarafından [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) üzerinden sağlanmıştır.
Büyük veriyle veri bilimi yaparken, bulut gerçek bir oyun değiştirici olabilir. Önümüzdeki üç derste, bulutun ne olduğunu ve neden çok faydalı olabileceğini göreceğiz. Ayrıca bir kalp yetmezliği veri setini inceleyecek ve bir kişinin kalp yetmezliği yaşama olasılığını değerlendirmeye yardımcı olacak bir model oluşturacağız. Bulutun gücünü kullanarak bir modeli iki farklı şekilde eğitecek, dağıtacak ve tüketeceğiz. Birinci yöntem, yalnızca kullanıcı arayüzünü kullanarak Düşük Kod/Kodsuz bir yaklaşımla; ikinci yöntem ise Azure Machine Learning Yazılım Geliştirme Kiti'ni (Azure ML SDK) kullanarak olacak.
@ -32,7 +32,7 @@ Yapay zekanın demokratikleşmesi sayesinde, geliştiriciler artık yapay zeka d
* [Sağlıkta Veri Bilimi](https://data-flair.training/blogs/data-science-in-healthcare/) - tıbbi görüntüleme (örneğin, MRI, X-Ray, CT-Scan), genomik (DNA dizilimi), ilaç geliştirme (risk değerlendirmesi, başarı tahmini), öngörücü analitik (hasta bakımı ve tedarik lojistiği), hastalık takibi ve önleme gibi uygulamaları vurgular.
 Görsel Kaynağı: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Görsel Kaynağı: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Şekil, veri bilimi tekniklerinin uygulanabileceği diğer alanları ve örnekleri göstermektedir. Diğer uygulamaları keşfetmek ister misiniz? Aşağıdaki [İnceleme ve Kendi Kendine Çalışma](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) bölümüne göz atın.
[](https://GitHub.com/microsoft/Data-Science-For-Beginners/graphs/contributors/)
Microsoft'taki Azure Cloud Advocates, Veri Bilimi hakkında 10 haftalık, 20 derslik bir müfredatı sunmaktan mutluluk duyar. Her ders, ders öncesi ve sonrası quizler, dersi tamamlamak için yazılı talimatlar, bir çözüm ve bir ödev içerir. Proje tabanlı pedagoji yaklaşımımız sayesinde, yeni beceriler 'sağlam kalıcı' olacak şekilde öğrenirken inşa edebilirsiniz.
Microsoft’daki Azure Cloud Advocates, Veri Bilimi hakkında 10 haftalık, 20 derslik bir müfredat sunmaktan memnuniyet duyar. Her ders, ön ve son ders sınavları, dersi tamamlamak için yazılı talimatlar, bir çözüm ve bir ödev içerir. Proje tabanlı pedagojimiz, yeni becerilerin 'kalıcı' olmasını sağlayan kanıtlanmış bir yöntem olarak, öğrenirken inşa etmenize olanak tanır.
> Bu depo 50+ dil çevirisi içerir, bu da indirme boyutunu önemli ölçüde artırır. Çeviriler olmadan klonlamak için seyrek checkout kullanın:
> **Yerel olarak Kopyalamayı mı Tercih Edersiniz?**
>
> Bu depo, indirme boyutunu önemli ölçüde artıran 50+ dil çevirisi içerir. Çeviriler olmadan kopyalamak için seyrek kontrol (sparse checkout) kullanın:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Bu, kursu tamamlamak için ihtiyacınız olan her şeyi çok daha hızlı bir indirme ile sağlar.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Ek dil desteği isterseniz, desteklenen diller [burada](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) listelenmiştir**
**Desteklenmesini istediğiniz ek çeviri dilleri [burada](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md) listelenmiştir**
Discord’da yapay zeka ile öğrenme serimiz devam ediyor, daha fazla bilgi edinip [AI ile Öğrenme Serisi](https://aka.ms/learnwithai/discord) etkinliğine 18 - 30 Eylül 2025 tarihleri arasında katılabilirsiniz. GitHub Copilot’u Veri Bilimi için kullanmanın ipuçlarını ve püf noktalarını alacaksınız.
Discord üzerinde AI ile Öğrenme serimiz devam ediyor, daha fazla bilgi edinmek ve katılmak için [Learn with AI Series](https://aka.ms/learnwithai/discord) adresine 18 - 30 Eylül 2025 tarihleri arasında gelin. GitHub Copilot'un Veri Bilimi için kullanımı hakkında ipuçları ve püf noktaları alacaksınız.

# Öğrenci misiniz?
# Siz bir öğrenci misiniz?
Aşağıdaki kaynaklarla başlayın:
- [Öğrenci Merkezi sayfası](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Bu sayfada, yeni başlayanlar için kaynaklar, Öğrenci paketleri ve hatta ücretsiz sertifika kuponu alma yolları bulabilirsiniz. İçeriği en az ayda bir kez değiştirdiğimiz için bu sayfayı sık kullanılanlara ekleyip zaman zaman kontrol etmek isteyeceksiniz.
- [Microsoft Learn Öğrenci Elçileri](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Küresel öğrenci elçileri topluluğuna katılın, bu sizin Microsoft’a giriş yolunuz olabilir.
- [Öğrenci Merkezi sayfası](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Bu sayfada, başlangıç kaynakları, Öğrenci paketleri ve ücretsiz sertifika kuponu alma yollarını bulacaksınız. İçeriği ayda en az bir kez değiştirdiğimiz için bu sayfayı yer imlerine ekleyip zaman zaman kontrol etmek isteyebilirsiniz.
- [Microsoft Learn Öğrenci Elçileri](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Küresel bir öğrenci elçileri topluluğuna katılın, bu Microsoft'a girmenin bir yolu olabilir.
# Başlarken
@ -68,65 +78,65 @@ Aşağıdaki kaynaklarla başlayın:
- **[Kurulum Kılavuzu](INSTALLATION.md)** - Yeni başlayanlar için adım adım kurulum talimatları
- **[Kullanım Kılavuzu](USAGE.md)** - Örnekler ve yaygın iş akışları
- **[Sorun Giderme](TROUBLESHOOTING.md)** - Yaygın sorunların çözümleri
- **[Sorun Giderme](TROUBLESHOOTING.md)** - Yaygın sorunlar için çözümler
- **[Katkıda Bulunma Kılavuzu](CONTRIBUTING.md)** - Bu projeye nasıl katkıda bulunulur
- **[Öğretmenler İçin](for-teachers.md)** - Öğretim rehberi ve sınıf kaynakları
- **[Öğretmenler için](for-teachers.md)** - Öğretme rehberi ve sınıf kaynakları
## 👨🎓 Öğrenciler İçin
> **Tamamen Yeni Başlayanlar**: Veri bilimine yeni misiniz? [başlangıç dostu örneklerimizle](examples/README.md) başlayın! Bu basit ve iyi yorumlanmış örnekler, tam müfredata geçmeden önce temel bilgileri anlamanıza yardımcı olacak.
> **[Öğrenciler](https://aka.ms/student-page)**: müfredatı kendi başınıza kullanmak için tüm depoyu çatallayın ve öncelikle ders öncesi quizini tamamlayıp ardından dersi okuyup geri kalan aktiviteleri tamamlayın. Projeleri, çözüm kodunu kopyalamak yerine dersleri anlayarak oluşturmaya çalışın; ancak o kod her proje odaklı dersin /solutions klasörlerinde mevcuttur. Başka bir fikir, arkadaşlarınızla bir çalışma grubu oluşturarak içeriği birlikte gözden geçirmek olabilir. Daha ileri çalışmalar için [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum) öneririz.
> **Tamamen Yeni Başlayanlar**: Veri bilimine yeni misiniz? Başlangıç seviyesindeki [örneklerimizle başlayın](examples/README.md)! Bu basit, iyi yorumlanmış örnekler, tam müfredata geçmeden önce temel kavramları anlamanıza yardımcı olacaktır.
> **[Öğrenciler](https://aka.ms/student-page)**: bu müfredatı kendi başınıza kullanmak için tüm depoyu çatalayın ve ön ders sınavı ile başlayarak alıştırmaları kendi başınıza tamamlayın. Ardından dersi okuyun ve geri kalan aktiviteleri gerçekleştirin. Çözüm kodunu kopyalamak yerine dersleri anlayarak projeleri oluşturmayı deneyin; ancak o kod her proje odaklı dersin /solutions klasörlerinde mevcuttur. Diğer bir fikir de arkadaşlarınızla bir çalışma grubu kurup içeriği birlikte ilerletmektir. Daha ileri çalışma için [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum)’u öneriyoruz.
**Hızlı Başlangıç:**
1. Ortamınızı kurmak için [Kurulum Kılavuzu](INSTALLATION.md)‘nu kontrol edin
2. Müfredatla nasıl çalışılacağını öğrenmek için [Kullanım Kılavuzu](USAGE.md) ‘nu gözden geçirin
3. 1. Dersten başlayıp sıralı şekilde devam edin
1. Ortamınızı kurmak için [Kurulum Kılavuzunu](INSTALLATION.md) kontrol edin
2. Müfredatla çalışmayı öğrenmek için [Kullanım Kılavuzunu](USAGE.md) inceleyin
3. 1. Ders ile başlayın ve sıralı olarak ilerleyin
4. Destek için [Discord topluluğumuza](https://aka.ms/ds4beginners/discord) katılın
## 👩🏫 Öğretmenler İçin
> **Öğretmenler**: Bu müfredatın nasıl kullanılacağına dair [bazı önerileri dahil ettik](for-teachers.md). Geri bildiriminizi [tartışma forumumuzda](https://github.com/microsoft/Data-Science-For-Beginners/discussions) bekliyoruz!
> **Öğretmenler**: bu müfredatın nasıl kullanılacağına dair [bazı önerilerimizi](for-teachers.md) ekledik. Geri bildiriminizi [tartışma forumumuzda](https://github.com/microsoft/Data-Science-For-Beginners/discussions) bekliyoruz!
> 🎥 Proje ve onu yaratan kişiler hakkında bir video için yukarıdaki resme tıklayın!
> 🎥 Proje ve yaratan kişiler hakkında bir video için yukarıdaki görsele tıklayın!
## Pedagoji
Bu müfredatı oluştururken iki pedagojik ilke seçtik: proje tabanlı olmasını sağlamak ve sık sık quizler içermesini sağlamak. Bu serinin sonunda, öğrenciler etik kavramlar, veri hazırlama, veri ile çalışma yöntemleri, veri görselleştirme, veri analizi, veri biliminin gerçek dünya kullanımları ve daha fazlasını içeren veri biliminin temel prensiplerini öğrenecekler.
Bu müfredatı oluştururken iki pedagojik ilke seçtik: proje tabanlı olması ve sık sık quizler içermesi. Bu serinin sonunda öğrenciler, etik kavramlar, veri hazırlama, veri ile çalışma yöntemleri, veri görselleştirme, veri analizi, veri biliminin gerçek dünya kullanımları ve daha fazlasını içeren veri bilimi temel ilkelerini öğrenmiş olacaklar.
Ayrıca, dersten önce yapılan düşük riskli bir quiz, öğrencinin bir konuyu öğrenme niyetini belirlerken, dersten sonra yapılan ikinci bir quiz bilgilerin daha iyi korunmasını sağlar. Bu müfredat esnek ve eğlenceli olacak şekilde tasarlandı ve tamamı ya da kısmen alınabilir. Projeler küçük başlar ve 10 haftalık döngünün sonunda giderek daha karmaşık hale gelir.
Ayrıca, dersten önce yapılan düşük riskli bir quiz, öğrencinin bir konuyu öğrenme niyetini belirlerken, dersten sonra yapılan ikinci bir quiz ise bilginin daha iyi kalıcı olmasını sağlar. Bu müfredat esnek ve eğlenceli olacak şekilde tasarlanmıştır ve bütünüyle ya da kısmen alınabilir. Projeler küçük başlar ve 10 haftalık döngünün sonunda giderek karmaşıklaşır.
- Proje tabanlı derslerde, projenin adım adım nasıl oluşturulacağına dair rehberler
- Bilgi kontrolleri
- Proje tabanlı derslerde, projeyi adım adım inşa etme rehberleri
- Bilgi kontrolü
- Bir meydan okuma
- Ek okuma materyali
- Ek okuma materyalleri
- Ödev
- [Dersten sonra quiz](https://ff-quizzes.netlify.app/en/)
- [Ders sonrası quiz](https://ff-quizzes.netlify.app/en/)
> **Quizler hakkında bir not**: Tüm quizler Quiz-App klasöründe yer almakta olup, toplamda üç sorudan oluşan 40 quiz vardır. Derslerden linklenmiştir, ancak quiz uygulaması yerel olarak çalıştırılabilir veya Azure'a dağıtılabilir; `quiz-app` klasöründeki talimatları izleyin. Quizler kademeli olarak yerelleştirilmektedir.
> **Quizler hakkında bir not**: Tüm quizler Quiz-App klasöründe bulunmaktadır, toplamda 40 adet ve her biri üç soru içermektedir. Quizler derslerin içinden linklenmiştir, ancak quiz uygulaması yerel olarak çalıştırılabilir veya Azure’a dağıtılabilir; `quiz-app` klasöründeki talimatları izleyin. Quizler yavaş yavaş yerelleştiriliyor.
## 🎓 Yeni Başlayanlar için Örnekler
**Veri Bilimine yeni mi başlıyorsunuz?** Başlamak için basit ve iyi yorumlanmış kodlarla oluşturulmuş özel bir [örnekler dizini](examples/README.md) hazırladık:
**Veri Bilimine yeni misiniz?** Basit ve iyi yorumlanmış kodlarla başlamanıza yardımcı olmak için özel bir [örnekler dizini](examples/README.md) oluşturduk:
- 🌟 **Merhaba Dünya** - İlk veri bilimi programınız
- 📂 **Veri Yükleme** - Veri setlerini okuma ve keşfetmeyi öğrenin
- 📊 **Basit Analiz** - İstatistik hesaplayın ve desenler bulun
- 📈 **Temel Görselleştirme** - Grafikler ve çizelgeler oluşturun
- 📊 **Basit Analiz** - İstatistik hesaplama ve desenleri bulma
- 📈 **Temel Görselleştirme** - Grafikler ve çizelgeler oluşturma
- 🔬 **Gerçek Dünya Projesi** - Baştan sona tam iş akışı
Her örnek, her adımı açıklayan ayrıntılı yorumlar içerir, böylece kesinlikle yeni başlayanlar için mükemmeldir!
Her örnek, her adımı ayrıntılı olarak açıklayan yorumlar içerir, bu nedenle kesinlikle yeni başlayanlar için uygundur!
👉 **[Örneklerle başlayın](examples/README.md)** 👈
@ -135,81 +145,81 @@ Her örnek, her adımı açıklayan ayrıntılı yorumlar içerir, böylece kesi
||
|:---:|
| Veri Bilimi Başlangıç Rehberi: Yol Haritası - _Sketchnote [@nitya](https://twitter.com/nitya) tarafından_ |
| Veri Bilimine Yeni Başlayanlar: Yol Haritası - _Sketchnote [@nitya](https://twitter.com/nitya) tarafından_ |
| Ders Numarası | Konu | Ders Grubu | Öğrenme Hedefleri | Bağlantılı Ders | Yazar |
| 01 | Veri Bilimini Tanımlama | [Giriş](1-Introduction/README.md) | Veri biliminin temel kavramlarını ve yapay zeka, makine öğrenimi ve büyük veri ile ilişkisini öğrenin. | [ders](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Veri Bilimi Etiği | [Giriş](1-Introduction/README.md) | Veri Etiği Kavramları, Zorluklar ve Çerçeveler. | [ders](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Veriyi Tanımlama | [Giriş](1-Introduction/README.md) | Verinin sınıflandırılması ve yaygın kaynakları. | [ders](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | İstatistik ve Olasılığa Giriş | [Giriş](1-Introduction/README.md) | Veriyi anlamak için olasılık ve istatistik matematiksel teknikleri. | [ders](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | İlişkisel Veri ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | İlişkisel veriye giriş ve İlişkisel Sorgu Dili (SQL) kullanarak veriyi keşfetme ve analiz etmenin temelleri. | [ders](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL Veri ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | İlişkisel olmayan veriye giriş, türleri ve döküman veri tabanlarını keşfetme ve analiz etmenin temelleri. | [ders](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | Pandas gibi kütüphanelerle veri keşfi için Python kullanmanın temelleri. Python programlamanın temelinin anlaşılması önerilir. | [ders](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Veri Hazırlama | [Veri ile Çalışma](2-Working-With-Data/README.md) | Eksik, yanlış ya da eksik verilerle başa çıkmak için veri temizleme ve dönüştürme teknikleri. | [ders](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Nicelikleri Görselleştirme | [Veri Görselleştirme](3-Data-Visualization/README.md) | Matplotlib kullanarak kuş verilerini nasıl görselleştireceğinizi öğrenin 🦆 | [ders](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | İlişkileri Görselleştirme | [Veri Görselleştirme](3-Data-Visualization/README.md) | Veri setleri ve değişkenleri arasındaki bağlantıları ve korelasyonları görselleştirme. | [ders](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Anlamlı Görselleştirmeler | [Veri Görselleştirme](3-Data-Visualization/README.md) | Görselleştirmelerinizi etkili problem çözme ve bulgular için değerli kılmak için teknikler ve rehberlik. | [ders](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Veri Bilimi Yaşam Döngüsüne Giriş | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Veri bilimi yaşam döngüsüne giriş ve verinin edinilip çıkarılmasının ilk adımı. | [ders](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiz Etme | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Veri bilimi yaşam döngüsünün bu aşaması veri analiz tekniklerine odaklanır. | [ders](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | İletişim Kurma | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Veri bilimi yaşam döngüsünün bu aşaması, alınan içgörüleri karar vericilerin kolayca anlayabilmesi için sunmaya odaklanır. | [ders](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Bu ders serisi, bulutta veri bilimi ve faydalarını tanıtır. | [ders](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 18 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Düşük Kod araçları kullanarak modellerin eğitilmesi. |[ders](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 19 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Azure Machine Learning Studio ile modellerin dağıtımı. | [ders](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 20 | Doğada Veri Bilimi | [Doğada](6-Data-Science-In-Wild/README.md) | Gerçek dünyadaki veri bilimi odaklı projeler. | [ders](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 02 | Veri Bilimi Etikleri | [Giriş](1-Introduction/README.md) | Veri Etiği Kavramları, Zorluklar ve Çerçeveler. | [ders](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Veriyi Tanımlama | [Giriş](1-Introduction/README.md) | Verinin nasıl sınıflandırıldığı ve yaygın kaynakları. | [ders](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | İstatistik & Olasılığa Giriş | [Giriş](1-Introduction/README.md) | Veriyi anlamak için olasılık ve istatistiğin matematiksel teknikleri. | [ders](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | İlişkisel Veri ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | İlişkisel veriye giriş ve Yapılandırılmış Sorgu Dili (SQL) ile ilişkisel veriyi keşfetme ve analiz etme temel bilgileri. | [ders](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | NoSQL Veri ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | İlişkisel olmayan veriye giriş, çeşitli türleri ve belge veri tabanlarını keşfetme ve analiz etme temel bilgileri. | [ders](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Python ile Çalışma | [Veri ile Çalışma](2-Working-With-Data/README.md) | Pandas gibi kütüphanelerle veri keşfi için Python kullanımı temel bilgileri. Python programlamanın temel anlayışı önerilir. | [ders](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Veri Hazırlama | [Veri ile Çalışma](2-Working-With-Data/README.md) | Eksik, yanlış veya eksik verilerle başa çıkmak için veriyi temizleme ve dönüştürme teknikleri. | [ders](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 12 | İlişkileri Görselleştirme | [Veri Görselleştirme](3-Data-Visualization/README.md) | Veri setleri ve değişkenleri arasındaki bağlantılar ve korelasyonların görselleştirilmesi. | [ders](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Anlamlı Görselleştirmeler | [Veri Görselleştirme](3-Data-Visualization/README.md) | Görselleştirmelerin etkili problem çözme ve içgörü açısından değerli olması için teknikler ve rehberlik. | [ders](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Veri Bilimi Yaşam Döngüsüne Giriş | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Veri bilimi yaşam döngüsüne ve veri edinme ile çıkarma adımına giriş. | [ders](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analiz Etme | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Veri bilimi yaşam döngüsünün bu aşaması veriyi analiz etme tekniklerine odaklanır. | [ders](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | İletişim | [Yaşam Döngüsü](4-Data-Science-Lifecycle/README.md) | Bu aşama, veriden elde edilen içgörülerin karar vericiler tarafından daha kolay anlaşılması için sunulmasına odaklanır. | [ders](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Bulutta veri bilimi ve faydalarını tanıtan ders serisi. | [ders](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 18 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Low Code araçları kullanarak modellerin eğitilmesi. |[ders](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 19 | Bulutta Veri Bilimi | [Bulut Verisi](5-Data-Science-In-Cloud/README.md) | Modelleri Azure Machine Learning Studio ile dağıtma. | [ders](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ve [Maud](https://twitter.com/maudstweets) |
| 20 | Gerçek Dünyada Veri Bilimi | [Gerçek Dünya](6-Data-Science-In-Wild/README.md) | Gerçek dünyada veri bilimi odaklı projeler. | [ders](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Bu örneği bir Codespace'te açmak için şu adımları izleyin:
1. Kod açılır menüsüne tıklayın ve Open with Codespaces seçeneğini seçin.
2. Panelin en altında + New codespace seçin.
Daha fazla bilgi için [GitHub dokümantasyonuna](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) bakabilirsiniz.
Bu örneği bir Codespace’de açmak için şu adımları izleyin:
1. Kod açılır menüsüne tıklayın ve Codespaces ile Aç seçeneğini seçin.
2. Panelin altında + Yeni codespace seçin.
Daha fazla bilgi için [GitHub belgelerine](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace) göz atın.
## VSCode Remote - Containers
Bu depoyu yerel makineniz ve VSCode kullanarak bir konteynerde açmak için VS Code Remote - Containers eklentisini kullanın:
Yerel makineniz ve VSCode kullanarak bu depoyu bir konteynerde açmak için VS Code Remote - Containers uzantısını kullanarak şu adımları izleyin:
1. Eğer ilk defa bir geliştirme konteyneri kullanıyorsanız sisteminizin ön koşulları (örneğin Docker kurulu olması) karşıladığından emin olun, detaylar için [başlarken dökümantasyonuna](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) bakın.
1. Eğer ilk defa bir geliştirme konteyneri kullanıyorsanız, sisteminizin ön gereksinimleri karşıladığından emin olun (örneğin Docker’ın yüklü olması) [başlangıç belgelerinde](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) anlatılmaktadır.
Bu depoyu kullanmak için, ya depoyu izole bir Docker hacminde açabilirsiniz:
Bu depoyu kullanmak için depoyu izole bir Docker hacminde açabilirsiniz:
**Not**: Bu durumda, yerel dosya sistemi yerine kaynak kodu Docker hacmine klonlamak için Remote-Containers: **Clone Repository in Container Volume...** komutu kullanılacaktır. [Hacimler](https://docs.docker.com/storage/volumes/) konteyner verilerini kalıcı hale getirmenin tercih edilen yoludur.
**Not**: Arkada, bu işlem Remote-Containers: **Clone Repository in Container Volume...** komutunu kullanarak kaynak kodunu yerel dosya sisteminden ziyade bir Docker hacmine klonlayacaktır. [Hacimler](https://docs.docker.com/storage/volumes/) konteyner verilerini kalıcı hale getirmek için tercih edilen mekanizmadır.
Ya da yerel olarak klonlanmış ya da indirilen depo sürümünü açabilirsiniz:
Ya da depoyu lokal olarak klonlanmış veya indirilmiş bir sürümünü açabilirsiniz:
- Bu depoyu yerel dosya sisteminize klonlayın.
- F1 tuşuna basın ve **Remote-Containers: Open Folder in Container...** komutunu seçin.
- Bu depoyu yerel dosya sisteminize klonlayın.
- F1 tuşuna basın ve **Remote-Containers: Open Folder in Container...** komutunu seçin.
- Bu klasörün klonlanmış kopyasını seçin, konteynerin başlamasını bekleyin ve deneyin.
## Çevrimdışı erişim
Bu dokümantasyonu çevrimdışıçalıştırmak için [Docsify](https://docsify.js.org/#/) kullanabilirsiniz. Bu depoyu fork edin, yerel makinenize [Docsify kurun](https://docsify.js.org/#/quickstart), sonra bu deponun kök klasöründe `docsify serve`komutunu çalıştırın. Site localhost:3000 portunda hizmet verir: `localhost:3000`.
Bu dokümantasyonu çevrimdışı [Docsify](https://docsify.js.org/#/) kullanarak çalıştırabilirsiniz. Bu depoyu çatallayın, yerel makinenize [Docsify kurun](https://docsify.js.org/#/quickstart), sonra bu deponun kök klasöründe `docsify serve`yazın. Web sitesi localhost'ta 3000 portunda sunulacaktır: `localhost:3000`.
> Not, defterler Docsify ile render edilmez; bu yüzden defter çalıştırmanız gerekiyorsa, bunu VS Code'da ayrı bir Python çekirdeği çalıştırarak yapmanız gerekir.
> Not, not defterleri Docsify ile render edilmez, bu yüzden bir not defteri çalıştırmanız gerektiğinde, bunu VS Code’da Python çekirdeği çalıştırarak ayrı yapmanız gerekir.
## Diğer Müfredatlar
Ekibimiz başka müfredatlar da üretiyor! Şunlara göz atın:
Takımımız başka müfredatlar da üretiyor! Şunlara göz atın:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://aka.ms/langchain4j-for-beginners)
[](https://aka.ms/langchainjs-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/langchain-for-beginners?WT.mc_id=m365-94501-dwahlin)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/AZD-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mcp-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/ai-agents-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/Security-101?WT.mc_id=academic-96948-sayoung)
[](https://aka.ms/webdev-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/iot-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/xr-development-for-beginners?WT.mc_id=academic-105485-koreyst)
---
### Copilot Serisi
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Sorun mu yaşıyorsunuz?** Yaygın sorunlar için çözümler içeren [Sorun Giderme Rehberi](TROUBLESHOOTING.md) sayfamıza göz atın.
**Sorun mu yaşıyorsunuz?** Yaygın problemlerin çözümleri için [Sorun Giderme Kılavuzumuzu](TROUBLESHOOTING.md) kontrol edin.
Yapay zeka uygulamaları geliştirme konusunda takılırsanız veya sorularınız olursa, diğer öğrenenler ve deneyimli geliştiricilerle MCP hakkında tartışmalara katılın. Soruların hoş karşılandığı ve bilginin özgürce paylaşıldığı destekleyici bir topluluktur.
Eğer takılırsanız veya yapay zeka uygulamaları geliştirme hakkında herhangi bir sorunuz olursa, MCP hakkında tartışmalara katılmak için diğer öğrenenler ve deneyimli geliştiricilerle buluşun. Soruların memnuniyetle karşılandığı ve bilginin özgürce paylaşıldığı destekleyici bir topluluktur.
Bu belge, AI çeviri servisi [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için özen gösterilse de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayınız. Orijinal belge, ana dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucu ortaya çıkabilecek yanlış anlamalar veya yorum hatalarından sorumlu değiliz.
**Feragatname**:
Bu belge, AI çeviri servisi [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluk için çaba gösterilse de, otomatik çevirilerin hatalar veya yanlışlıklar içerebileceğinin farkında olunuz. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımı sonucu ortaya çıkabilecek yanlış anlamalar veya yanlış yorumlamalar nedeniyle sorumluluk kabul edilmemektedir.