[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Quiz før forelæsning](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Hvis vi vil gøre det endnu mere kompliceret, kan vi plotte den tid, der bruges
I denne udfordring vil vi forsøge at finde begreber, der er relevante for området Data Science ved at kigge på tekster. Vi vil tage en Wikipedia-artikel om Data Science, downloade og bearbejde teksten og derefter opbygge en ordsky som denne:


Besøg [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for at læse koden igennem. Du kan også køre koden og se, hvordan den udfører alle datatransformationer i realtid.
"# Udfordring: Analyse af tekst om Data Science\n",
"# Udfordring: Analyse af tekst om datalogi\n",
"\n",
"I dette eksempel skal vi lave en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel datalogiproces. Du behøver ikke at skrive nogen kode, du kan blot klikke på cellerne nedenfor for at køre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til datalogi. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om datalogi, udtrækker nøgleord fra den og prøver derefter at visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n"
"Som tekst vil jeg bruge siden om datalogi fra Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Trin 1: Hente dataene\n",
"## Trin 1: Hent dataene\n",
"\n",
"Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n"
"Første trin i enhver data science-proces er at hente dataene. Vi vil bruge `requests` biblioteket til det:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Trin 2: Transformering af data\n",
"\n",
"Det næste trin er at omdanne dataene til en form, der er egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"Det næste trin er at konvertere dataene til en form egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til almindelig tekst.\n",
"\n",
"Der er mange måder, dette kan gøres på. Vi vil bruge det enkleste indbyggede objekt, [HTMLParser](https://docs.python.org/3/library/html.parser.html), fra Python. Vi skal oprette en underklasse af `HTMLParser`-klassen og definere koden, der vil indsamle al tekst inde i HTML-tags, undtagen `<script>`- og `<style>`-tags.\n"
"Der er mange måder, hvorpå dette kan gøres. Vi vil bruge [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek til at analysere HTML. BeautifulSoup giver os mulighed for at målrette specifikke HTML-elementer, så vi kan fokusere på hovedartiklens indhold fra Wikipedia og reducere nogle navigationsmenuer, sidepaneler, sidefødder og andet irrelevant indhold (selvom noget standardsprog stadig kan være tilbage).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først skal vi installere BeautifulSoup-biblioteket til HTML-parsing:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -115,9 +113,9 @@
"source": [
"## Trin 3: Få indsigt\n",
"\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mest meningsfulde.\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde vil vi udtrække nøgleord fra teksten og se, hvilke nøgleord der er mere meningsfulde.\n",
"\n",
"Vi vil bruge et Python-bibliotek kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede:\n"
"Vi vil bruge Python-biblioteket kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede:\n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Den primære funktionalitet er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi indstille den minimale længde af et nøgleord til 5 tegn, den minimale frekvens af et nøgleord i dokumentet til 3, og det maksimale antal ord i et nøgleord til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
"Hovedfunktionen er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi sætte den minimale længde af et nøgleord til 5 tegn, den minimale hyppighed af et nøgleord i dokumentet til 3, og maksimalt antal ord i et nøgleord til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Vi har fået en liste over termer sammen med deres tilknyttede vigtighedsgrad. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede på listen i de øverste positioner.\n",
"Vi har opnået en liste over termer sammen med tilknyttet grad af vigtighed. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede øverst på listen.\n",
"\n",
"## Trin 4: Visualisering af resultatet\n",
"\n",
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at få nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte en simpel fordeling af nøgleordene med deres relevans:\n"
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at opnå nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte simpel fordeling af nøgleordene med deres relevans:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved hjælp af **Word Cloud**. Vi skal installere et andet bibliotek for at plotte ordskyen fra vores nøgleordsliste.\n"
"Der er dog en endnu bedre måde at visualisere ordhyppigheder på - ved hjælp af **Word Cloud**. Vi skal installere et andet bibliotek for at plotte word cloud fra vores nøgleords liste.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarligt for at tage enten originaltekst eller en forudberegnet liste over ord med deres frekvenser og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
"`WordCloud`-objektet er ansvarligt for at tage enten originaltekst eller en forudberegnet liste over ord med deres frekvenser, og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
],
"metadata": {}
},
@ -372,9 +370,9 @@
{
"cell_type": "markdown",
"source": [
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også en del støj (f.eks. irrelevante ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Dette skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og -rensning, da et klart billede i sidste ende vil give os mulighed for at træffe bedre beslutninger.\n",
"Du kan se, at ordsky nu ser mere imponerende ud, men den indeholder også en masse støj (f.eks. ikke-relaterede ord som `Retrieved on`). Desuden får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Det skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og rengøring, fordi et klart billede til sidst vil gøre os i stand til at træffe bedre beslutninger.\n",
"\n",
"I denne øvelse har vi gennemgået en simpel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og en ordsky. Dette eksempel er ret enkelt, men det viser tydeligt alle de typiske trin, en data scientist vil tage, når de arbejder med data, fra dataindsamling til visualisering.\n",
"I denne øvelse har vi gennemgået en simpel proces til at udtrække mening fra Wikipedia-tekst i form af nøgleord og ordsky. Dette eksempel er ret enkelt, men det demonstrerer godt alle typiske trin, en data scientist vil tage, når han arbejder med data, startende fra dataindhentning til visualisering.\n",
"\n",
"I vores kursus vil vi diskutere alle disse trin i detaljer.\n"
],
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**:\nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi er ikke ansvarlige for eventuelle misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Udfordring: Analyse af tekst om Data Science\n",
"# Udfordring: Analyse af tekst om datalogi\n",
"\n",
"> *I denne notesbog eksperimenterer vi med at bruge forskellige URL'er - Wikipedia-artiklen om Machine Learning. Du kan se, at i modsætning til Data Science indeholder denne artikel mange fagudtryk, hvilket gør analysen mere problematisk. Vi skal finde en anden måde at rense dataene på efter at have udført nøgleordsudtrækning, for at slippe af med nogle hyppige, men ikke meningsfulde ordkombinationer.*\n",
"> *I denne notesbog eksperimenterer vi med at bruge forskellige URL'er - wikipedia-artikel om maskinlæring. Du kan se, at i modsætning til datalogi indeholder denne artikel mange termer, hvilket gør analysen mere problematisk. Vi er nødt til at finde en anden måde at rydde op i dataene på efter nøgleordsudtrækning for at slippe af med nogle hyppige, men ikke meningsfulde ordkombinationer.*\n",
"\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel data science-proces. Du behøver ikke skrive nogen kode, du kan blot klikke på cellerne nedenfor for at udføre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"I dette eksempel laver vi en simpel øvelse, der dækker alle trin i en traditionel datalogi-proces. Du behøver ikke skrive nogen kode, du kan bare klikke på cellerne nedenfor for at køre dem og observere resultatet. Som en udfordring opfordres du til at prøve denne kode med forskellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til Data Science. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstanalyse**. Vi starter med en tekst om Data Science, udtrækker nøgleord fra den og forsøger derefter at visualisere resultatet.\n",
"I denne lektion har vi diskuteret forskellige begreber relateret til datalogi. Lad os prøve at opdage flere relaterede begreber ved at lave noget **tekstmining**. Vi starter med en tekst om datalogi, udtrækker nøgleord fra den, og forsøger derefter at visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruge siden om Data Science fra Wikipedia:\n"
"Som tekst vil jeg bruge siden om datalogi fra Wikipedia:\n"
],
"metadata": {}
},
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Trin 1: Hentning af data\n",
"## Trin 1: Hente dataene\n",
"\n",
"Første trin i enhver datavidenskabelig proces er at hente dataene. Vi vil bruge biblioteket `requests` til dette:\n"
"Første trin i enhver data science-proces er at hente dataene. Vi vil bruge `requests` biblioteket til det:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Trin 2: Transformering af data\n",
"\n",
"Det næste trin er at konvertere dataene til en form, der er egnet til behandling. I vores tilfælde har vi downloadet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"Næste skridt er at konvertere dataene til en form, der er egnet til behandling. I vores tilfælde har vi hentet HTML-kildekoden fra siden, og vi skal konvertere den til ren tekst.\n",
"\n",
"Der er mange måder, dette kan gøres på. Vi vil bruge det enkleste indbyggede objekt, [HTMLParser](https://docs.python.org/3/library/html.parser.html), fra Python. Vi skal oprette en underklasse af `HTMLParser`-klassen og definere koden, der vil indsamle al tekst inden for HTML-tags, undtagen `<script>`- og `<style>`-tags.\n"
"Der er mange måder at gøre dette på. Vi vil bruge [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek til parsing af HTML. BeautifulSoup giver os mulighed for at målrette specifikke HTML-elementer, så vi kan fokusere på hovedartiklens indhold fra Wikipedia og reducere nogle navigationsmenuer, sidebjælker, sidefødder og andet irrelevant indhold (selvom noget standardtekst stadig kan være tilbage).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først skal vi installere BeautifulSoup-biblioteket til HTML-parsning:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Trin 3: Få indsigt\n",
"## Step 3: Få indsigt\n",
"\n",
"Det vigtigste trin er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mest betydningsfulde.\n",
"Det vigtigste skridt er at omdanne vores data til en form, hvorfra vi kan udlede indsigt. I vores tilfælde ønsker vi at udtrække nøgleord fra teksten og se, hvilke nøgleord der er mere meningsfulde.\n",
"\n",
"Vi vil bruge et Python-bibliotek kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er tilgængeligt:\n"
"Vi vil bruge Python-biblioteket kaldet [RAKE](https://github.com/aneesha/RAKE) til nøgleordsudtrækning. Først skal vi installere dette bibliotek, hvis det ikke allerede er til stede: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Den primære funktionalitet er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde vil vi indstille den minimale længde af et nøgleord til 5 tegn, den minimale frekvens af et nøgleord i dokumentet til 3, og det maksimale antal ord i et nøgleord - til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
"Hovedfunktionen er tilgængelig fra `Rake`-objektet, som vi kan tilpasse ved hjælp af nogle parametre. I vores tilfælde sætter vi minimumslængden for et nøgleord til 5 tegn, minimumsfrekvensen for et nøgleord i dokumentet til 3, og maksimalt antal ord i et nøgleord - til 2. Du er velkommen til at eksperimentere med andre værdier og observere resultatet.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Vi har fået en liste over termer sammen med deres tilknyttede vigtighedsgrad. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, placeret øverst på listen.\n",
"Vi har opnået en liste over termer sammen med tilhørende grad af vigtighed. Som du kan se, er de mest relevante discipliner, såsom maskinlæring og big data, til stede i listen på topplaceringer.\n",
"\n",
"## Trin 4: Visualisering af resultatet\n",
"\n",
"Folk forstår data bedst i visuel form. Derfor giver det ofte mening at visualisere dataene for at få nogle indsigter. Vi kan bruge `matplotlib`-biblioteket i Python til at lave en simpel fordeling af nøgleordene med deres relevans:\n"
"Folk kan bedst fortolke data i visuel form. Derfor giver det ofte mening at visualisere dataene for at udlede nogle indsiger. Vi kan bruge `matplotlib`-biblioteket i Python til at plotte en simpel fordeling af nøgleordene med deres relevans:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved at bruge **Word Cloud**. Vi skal installere et andet bibliotek for at plotte word cloud fra vores nøgleordsliste.\n"
"Der er dog en endnu bedre måde at visualisere ordfrekvenser på - ved hjælp af **Word Cloud**. Vi bliver nødt til at installere et andet bibliotek for at kunne plotte word cloud fra vores nøgleordsliste.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarligt for at tage enten originalteksten eller en forudberegnet liste over ord med deres frekvenser og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
"`WordCloud`-objektet er ansvarligt for at modtage enten original tekst eller en forudberegnet liste af ord med deres frekvenser, og returnerer et billede, som derefter kan vises ved hjælp af `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Vi kan også indsætte den originale tekst i `WordCloud` - lad os se, om vi kan opnå et lignende resultat:\n"
"Vi kan også indsætte den oprindelige tekst i `WordCloud` - lad os se, om vi kan opnå et lignende resultat:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også en del støj (f.eks. uvedkommende ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Dette skyldes, at RAKE-algoritmen gør et langt bedre stykke arbejde med at udvælge gode nøgleord fra teksten. Dette eksempel illustrerer vigtigheden af dataforbehandling og -rensning, da et klart billede i sidste ende giver os mulighed for at træffe bedre beslutninger.\n",
"Du kan se, at ordskyen nu ser mere imponerende ud, men den indeholder også meget støj (f.eks. uvedkommende ord som `Retrieved on`). Derudover får vi færre nøgleord, der består af to ord, såsom *data scientist* eller *computer science*. Det skyldes, at RAKE-algoritmen gør et meget bedre stykke arbejde med at udvælge gode nøgleord fra tekst. Dette eksempel illustrerer vigtigheden af dataforbehandling og rengøring, fordi et klart billede til sidst vil give os mulighed for at træffe bedre beslutninger.\n",
"\n",
"I denne øvelse har vi gennemgået en simpel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og en ordsky. Eksemplet er ret simpelt, men det viser tydeligt alle de typiske trin, en data scientist vil tage, når de arbejder med data, lige fra dataindsamling til visualisering.\n",
"I denne øvelse har vi gennemgået en enkel proces med at udtrække mening fra Wikipedia-tekst i form af nøgleord og ordsky. Dette eksempel er ret simpelt, men det demonstrerer godt alle typiske trin en data scientist vil tage, når han arbejder med data, fra dataindsamling til visualisering.\n",
"\n",
"I vores kursus vil vi gennemgå alle disse trin i detaljer.\n"
"I vores kursus vil vi diskutere alle disse trin i detaljer.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**: \nDette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det originale dokument på dets oprindelige sprog bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokument er oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Statistik og Sandsynlighedsteori er to nært beslægtede områder inden for matematik, som er meget relevante for datavidenskab. Det er muligt at arbejde med data uden dyb matematisk viden, men det er stadig bedre at kende i det mindste nogle grundlæggende begreber. Her præsenterer vi en kort introduktion, der kan hjælpe dig med at komme i gang.
## [Quiz før forelæsning](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Det er mere vanskeligt at beskrive sandsynlighedsfordelingen for en kontinuerlig
Vi kan kun tale om sandsynligheden for, at en variabel falder inden for et givet interval af værdier, fx P(t<sub>1</sub>≤X<t<sub>2</sub>). I dette tilfælde beskrives sandsynlighedsfordelingen af en **sandsynlighedstæthedsfunktion** p(x), sådan at
En kontinuerlig analog til uniform fordeling kaldes **kontinuerlig uniform**, som er defineret på et endeligt interval. Sandsynligheden for, at værdien X falder inden for et interval af længde l, er proportional med l og stiger op til 1.
@ -73,11 +73,11 @@ Når vi analyserer data fra den virkelige verden, er de ofte ikke tilfældige va
Her er boksplottet, der viser middelværdi, median og kvartiler for vores data:
Da vores data indeholder information om forskellige spiller **roller**, kan vi også lave boksplot efter rolle - det vil give os en idé om, hvordan parameterværdierne varierer på tværs af roller. Denne gang vil vi overveje højde:


Dette diagram antyder, at gennemsnitligt er højden af første basemen højere end højden af anden basemen. Senere i denne lektion vil vi lære, hvordan vi kan teste denne hypotese mere formelt, og hvordan vi kan demonstrere, at vores data er statistisk signifikante for at vise det.
@ -85,7 +85,7 @@ Dette diagram antyder, at gennemsnitligt er højden af første basemen højere e
For at se, hvordan fordelingen af vores data er, kan vi plotte en graf kaldet et **histogram**. X-aksen vil indeholde et antal forskellige vægtintervaller (såkaldte **bins**), og den lodrette akse vil vise antallet af gange, vores tilfældige variabelprøve var inden for et givet interval.


Fra dette histogram kan du se, at alle værdier er centreret omkring en bestemt gennemsnitsvægt, og jo længere vi bevæger os væk fra den vægt, jo færre vægte af den værdi optræder. Dvs., det er meget usandsynligt, at vægten af en baseballspiller vil være meget forskellig fra gennemsnitsvægten. Variansen af vægtene viser, i hvilket omfang vægtene sandsynligvis vil afvige fra gennemsnittet.
Hvis vi plotter histogrammet for de genererede prøver, vil vi se et billede, der ligner det, der er vist ovenfor. Og hvis vi øger antallet af prøver og antallet af bins, kan vi generere et billede af en normalfordeling, der er tættere på det ideelle:


*Normalfordeling med gennemsnit=0 og std.afvigelse=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
I vores tilfælde indikerer værdien 0.53, at der er en vis korrelation mellem en persons vægt og højde. Vi kan også lave et scatterplot af én værdi mod den anden for at se relationen visuelt:


> Flere eksempler på korrelation og kovarians kan findes i [den medfølgende notebook](notebook.ipynb).


> Foto af <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> på <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse lektioner vil du opdage, hvordan Data Science defineres, og lære om de etiske overvejelser, som en dataforsker skal tage højde for. Du vil også lære, hvordan data defineres, og få en introduktion til statistik og sandsynlighed, de centrale akademiske områder inden for Data Science.
Selvom databaser tilbyder meget effektive måder at gemme data og forespørge dem ved hjælp af forespørgselssprog, er den mest fleksible måde at bearbejde data på at skrive dit eget program til at manipulere data. I mange tilfælde vil en databaseforespørgsel være en mere effektiv løsning. Men i nogle tilfælde, hvor mere kompleks databehandling er nødvendig, kan det ikke nemt gøres med SQL.
Databehandling kan programmeres i ethvert programmeringssprog, men der er visse sprog, der er mere avancerede, når det kommer til at arbejde med data. Dataforskere foretrækker typisk et af følgende sprog:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
Antag nu, at vi hver uge arrangerer en fest for venner, og vi tager yderligere 10 pakker is med til festen. Vi kan oprette en anden series, indekseret efter uge, for at demonstrere det:
```python
@ -77,7 +77,7 @@ Når vi lægger de to series sammen, får vi det samlede antal:
> **Bemærk** at vi ikke bruger den simple syntaks `total_items+additional_items`. Hvis vi gjorde det, ville vi få mange `NaN` (*Not a Number*) værdier i den resulterende series. Dette skyldes, at der mangler værdier for nogle af indeksene i `additional_items`-serien, og at lægge `NaN` til noget resulterer i `NaN`. Derfor skal vi angive parameteren `fill_value` under addition.
@ -86,7 +86,7 @@ Med tidsserier kan vi også **resample** serien med forskellige tidsintervaller.
@ -212,7 +212,7 @@ Det første problem, vi vil fokusere på, er modellering af den epidemiske spred
Da vi ønsker at demonstrere, hvordan man arbejder med data, inviterer vi dig til at åbne [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) og læse det fra top til bund. Du kan også udføre celler og lave nogle udfordringer, som vi har efterladt til dig i slutningen.
> Hvis du ikke ved, hvordan man kører kode i Jupyter Notebook, kan du kigge på [denne artikel](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Et fuldt eksempel på analyse af dette datasæt ved hjælp af [Text Analytics fo
Åbn [`notebook-papers.ipynb`](notebook-papers.ipynb) og læs det fra top til bund. Du kan også udføre celler og lave nogle udfordringer, som vi har efterladt til dig i slutningen.


> Foto af <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> på <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse lektioner vil du lære nogle af de måder, data kan administreres, manipuleres og bruges i applikationer. Du vil lære om relationelle og ikke-relationelle databaser, og hvordan data kan gemmes i dem. Du vil lære grundlæggende om at arbejde med Python til at administrere data, og du vil opdage nogle af de mange måder, du kan arbejde med Python til at administrere og udvinde data.
Vis nu de samme data med en honningfarveskala for at vise, hvordan prisen udvikler sig over årene. Dette kan gøres ved at tilføje en 'hue'-parameter for at vise ændringen år for år:
@ -51,7 +51,7 @@ Vis nu de samme data med en honningfarveskala for at vise, hvordan prisen udvikl
Med denne farveskalaændring kan du tydeligt se en stærk progression over årene i forhold til prisen på honning pr. pund. Hvis du ser på et eksempel i datasættet for at verificere (vælg for eksempel Arizona), kan du se et mønster af prisstigninger år for år med få undtagelser:
Er dette et simpelt tilfælde af udbud og efterspørgsel? På grund af faktorer som klimaforandringer og kolonikollaps, er der mindre honning til rådighed år for år, og derfor stiger prisen?
✅ Fordi Seaborn aggregerer data omkring én linje, viser den "de multiple målinger ved hver x-værdi ved at plotte gennemsnittet og det 95% konfidensinterval omkring gennemsnittet". [Kilde](https://seaborn.pydata.org/tutorial/relational.html). Denne tidskrævende adfærd kan deaktiveres ved at tilføje `ci=None`.
@ -105,7 +105,7 @@ Spørgsmål: Nå, men i 2003, kan vi også se en stigning i honningforsyningen?
Svar: Ikke rigtigt. Hvis du ser på den samlede produktion, ser det faktisk ud til at være steget i det pågældende år, selvom mængden af produceret honning generelt er faldende i disse år.
@ -130,7 +130,7 @@ sns.relplot(
```
I denne visualisering kan du sammenligne udbytte pr. koloni og antal kolonier år for år, side om side med en wrap sat til 3 for kolonnerne:
For dette datasæt skiller intet sig særligt ud med hensyn til antallet af kolonier og deres udbytte, år for år og stat for stat. Er der en anden måde at finde en sammenhæng mellem disse to variabler?
Selvom intet springer i øjnene omkring året 2003, giver det os mulighed for at afslutte denne lektion på en lidt gladere note: Selvom antallet af kolonier generelt er faldende, stabiliserer antallet sig, selvom deres udbytte pr. koloni falder.
Her installerer du `ggplot2`-pakken og importerer den derefter til arbejdsområdet ved hjælp af kommandoen `library("ggplot2")`. For at plotte et diagram i ggplot bruges funktionen `ggplot()`, hvor du angiver datasættet samt x- og y-variabler som attributter. I dette tilfælde bruger vi funktionen `geom_line()`, da vi ønsker at plotte et linjediagram.
Hvad bemærker du med det samme? Der ser ud til at være mindst én outlier – det er et ret stort vingefang! Et vingefang på over 2000 centimeter svarer til mere end 20 meter – er der pterodaktyler i Minnesota? Lad os undersøge det nærmere.
Selv med rotationen af labels sat til 45 grader er der for mange til at læse. Lad os prøve en anden strategi: kun at label outliers og placere labels inden for diagrammet. Du kan bruge et punktdiagram for at skabe mere plads til labeling:
@ -91,7 +91,7 @@ Hvad sker der her? Du brugte funktionen `geom_point()` til at plotte punkter. Me
Vi oprettede en ny dataframe `birds_filtered` og plottede derefter et punktdiagram. Ved at filtrere outliers ud er dine data nu mere sammenhængende og forståelige.
I det følgende snippet installerer vi pakkerne [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) og [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) for at hjælpe med at manipulere og gruppere data for at plotte et stablet søjlediagram. Først grupperer du dataene efter fuglenes `Category` og opsummerer kolonnerne `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Derefter plottes søjlediagrammet ved hjælp af `ggplot2`-pakken, hvor du specificerer farverne for de forskellige kategorier og labels.
Dette søjlediagram er dog ulæseligt, fordi der er for mange ikke-grupperede data. Du skal vælge kun de data, du vil plotte, så lad os se på længden af fugle baseret på deres kategori.
Du tæller først unikke værdier i kolonnen `Category` og sorterer dem derefter i en ny dataframe `birds_count`. Disse sorterede data faktoreres derefter på samme niveau, så de plottes i den sorterede rækkefølge. Ved hjælp af `ggplot2` plottes dataene derefter i et søjlediagram. `coord_flip()` plottes som vandrette søjler.
Dette søjlediagram giver et godt overblik over antallet af fugle i hver kategori. Med et øjeblik ser du, at det største antal fugle i denne region tilhører kategorien Ænder/Gæs/Vandfugle. Minnesota er trods alt "de 10.000 søers land", så det er ikke overraskende!


Dette giver et overblik over den generelle fordeling af kropslængde pr. fugleorden, men det er ikke den optimale måde at vise egentlige fordelinger. Denne opgave håndteres normalt ved at oprette et histogram.
## Arbejde med histogrammer
@ -47,7 +47,7 @@ Dette giver et overblik over den generelle fordeling af kropslængde pr. fugleor


Som du kan se, falder de fleste af de 400+ fugle i dette datasæt inden for området under 2000 for deres maksimale kropsmasse. Få mere indsigt i dataene ved at ændre `bins`-parameteren til et højere tal, f.eks. 30:
@ -55,7 +55,7 @@ Som du kan se, falder de fleste af de 400+ fugle i dette datasæt inden for omr
Dette diagram viser fordelingen på en lidt mere detaljeret måde. Et diagram, der er mindre skævt mod venstre, kunne oprettes ved at sikre, at du kun vælger data inden for et givet område:
✅ Prøv nogle andre filtre og datapunkter. For at se den fulde fordeling af dataene skal du fjerne `['MaxBodyMass']`-filteret for at vise mærkede fordelinger.


Der ser ikke ud til at være en god korrelation mellem minimumsvingefang og bevaringsstatus. Test andre elementer i datasættet ved hjælp af denne metode. Du kan også prøve forskellige filtre. Finder du nogen korrelation?
@ -126,7 +126,7 @@ Lad os arbejde med tæthedsdiagrammer nu!
Du kan se, hvordan diagrammet afspejler det tidligere for Minimum Wingspan-data; det er bare lidt glattere. Hvis du ville genbesøge den hakkede MaxBodyMass-linje i det andet diagram, du oprettede, kunne du glatte den meget godt ud ved at genskabe den ved hjælp af denne metode:
@ -134,7 +134,7 @@ Du kan se, hvordan diagrammet afspejler det tidligere for Minimum Wingspan-data;
Voila, et cirkeldiagram, der viser proportionerne af disse data baseret på de to klasser af champignoner. Det er ret vigtigt at få rækkefølgen af labels korrekt, især her, så sørg for at verificere rækkefølgen, som label-arrayet er bygget med!
Ved hjælp af et vaffeldiagram kan du tydeligt se proportionerne af hatfarver i dette champignondatasæt. Interessant nok er der mange champignoner med grønne hatte!
I denne lektion lærte du tre måder at visualisere proportioner på. Først skal du gruppere dine data i kategorier og derefter beslutte, hvilken der er den bedste måde at vise dataene på - cirkel, donut eller vaffel. Alle er lækre og giver brugeren et øjeblikkeligt overblik over et datasæt.
Vis nu de samme data med et honningfarvetema for at vise, hvordan prisen udvikler sig over årene. Du kan gøre dette ved at tilføje en 'scale_color_gradientn'-parameter for at vise ændringen år for år:
@ -52,7 +52,7 @@ Vis nu de samme data med et honningfarvetema for at vise, hvordan prisen udvikle
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Med denne farveskemaændring kan du se, at der tydeligvis er en stærk progression over årene i forhold til honningprisen pr. pund. Faktisk, hvis du ser på et eksempel fra datasættet for at verificere (vælg en given stat, f.eks. Arizona), kan du se et mønster af prisstigninger år for år, med få undtagelser:
Er dette et simpelt tilfælde af udbud og efterspørgsel? På grund af faktorer som klimaforandringer og kolonikollaps, er der mindre honning tilgængelig for køb år for år, og derfor stiger prisen?
Svar: Ikke rigtig. Hvis du ser på den totale produktion, ser det faktisk ud til at være steget i det pågældende år, selvom mængden af produceret honning generelt er faldende i disse år.
For dette datasæt skiller intet sig særligt ud med hensyn til antallet af kolonier og deres udbytte år for år og stat for stat. Er der en anden måde at finde en korrelation mellem disse to variabler?
Mens intet springer i øjnene omkring året 2003, giver det os mulighed for at afslutte denne lektion på en lidt gladere note: selvom der generelt er et faldende antal kolonier, stabiliserer antallet af kolonier sig, selvom deres udbytte pr. koloni falder.
@ -38,25 +38,25 @@ I tidligere lektioner eksperimenterede du med at bygge alle slags interessante d
Selv hvis en dataforsker er omhyggelig med at vælge det rigtige diagram til de rigtige data, er der mange måder, hvorpå data kan vises for at bevise en pointe, ofte på bekostning af at undergrave dataene selv. Der findes mange eksempler på vildledende diagrammer og infografikker!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Klik på billedet ovenfor for en konferencepræsentation om vildledende diagrammer
Dette diagram vender X-aksen om for at vise det modsatte af sandheden, baseret på dato:
[Dette diagram](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) er endnu mere vildledende, da øjet drages mod højre for at konkludere, at COVID-tilfælde over tid er faldet i de forskellige amter. Faktisk, hvis du ser nøje på datoerne, vil du opdage, at de er blevet omarrangeret for at give den vildledende nedadgående tendens.
Dette berygtede eksempel bruger farve OG en vendt Y-akse til at vildlede: i stedet for at konkludere, at våbendrab steg efter vedtagelsen af våbenvenlig lovgivning, bliver øjet faktisk narret til at tro, at det modsatte er sandt:
At sammenligne det, der ikke kan sammenlignes, er endnu et skummelt trick. Der er en [vidunderlig hjemmeside](https://tylervigen.com/spurious-correlations) dedikeret til 'spurious correlations', der viser 'fakta', der korrelerer ting som skilsmisseraten i Maine og forbruget af margarine. En Reddit-gruppe samler også [grimme eksempler](https://www.reddit.com/r/dataisugly/top/?t=all) på data.
@ -91,13 +91,13 @@ Mærk dine akser, giv en forklaring, hvis det er nødvendigt, og tilbyd værktø
Hvis dine data er tekstuelle og lange på X-aksen, kan du vinkle teksten for bedre læsbarhed. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) tilbyder 3D-plotning, hvis dine data understøtter det. Sofistikerede datavisualiseringer kan produceres ved hjælp af det.
Nogle af de bedste datavisualiseringer i dag er animerede. Shirley Wu har fantastiske eksempler lavet med D3, såsom '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', hvor hver blomst er en visualisering af en film. Et andet eksempel for Guardian er 'bussed out', en interaktiv oplevelse, der kombinerer visualiseringer med Greensock og D3 plus en scrollytelling-artikel for at vise, hvordan NYC håndterer sit hjemløse problem ved at sende folk ud af byen.
> "Bussed Out: How America Moves its Homeless" fra [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualiseringer af Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Selvom denne lektion ikke går i dybden med at lære disse kraftfulde visualiser
Du vil fuldføre en webapp, der viser en animeret visning af dette sociale netværk. Den bruger et bibliotek, der blev bygget til at skabe en [visualisering af et netværk](https://github.com/emiliorizzo/vue-d3-network) ved hjælp af Vue.js og D3. Når appen kører, kan du trække noderne rundt på skærmen for at omarrangere dataene.


> Foto af <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> på <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
At visualisere data er en af de vigtigste opgaver for en dataforsker. Billeder siger mere end 1000 ord, og en visualisering kan hjælpe dig med at identificere alle mulige interessante aspekter af dine data, såsom spidser, afvigere, grupperinger, tendenser og meget mere, der kan hjælpe dig med at forstå den historie, dine data forsøger at fortælle.
@ -16,7 +16,7 @@ På nuværende tidspunkt har du sandsynligvis indset, at data science er en proc
Denne lektion fokuserer på 3 dele af livscyklussen: indsamling, behandling og vedligeholdelse.


> Foto af [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Indsamling
@ -92,7 +92,7 @@ Undersøg [Team Data Science Process livscyklus](https://docs.microsoft.com/en-u
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Billede af [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Billede af [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Quiz efter lektionen](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Foto af <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> på <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse lektioner vil du udforske nogle af aspekterne ved Data Science-livscyklussen, herunder analyse og kommunikation omkring data.
> Foto af [Jelleke Vanooteghem](https://unsplash.com/@ilumire) fra [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Når det handler om at udføre data science med big data, kan skyen være en game changer. I de næste tre lektioner skal vi se, hvad skyen er, og hvorfor den kan være meget nyttig. Vi skal også udforske et dataset om hjertesvigt og bygge en model, der kan hjælpe med at vurdere sandsynligheden for, at nogen oplever hjertesvigt. Vi vil bruge skyens kraft til at træne, implementere og anvende en model på to forskellige måder. Den ene måde ved kun at bruge brugergrænsefladen i en Low code/No code tilgang, den anden måde ved at bruge Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Takket være demokratiseringen af AI finder udviklere det nu lettere at designe
* [Data Science i Sundhedssektoren](https://data-flair.training/blogs/data-science-in-healthcare/) - fremhæver anvendelser som medicinsk billeddannelse (f.eks. MR, røntgen, CT-scanning), genomik (DNA-sekventering), lægemiddeludvikling (risikovurdering, succesprognoser), forudsigende analyser (patientpleje og logistik), sygdomssporing og -forebyggelse osv.
 Billedkredit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Billedkredit: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Figuren viser andre domæner og eksempler på anvendelse af data science-teknikker. Vil du udforske andre anvendelser? Tjek afsnittet [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) nedenfor.
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Azure Cloud Advocates hos Microsoft er glade for at tilbyde et 10-ugers, 20-lektioners pensum, der handler om Data Science. Hver lektion inkluderer quizzer før og efter lektionen, skriftlige instruktioner til at gennemføre lektionen, en løsning og en opgave. Vores projektbaserede pædagogik giver dig mulighed for at lære, mens du bygger, en bevist metode til at lade nye færdigheder 'sætte sig fast'.
Azure Cloud Advocates hos Microsoft er glade for at kunne tilbyde et 10-ugers, 20-lektioners læseplan helt om Data Science. Hver lektion inkluderer for- og efter-lektions quizzer, skriftlige instruktioner til at gennemføre lektionen, en løsning og en opgave. Vores projektbaserede pædagogik giver dig mulighed for at lære, mens du bygger, en bevist metode til at nye færdigheder 'hænger ved'.
> Dette repository inkluderer 50+ sprogoversættelser, hvilket øger størrelsen markant ved download. For at klone uden oversættelser, brug sparse checkout:
>
> Dette repository inkluderer 50+ sproglige oversættelser, hvilket markant øger downloadstørrelsen. For at klone uden oversættelser, brug sparse checkout:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Dette giver dig alt, hvad du behøver for at gennemføre kurset med en meget hurtigere download.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Hvis du ønsker yderligere understøttede oversættelsessprog, er de listet [her](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Hvis du ønsker, at flere oversættelses-sprog understøttes, er de listet [her](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Vi har en Discord lær med AI-serie i gang, lær mere og tilmeld dig på [Learn with AI Series](https://aka.ms/learnwithai/discord) fra 18. - 30. september 2025. Du vil få tips og tricks til at bruge GitHub Copilot til Data Science.
Vi har en Discord serie "Learn with AI" i gang, lær mere og deltag hos [Learn with AI Series](https://aka.ms/learnwithai/discord) fra 18. - 30. september 2025. Du får tips og tricks til at bruge GitHub Copilot til Data Science.

@ -59,74 +69,74 @@ Vi har en Discord lær med AI-serie i gang, lær mere og tilmeld dig på [Learn
Kom i gang med følgende ressourcer:
- [Student Hub side](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) På denne side finder du begynderressourcer, studenterpakker og endda måder at få en gratis certifikatkupon. Dette er en side, du vil bogmærke og tjekke jævnligt, da vi udskifter indhold mindst månedligt.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Deltag i et globalt fællesskab af studentambassadører, dette kunne være din vej ind i Microsoft.
- [Student Hub side](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) På denne side finder du begyndervenlige ressourcer, studentpakker og endda måder at få en gratis certifikatvoucher på. Dette er en side, du vil bogmærke og tjekke jævnligt, da vi skifter indhold mindst månedligt.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Bliv medlem af et globalt fællesskab af studentambassadører, dette kan være din vej ind i Microsoft.
# Kom godt i gang
## 📚 Dokumentation
- **[Installationsvejledning](INSTALLATION.md)** - Trinvise opsætningsinstruktioner for begyndere
- **[Installationsvejledning](INSTALLATION.md)** - Trin-for-trin installationsinstruktioner til begyndere
- **[Brugsvejledning](USAGE.md)** - Eksempler og almindelige arbejdsgange
- **[Fejlfinding](TROUBLESHOOTING.md)** - Løsninger til almindelige problemer
- **[Bidragsvejledning](CONTRIBUTING.md)** - Hvordan du bidrager til dette projekt
- **[For undervisere](for-teachers.md)** - Undervisningsvejledning og materialer til klasseundervisning
- **[Fejlfinding](TROUBLESHOOTING.md)** - Løsninger på almindelige problemer
- **[Bidragelse vejledning](CONTRIBUTING.md)** - Sådan bidrager du til dette projekt
- **[For lærere](for-teachers.md)** - Undervisningsvejledning og ressourcer til klasser
## 👨🎓 For studerende
> **Helt begyndere**: Ny inden for data science? Start med vores [begyndervenlige eksempler](examples/README.md)! Disse simple og godt kommenterede eksempler hjælper dig med at forstå det basale, før du dykker ned i hele læreplanen.
> **[Studerende](https://aka.ms/student-page)**: For at bruge denne læreplan på egen hånd, fork hele repo’et og gennemfør øvelserne selv, startende med en quiz før lektionen. Læs derefter lektionen og gennemfør resten af aktiviteterne. Prøv at lave projekterne ved at forstå lektionerne fremfor at kopiere løsningskoden; denne kode er dog tilgængelig i /solutions mapperne i hver projektorienteret lektion. En anden idé er at danne en studiegruppe med venner og gå gennem indholdet sammen. Til videre studier anbefaler vi [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Komplette begyndere**: Ny til data science? Start med vores [begyndervenlige eksempler](examples/README.md)! Disse simple, velkommenterede eksempler hjælper dig med at forstå det grundlæggende, inden du dykker ned i hele læseplanen.
> **[Studerende](https://aka.ms/student-page)**: for at bruge denne læseplan på egen hånd, forgrene hele repoet og gennemfør øvelserne på egen hånd, begynd med en for-forelæsnings quiz. Læs derefter forelæsningen og fuldfør resten af aktiviteterne. Prøv at skabe projekterne ved at forstå lektionerne fremfor at kopiere løsningskoden; den kode er dog tilgængelig i /solutions mapperne i hver projektorienteret lektion. En anden idé kunne være at danne en studiegruppe med venner og gennemgå indholdet sammen. Til yderligere studier anbefaler vi [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Hurtig start:**
1. Tjek [Installationsvejledningen](INSTALLATION.md) for at sætte dit miljø op
2. Gennemgå [Brugsvejledningen](USAGE.md) for at lære at arbejde med læreplanen
3. Start med Lektion 1 og fortsæt sekventielt
2. Gennemgå [Brugsvejledningen](USAGE.md) for at lære at arbejde med læseplanen
3. Start med lektion 1 og arbejd sekventielt igennem
4. Deltag i vores [Discord-fællesskab](https://aka.ms/ds4beginners/discord) for support
## 👩🏫 For undervisere
## 👩🏫 For lærere
> **Lærere**: vi har [inkluderet nogle forslag](for-teachers.md) til, hvordan man bruger dette læseplan. Vi vil meget gerne have jeres feedback [i vores diskussionsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Undervisere**: Vi har [inkluderet nogle forslag](for-teachers.md) til, hvordan du kan bruge denne læreplan. Vi vil gerne have din feedback [i vores diskussionsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Klik på billedet ovenfor for en video om projektet og de folk, der skabte det!
> 🎥 Klik på billedet ovenfor for en video om projektet og de personer, der har skabt det!
## Pædagogik
Vi har valgt to pædagogiske principper, mens vi byggede dette pensum: at sikre, at det er projektbaseret, og at det inkluderer hyppige quizzer. Ved slutningen af denne serie vil eleverne have lært grundlæggende principper for datalogi, inklusive etiske begreber, dataklargøring, forskellige måder at arbejde med data på, datavisualisering, dataanalyse, virkelige anvendelsestilfælde af datalogi og mere.
Vi har valgt to pædagogiske principper til opbygningen af denne læseplan: sikre at den er projektbaseret og at den inkluderer hyppige quizzer. Ved slutningen af denne serie vil eleverne have lært grundlæggende principper for datavidenskab, inklusive etiske koncepter, dataklargøring, forskellige måder at arbejde med data på, datavisualisering, dataanalyse, virkelige brugsscenarier for datavidenskab og mere.
Derudover sætter en lavrisiko quiz før en klasse intentionen for eleven omkring at lære et emne, mens en anden quiz efter klassen sikrer yderligere fastholdelse. Dette pensum er designet til at være fleksibelt og sjovt og kan tages i sin helhed eller i dele. Projekterne starter småt og bliver gradvist mere komplekse ved slutningen af den 10-ugers cyklus.
Derudover sætter en quiz med lav indsats før timen elevens intention mod at lære et emne, mens en anden quiz efter timen sikrer yderligere fastholdelse. Denne læseplan er designet til at være fleksibel og sjov og kan tages hele eller delvist. Projekterne starter små og bliver gradvist mere komplekse ved slutningen af den 10-ugers cyklus.
> Find vores [adfærdskodeks](CODE_OF_CONDUCT.md), [bidrag](CONTRIBUTING.md), [oversættelses](TRANSLATIONS.md) retningslinjer. Vi byder din konstruktive feedback velkommen!
> Find vores [Adfærdskodeks](CODE_OF_CONDUCT.md), [Bidrag](CONTRIBUTING.md), [Oversættelse](TRANSLATIONS.md) retningslinjer. Vi byder din konstruktive feedback velkommen!
## Hver lektion inkluderer:
- Valgfri sketchnote
- Valgfri supplerende video
- Opvarmningsquiz før lektionen
- Quiz til opvarmning før lektion
- Skriftlig lektion
- For projektbaserede lektioner, trin-for-trin vejledninger om, hvordan man bygger projektet
- Videnskontroller
- For projektbaserede lektioner, trin-for-trin vejledninger til, hvordan man bygger projektet
- Videnstjek
- En udfordring
- Supplerende læsning
- Opgave
- [Quiz efter lektionen](https://ff-quizzes.netlify.app/en/)
- [Quiz efter lektion](https://ff-quizzes.netlify.app/en/)
> **En note om quizzer**: Alle quizzer er indeholdt i Quiz-App mappen, i alt 40 quizzer med tre spørgsmål hver. De er linket fra inden for lektionerne, men quiz-appen kan køres lokalt eller deployeres til Azure; følg instruktionerne i `quiz-app` mappen. De bliver gradvist lokaliseret.
> **En note om quizzer**: Alle quizzer findes i Quiz-App mappen, i alt 40 quizzer med tre spørgsmål hver. De er linket fra lektionerne, men quiz-appen kan køres lokalt eller implementeres i Azure; følg instruktionerne i `quiz-app` mappen. De bliver gradvist lokaliseret.
## 🎓 Begynder-venlige Eksempler
## 🎓 Begynder-venlige eksempler
**Ny til Data Science?** Vi har oprettet en særlig [eksempelmapppe](examples/README.md) med simpel, godt kommenteret kode for at hjælpe dig i gang:
**Ny til datavidenskab?** Vi har oprettet en særlig [eksempelmappen](examples/README.md) med enkel, veldokumenteret kode, der hjælper dig godt i gang:
- 🌟 **Hello World** - Dit første data science program
- 📂 **Indlæsning af Data** - Lær at læse og udforske datasæt
- 📊 **Simpel Analyse** - Beregn statistik og find mønstre
- 📈 **Basal Visualisering** - Lav diagrammer og grafer
- 🔬 **Virkeligt Projekt** - Færdig workflow fra start til slut
- 🌟 **Hello World** - Dit første datavidenskabsprogram
- 📂 **Indlæsning af data** - Lær at læse og udforske datasæt
- 📊 **Enkel analyse** - Beregn statistik og find mønstre
- 📈 **Grundlæggende visualisering** - Lav diagrammer og grafer
- 🔬 **Virkelighedsnært projekt** - Komplett workflow fra start til slut
Hvert eksempel inkluderer detaljerede kommentarer, der forklarer hvert trin, hvilket gør det perfekt for absolutte begyndere!
Hvert eksempel inkluderer detaljerede kommentarer, der forklarer hvert trin, perfekt til absolutte begyndere!
👉 **[Start med eksemplerne](examples/README.md)** 👈
@ -135,63 +145,63 @@ Hvert eksempel inkluderer detaljerede kommentarer, der forklarer hvert trin, hvi
||
|:---:|
| Data Science For Beginners: Køreplan - _Sketchnote af [@nitya](https://twitter.com/nitya)_ |
| Datavidenskab for Begyndere: Køreplan - _Sketchnote af [@nitya](https://twitter.com/nitya)_ |
| 01 | Definition af Data Science | [Introduktion](1-Introduction/README.md) | Lær de grundlæggende koncepter bag data science og hvordan det er relateret til kunstig intelligens, maskinlæring og big data. | [lektion](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 03 | Definition af Data | [Introduktion](1-Introduction/README.md) | Hvordan data klassificeres og dets almindelige kilder. | [lektion](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduktion til Statistik & Sandsynlighed | [Introduktion](1-Introduction/README.md) | De matematiske teknikker indenfor sandsynlighed og statistik til at forstå data. | [lektion](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbejde med Relationelle Data | [Arbejde med Data](2-Working-With-Data/README.md) | Introduktion til relationelle data og det grundlæggende i at udforske og analysere relationelle data med Structured Query Language, også kendt som SQL (udtales “see-quell”). | [lektion](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbejde med NoSQL Data | [Arbejde med Data](2-Working-With-Data/README.md) | Introduktion til ikke-relationelle data, dets forskellige typer og det grundlæggende i udforskning og analyse af dokumentdatabaser. | [lektion](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Arbejde med Python | [Arbejde med Data](2-Working-With-Data/README.md) | Grundlæggende om brug af Python til dataudforskning med biblioteker som Pandas. Grundlæggende forståelse af Python programmering anbefales. | [lektion](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Dataklargøring | [Arbejde med Data](2-Working-With-Data/README.md) | Emner om datateknikker til at rense og transformere data for at håndtere udfordringer med manglende, upræcis eller ufuldstændig data. | [lektion](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisering af Mængder | [Datavisualisering](3-Data-Visualization/README.md) | Lær hvordan man bruger Matplotlib til at visualisere fugledata 🦆 | [lektion](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisering af Datas Fordeling | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af observationer og tendenser indenfor et interval. | [lektion](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisering af Proportioner | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af diskrete og grupperede procenter. | [lektion](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisering af Relationer | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af forbindelser og korrelationer mellem datasæt og deres variable. | [lektion](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meningsfulde Visualiseringer | [Datavisualisering](3-Data-Visualization/README.md) | Teknikker og vejledning til at gøre dine visualiseringer værdifulde for effektiv problemløsning og indsigt. | [lektion](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduktion til Data Science livscyklus | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Introduktion til data science livscyklussen og dens første trin med at erhverve og udtrække data. | [lektion](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analyse | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Denne fase af data science livscyklussen fokuserer på teknikker til at analysere data. | [lektion](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikation | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Denne fase af data science livscyklussen fokuserer på at præsentere indsigt fra dataene på en måde, som gør det nemmere for beslutningstagere at forstå. | [lektion](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data Science i Skyen | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Denne serie af lektioner introducerer data science i skyen og dens fordele. | [lektion](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 18 | Data Science i Skyen | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Træning af modeller ved hjælp af Low Code-værktøjer. |[lektion](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 19 | Data Science i Skyen | [Cloud Data](5-Data-Science-In-Cloud/README.md) | Implementering af modeller med Azure Machine Learning Studio. | [lektion](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 20 | Data Science i det Virkelige Liv | [In the Wild](6-Data-Science-In-Wild/README.md) | Data science-drevne projekter i den virkelige verden. | [lektion](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 01 | Definition af datavidenskab | [Introduktion](1-Introduction/README.md) | Lær de grundlæggende begreber bag datavidenskab og hvordan det relaterer til kunstig intelligens, maskinlæring og big data. | [lektion](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 03 | Definition af data | [Introduktion](1-Introduction/README.md) | Hvordan data klassificeres og dets almindelige kilder. | [lektion](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduktion til statistik & sandsynlighed | [Introduktion](1-Introduction/README.md) | De matematiske teknikker indenfor sandsynlighed og statistik til forståelse af data. | [lektion](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbejde med relationelle data | [Arbejde med data](2-Working-With-Data/README.md) | Introduktion til relationelle data og grundlæggende udforskning og analyse af relationelle data med Structured Query Language, også kendt som SQL (udtalt “see-quell”). | [lektion](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbejde med NoSQL data | [Arbejde med data](2-Working-With-Data/README.md) | Introduktion til ikke-relationelle data, deres forskellige typer og grundlæggende udforskning og analyse af dokumentdatabaser. | [lektion](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Arbejde med Python | [Arbejde med data](2-Working-With-Data/README.md) | Grundlæggende brug af Python til dataudforskning med biblioteker som Pandas. Grundlæggende forståelse af Python programmering anbefales. | [lektion](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Dataklargøring | [Arbejde med data](2-Working-With-Data/README.md) | Emner om datateknikker til rengøring og transformation af data til håndtering af udfordringer med manglende, unøjagtige eller ufuldstændige data. | [lektion](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisering af mængder | [Datavisualisering](3-Data-Visualization/README.md) | Lær at bruge Matplotlib til at visualisere fugledata 🦆 | [lektion](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisering af datafordelinger | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af observationer og tendenser indenfor et interval. | [lektion](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 11 | Visualisering af andele | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af diskrete og grupperede procenter. | [lektion](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisering af relationer | [Datavisualisering](3-Data-Visualization/README.md) | Visualisering af forbindelser og korrelationer mellem datasæt og deres variable. | [lektion](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meningsfulde visualiseringer | [Datavisualisering](3-Data-Visualization/README.md) | Teknikker og vejledning til at gøre dine visualiseringer værdifulde for effektiv problemløsning og indsigt. | [lektion](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduktion til datavidenskabs livscyklus | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Introduktion til datavidenskabs livscyklus og dets første trin, erhvervelse og udtræk af data. | [lektion](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analyse | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Denne fase af datavidenskabs livscyklus fokuserer på teknikker til at analysere data. | [lektion](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikation | [Livscyklus](4-Data-Science-Lifecycle/README.md) | Denne fase af datavidenskabs livscyklus fokuserer på at præsentere indsigt fra data på en måde, der gør det lettere for beslutningstagere at forstå. | [lektion](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datavidenskab i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Denne række lektioner introducerer datavidenskab i skyen og dens fordele. | [lektion](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 18 | Datavidenskab i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Træning af modeller ved hjælp af Low Code-værktøjer. |[lektion](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 19 | Datavidenskab i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Implementering af modeller med Azure Machine Learning Studio. | [lektion](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 20 | Datavidenskab i virkeligheden | [I virkeligheden](6-Data-Science-In-Wild/README.md) | Data science-drevne projekter i den virkelige verden. | [lektion](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Følg disse trin for at åbne dette eksempel i en Codespace:
1. Klik på Code drop-down menuen og vælg muligheden Open with Codespaces.
1. Klik på Code-rullemenuen og vælg Muligheden Open with Codespaces.
2. Vælg + New codespace nederst i panelet.
For mere info, tjek [GitHub dokumentationen](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
For flere oplysninger, se [GitHub-dokumentationen](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Følg disse trin for at åbne dette repo i en container ved brug af din lokale maskine og VSCode med VS Code Remote - Containers udvidelsen:
Følg disse trin for at åbne dette repo i en container ved hjælp af din lokale maskine og VSCode med udvidelsen VS Code Remote - Containers:
1. Hvis dette er din første gang med at bruge en udviklingscontainer, skal du sikre dig, at dit system opfylder forudsætningerne (dvs. have Docker installeret) i [getting started dokumentationen](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Hvis det er første gang du bruger en udviklingscontainer, skal du sikre dig, at dit system opfylder forudsætningerne (dvs. har Docker installeret) i [dokumentationen til start](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
For at bruge dette repository kan du enten åbne repository i et isoleret Docker-volumen:
For at bruge dette repository kan du enten åbne det i et isoleret Docker-volumen:
**Note**: Under motorhjelmen vil dette bruge Remote-Containers: **Clone Repository in Container Volume...**kommandoen til at klone kildekoden i et Docker-volumen i stedet for det lokale filsystem. [Volumener](https://docs.docker.com/storage/volumes/) er den foretrukne mekanisme til at bevare containerdata.
**Bemærk**: Under motorhjelmen bruges kommandoen Remote-Containers: **Clone Repository in Container Volume...** til at klone koden i et Docker-volumen i stedet for i det lokale filsystem. [Volumen](https://docs.docker.com/storage/volumes/) er den foretrukne mekanisme til at bevare containerdata.
Eller åbn en lokalt klonet eller downloadet version af repository:
Eller åbne en lokalt klonet eller downloadet version af repositoryet:
- Klon dette repository til dit lokale filsystem.
- Tryk F1 og vælg kommandoen **Remote-Containers: Open Folder in Container...**.
- Vælg den klonede kopi af denne mappe, vent på, at containeren starter, og prøv tingene af.
- Tryk på F1 og vælg kommandoen **Remote-Containers: Open Folder in Container...**.
- Vælg den klonede kopi af denne mappe, vent på at containeren starter, og prøv det af.
## Offline adgang
Du kan køre denne dokumentation offline ved at bruge [Docsify](https://docsify.js.org/#/). Fork dette repo, [installer Docsify](https://docsify.js.org/#/quickstart) på din lokale maskine, og skriv så `docsify serve` i roden af denne repo. Hjemmesiden vil blive serveret på port 3000 på din localhost: `localhost:3000`.
Du kan køre denne dokumentation offline ved at bruge [Docsify](https://docsify.js.org/#/). Fork dette repo, [installer Docsify](https://docsify.js.org/#/quickstart) på din lokale maskine, og skriv derefter i roden af denne repo `docsify serve`. Websitet vil blive serveret på port 3000 på din localhost: `localhost:3000`.
> Bemærk, at notebooks ikke bliver gengivet via Docsify, så når du har brug for at køre en notebook, skal du gøre det separat i VS Code, der kører en Python kernel.
> Bemærk, at notebooks ikke bliver gengivet via Docsify, så når du skal køre en notebook, så gør det separat i VS Code med en Python kernel.
## Andre Pensummer
## Andre Læseplaner
Vores team producerer andre pensummer! Tjek:
Vores team producerer andre læseplaner! Se:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,7 +218,7 @@ Vores team producerer andre pensummer! Tjek:
---
### Generativ AI Serie
### Serie om Generativ AI
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -216,7 +226,7 @@ Vores team producerer andre pensummer! Tjek:
---
### Kerne Læring
### Kerne-læring
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -227,27 +237,27 @@ Vores team producerer andre pensummer! Tjek:
---
### Copilot Serie
### Copilot-serie
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Støder du på problemer?** Tjek vores [Fejlfindingsguide](TROUBLESHOOTING.md) for løsninger på almindelige problemer.
**Oplever du problemer?** Se vores [Fejlfinding Guide](TROUBLESHOOTING.md) for løsninger på almindelige problemer.
Hvis du sidder fast eller har spørgsmål om at bygge AI-apps. Deltag sammen med andre elever og erfarne udviklere i diskussioner om MCP. Det er et støttende fællesskab, hvor spørgsmål er velkomne, og viden deles frit.
Hvis du sidder fast eller har spørgsmål om at bygge AI-apps. Deltag i samtaler med andre lærende og erfarne udviklere om MCP. Det er et støttende fællesskab, hvor spørgsmål er velkomne, og viden deles frit.
Dette dokument er oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi bestræber os på nøjagtighed, bedes du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål skal betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse.
**Ansvarsfraskrivelse**:
Dette dokument er oversat ved hjælp af AI-oversættelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selvom vi stræber efter nøjagtighed, skal du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål bør betragtes som den autoritative kilde. For vigtig information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der måtte opstå som følge af brugen af denne oversættelse.
@ -144,7 +144,7 @@ Jos haluamme mennä vielä pidemmälle, voimme piirtää kaavion, jossa esitetä
Tässä haasteessa yritämme löytää Data Science -alaan liittyviä käsitteitä tarkastelemalla tekstejä. Otamme Wikipedia-artikkelin Data Sciencesta, lataamme ja käsittelemme tekstin ja luomme sitten sanapilven, joka näyttää tältä:


Vieraile tiedostossa [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') lukeaksesi koodin läpi. Voit myös suorittaa koodin ja nähdä, kuinka se suorittaa kaikki datan muunnokset reaaliajassa.
"Tässä esimerkissä teemme yksinkertaisen harjoituksen, joka kattaa kaikki perinteisen datatieteen prosessin vaiheet. Sinun ei tarvitse kirjoittaa mitään koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkkailla tuloksia. Haasteena sinua kannustetaan kokeilemaan tätä koodia eri datalla.\n",
"Tässä esimerkissä teemme yksinkertaisen harjoituksen, joka kattaa perinteisen datatieteen prosessin kaikki vaiheet. Sinun ei tarvitse kirjoittaa mitään koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkkailla tulosta. Haasteena on kokeilla tätä koodia eri aineistolla.\n",
"\n",
"## Tavoite\n",
"\n",
"Tässä oppitunnissa olemme käsitelleet erilaisia datatieteeseen liittyviä käsitteitä. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme tekstillä, joka käsittelee datatiedettä, poimimme siitä avainsanoja ja yritämme sitten visualisoida tulokset.\n",
"Tässä oppitunnissa olemme käsitelleet erilaisia datatieteeseen liittyviä käsitteitä. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme datatieteestä kertovasta tekstistä, josta poimimme avainsanoja, ja yritämme sitten visualisoida tuloksen.\n",
"\n",
"Tekstinä käytän Wikipedia-sivua, joka käsittelee datatiedettä:\n"
"Ensimmäinen vaihe jokaisessa data-analytiikan prosessissa on datan hankkiminen. Käytämme siihen `requests`-kirjastoa:\n"
"Jokaisen data-analyysin ensimmäinen vaihe on tietojen hankinta. Käytämme siihen `requests`-kirjastoa:\n"
],
"metadata": {}
},
@ -68,43 +68,41 @@
"source": [
"## Vaihe 2: Datan muuntaminen\n",
"\n",
"Seuraava vaihe on muuntaa data käsittelyyn sopivaan muotoon. Meidän tapauksessamme olemme ladanneet HTML-lähdekoodin sivulta, ja meidän täytyy muuntaa se pelkäksi tekstiksi.\n",
"Seuraava vaihe on muuntaa data käsittelyyn sopivaan muotoon. Meidän tapauksessamme olemme ladanneet sivun HTML-lähdekoodin, ja meidän täytyy muuntaa se tavalliseksi tekstiksi.\n",
"\n",
"Tähän on monia tapoja. Käytämme yksinkertaisinta sisäänrakennettua [HTMLParser](https://docs.python.org/3/library/html.parser.html)-objektia Pythonista. Meidän täytyy periä `HTMLParser`-luokka ja määritellä koodi, joka kerää kaiken tekstin HTML-tägien sisältä, lukuun ottamatta `<script>`- ja `<style>`-tageja.\n"
"Tähän on monia tapoja. Käytämme [BeautifulSoupia](https://www.crummy.com/software/BeautifulSoup/), suositua Python-kirjastoa HTML:n jäsentämiseen. BeautifulSoupin avulla voimme kohdistua tiettyihin HTML-elementteihin, joten voimme keskittyä Wikipedian pääartikkelin sisältöön ja vähentää navigointivalikoita, sivupalkkeja, alatunnisteita sekä muuta epäolennaista sisältöä (vaikka osa mallitekstistä saattaa silti säilyä).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Ensiksi meidän täytyy asentaa BeautifulSoup-kirjasto HTML:n jäsentämistä varten:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Vaihe 3: Näkemyksien saaminen\n",
"## Vaihe 3: Näkemysten saaminen\n",
"\n",
"Tärkein vaihe on muuttaa data sellaiseen muotoon, josta voimme saada näkemyksiä. Meidän tapauksessamme haluamme poimia avainsanoja tekstistä ja nähdä, mitkä avainsanat ovat merkityksellisempiä.\n",
"Tärkein vaihe on muuttaa datamme muotoon, josta voimme tehdä johtopäätöksiä. Tapauksessamme haluamme poimia tekstistä avainsanoja ja nähdä, mitkä avainsanat ovat merkityksellisempiä.\n",
"\n",
"Käytämme Python-kirjastoa nimeltä [RAKE](https://github.com/aneesha/RAKE) avainsanojen poimintaan. Asennetaan ensin tämä kirjasto, jos se ei ole jo asennettuna:\n"
"Käytämme Python-kirjastoa nimeltä [RAKE](https://github.com/aneesha/RAKE) avainsanojen poimimiseen. Ensin asennetaan tämä kirjasto, jos sitä ei ole jo asennettu: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Päätoiminnallisuus on saatavilla `Rake`-objektista, jota voimme mukauttaa joillakin parametreilla. Meidän tapauksessamme asetamme avainsanan vähimmäispituudeksi 5 merkkiä, avainsanan vähimmäisesiintymistiheydeksi dokumentissa 3 ja avainsanan enimmäissanamääräksi 2. Voit vapaasti kokeilla muita arvoja ja tarkkailla tulosta.\n"
"Päätoiminnallisuus on saatavilla `Rake`-objektista, jota voimme mukauttaa joillakin parametreilla. Tässä tapauksessa asetamme avainsanan vähimmäispituudeksi 5 merkkiä, avainsanan vähimmäistaajuudeksi dokumentissa 3 ja avainsanan maksimisanamääräksi 2. Kokeile rohkeasti myös muita arvoja ja tarkkaile tulosta.\n"
],
"metadata": {}
},
@ -211,11 +209,12 @@
{
"cell_type": "markdown",
"source": [
"Saimme luettelon termeistä yhdessä niiden tärkeysasteen kanssa. Kuten huomaat, tärkeimmät alat, kuten koneoppiminen ja big data, ovat listan kärjessä.\n",
"\n",
"## Vaihe 4: Tulosten visualisointi\n",
"Meillä on lista termeistä niiden merkityksen asteineen. Kuten näet, listan kärkipäissä ovat keskeisimmät alat, kuten koneoppiminen ja big data.\n",
"\n",
"Ihmiset ymmärtävät dataa parhaiten visuaalisessa muodossa. Siksi datan visualisointi voi usein auttaa saamaan uusia oivalluksia. Voimme käyttää Pythonin `matplotlib`-kirjastoa piirtääksemme yksinkertaisen avainsanojen jakautuman niiden merkityksen mukaan:\n"
"## Vaihe 4: Tuloksen visualisointi\n",
"\n",
"Ihmiset hahmottavat tiedot parhaiten visuaalisessa muodossa. Siksi usein on järkevää visualisoida tiedot saadaksemme näkemyksiä. Voimme käyttää Pythonin `matplotlib`-kirjastoa piirtämään avainsanojen yksinkertaisen jakauman niiden merkityksen mukaan:\n"
],
"metadata": {}
},
@ -252,7 +251,7 @@
{
"cell_type": "markdown",
"source": [
"On kuitenkin vielä parempi tapa visualisoida sanan frekvenssejä - käyttämällä **Word Cloudia**. Meidän täytyy asentaa toinen kirjasto, jotta voimme piirtää sanapilven avainsanalistastamme.\n"
"On kuitenkin vielä parempi tapa visualisoida sanamääriä - käyttämällä **Word Cloud** -pilveä. Meidän täytyy asentaa toinen kirjasto piirtääksemme sanapilven avainsanalistastamme.\n"
],
"metadata": {}
},
@ -268,7 +267,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objekti vastaa joko alkuperäisen tekstin tai valmiiksi lasketun sanalistan ja niiden frekvenssien vastaanottamisesta, ja palauttaa kuvan, joka voidaan sitten näyttää käyttämällä `matplotlib`:\n"
"`WordCloud`-objekti vastaa alkuperäisen tekstin tai valmiiksi laskettujen sanojen ja niiden esiintymistiheyksien ottamisesta sisään ja palauttaa kuvan, joka voidaan sitten näyttää käyttämällä `matplotlib`-kirjastoa:\n"
],
"metadata": {}
},
@ -312,7 +311,7 @@
{
"cell_type": "markdown",
"source": [
"Voimme myös syöttää alkuperäisen tekstin `WordCloud`-luokkaan - katsotaan, pystymmekö saamaan samanlaisen tuloksen:\n"
"Voimme myös syöttää alkuperäisen tekstin `WordCloud`-funktiolle - katsotaan, pystymmekö saamaan samanlaisen tuloksen:\n"
],
"metadata": {}
},
@ -372,11 +371,11 @@
{
"cell_type": "markdown",
"source": [
"Voit nähdä, että sanapilvi näyttää nyt vaikuttavammalta, mutta siinä on myös paljon hälyä (esim. epäolennaisia sanoja kuten `Retrieved on`). Lisäksi saamme vähemmän avainsanoja, jotka koostuvat kahdesta sanasta, kuten *data scientist* tai *computer science*. Tämä johtuu siitä, että RAKE-algoritmi tekee paljon paremman työn hyvien avainsanojen valinnassa tekstistä. Tämä esimerkki havainnollistaa, kuinka tärkeää on esikäsitellä ja puhdistaa dataa, sillä selkeä lopputulos auttaa meitä tekemään parempia päätöksiä.\n",
"Nyt näet, että sanapilvi näyttää vaikuttavammalta, mutta se sisältää myös paljon häiriöitä (esim. asiaankuulumattomia sanoja, kuten `Retrieved on`). Lisäksi saamme vähemmän avainsanoja, jotka koostuvat kahdesta sanasta, kuten *data scientist* tai *computer science*. Tämä johtuu siitä, että RAKE-algoritmi onnistuu paljon paremmin valitsemaan hyviä avainsanoja tekstistä. Tämä esimerkki havainnollistaa datan esikäsittelyn ja puhdistamisen tärkeyttä, koska selkeä lopputulos antaa meille mahdollisuuden tehdä parempia päätöksiä.\n",
"\n",
"Tässä harjoituksessa kävimme läpi yksinkertaisen prosessin, jossa Wikipedia-tekstistä saatiin irti merkitystä avainsanojen ja sanapilven muodossa. Tämä esimerkki on melko yksinkertainen, mutta se havainnollistaa hyvin kaikki tyypilliset vaiheet, joita data-analyytikko käy läpi työskennellessään datan parissa, alkaen datan hankinnasta aina visualisointiin asti.\n",
"Tässä harjoituksessa olemme käyneet läpi yksinkertaisen prosessin, jossa poimitaan merkitystä Wikipedian tekstistä avainsanojen ja sanapilven muodossa. Tämä esimerkki on melko yksinkertainen, mutta se osoittaa hyvin kaikki tyypilliset vaiheet, jotka data-analyytikko käy läpi työskennellessään datan kanssa, alkaen datan keruusta aina visualisointiin asti.\n",
"\n",
"Kurssillamme käymme kaikki nämä vaiheet yksityiskohtaisesti läpi.\n"
"Kurssillamme käsittelemme kaikkia näitä vaiheita yksityiskohtaisesti.\n"
],
"metadata": {}
},
@ -394,7 +393,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Vastuuvapauslauseke**: \nTämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Vastuuvapauslauseke**: \nTämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta otathan huomioon, että automatisoiduissa käännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen omalla kielellä on virallinen lähde. Tärkeää tietoa varten suosittelemme ammattimaista ihmiskäännöstä. Emme ole vastuussa tästä käännöksestä aiheutuvista väärinymmärryksistä tai tulkinnoista.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Haaste: Tekstin analysointi liittyen datatieteeseen\n",
"\n",
"> *Tässä muistikirjassa kokeilemme käyttää eri URL-osoitetta - Wikipedia-artikkelia koneoppimisesta. Voit huomata, että toisin kuin datatiede, tämä artikkeli sisältää paljon termejä, mikä tekee analyysistä ongelmallisempaa. Meidän täytyy keksiä toinen tapa siivota dataa avainsanojen poiminnan jälkeen, jotta voimme päästä eroon joistakin yleisistä, mutta merkityksettömistä sanayhdistelmistä.*\n",
"> *Tässä muistikirjassa kokeilemme eri URL-osoitteiden käyttöä - Wikipedia-artikkelia koneoppimisesta. Voitte huomata, että toisin kuin datatieteessä, tässä artikkelissa on paljon termejä, mikä tekee analyysistä haastavampaa. Meidän täytyy keksiä toinen tapa puhdistaa dataa avainsanojen poimimisen jälkeen, jotta pääsemme eroon yleisistä, mutta ei merkityksellisistä sanayhdistelmistä.*\n",
"\n",
"Tässä esimerkissä teemme yksinkertaisen harjoituksen, joka kattaa kaikki perinteisen datatieteen prosessin vaiheet. Sinun ei tarvitse kirjoittaa koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkkailla tulosta. Haasteena sinua kannustetaan kokeilemaan tätä koodia eri datalla.\n",
"Tässä esimerkissä tehdään yksinkertainen harjoitus, joka kattaa kaikki perinteisen datatieteen prosessin vaiheet. Sinun ei tarvitse kirjoittaa koodia, voit vain klikata alla olevia soluja suorittaaksesi ne ja tarkastella tulosta. Haasteena sinua kannustetaan kokeilemaan tätä koodia erilaisilla datoilla.\n",
"\n",
"## Tavoite\n",
"\n",
"Tässä oppitunnissa olemme keskustelleet eri datatieteeseen liittyvistä käsitteistä. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme tekstillä, joka käsittelee datatiedettä, poimimme siitä avainsanoja ja yritämme sitten visualisoida tuloksen.\n",
"Tässä oppitunnissa olemme keskustelleet eri käsitteistä, jotka liittyvät datatieteeseen. Yritetään löytää lisää aiheeseen liittyviä käsitteitä tekemällä **tekstin louhintaa**. Aloitamme datatieteestä kertovalla tekstillä, poimimme siitä avainsanoja ja pyrimme sitten visualisoimaan tuloksen.\n",
"Ensimmäinen vaihe jokaisessa datatieteen prosessissa on datan hankkiminen. Käytämme siihen `requests`-kirjastoa:\n"
"Jokaisen data-analyysin ensimmäinen vaihe on datan hankinta. Käytämme siihen `requests`-kirjastoa:\n"
],
"metadata": {}
},
@ -71,43 +71,41 @@
"source": [
"## Vaihe 2: Datan muuntaminen\n",
"\n",
"Seuraava vaihe on muuntaa data käsittelyyn sopivaan muotoon. Meidän tapauksessamme olemme ladanneet HTML-lähdekoodin sivulta, ja meidän täytyy muuntaa se pelkäksi tekstiksi.\n",
"Seuraava vaihe on muuntaa data käsittelyä varten sopivaan muotoon. Meidän tapauksessamme olemme ladanneet HTML-lähdekoodin sivulta, ja meidän täytyy muuttaa se pelkkään tekstimuotoon.\n",
"\n",
"Tähän on monia tapoja. Käytämme yksinkertaisinta Pythonin sisäänrakennettua [HTMLParser](https://docs.python.org/3/library/html.parser.html) -objektia. Meidän täytyy periä `HTMLParser`-luokka ja määritellä koodi, joka kerää kaiken tekstin HTML-tägien sisältä, lukuun ottamatta `<script>`- ja `<style>`-tageja.\n"
"Tämän voi tehdä monin eri tavoin. Käytämme [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), suositun Python-kirjaston HTML:n jäsentämiseen. BeautifulSoupin avulla voimme kohdistaa tarkasti tiettyihin HTML-elementteihin, joten voimme keskittyä Wikipedian pääartikkelin sisältöön ja vähentää navigaatiovalikoita, sivupalkkeja, alatunnisteita ja muita asiaankuulumattomia osia (vaikka jonkin verran vakioleipätekstiä saattaa silti jäädä).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Ensiksi meidän täytyy asentaa BeautifulSoup-kirjasto HTML:n jäsentämiseen:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Vaihe 3: Näkemyksien saaminen\n",
"## Vaihe 3: Oivallusten saaminen\n",
"\n",
"Tärkein vaihe on muuttaa data sellaiseksi, että siitä voidaan saada näkemyksiä. Meidän tapauksessamme haluamme poimia avainsanoja tekstistä ja nähdä, mitkä avainsanat ovat merkityksellisimpiä.\n",
"Tärkein vaihe on muuttaa tietomme joksikin, josta voimme saada oivalluksia. Meidän tapauksessamme haluamme poimia avainsanoja tekstistä ja nähdä, mitkä avainsanat ovat merkityksellisempiä.\n",
"\n",
"Käytämme Python-kirjastoa nimeltä [RAKE](https://github.com/aneesha/RAKE) avainsanojen poimintaan. Asennetaan ensin tämä kirjasto, jos se ei ole jo asennettuna:\n"
"Käytämme avainsanojen poimintaan Python-kirjastoa nimeltä [RAKE](https://github.com/aneesha/RAKE). Asennetaan ensin tämä kirjasto, jos se ei vielä ole mukana: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Päätoiminnallisuus on saatavilla `Rake`-objektista, jota voimme mukauttaa joillakin parametreilla. Meidän tapauksessamme asetamme avainsanan vähimmäispituudeksi 5 merkkiä, avainsanan vähimmäisesiintymistiheydeksi dokumentissa 3 ja avainsanan enimmäissanamääräksi 2. Voit vapaasti kokeilla muita arvoja ja tarkkailla tulosta.\n"
"Päätoiminnallisuus on saatavilla `Rake`-objektista, jota voimme mukauttaa käyttämällä joitakin parametreja. Tässä tapauksessa asetamme avainsanan minimipituudeksi 5 merkkiä, avainsanan minimitaajuudeksi dokumentissa 3 ja avainsanan enimmäissanojen määräksi 2. Voit vapaasti kokeilla myös muita arvoja ja tarkkailla tulosta.\n"
],
"metadata": {}
},
@ -353,11 +351,12 @@
{
"cell_type": "markdown",
"source": [
"Saimme luettelon termeistä yhdessä niiden tärkeysasteen kanssa. Kuten huomaat, tärkeimmät alat, kuten koneoppiminen ja big data, ovat listan kärjessä.\n",
"\n",
"## Vaihe 4: Tulosten visualisointi\n",
"Saimme listan termeistä yhdessä niiden tärkeysasteen kanssa. Kuten näet, merkittävimmät alat, kuten koneoppiminen ja big data, ovat listalla ylimmillä sijoilla.\n",
"\n",
"Ihmiset ymmärtävät dataa parhaiten visuaalisessa muodossa. Siksi on usein järkevää visualisoida dataa, jotta siitä voidaan tehdä havaintoja. Voimme käyttää Pythonin `matplotlib`-kirjastoa piirtääksemme yksinkertaisen jakauman avainsanoista ja niiden merkityksestä:\n"
"## Vaihe 4: Tuloksen visualisointi\n",
"\n",
"Ihmiset pystyvät tulkitsemaan tiedot parhaiten visuaalisessa muodossa. Siksi on usein järkevää visualisoida tiedot saadakseen joitakin oivalluksia. Voimme käyttää Pythonin `matplotlib`-kirjastoa piirtämään avainsanojen jakauman niiden merkityksellisyyden mukaan:\n"
],
"metadata": {}
},
@ -392,7 +391,7 @@
{
"cell_type": "markdown",
"source": [
"On kuitenkin vielä parempi tapa havainnollistaa sanan yleisyyksiä - käyttämällä **Word Cloudia**. Meidän täytyy asentaa toinen kirjasto, jotta voimme piirtää sanapilven avainsanalistastamme.\n"
"On kuitenkin vielä parempi tapa havainnollistaa sanatiheyksiä - käyttämällä **Word Cloud** -pilveä. Meidän täytyy asentaa toinen kirjasto piirtääksemme sanapilven avainsanalistastamme.\n"
],
"metadata": {}
},
@ -408,7 +407,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objekti on vastuussa alkuperäisen tekstin tai valmiiksi lasketun sanalistan ja niiden esiintymistiheyksien vastaanottamisesta ja palauttaa kuvan, joka voidaan sitten näyttää käyttämällä `matplotlib`:\n"
"`WordCloud`-olio vastaa joko alkuperäisen tekstin tai ennalta laskettujen sanojen ja niiden frekvenssien vastaanottamisesta, ja palauttaa kuvan, joka voidaan sitten näyttää käyttäen `matplotlib`ia:\n"
],
"metadata": {}
},
@ -441,7 +440,7 @@
{
"cell_type": "markdown",
"source": [
"Voimme myös syöttää alkuperäisen tekstin `WordCloud`-luokkaan - katsotaan, pystymmekö saamaan samanlaisen tuloksen:\n"
"Voimme myös syöttää alkuperäisen tekstin `WordCloud`-funktiolle - katsotaan, saammeko samanlaisen tuloksen:\n"
],
"metadata": {}
},
@ -490,9 +489,9 @@
{
"cell_type": "markdown",
"source": [
"Voit nähdä, että sanapilvi näyttää nyt vaikuttavammalta, mutta se sisältää myös paljon kohinaa (esim. asiaankuulumattomia sanoja, kuten `Retrieved on`). Lisäksi saamme vähemmän avainsanoja, jotka koostuvat kahdesta sanasta, kuten *data scientist* tai *computer science*. Tämä johtuu siitä, että RAKE-algoritmi tekee paljon paremman työn valitessaan hyviä avainsanoja tekstistä. Tämä esimerkki havainnollistaa, kuinka tärkeää on esikäsitellä ja puhdistaa dataa, koska selkeä lopputulos auttaa meitä tekemään parempia päätöksiä.\n",
"Voit nähdä, että sanapilvi näyttää nyt vaikuttavammalta, mutta se sisältää myös paljon melua (esim. epäolennaisia sanoja kuten `Retrieved on`). Lisäksi saamme vähemmän avainsanoja, jotka koostuvat kahdesta sanasta, kuten *data scientist* tai *computer science*. Tämä johtuu siitä, että RAKE-algoritmi tekee paljon paremman työn valitessaan hyviä avainsanoja tekstistä. Tämä esimerkki havainnollistaa datan esikäsittelyn ja puhdistuksen tärkeyttä, koska selkeä lopputulos antaa meille mahdollisuuden tehdä parempia päätöksiä.\n",
"\n",
"Tässä harjoituksessa olemme käyneet läpi yksinkertaisen prosessin, jossa olemme poimineet merkityksiä Wikipedia-tekstistä avainsanojen ja sanapilven muodossa. Tämä esimerkki on melko yksinkertainen, mutta se havainnollistaa hyvin kaikki tyypilliset vaiheet, jotka data-analyytikko käy läpi työskennellessään datan kanssa, alkaen datan hankinnasta aina visualisointiin asti.\n",
"Tässä harjoituksessa olemme käyneet läpi yksinkertaisen prosessin merkityksen poimimiseksi Wikipedian tekstistä avainsanojen ja sanapilven muodossa. Tämä esimerkki on melko yksinkertainen, mutta se havainnollistaa hyvin kaikki tyypilliset vaiheet, joita data-analyytikko käy läpi työskennellessään datan kanssa, alkaen datan hankinnasta ja päättyen visualisointiin.\n",
"\n",
"Kurssillamme käsittelemme kaikki nämä vaiheet yksityiskohtaisesti.\n"
],
@ -502,7 +501,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Vastuuvapauslauseke**:\nTämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulisi pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa väärinkäsityksistä tai virhetulkinnoista, jotka johtuvat tämän käännöksen käytöstä.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Vastuuvapauslauseke**:\nTämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Vaikka pyrimme tarkkuuteen, ota huomioon, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää auktoritatiivisena lähteenä. Tärkeiden tietojen osalta suositellaan ammattilaisten tekemää ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä johtuvista väärinymmärryksistä tai tulkinnoista.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Tilastotiede ja todennäköisyysteoria ovat kaksi läheisesti liittyvää matematiikan osa-aluetta, jotka ovat erittäin tärkeitä datatieteessä. Vaikka dataa voi käsitellä ilman syvällistä matematiikan tuntemusta, on silti hyödyllistä ymmärtää ainakin peruskäsitteet. Tässä esittelemme lyhyen johdannon, joka auttaa sinua pääsemään alkuun.
@ -30,7 +30,7 @@ Jatkuvan muuttujan todennäköisyysjakauman kuvaaminen on vaikeampaa, kun arvot
Voimme puhua vain todennäköisyydestä, että muuttuja osuu tietylle arvojen välille, esim. P(t<sub>1</sub>≤X<t<sub>2</sub>). Tässä tapauksessa todennäköisyysjakauma kuvataan **tiheysfunktiolla** p(x), siten että
Jatkuvan tasajakauman analogia on **jatkuva tasajakauma**, joka määritellään äärelliselle välille. Todennäköisyys, että arvo X osuu pituudeltaan l olevaan väliin, on verrannollinen l:n pituuteen ja kasvaa arvoon 1.
@ -73,11 +73,11 @@ Kun analysoimme tosielämän dataa, ne eivät usein ole varsinaisia satunnaismuu
Tässä on laatikko- ja viiksikaavio, joka näyttää datamme keskiarvon, mediaanin ja kvartiilit:


Koska datamme sisältää tietoa eri pelaajien **rooleista**, voimme myös tehdä laatikko- ja viiksikaavion roolin mukaan – tämä antaa käsityksen siitä, miten parametrien arvot vaihtelevat roolien välillä. Tällä kertaa tarkastelemme pituutta:


Tämä diagrammi viittaa siihen, että ensimmäisen pesämiehen keskimääräinen pituus on suurempi kuin toisen pesämiehen. Myöhemmin tässä oppitunnissa opimme, kuinka voimme testata tätä hypoteesia muodollisemmin ja osoittaa, että datamme on tilastollisesti merkittävää tämän osoittamiseksi.
@ -85,7 +85,7 @@ Tämä diagrammi viittaa siihen, että ensimmäisen pesämiehen keskimääräine
Jotta voimme nähdä, millainen datamme jakauma on, voimme piirtää kaavion, jota kutsutaan **histogrammiksi**. X-akselilla on eri painovälien lukumäärä (niin sanotut **bin**-arvot), ja pystyakselilla näytetään, kuinka monta kertaa satunnaismuuttujan otos osui tiettyyn väliin.
Tästä histogrammista näet, että kaikki arvot keskittyvät tietyn keskipainon ympärille, ja mitä kauemmas keskipainosta mennään, sitä harvemmin kyseisen painon arvoja esiintyy. Toisin sanoen on hyvin epätodennäköistä, että baseball-pelaajan paino poikkeaisi merkittävästi keskipainosta. Painojen varianssi osoittaa, kuinka paljon painot todennäköisesti eroavat keskiarvosta.
Jos piirrämme histogrammin luoduista näytteistä, näemme kuvan, joka on hyvin samanlainen kuin yllä oleva. Ja jos lisäämme näytteiden ja binien määrää, voimme luoda normaalijakauman kuvan, joka on lähempänä ideaalia:


*Normaalijakauma, keskiarvo=0 ja keskihajonta=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
Tässä tapauksessa arvo 0.53 osoittaa, että henkilön painon ja pituuden välillä on jonkin verran korrelaatiota. Voimme myös tehdä hajontakaavion yhdestä arvosta toista vastaan nähdäksesi suhteen visuaalisesti:


> Lisää esimerkkejä korrelaatiosta ja kovarianssista löytyy [liitteenä olevasta muistikirjasta](notebook.ipynb).
Näissä oppitunneissa opit, miten Data Science määritellään, ja tutustut eettisiin näkökohtiin, jotka data scientistin tulee ottaa huomioon. Lisäksi opit, mitä data tarkoittaa, ja saat perustiedot tilastotieteestä ja todennäköisyyslaskennasta, jotka ovat Data Sciencen keskeisiä akateemisia aloja.
Vaikka tietokannat tarjoavat erittäin tehokkaita tapoja tallentaa dataa ja tehdä kyselyitä kyselykielillä, joustavin tapa käsitellä dataa on kirjoittaa oma ohjelma datan muokkaamiseen. Monissa tapauksissa tietokantakysely olisi tehokkaampi tapa. Kuitenkin joissakin tapauksissa, kun tarvitaan monimutkaisempaa datan käsittelyä, sitä ei voida helposti tehdä SQL:llä.
Datan käsittelyä voidaan ohjelmoida millä tahansa ohjelmointikielellä, mutta tietyt kielet ovat korkeammalla tasolla datan käsittelyn suhteen. Datatieteilijät suosivat yleensä yhtä seuraavista kielistä:
@ -64,7 +64,7 @@ print(f"Length of index is {len(idx)}")
Oletetaan nyt, että järjestämme joka viikko juhlat ystäville, ja otamme juhliin 10 ylimääräistä jäätelöpakkausta. Voimme luoda toisen sarjan, joka on indeksoitu viikoittain, osoittamaan tätä:
```python
@ -75,7 +75,7 @@ Kun lisäämme kaksi sarjaa yhteen, saamme kokonaismäärän:
> **Huomio**: Emme käytä yksinkertaista syntaksia `total_items+additional_items`. Jos tekisimme niin, saisimme paljon `NaN` (*Not a Number*) -arvoja tuloksena olevaan sarjaan. Tämä johtuu siitä, että `additional_items`-sarjassa on puuttuvia arvoja joillekin indeksipisteille, ja `NaN`-arvon lisääminen mihin tahansa johtaa `NaN`:iin. Siksi meidän täytyy määrittää `fill_value`-parametri lisäyksen aikana.
@ -84,7 +84,7 @@ Aikasarjojen kanssa voimme myös **resamplata** sarjan eri aikaväleillä. Esime
@ -210,7 +210,7 @@ Ensimmäinen ongelma, johon keskitymme, on COVID-19:n epidemian leviämisen mall
Koska haluamme demonstroida, miten dataa käsitellään, kutsumme sinut avaamaan [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ja lukemaan sen alusta loppuun. Voit myös suorittaa soluja ja tehdä joitakin haasteita, jotka olemme jättäneet sinulle loppuun.
> Jos et tiedä, miten suorittaa koodia Jupyter Notebookissa, tutustu [tähän artikkeliin](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -232,7 +232,7 @@ Täydellinen esimerkki tämän datasetin analysoinnista [Text Analytics for Heal
Avaa [`notebook-papers.ipynb`](notebook-papers.ipynb) ja lue se alusta loppuun. Voit myös suorittaa soluja ja tehdä joitakin haasteita, jotka olemme jättäneet sinulle loppuun.
Näissä oppitunneissa opit joitakin tapoja, joilla dataa voidaan hallita, käsitellä ja käyttää sovelluksissa. Opit relaatiotietokannoista ja ei-relaatiotietokannoista sekä siitä, miten dataa voidaan tallentaa niihin. Opit Pythonin perusteet datan hallintaan ja tutustut moniin tapoihin, joilla voit käyttää Pythonia datan hallintaan ja analysointiin.
Näytä nyt sama data hunajavärisävyillä, jotka kuvaavat hinnan kehitystä vuosien varrella. Voit tehdä tämän lisäämällä 'hue'-parametrin, joka näyttää muutoksen vuosi vuodelta:
@ -51,7 +51,7 @@ Näytä nyt sama data hunajavärisävyillä, jotka kuvaavat hinnan kehitystä vu
Tämän värisävyjen muutoksen avulla näet selvästi vahvan kehityksen hunajan hinnassa vuosien varrella. Jos tarkastelet datan otosta varmistaaksesi (valitse esimerkiksi Arizona), näet hintojen nousun vuosi vuodelta, muutamia poikkeuksia lukuun ottamatta:
Onko tämä yksinkertainen tapaus kysynnän ja tarjonnan laista? Ilmastonmuutoksen ja pesäkatojen kaltaisten tekijöiden vuoksi, onko hunajaa vähemmän saatavilla vuosi vuodelta, ja siksi hinta nousee?
✅ Koska Seaborn yhdistää datan yhdeksi viivaksi, se näyttää "useat mittaukset kussakin x-arvossa piirtämällä keskiarvon ja 95 %:n luottamusvälin keskiarvon ympärille". [Lähde](https://seaborn.pydata.org/tutorial/relational.html). Tämä aikaa vievä toiminto voidaan poistaa lisäämällä `ci=None`.
@ -105,7 +105,7 @@ Kysymys: No, vuonna 2003, näkyykö myös piikki hunajan tarjonnassa? Entä jos
Vastaus: Ei oikeastaan. Jos tarkastelet kokonaistuotantoa, se näyttää itse asiassa kasvaneen kyseisenä vuonna, vaikka yleisesti ottaen hunajan tuotantomäärä on laskussa näinä vuosina.
@ -130,7 +130,7 @@ sns.relplot(
```
Tässä visualisoinnissa voit verrata pesien tuottoa ja pesämäärää vuosi vuodelta rinnakkain, sarakkeiden wrap-asetuksella 3:
Tämän datasetin osalta mikään ei erityisesti erotu pesien määrän ja niiden tuoton osalta vuosi vuodelta ja osavaltioittain. Onko olemassa toinen tapa tarkastella korrelaatiota näiden kahden muuttujan välillä?
Vaikka mikään ei erityisesti erotu vuoden 2003 tienoilla, tämä antaa meille mahdollisuuden päättää oppitunti hieman iloisemmalla nuotilla: vaikka pesien määrä on yleisesti laskussa, pesien määrä näyttää vakiintuvan, vaikka niiden tuotto per pesä on laskussa.
Tässä asennetaan `ggplot2`-kirjasto ja tuodaan se työtilaan komennolla `library("ggplot2")`. Kaavion piirtämiseen ggplotissa käytetään `ggplot()`-funktiota, jossa määritetään datasetti, x- ja y-muuttujat attribuuteiksi. Tässä tapauksessa käytetään `geom_line()`-funktiota, koska tavoitteena on piirtää viivakaavio.
Mitä huomaat heti? Näyttää olevan ainakin yksi poikkeama - melko vaikuttava siipiväli! Yli 2000 senttimetrin siipiväli vastaa yli 20 metriä - onko Minnesotassa lentäviä pterosauruksia? Tutkitaan asiaa.
Vaikka selitteiden kiertokulma on asetettu 45 asteeseen, niitä on silti liikaa luettavaksi. Kokeillaan toista strategiaa: merkitään vain poikkeamat ja asetetaan selitteet kaavion sisälle. Voit käyttää hajontakaaviota, jotta selitteille jää enemmän tilaa:
@ -91,7 +91,7 @@ Mitä tässä tapahtuu? Käytit `geom_point()`-funktiota hajontapisteiden piirt
Seuraavassa koodissa asennetaan [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)- ja [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0)-kirjastot, jotka auttavat datan käsittelyssä ja ryhmittelyssä pinotun pylväsdiagrammin piirtämiseksi. Ensin ryhmitellään data lintujen `Category`-sarakkeen mukaan ja tiivistetään sarakkeet `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Sitten piirretään pylväsdiagrammi `ggplot2`-kirjaston avulla ja määritetään eri kategorioiden värit ja selitteet.


Tämä pylväsdiagrammi on kuitenkin vaikeasti luettavissa, koska siinä on liikaa ryhmittelemätöntä dataa. Sinun täytyy valita vain data, jonka haluat piirtää, joten tarkastellaan lintujen pituutta kategorian perusteella.
Ensin lasketaan `Category`-sarakkeen uniikit arvot ja lajitellaan ne uuteen dataframeen `birds_count`. Tämä lajiteltu data järjestetään samalle tasolle, jotta se piirretään järjestyksessä. Käyttämällä `ggplot2`-kirjastoa piirretään data pylväsdiagrammiin. `coord_flip()` piirtää vaakapalkit.
Tämä pylväsdiagrammi näyttää hyvän näkymän lintujen lukumäärästä kussakin kategoriassa. Silmänräpäyksessä näet, että suurin osa tämän alueen linnuista kuuluu Ankat/hanhet/vesilinnut-kategoriaan. Minnesota on "10 000 järven maa", joten tämä ei ole yllättävää!
Tässä ei ole mitään yllättävää: kolibrit ovat pienimpiä maksimaalisen pituuden osalta verrattuna pelikaaniin tai hanhiin. On hyvä, kun data on loogista!


Tämä antaa yleiskuvan kehon pituuden jakaumasta lintulahkoittain, mutta se ei ole paras tapa esittää todellisia jakaumia. Tätä tehtävää varten käytetään yleensä histogrammia.
@ -48,7 +48,7 @@ Tämä antaa yleiskuvan kehon pituuden jakaumasta lintulahkoittain, mutta se ei


Kuten näet, suurin osa tämän datasetin yli 400 linnusta kuuluu alle 2000:n Max Body Mass -alueeseen. Saat lisää tietoa datasta muuttamalla `bins`-parametrin suuremmaksi, esimerkiksi 30:ksi:
@ -56,7 +56,7 @@ Kuten näet, suurin osa tämän datasetin yli 400 linnusta kuuluu alle 2000:n Ma
Tämä kaavio näyttää jakauman hieman tarkemmin. Vähemmän vasemmalle vinoutunut kaavio voidaan luoda varmistamalla, että valitset vain tietyn alueen sisällä olevan datan:


Näyttää siltä, ettei minimisiipivälin ja suojelustatuksen välillä ole selvää korrelaatiota. Testaa datasetin muita elementtejä tällä menetelmällä. Voit kokeilla myös erilaisia suodattimia. Löydätkö mitään korrelaatiota?
@ -127,7 +127,7 @@ Työskennellään nyt tiheyskäyrien parissa!
Näet, kuinka käyrä muistuttaa aiempaa minimisiipivälin kaaviota; se on vain hieman tasaisempi. Jos haluat tarkastella uudelleen sitä epätasaista MaxBodyMass-käyrää, jonka loit toisessa kaaviossa, voit tasoittaa sen hyvin luomalla sen uudelleen tällä menetelmällä:
@ -135,7 +135,7 @@ Näet, kuinka käyrä muistuttaa aiempaa minimisiipivälin kaaviota; se on vain


✅ Lue tämän kaaviotyypin käytettävissä olevista parametreista ja kokeile!
@ -153,7 +153,7 @@ Tämä kaaviotyyppi tarjoaa kauniita ja selittäviä visualisointeja. Esimerkiks
ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) +
geom_density(alpha=0.5)
```


Voila, piirakkakaavio, joka näyttää tämän datan osuudet näiden kahden sieniluokan mukaan. On erittäin tärkeää saada tunnisteiden järjestys oikein, erityisesti tässä, joten varmista tunnisteiden järjestys ennen kaavion rakentamista!
Vohvelikaaviota käyttämällä voit selkeästi nähdä sienilakkien värien osuudet tässä datasetissä. Mielenkiintoista on, että on paljon vihreälakkisia sieniä!
Tässä oppitunnissa opit kolme tapaa visualisoida osuuksia. Ensin sinun täytyy ryhmitellä data kategorioihin ja sitten päättää, mikä on paras tapa esittää data - piirakka, donitsi tai vohveli. Kaikki ovat herkullisia ja tarjoavat käyttäjälle välittömän katsauksen datasettiin.
Näytä nyt sama data hunajan värimaailmalla, joka havainnollistaa hinnan kehitystä vuosien varrella. Voit tehdä tämän lisäämällä 'scale_color_gradientn'-parametrin, joka näyttää muutoksen vuosi vuodelta:
@ -52,7 +52,7 @@ Näytä nyt sama data hunajan värimaailmalla, joka havainnollistaa hinnan kehit
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Tämän värimaailman avulla näet selvästi, että hunajan hinta per pauna on selvästi noussut vuosien varrella. Jos tarkastelet esimerkiksi Arizonan osavaltiota, voit havaita hintojen nousun vuosi vuodelta, muutamia poikkeuksia lukuun ottamatta:
Onko kyseessä yksinkertainen kysynnän ja tarjonnan laki? Ilmastonmuutoksen ja mehiläispesien romahtamisen vuoksi onko hunajaa vuosi vuodelta vähemmän saatavilla, mikä nostaa hintaa?
Vastaus: Ei oikeastaan. Jos tarkastelet kokonaistuotantoa, se näyttää itse asiassa kasvaneen kyseisenä vuonna, vaikka yleisesti ottaen hunajantuotanto on ollut laskussa näinä vuosina.
Tässä datasetissä mikään ei erityisesti erotu pesien määrän ja niiden tuoton osalta vuosi vuodelta ja osavaltioittain. Onko olemassa jokin toinen tapa löytää korrelaatio näiden kahden muuttujan välillä?
Vaikka mikään ei erityisesti erotu vuoden 2003 kohdalla, tämä antaa meille mahdollisuuden päättää oppitunti hieman positiivisemmalla nuotilla: vaikka pesien määrä on yleisesti ottaen laskussa, niiden määrä näyttää vakiintuvan, vaikka tuotto per pesä onkin laskussa.
@ -38,25 +38,25 @@ Aiemmissa oppitunneissa kokeilit erilaisten datavisualisointien rakentamista Mat
Vaikka datatieteilijä valitsisi oikean kaavion oikealle datalle, on monia tapoja esittää dataa harhaanjohtavasti, usein datan kustannuksella. Harhaanjohtavia kaavioita ja infografiikoita on paljon!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Klikkaa yllä olevaa kuvaa nähdäksesi konferenssipuheen harhaanjohtavista kaavioista
Tässä kaaviossa X-akseli on käännetty, jotta totuus näyttäisi päinvastaiselta päivämäärien perusteella:
[Tämä kaavio](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) on vielä harhaanjohtavampi, sillä katsojan huomio kiinnittyy oikealle, jolloin syntyy vaikutelma, että COVID-tapaukset ovat vähentyneet eri maakunnissa. Tarkemmin katsottuna päivämäärät on kuitenkin järjestetty uudelleen, jotta saadaan aikaan harhaanjohtava laskeva trendi.
Tämä tunnettu esimerkki käyttää värejä JA käännettyä Y-akselia harhauttaakseen: sen sijaan, että asekuolemat olisivat lisääntyneet aselainsäädännön muutosten jälkeen, katsoja saadaan uskomaan päinvastaista:
Vertailu, joka ei ole vertailukelpoista, on toinen kyseenalainen temppu. On olemassa [mahtava verkkosivusto](https://tylervigen.com/spurious-correlations), joka esittelee "näennäisiä korrelaatioita", kuten Mainen avioeroprosentin ja margariinin kulutuksen välisiä "faktoja". Redditissä on myös ryhmä, joka kerää [huonoja datan käyttötapoja](https://www.reddit.com/r/dataisugly/top/?t=all).
@ -91,13 +91,13 @@ Merkitse akselit, lisää selite tarvittaessa ja tarjoa työkaluja datan parempa
Jos datasi on tekstuaalista ja X-akselilla on paljon tekstiä, voit kallistaa tekstiä luettavuuden parantamiseksi. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) tarjoaa 3D-plottausta, jos datasi tukee sitä. Sen avulla voidaan tuottaa hienostuneita datavisualisointeja.
Jotkut parhaista datavisualisoinneista nykyään ovat animoituja. Shirley Wu on tehnyt upeita visualisointeja D3:lla, kuten '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', jossa jokainen kukka on elokuvan visualisointi. Toinen esimerkki Guardianille on 'bussed out', interaktiivinen kokemus, joka yhdistää visualisointeja Greensockin ja D3:n avulla sekä artikkelin, joka kertoo, kuinka NYC käsittelee kodittomien ongelmaa lähettämällä ihmisiä pois kaupungista.
> "Bussed Out: How America Moves its Homeless" [Guardianista](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualisoinnit: Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Vaikka tämä oppitunti ei riitä opettamaan näitä tehokkaita visualisointikir
Toteutat verkkosovelluksen, joka näyttää animoidun näkymän tästä sosiaalisesta verkostosta. Se käyttää kirjastoa, joka on rakennettu [verkoston visualisointiin](https://github.com/emiliorizzo/vue-d3-network) Vue.js:n ja D3:n avulla. Kun sovellus on käynnissä, voit siirrellä solmuja näytöllä ja järjestellä dataa uudelleen.
Datan visualisointi on yksi data-analyytikon tärkeimmistä tehtävistä. Kuva kertoo enemmän kuin tuhat sanaa, ja visualisointi voi auttaa sinua tunnistamaan kaikenlaisia mielenkiintoisia piirteitä datassasi, kuten piikkejä, poikkeamia, ryhmittymiä, suuntauksia ja paljon muuta, jotka auttavat sinua ymmärtämään, mitä tarinaa datasi yrittää kertoa.
Kun käsitellään suuria datamääriä data science -projektissa, pilvilaskenta voi olla todellinen pelin muuttaja. Seuraavien kolmen oppitunnin aikana tutustumme siihen, mitä pilvilaskenta on ja miksi se voi olla erittäin hyödyllistä. Lisäksi tutkimme sydämen vajaatoimintaa koskevaa datasettiä ja rakennamme mallin, joka auttaa arvioimaan sydämen vajaatoiminnan todennäköisyyttä. Käytämme pilvilaskennan voimaa mallin kouluttamiseen, käyttöönottoon ja hyödyntämiseen kahdella eri tavalla: ensimmäinen tapa hyödyntää pelkästään käyttöliittymää Low code/No code -tyylillä, ja toinen tapa käyttää Azure Machine Learning Software Developer Kit (Azure ML SDK) -työkalua.
@ -32,7 +32,7 @@ AI:n demokratisoinnin ansiosta kehittäjien on nyt helpompi suunnitella ja integ
* [Data Science terveydenhuollossa](https://data-flair.training/blogs/data-science-in-healthcare/) - korostaa sovelluksia, kuten lääketieteellinen kuvantaminen (esim. MRI, röntgen, CT-skannaus), genomiikka (DNA-sekvensointi), lääkekehitys (riskinarviointi, onnistumisen ennustaminen), ennustava analytiikka (potilashoito ja toimituslogistiikka), tautien seuranta ja ehkäisy jne.
Kuvassa näkyy muita aloja ja esimerkkejä data science -tekniikoiden soveltamisesta. Haluatko tutkia muita sovelluksia? Katso [Review & Self Study](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) -osio alta.
# Data Science aloittelijoille - Opetussuunnitelma
[](https://github.com/codespaces/new?hide_repo_select=true&ref=main&repo=344191198)
Microsoftin Azure Cloud Advocates ilolla tarjoavat 10 viikon, 20 oppitunnin opetussuunnitelman, joka käsittelee Data Sciencea. Jokainen oppitunti sisältää ennakko- ja jälkikyselyt, kirjalliset ohjeet oppitunnin suorittamiseen, ratkaisun sekä tehtävän. Projektipohjainen opetustapamme antaa sinun oppia samalla kun rakennat, mikä on todistettu tapa saada uudet taidot "jämähtämään".
Microsoftin Azure Cloud Advocates ilolla tarjoavat 10 viikon, 20 oppitunnin opetussuunnitelman, joka käsittelee Data Sciencea. Jokainen oppitunti sisältää ennakko- ja jälkikyselyt, kirjalliset ohjeet oppitunnin suorittamiseen, ratkaisun sekä tehtävän. Projektipohjainen opetusmenetelmämme sallii oppimisen tekemällä, mikä on todistettu tapa uuden taidon omaksumiseen.
> Tämä arkisto sisältää yli 50 kielen käännökset, mikä lisää merkittävästi latauskokoa. Jos haluat kloonata ilman käännöksiä, käytä tiivistettyä checkoutia:
>
> Tämä repositorio sisältää yli 50 kielen käännökset, mikä lisää merkittävästi latauskokoa. Jos haluat kloonata ilman käännöksiä, käytä sparse checkout -toimintoa:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Tämä antaa sinulle kaiken tarvitsemasi kurssin suorittamiseen paljon nopeammalla latauksella.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Jos haluat lisäkielitukea, tuetut kielet löytyvät [täältä](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Jos haluat lisättyjä käännöskieliä, tuetut kielet on listattu [tässä](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Meillä on käynnissä Discord-oppimissarja AI:n kanssa, opi lisää ja liity mukaan osoitteessa [Learn with AI Series](https://aka.ms/learnwithai/discord) 18.-30. syyskuuta 2025. Saat vinkkejä ja niksejä GitHub Copilotin käyttämiseen Data Science -tehtävissä.
Meillä on käynnissä Discord opi tekoälyn kanssa -sarja, opi lisää ja liity mukaan [Learn with AI Series](https://aka.ms/learnwithai/discord) 18.–30. syyskuuta 2025. Saat vinkkejä ja temppuja GitHub Copilotin käyttämiseen Data Sciencessa.

@ -59,144 +69,143 @@ Meillä on käynnissä Discord-oppimissarja AI:n kanssa, opi lisää ja liity mu
Aloita seuraavista resursseista:
- [Opiskelijakeskus-sivu](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Tältä sivulta löydät aloittelijaystävällisiä resursseja, opiskelijapaketteja ja jopa tapoja saada ilmainen sertifikaattikuponki. Tämä on sivu, jonka haluat tallentaa kirjanmerkkeihisi ja tarkistaa säännöllisesti, sillä sisältöä päivitetään vähintään kerran kuukaudessa.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Liity maailmanlaajuiseen opiskelija-ambassadoreiden yhteisöön, tämä voi olla sinun tapasi päästä Microsoftille töihin.
- [Student Hub -sivu](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Tältä sivulta löydät aloittelijoille tarkoitettuja resursseja, opiskelijapaketteja ja jopa tapoja saada ilmainen sertifikaattivoucher. Tämä on sivu, johon kannattaa laittaa kirjanmerkki ja tarkistaa säännöllisesti, sillä sisältöä päivitetään vähintään kuukausittain.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Liity globaalin opiskelija-ambassadoreiden yhteisöön, tämä voi olla sinun tie Microsoftiin.
- **[Osallistumisohjeet](CONTRIBUTING.md)** - Kuinka osallistua tähän projektiin
- **[Opettajille](for-teachers.md)** - Opetusopas ja luokkahuoneen resurssit
## 👨🎓 Opiskelijoille
> **Täysin aloittelijat**: Uusi data sciencen parissa? Ala meidän [aloittelijaystävällisistä esimerkeistä](examples/README.md)! Nämä yksinkertaiset, hyvin kommentoidut esimerkit auttavat sinua ymmärtämään perusteet ennen täyden opetussuunnitelman aloittamista.
> **[Opiskelijat](https://aka.ms/student-page)**: käyttääksesi tätä opetussuunnitelmaa itsenäisesti, tee repo forkiksi ja suorita harjoitukset itse, aloittaen ennakkotestillä. Lue sitten luento ja suorita loput tehtävistä. Yritä luoda projektit ymmärtämällä oppitunnit, älä vain kopioimalla ratkaisukoodia; se on kuitenkin saatavilla /solutions-kansioissa jokaisessa projektilähtöisessä oppitunnissa. Toinen idea on perustaa opiskeluryhmä ystävien kanssa ja käydä sisältö yhdessä läpi. Syvempään opiskeluun suosittelemme [Microsoft Learnia](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Täysin aloittelijat**: Oletko uusi data sciencen parissa? Aloita meidän [aloittelijaystävällisistä esimerkeistämme](examples/README.md)! Nämä yksinkertaiset, hyvin kommentoidut esimerkit auttavat sinua ymmärtämään perusteet ennen kuin sukellat kokonaisiin oppitunteihin.
> **[Opiskelijat](https://aka.ms/student-page)**: käyttämään tätä opetussuunnitelmaa itsenäisesti, haarauta koko repositorio ja tee harjoitukset itse, aloittaen ennakkokyselyllä. Sen jälkeen lue luento ja suorita loput tehtävistä. Yritä luoda projektit ymmärtämällä oppitunnit kopioimisen sijaan; ratkaisukoodi on kuitenkin saatavilla /solutions-kansioissa jokaisessa projekti-suuntaisessa oppitunnissa. Toinen idea on muodostaa opintoryhmä ystävien kanssa ja käydä sisältö yhdessä läpi. Lisäopiskelua varten suosittelemme [Microsoft Learnia](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Nopea aloitus:**
1. Katso [Asennusopas](INSTALLATION.md) ympäristösi perustamiseksi
2. Käy läpi [Käyttöopas](USAGE.md) opetussuunnitelman käyttötapoja varten
3. Aloita Oppitunnista 1 ja etene järjestyksessä
4. Liity meidän [Discord-yhteisöömme](https://aka.ms/ds4beginners/discord) saadaksesi tukea
**Pika-aloitus:**
1. Tarkista [Asennusopas](INSTALLATION.md) ympäristön pystyttämiseksi
2. Tutustu [Käyttöoppaaseen](USAGE.md) oppiaksesi opetussuunnitelman käytön
3. Aloita Oppitunnista 1 ja käy läpi peräkkäin
4. Liity [Discord-yhteisöömme](https://aka.ms/ds4beginners/discord) saadaksesi tukea
> 🎥 Klikkaa yllä olevaa kuvaa katsoaksesi video projektista ja ihmisistä, jotka sen loivat!
> 🎥 Klikkaa yllä olevaa kuvaa nähdäksesi videon projektista ja sen tekijöistä!
## Pedagogiikka
Olemme valinneet tämän opetussuunnitelman rakentamisessa kaksi pedagogista periaatetta: varmistamme, että se perustuu projekteihin ja että siihen sisältyy usein kyselyitä. Sarjan lopuksi opiskelijat ovat oppineet data-analytiikan perusperiaatteet, mukaan lukien eettiset käsitteet, datan valmistelun, erilaiset tavat työskennellä datan kanssa, datan visualisoinnin, datan analysoinnin, data-analytiikan käytännön käyttötapaukset ja paljon muuta.
Olemme valinneet kaksi pedagogista periaatetta tätä opetussuunnitelmaa rakentaessamme: varmistaa, että se perustuu projekteihin ja sisältää säännöllisiä visailuja. Sarjan lopussa opiskelijat ovat oppineet datatieteen perusteet, mukaan lukien eettiset käsitteet, datan valmistelun, erilaisia tapoja työskennellä datan kanssa, datan visualisoinnin, data-analyysin, datatieteen käytännön sovellukset ja paljon muuta.
Lisäksi matalan panoksen ennakkokysely ennen oppituntia asettaa opiskelijan oppimistavoitteen, kun taas toinen kysely oppitunnin jälkeen varmistaa tiedon pysyvyyden. Tämä opetussuunnitelma on suunniteltu joustavaksi ja hauskaksi ja sen voi käydä kokonaan tai osittain. Projektit alkavat pieninä ja monimutkaistuvat vähitellen 10 viikon jakson loppua kohden.
Lisäksi matalan panoksen visailu ennen oppituntia asettaa opiskelijalle tarkoituksen oppia aihe, ja toinen visailu oppitunnin jälkeen varmistaa paremman tiedon säilymisen. Tämä opetussuunnitelma on suunniteltu joustavaksi ja viihdyttäväksi, ja sen voi suorittaa kokonaan tai osittain. Projektit alkavat pienestä ja monimutkaistuvat vähitellen 10 viikon jakson aikana.
> Löydät [käyttäytymissääntömme](CODE_OF_CONDUCT.md), [osallistumisohjeet](CONTRIBUTING.md) ja [käännösohjeet](TRANSLATIONS.md). Otamme mielellämme vastaan rakentavaa palautettasi!
> Löydät [käyttäytymissääntömme](CODE_OF_CONDUCT.md), [yhteistyöohjeet](CONTRIBUTING.md) ja [käännösohjeet](TRANSLATIONS.md). Otamme mielellämme vastaan rakentavaa palautetta!
## Jokainen oppitunti sisältää:
- Valinnainen luonnosmuistiinpano
- Valinnainen muistiinpanokartta
- Valinnainen lisävideo
- Ennakkokysely lämmittelyksi
- Ennen oppituntia tehtävä lämmittelyvisailu
- Kirjallinen oppitunti
- Projektipohjaisissa oppitunneissa askel askeleelta ohjeet projektin rakentamiseen
- Tiedon tarkistuksia
- Projektioppitunneissa vaiheittaiset ohjeet projektin rakentamiseen
> **Huomio kyselyistä**: Kaikki kyselyt ovat Quiz-App-kansiossa, yhteensä 40 kyselyä, joissa jokaisessa on kolme kysymystä. Ne linkitetään oppitunneissa, mutta kyselyohjelman voi ajaa paikallisesti tai ottaa käyttöön Azureen; noudata ohjeita `quiz-app`-kansiossa. Ne ovat asteittain lokalisoitumassa.
> **Huomautus visailuista**: Kaikki visailut ovat Quiz-App-kansiossa, yhteensä 40 visailua, joissa jokaisessa on kolme kysymystä. Ne on linkitetty oppituntien sisältä, mutta visailusovellusta voi ajaa paikallisesti tai ottaa käyttöön Azureen; tutustu ohjeisiin `quiz-app`-kansiossa. Visailuja ollaan asteittain lokalisoimassa.
## 🎓 Aloittelijaystävälliset esimerkit
**Uusi data-analytiikassa?** Olemme laatineet erityisen [esimerkkihakemiston](examples/README.md), jossa on yksinkertaista ja hyvin kommentoitua koodia auttamassa alkuun:
**Uusi datatieteessä?** Olemme luoneet erillisen [esimerkkihakemiston](examples/README.md), jossa on yksinkertaista ja hyvin kommentoitua koodia auttamaan alkuun pääsyssä:
- 🌟 **Hei maailma**– Ensimmäinen data-analytiikkaohjelmasi
- 📂 **Datan lataaminen**– Opettele lukemaan ja tutkimaan aineistoja
- 📊 **Yksinkertainen analyysi**– Laske tilastoja ja etsi kuvioita
- 📈 **Perusvisualisointi**– Luo kaavioita ja graafeja
- 🔬 **Todellinen projekti**– Täysi työnkulku alusta loppuun
- 🌟 **Hei maailma**- Ensimmäinen datatieteohjelmasi
- 📂 **Datan lataaminen**- Opettele lukemaan ja tutkimaan aineistoja
- 📊 **Yksinkertainen analyysi**- Laske tilastoja ja löydä kaavoja
- 📈 **Perusvisualisointi**- Luo kaavioita ja graafeja
- 🔬 **Todellinen projekti**- Koko työnkulku alusta loppuun
Jokainen esimerkki sisältää yksityiskohtaiset kommentit, jotka selittävät jokaisen vaiheen, joten se sopii täydellisesti aivan aloitteleville!
Jokaisessa esimerkissä on yksityiskohtaiset kommentit, jotka selittävät jokaista askelta, joten ne sopivat erinomaisesti täysin aloittelijoille!
| 01 | Data-analytiikan määrittely | [Johdanto](1-Introduction/README.md) | Opettele data-analytiikan peruskäsitteet ja sen yhteydet tekoälyyn, koneoppimiseen ja big dataan. | [oppitunti](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 03 | Datan määrittely | [Johdanto](1-Introduction/README.md) | Miten data luokitellaan ja sen yleiset lähteet. | [oppitunti](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 05 | Työskentely relaatiotietojen kanssa | [Datan käsittely](2-Working-With-Data/README.md) | Johdatus relaatiotietoihin ja perusmenetelmät tutkia ja analysoida niitä Structured Query Languagella, eli SQL:llä (lausutaan ”sikuell”). | [oppitunti](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Työskentely NoSQL-datan kanssa | [Datan käsittely](2-Working-With-Data/README.md) | Johdatus ei-relaatiodataan, sen erilaisiin tyyppeihin ja dokumenttitietokantojen tutkimisen ja analysoinnin perusteisiin. | [oppitunti](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 01 | Datatieteen määrittely | [Johdanto](1-Introduction/README.md) | Opettele datatieteen peruskäsitteet ja miten se liittyy tekoälyyn, koneoppimiseen ja big dataan. | [oppitunti](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Datatieteen etiikka | [Johdanto](1-Introduction/README.md) | Tieteen eettiset käsitteet, haasteet ja viitekehykset. | [oppitunti](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Datan määrittely | [Johdanto](1-Introduction/README.md) | Miten data luokitellaan ja mistä yleisimmin saadaan. | [oppitunti](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 05 | Työskentely relaatiodatan kanssa | [Työskentely datan kanssa](2-Working-With-Data/README.md) | Johdanto relaatiodataan ja perustaidot relaatiodatan tutkimisesta ja analysoinnista rakenteisen kyselykielen (SQL) avulla. | [oppitunti](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Työskentely NoSQL-datan kanssa | [Työskentely datan kanssa](2-Working-With-Data/README.md) | Johdatus ei-relaatiodataan, sen eri tyyppeihin ja dokumenttitietokantojen tutkimiseen ja analysointiin. | [oppitunti](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 12 | Suhteiden visualisointi | [Datan visualisointi](3-Data-Visualization/README.md) | Visualisoi yhteyksiä ja korrelaatioita datan ja muuttujien välillä. | [oppitunti](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Merkitykselliset visualisoinnit | [Datan visualisointi](3-Data-Visualization/README.md) | Tekniikat ja ohjeet, joiden avulla visualisoinnistasi tulee arvokasta tehokkaaseen ongelmanratkaisuun ja oivalluksiin. | [oppitunti](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Johdatus data-analytiikan elinkaareen | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Johdatus data-analytiikan elinkaareen ja sen ensimmäiseen vaiheeseen, datan hankintaan ja poimintaan. | [oppitunti](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysointi | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Tämä data-analytiikan elinkaaren vaihe keskittyy datan analysointitekniikoihin. | [oppitunti](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Viestintä | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Tämä data-analytiikan elinkaaren vaihe keskittyy datasta saatujen oivallusten esittämiseen niin, että päätöksentekijöiden on helpompi ymmärtää ne. | [oppitunti](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Data-analytiikka pilvessä | [Pilvidata](5-Data-Science-In-Cloud/README.md) | Tämä oppituntisarja esittelee data-analytiikan pilvessä ja sen hyödyt. | [oppitunti](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
| 12 | Suhteiden visualisointi | [Datan visualisointi](3-Data-Visualization/README.md) | Visualisointi yhteyksistä ja korrelaatioista eri datasarjojen ja muuttujien välillä. | [oppitunti](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Merkitykselliset visualisoinnit | [Datan visualisointi](3-Data-Visualization/README.md) | Tekniikat ja ohjeet, joilla visualisointisi ovat arvokkaita tehokkaaseen ongelmanratkaisuun ja oivalluksiin. | [oppitunti](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Johdatus datatieteen elinkaareen | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Johdatus datatieteen elinkaareen ja sen ensimmäiseen vaiheeseen, datan hankintaan ja poimintaan. | [oppitunti](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysointi | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Tämä datatieteen elinkaaren vaihe keskittyy datan analysointitekniikoihin. | [oppitunti](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Viestintä | [Elinkaari](4-Data-Science-Lifecycle/README.md) | Tämä datatieteen elinkaaren vaihe keskittyy datasta saatavien oivallusten esittämiseen tavalla, joka helpottaa päätöksentekijöiden ymmärrystä. | [oppitunti](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datatiede pilvessä | [Pilvidata](5-Data-Science-In-Cloud/README.md) | Tämä sarja oppitunteja esittelee datatieteen pilvessä ja sen hyödyt. | [oppitunti](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ja [Maud](https://twitter.com/maudstweets) |
Seuraa näitä ohjeita avataksesi tämän esimerkin Codespacessa:
1. Klikkaa Code-pudotusvalikkoa ja valitse Open with Codespaces -vaihtoehto.
2. Valitse paneelin alareunasta + New codespace.
Lisätietoja on GitHubin [dokumentaatiossa](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Seuraa näitä ohjeita avataksesi tämän repositorion kontissa käyttäen paikallista konettasi ja VSCodea VS Code Remote - Containers -laajennuksen avulla:
Noudata näitä ohjeita avataksesi tämän repositorion säiliössä paikallisella koneellasi VSCode-työkalulla ja käyttämällä VS Code Remote - Containers -laajennusta:
1. Jos käytät kehityssäiliötä ensimmäistä kertaa, varmista, että järjestelmäsi täyttää esivaatimukset (eli Dockerin asennuksen) [aloitusohjeiden](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started) mukaisesti.
1. Jos käytät kehityskonttia ensimmäistä kertaa, varmista, että järjestelmäsi täyttää vaatimukset (esim. Docker on asennettuna) [aloittamisen ohjeissa](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
Voit käyttää tätä repositoriota joko avaamalla sen eristetyssä Docker-tilavuudessa:
Voit käyttää tätä repositoriota joko avaamalla sen eristetyssä Docker-volyymissa:
**Huom**: Taustalla tämä käyttää Remote-Containers: **Clone Repository in Container Volume...** -käskyä kloonatakseen lähdekoodin Docker-tilavuuteen paikallisen tiedostojärjestelmän sijaan. [Tilavuudet](https://docs.docker.com/storage/volumes/) ovat suositeltu mekanismi säiliötietojen tallentamiseen.
**Huom:** Taustalla tätä varten käytetään Remote-Containers-komentoa: **Clone Repository in Container Volume...**, joka kloonaa lähdekoodin Docker-volyymiin paikallisen tiedostojärjestelmän sijaan. [Volyymit](https://docs.docker.com/storage/volumes/) ovat suositeltuja konttien datan tallentamiseen.
Tai avaa paikallisesti kloonattu tai ladattu versio repositoriosta:
Tai avaamalla lokaalisti kloonatun tai ladatun version repositoriosta:
- Kloonaa tämä repositorio paikalliselle koneellesi.
- Paina F1 ja valitse **Remote-Containers: Open Folder in Container...** -komento.
- Valitse kloonattu versio tästä kansiosta, odota säiliön käynnistymistä ja ala kokeilla.
- Valitse kloonattu kansio, odota että kontti käynnistyy, ja kokeile.
## Offline-käyttö
Voit käyttää tätä dokumentaatiota offline-tilassa Docsify-ohjelmalla ([Docsify](https://docsify.js.org/#/)). Haarauta tämä repo, [asenna Docsify](https://docsify.js.org/#/quickstart) paikalliselle koneellesi, ja kirjoita sitten tämän repositorion juurikansiossa komento `docsify serve`. Sivusto palvellaan portissa 3000 paikallisessa hostissasi:`localhost:3000`.
Voit käyttää tätä dokumentaatiota offline-tilassa käyttämällä [Docsifya](https://docsify.js.org/#/). Forkkaa tämä repo, [asenna Docsify](https://docsify.js.org/#/quickstart) paikalliselle koneellesi, ja aja juurikansiossa komento `docsify serve`. Sivusto palvelisi portissa 3000 osoitteessa`localhost:3000`.
> Huomaa, että muistikirjat (notebooks) eivät renderöidy Docsifylla, joten kun tarvitset suorittaa muistikirjan, tee se erikseen VS Codessa Python-ytimen avulla.
> Huomaa, että muistikirjoja ei renderöidä Docsifylla, joten tarvitset erikseen pyörittää muistikirjaa VS Codessa Python-ytimen kanssa.
## Muut opetussuunnitelmat
Tiimimme tuottaa myös muita opetussuunnitelmia! Tutustu:
Tiimimme tuottaa muitakin opetussuunnitelmia! Tutustu:
[](https://aka.ms/langchain4j-for-beginners)
[](https://github.com/microsoft/edgeai-for-beginners?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
[-E879F9?style=for-the-badge&labelColor=E5E7EB&color=E879F9)](https://github.com/microsoft/generative-ai-with-javascript?WT.mc_id=academic-105485-koreyst)
**Koetko ongelmia?** Tarkista [Vianmääritysohjeemme](TROUBLESHOOTING.md) yleisimpien ongelmien ratkaisuille.
**Koetko ongelmia?** Tutustu [Vianmääritysohjeeseemme](TROUBLESHOOTING.md) yleisten ongelmien ratkaisuja varten.
Jos jäit jumiin tai sinulla on kysymyksiä tekoälysovellusten rakentamisesta, liity MCP-yhteisön keskusteluihin muiden oppijoiden ja kokeneiden kehittäjien kanssa. Se on tukea antava yhteisö, jossa kysymyksiä saa esittää ja tietoa jaetaan vapaasti.
Jos jumitut tai sinulla on kysymyksiä tekoälysovellusten rakentamisesta. Liity muiden oppijoiden ja kokeneiden kehittäjien keskusteluihin MCP:stä. Tämä on kannustava yhteisö, jossa kysymykset ovat tervetulleita ja tieto jaetaan avoimesti.
@ -250,5 +259,5 @@ Jos sinulla on palautetta tuotteesta tai kohtaat virheitä rakentamisen aikana,
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Vastuuvapauslauseke**:
Tämä asiakirja on käännetty tekoälypohjaisella käännöspalvelulla [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta huomioithan, että automaattikäännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäiskielellä tulee pitää virallisena lähteenä. Tärkeissä tiedoissa suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinkäsityksistä tai tulkinnoista.
Tämä asiakirja on käännetty käyttäen tekoälypohjaista käännöspalvelua [Co-op Translator](https://github.com/Azure/co-op-translator). Pyrimme tarkkuuteen, mutta huomioithan, että automaattikäännöksissä saattaa esiintyä virheitä tai epätarkkuuksia. Alkuperäinen asiakirja sen alkuperäiskielellä on ensisijainen ja virallinen lähde. Tärkeissä tiedoissa suosittelemme ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinkäsityksistä tai virhetulkinnoista.
[](https://youtu.be/beZ7Mb_oz9I)
[](https://youtu.be/beZ7Mb_oz9I)
## [Quiz før forelesning](https://ff-quizzes.netlify.app/en/ds/quiz/0)
@ -144,7 +144,7 @@ Hvis vi vil gjøre det enda mer komplisert, kan vi plotte tiden brukt på hver m
I denne utfordringen skal vi prøve å finne konsepter som er relevante for feltet Data Science ved å se på tekster. Vi skal ta en Wikipedia-artikkel om Data Science, laste ned og behandle teksten, og deretter lage en ordsky som denne:


Besøk [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') for å lese gjennom koden. Du kan også kjøre koden og se hvordan den utfører alle datatransformasjonene i sanntid.
"# Utfordring: Analysere tekst om datavitenskap\n",
"# Utfordring: Analysere tekst om Data Science\n",
"\n",
"I dette eksemplet skal vi gjøre en enkel øvelse som dekker alle trinnene i en tradisjonell datavitenskapsprosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n",
"I dette eksempelet skal vi gjøre en enkel øvelse som dekker alle trinn i en tradisjonell data science-prosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne leksjonen har vi diskutert ulike konsepter relatert til datavitenskap. La oss prøve å oppdage flere relaterte konsepter ved å gjøre litt **tekstanalyse**. Vi starter med en tekst om datavitenskap, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n",
"I denne leksjonen har vi diskutert ulike konsepter relatert til Data Science. La oss prøve å oppdage flere relaterte konsepter ved å gjøre noe **tekstudvinning**. Vi starter med en tekst om Data Science, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruke siden om datavitenskap fra Wikipedia:\n"
"Som tekst vil jeg bruke siden om Data Science fra Wikipedia:\n"
],
"metadata": {}
},
@ -32,9 +32,9 @@
{
"cell_type": "markdown",
"source": [
"## Steg 1: Hente dataene\n",
"## Trinn 1: Skaffe dataene\n",
"\n",
"Første steg i enhver datavitenskapelig prosess er å hente dataene. Vi vil bruke `requests`-biblioteket til dette:\n"
"Første trinn i enhver datavitenskapsprosess er å skaffe dataene. Vi vil bruke `requests`-biblioteket for å gjøre det:\n"
],
"metadata": {}
},
@ -66,45 +66,43 @@
{
"cell_type": "markdown",
"source": [
"## Steg 2: Transformere dataen\n",
"## Steg 2: Transformere dataene\n",
"\n",
"Neste steg er å konvertere dataen til en form som er egnet for videre behandling. I vårt tilfelle har vi lastet ned HTML-kildekoden fra siden, og vi må konvertere den til ren tekst.\n",
"Neste steg er å konvertere dataene til et format som egner seg for behandling. I vårt tilfelle har vi lastet ned HTML-kildekoden fra siden, og vi må konvertere den til vanlig tekst.\n",
"\n",
"Det finnes mange måter å gjøre dette på. Vi vil bruke det enkleste innebygde objektet [HTMLParser](https://docs.python.org/3/library/html.parser.html) fra Python. Vi må opprette en underklasse av `HTMLParser`-klassen og definere koden som skal samle all tekst inne i HTML-tagger, unntatt `<script>`- og `<style>`-tagger.\n"
"Dette kan gjøres på mange måter. Vi vil bruke [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek for å analysere HTML. BeautifulSoup gjør det mulig å målrette spesifikke HTML-elementer, slik at vi kan fokusere på hovedinnholdet i artikkelen fra Wikipedia og redusere noen navigasjonsmenyer, sidemenyer, bunntekster og annet irrelevant innhold (selv om noe standardtekst fortsatt kan være igjen).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først må vi installere BeautifulSoup-biblioteket for HTML-parsing:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Data science - Wikipedia Data science From Wikipedia, the free encyclopedia Jump to navigation Jump to search Interdisciplinary field of study focused on deriving knowledge and insights from data Not to be confused with information science . The existence of Comet NEOWISE (here depicted as a series of red dots) was discovered by analyzing astronomical survey data acquired by a space telescope , the Wide-field Infrared Survey Explorer . Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection AutoML Association rules Reinforcement learning Structured prediction Feature engineering Feature learning Online learning Semi-supervised learning Unsupervised learning Learning to rank Grammar induction Supervised learning ( classification • regression ) Decision trees Ensembles Bagging Boosting Random forest k -NN Linear regression Naive Bayes Artificial neural networks Logistic regression Perceptron Relevance vector machine \n"
"Data science From Wikipedia, the free encyclopedia Interdisciplinary field of study focused on deriving knowledge and insights from data Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from noisy, structured, and unstructured data. Data science also integrates domain knowledge from the underlying application domain. Data science is multifaceted and can be described as a science, a research paradigm, a research method, a discipline, a workflow, and a profession.\n"
]
}
],
@ -113,11 +111,11 @@
{
"cell_type": "markdown",
"source": [
"## Steg 3: Få innsikt\n",
"## Step 3: Få innsikt\n",
"\n",
"Det viktigste steget er å omforme dataene våre til en form som vi kan trekke innsikt fra. I vårt tilfelle ønsker vi å trekke ut nøkkelord fra teksten og se hvilke nøkkelord som er mest meningsfulle.\n",
"Det viktigste steget er å gjøre om dataene våre til en form vi kan hente innsikt fra. I vårt tilfelle ønsker vi å trekke ut nøkkelord fra teksten, og se hvilke nøkkelord som er mer meningsfulle.\n",
"\n",
"Vi skal bruke et Python-bibliotek som heter [RAKE](https://github.com/aneesha/RAKE) for nøkkelorduttrekk. Først må vi installere dette biblioteket dersom det ikke allerede er installert:\n"
"Vi vil bruke Python-biblioteket kalt [RAKE](https://github.com/aneesha/RAKE) for nøkkelorduttrekk. Først, la oss installere dette biblioteket hvis det ikke allerede er til stede: \n"
],
"metadata": {}
},
@ -162,7 +160,7 @@
{
"cell_type": "markdown",
"source": [
"Hovedfunksjonaliteten er tilgjengelig fra `Rake`-objektet, som vi kan tilpasse ved hjelp av noen parametere. I vårt tilfelle vil vi sette minimumslengden på et nøkkelord til 5 tegn, minimumsfrekvensen av et nøkkelord i dokumentet til 3, og maksimalt antall ord i et nøkkelord til 2. Føl deg fri til å eksperimentere med andre verdier og observere resultatet.\n"
"Hovedfunksjonaliteten er tilgjengelig fra `Rake`-objektet, som vi kan tilpasse ved hjelp av noen parametere. I vårt tilfelle vil vi sette minimum lengde på et nøkkelord til 5 tegn, minimum frekvens av et nøkkelord i dokumentet til 3, og maksimalt antall ord i et nøkkelord - til 2. Føl deg fri til å eksperimentere med andre verdier og observer resultatet.\n"
],
"metadata": {}
},
@ -211,11 +209,11 @@
{
"cell_type": "markdown",
"source": [
"Vi fikk en liste over begreper sammen med tilhørende viktighetsgrad. Som du kan se, er de mest relevante fagområdene, som maskinlæring og big data, til stede på listen i topposisjoner.\n",
"Vi har fått en liste over termer sammen med tilhørende grad av viktighet. Som du kan se, er de mest relevante disiplinene, som maskinlæring og big data, til stede på listen på topposisjoner.\n",
"\n",
"## Steg 4: Visualisere resultatet\n",
"## Trinn 4: Visualisere resultatet\n",
"\n",
"Folk forstår data best i visuell form. Derfor gir det ofte mening å visualisere dataene for å trekke noen innsikter. Vi kan bruke `matplotlib`-biblioteket i Python til å lage et enkelt plott av fordelingen av nøkkelordene med deres relevans:\n"
"Folk kan tolke data best i visuell form. Derfor gir det ofte mening å visualisere dataene for å trekke noen innsikter. Vi kan bruke biblioteket `matplotlib` i Python for å plotte enkel fordeling av nøkkelordene med deres relevans:\n"
],
"metadata": {}
},
@ -252,7 +250,7 @@
{
"cell_type": "markdown",
"source": [
"Det er imidlertid en enda bedre måte å visualisere ordfrekvenser på - ved å bruke **Word Cloud**. Vi må installere et annet bibliotek for å plotte ordskyen fra nøkkelordlisten vår.\n"
"Det finnes imidlertid en enda bedre måte å visualisere ordfrekvenser på - ved å bruke **Word Cloud**. Vi må installere et annet bibliotek for å tegne ordskyen fra vår nøkkelordliste.\n"
],
"metadata": {}
},
@ -268,7 +266,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarlig for å ta inn enten originaltekst eller en forhåndsberegnet liste over ord med deres frekvenser, og returnerer et bilde som deretter kan vises ved hjelp av `matplotlib`:\n"
"`WordCloud`-objektet er ansvarlig for å ta imot enten originaltekst, eller en forhåndsberegnet liste over ord med deres frekvenser, og returnerer et bilde, som deretter kan vises ved hjelp av `matplotlib`:\n"
],
"metadata": {}
},
@ -312,7 +310,7 @@
{
"cell_type": "markdown",
"source": [
"Vi kan også sende inn den opprinnelige teksten til `WordCloud` - la oss se om vi klarer å få et lignende resultat:\n"
"Vi kan også sende inn originalteksten til `WordCloud` - la oss se om vi klarer å få lignende resultat:\n"
],
"metadata": {}
},
@ -372,11 +370,11 @@
{
"cell_type": "markdown",
"source": [
"Du kan se at ordskyen nå ser mer imponerende ut, men den inneholder også mye støy (f.eks. uvedkommende ord som `Retrieved on`). I tillegg får vi færre nøkkelord som består av to ord, som *data scientist* eller *computer science*. Dette skyldes at RAKE-algoritmen gjør en mye bedre jobb med å velge ut gode nøkkelord fra teksten. Dette eksempelet illustrerer viktigheten av dataforbehandling og rengjøring, fordi et klart bilde til slutt vil gjøre det mulig for oss å ta bedre beslutninger.\n",
"Du kan se at ordskyen nå ser mer imponerende ut, men den inneholder også mye støy (f.eks. irrelevante ord som `Retrieved on`). I tillegg får vi færre nøkkelord som består av to ord, som *data scientist*, eller *computer science*. Dette er fordi RAKE-algoritmen gjør en mye bedre jobb med å velge gode nøkkelord fra tekst. Dette eksempelet illustrerer viktigheten av datarensing og forhåndsbehandling, fordi et klart bilde til slutt vil gjøre det mulig for oss å ta bedre beslutninger.\n",
"\n",
"I denne øvelsen har vi gått gjennom en enkel prosess for å trekke ut noe mening fra Wikipedia-tekst, i form av nøkkelord og ordsky. Dette eksempelet er ganske enkelt, men det viser godt alle de typiske stegene en dataforsker vil ta når de jobber med data, fra datainnhenting til visualisering.\n",
"I denne øvelsen har vi gått gjennom en enkel prosess for å trekke ut noe mening fra Wikipedia-tekst, i form av nøkkelord og ordsky. Dette eksempelet er ganske enkelt, men det demonstrerer godt alle de typiske stegene en data scientist vil ta når de jobber med data, fra datainnhenting til visualisering.\n",
"\n",
"I vårt kurs vil vi diskutere alle disse stegene i detalj.\n"
"I kurset vårt vil vi diskutere alle disse trinnene i detalj.\n"
],
"metadata": {}
},
@ -394,7 +392,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**: \nDette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalsproget bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår fra bruken av denne oversettelsen.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
"# Utfordring: Analysere tekst om datavitenskap\n",
"# Utfordring: Analysering av tekst om datavitenskap\n",
"\n",
"> *I denne notatboken eksperimenterer vi med å bruke forskjellige URL-er - Wikipedia-artikkelen om maskinlæring. Du kan se at, i motsetning til datavitenskap, inneholder denne artikkelen mange begreper, noe som gjør analysen mer problematisk. Vi må finne en annen måte å rydde opp i dataene etter å ha gjort nøkkelorduttrekk, for å bli kvitt noen hyppige, men ikke meningsfulle ordkombinasjoner.*\n",
"> *I denne notatblokken eksperimenterer vi med å bruke forskjellige URL - Wikipedia-artikkel om maskinlæring. Du kan se at, i motsetning til datavitenskap, inneholder denne artikkelen mange termer, noe som gjør analysen mer problematisk. Vi må komme opp med en annen måte å rense dataene på etter å ha gjort nøkkelordutvinning, for å bli kvitt noen hyppige, men ikke meningsfulle ordkombinasjoner.*\n",
"\n",
"I dette eksempelet skal vi gjøre en enkel øvelse som dekker alle trinnene i en tradisjonell datavitenskapsprosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n",
"I dette eksemplet skal vi gjøre en enkel øvelse som dekker alle trinn i en tradisjonell datavitenskapsprosess. Du trenger ikke å skrive noen kode, du kan bare klikke på cellene nedenfor for å kjøre dem og observere resultatet. Som en utfordring oppfordres du til å prøve denne koden med forskjellige data.\n",
"\n",
"## Mål\n",
"\n",
"I denne leksjonen har vi diskutert ulike konsepter relatert til datavitenskap. La oss prøve å oppdage flere relaterte konsepter ved å gjøre litt **tekstanalyse**. Vi starter med en tekst om datavitenskap, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n",
"I denne leksjonen har vi diskutert forskjellige konsepter relatert til datavitenskap. La oss prøve å oppdage flere relaterte konsepter ved å gjøre litt **tekstudvinning**. Vi starter med en tekst om datavitenskap, trekker ut nøkkelord fra den, og prøver deretter å visualisere resultatet.\n",
"\n",
"Som tekst vil jeg bruke siden om datavitenskap fra Wikipedia:\n"
],
@ -35,9 +35,9 @@
{
"cell_type": "markdown",
"source": [
"## Steg 1: Hente dataene\n",
"## Trinn 1: Hente dataene\n",
"\n",
"Første steg i enhver datavitenskapelig prosess er å hente dataene. Vi vil bruke `requests`-biblioteket til dette:\n"
"Første steg i enhver dataanalyseprosess er å hente dataene. Vi vil bruke biblioteket `requests` for å gjøre det:\n"
],
"metadata": {}
},
@ -69,45 +69,43 @@
{
"cell_type": "markdown",
"source": [
"## Steg 2: Transformere dataen\n",
"## Trinn 2: Transformere dataene\n",
"\n",
"Neste steg er å konvertere dataen til en form som er egnet for videre behandling. I vårt tilfelle har vi lastet ned HTML-kildekoden fra siden, og vi må konvertere den til ren tekst.\n",
"Neste trinn er å konvertere dataene til et format som egner seg for behandling. I vårt tilfelle har vi lastet ned HTML-kildekode fra siden, og vi trenger å konvertere den til ren tekst.\n",
"\n",
"Det finnes mange måter å gjøre dette på. Vi vil bruke det enkleste innebygde objektet [HTMLParser](https://docs.python.org/3/library/html.parser.html) fra Python. Vi må opprette en underklasse av `HTMLParser`-klassen og definere koden som skal samle all tekst inne i HTML-tagger, unntatt `<script>`- og `<style>`-tagger.\n"
"Det finnes mange måter å gjøre dette på. Vi vil bruke [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/), et populært Python-bibliotek for parsing av HTML. BeautifulSoup lar oss målrette spesifikke HTML-elementer, slik at vi kan fokusere på hovedinnholdet i artikkelen fra Wikipedia og redusere noen navigasjonsmenyer, sidepaneler, bunntekster og annet irrelevant innhold (selv om noe standardtekst fortsatt kan bli værende).\n"
],
"metadata": {}
},
{
"cell_type": "markdown",
"source": [
"Først må vi installere BeautifulSoup-biblioteket for HTML-parsing:\n"
"from bs4 import BeautifulSoup\r\n\r\n# Parse the HTML content\r\nsoup = BeautifulSoup(text, 'html.parser')\r\n\r\n# Extract only the main article content from Wikipedia\r\n# Wikipedia uses 'mw-parser-output' class for the main article content\r\ncontent = soup.find('div', class_='mw-parser-output')\r\n\r\ndef clean_wikipedia_content(content_node):\r\n \"\"\"Remove common non-article elements from a Wikipedia content node.\"\"\"\r\n # Strip jump links, navboxes, reference lists/superscripts, edit sections, TOC, sidebars, etc.\r\n selectors = [\r\n '.mw-jump-link',\r\n '.navbox',\r\n '.reflist',\r\n 'sup.reference',\r\n '.mw-editsection',\r\n '.hatnote',\r\n '.metadata',\r\n '.infobox',\r\n '#toc',\r\n '.toc',\r\n '.sidebar',\r\n ]\r\n for selector in selectors:\r\n for el in content_node.select(selector):\r\n el.decompose()\r\n\r\nif content:\r\n # Clean the content node to better approximate article text only.\r\n clean_wikipedia_content(content)\r\n text = content.get_text(separator=' ', strip=True)\r\n print(text[:1000])\r\nelse:\r\n print(\"Could not find main content. Using full page text.\")\r\n text = soup.get_text(separator=' ', strip=True)\r\n print(text[:1000])"
],
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
" Machine learning - Wikipedia Machine learning From Wikipedia, the free encyclopedia Jump to navigation Jump to search Study of algorithms that improve automatically through experience For the journal, see Machine Learning (journal) . \"Statistical learning\" redirects here. For statistical learning in linguistics, see statistical learning in language acquisition . Part of a series on Artificial intelligence Major goals Artificial general intelligence Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Philosophy Ethics Existential risk Turing test Chinese room Control problem Friendly AI History Timeline Progress AI winter Technology Applications Projects Programming languages Glossary Glossary v t e Part of a series on Machine learning and data mining Problems Classification Clustering Regression Anomaly detection Data Cleaning AutoML Associ\n"
"Machine learning From Wikipedia, the free encyclopedia Study of algorithms that improve automatically through experience Machine learning (ML) is a field of study in artificial intelligence concerned with the development and study of statistical algorithms that can learn from data and generalize to unseen data, and thus perform tasks without explicit instructions. Recently, artificial neural networks have been able to surpass many previous approaches in performance. ML finds application in many fields, including natural language processing, computer vision, speech recognition, email filtering, agriculture, and medicine.\n"
]
}
],
@ -116,11 +114,11 @@
{
"cell_type": "markdown",
"source": [
"## Steg 3: Få innsikt\n",
"## Trinn 3: Få innsikt\n",
"\n",
"Det viktigste steget er å omgjøre dataene våre til en form som vi kan trekke innsikt fra. I vårt tilfelle ønsker vi å trekke ut nøkkelord fra teksten og se hvilke nøkkelord som er mest meningsfulle.\n",
"Det viktigste trinnet er å gjøre om dataene våre til en form hvor vi kan trekke innsikt. I vårt tilfelle ønsker vi å trekke ut nøkkelord fra teksten, og se hvilke nøkkelord som er mer meningsfulle.\n",
"\n",
"Vi skal bruke Python-biblioteket [RAKE](https://github.com/aneesha/RAKE) for nøkkelorduttrekk. Først, la oss installere dette biblioteket i tilfelle det ikke allerede er installert:\n"
"Vi vil bruke Python-biblioteket kalt [RAKE](https://github.com/aneesha/RAKE) for nøkkelorduttrekking. Først, la oss installere dette biblioteket hvis det ikke allerede er tilstede: \n"
],
"metadata": {}
},
@ -172,7 +170,7 @@
{
"cell_type": "markdown",
"source": [
"Hovedfunksjonaliteten er tilgjengelig fra `Rake`-objektet, som vi kan tilpasse ved hjelp av noen parametere. I vårt tilfelle vil vi sette minimumslengden på et nøkkelord til 5 tegn, minimumsfrekvensen av et nøkkelord i dokumentet til 3, og maksimalt antall ord i et nøkkelord til 2. Føl deg fri til å eksperimentere med andre verdier og observere resultatet.\n"
"Hovedfunksjonaliteten er tilgjengelig fra `Rake`-objektet, som vi kan tilpasse ved hjelp av noen parametere. I vårt tilfelle vil vi sette minimumslengden på et nøkkelord til 5 tegn, minimum forekomst av et nøkkelord i dokumentet til 3, og maksimalt antall ord i et nøkkelord til 2. Føl deg fri til å eksperimentere med andre verdier og observere resultatet.\n"
],
"metadata": {}
},
@ -353,11 +351,11 @@
{
"cell_type": "markdown",
"source": [
"Vi fikk en liste over termer sammen med tilhørende viktighetsgrad. Som du kan se, er de mest relevante fagområdene, som maskinlæring og big data, til stede i listen på topposisjonene.\n",
"Vi hentet en liste over termer sammen med tilhørende grad av viktighet. Som du kan se, er de mest relevante fagområdene, som maskinlæring og big data, til stede i listen på topposisjonene.\n",
"\n",
"## Steg 4: Visualisere resultatet\n",
"## Steg 4: Visualisere Resultatet\n",
"\n",
"Folk forstår data best i visuell form. Derfor gir det ofte mening å visualisere dataene for å trekke noen innsikter. Vi kan bruke `matplotlib`-biblioteket i Python til å plotte en enkel fordeling av nøkkelordene med deres relevans:\n"
"Folk kan tolke data best i visuell form. Derfor gir det ofte mening å visualisere dataene for å trekke noen innsikter. Vi kan bruke `matplotlib`-biblioteket i Python for å plotte enkel fordeling av nøkkelordene med deres relevans:\n"
],
"metadata": {}
},
@ -392,7 +390,7 @@
{
"cell_type": "markdown",
"source": [
"Det finnes imidlertid en enda bedre måte å visualisere ordfrekvenser på - ved å bruke **Word Cloud**. Vi må installere et annet bibliotek for å lage ordskyen fra nøkkelordlisten vår.\n"
"Det finnes imidlertid en enda bedre måte å visualisere ordfrekvenser på - ved å bruke **Word Cloud**. Vi må installere et annet bibliotek for å plotte ordsky fra vår liste med nøkkelord.\n"
],
"metadata": {}
},
@ -408,7 +406,7 @@
{
"cell_type": "markdown",
"source": [
"`WordCloud`-objektet er ansvarlig for å ta inn enten originaltekst eller en forhåndsberegnet liste over ord med deres frekvenser, og returnerer et bilde som deretter kan vises ved hjelp av `matplotlib`:\n"
"`WordCloud`-objektet er ansvarlig for å ta inn enten originaltekst, eller en forhåndsberegnet liste over ord med deres frekvenser, og returnerer et bilde, som deretter kan vises ved hjelp av `matplotlib`:\n"
],
"metadata": {}
},
@ -441,7 +439,7 @@
{
"cell_type": "markdown",
"source": [
"Vi kan også sende inn den opprinnelige teksten til `WordCloud` - la oss se om vi klarer å få et lignende resultat:\n"
"Vi kan også sende inn den originale teksten til `WordCloud` - la oss se om vi klarer å få lignende resultat:\n"
],
"metadata": {}
},
@ -490,11 +488,11 @@
{
"cell_type": "markdown",
"source": [
"Du kan se at ordskyen nå ser mer imponerende ut, men den inneholder også mye støy (f.eks. irrelevante ord som `Retrieved on`). I tillegg får vi færre nøkkelord som består av to ord, slik som *data scientist* eller *computer science*. Dette skyldes at RAKE-algoritmen gjør en mye bedre jobb med å velge gode nøkkelord fra teksten. Dette eksempelet illustrerer viktigheten av dataforbehandling og rengjøring, fordi et klart bilde til slutt vil gjøre det mulig for oss å ta bedre beslutninger.\n",
"Du kan se at ordskyen nå ser mer imponerende ut, men den inneholder også mye støy (f.eks. irrelevante ord som `Retrieved on`). Vi får også færre nøkkelord som består av to ord, som *data scientist* eller *computer science*. Dette er fordi RAKE-algoritmen gjør en mye bedre jobb med å velge gode nøkkelord fra tekst. Dette eksempelet illustrerer viktigheten av databehandling og rensing, fordi et klart bilde til slutt gjør at vi kan ta bedre beslutninger.\n",
"\n",
"I denne øvelsen har vi gått gjennom en enkel prosess for å hente ut noe mening fra Wikipedia-tekst, i form av nøkkelord og ordsky. Dette eksempelet er ganske enkelt, men det demonstrerer godt alle typiske steg en dataforsker vil ta når de jobber med data, fra datainnsamling til visualisering.\n",
"I denne øvelsen har vi gått gjennom en enkel prosess for å hente ut mening fra Wikipedia-tekst, i form av nøkkelord og ordsky. Dette eksempelet er ganske enkelt, men det demonstrerer godt alle typiske trinn en dataforsker vil ta når han arbeider med data, fra datainnhenting til visualisering.\n",
"\n",
"I vårt kurs vil vi diskutere alle disse stegene i detalj.\n"
"I kurset vårt vil vi diskutere alle disse trinnene i detalj.\n"
],
"metadata": {}
},
@ -502,7 +500,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"\n---\n\n**Ansvarsfraskrivelse**: \nDette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.\n"
"---\n\n<!-- CO-OP TRANSLATOR DISCLAIMER START -->\n**Ansvarsfraskrivelse**:\nDette dokumentet har blitt oversatt ved bruk av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalspråket skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.\n<!-- CO-OP TRANSLATOR DISCLAIMER END -->\n"
Statistikk og sannsynlighetsteori er to nært relaterte områder innen matematikk som er svært relevante for datavitenskap. Det er mulig å jobbe med data uten dyp kunnskap om matematikk, men det er likevel bedre å kjenne til noen grunnleggende konsepter. Her vil vi gi en kort introduksjon som kan hjelpe deg i gang.
## [Quiz før forelesning](https://ff-quizzes.netlify.app/en/ds/quiz/6)
@ -30,7 +30,7 @@ Det er mer utfordrende å beskrive sannsynlighetsfordelingen for en kontinuerlig
Vi kan bare snakke om sannsynligheten for at en variabel faller innenfor et gitt intervall av verdier, f.eks. P(t<sub>1</sub>≤X<t<sub>2</sub>). I dette tilfellet beskrives sannsynlighetsfordelingen av en **sannsynlighetstetthetsfunksjon** p(x), slik at
En kontinuerlig analog av uniform fordeling kalles **kontinuerlig uniform**, som er definert på et begrenset intervall. Sannsynligheten for at verdien X faller innenfor et intervall med lengde l er proporsjonal med l, og stiger opp til 1.
@ -73,11 +73,11 @@ Når vi analyserer data fra virkeligheten, er de ofte ikke tilfeldige variabler
Her er boksplottet som viser gjennomsnitt, median og kvartiler for våre data:
Siden våre data inneholder informasjon om forskjellige spiller **roller**, kan vi også lage boksplott etter rolle - det vil gi oss en idé om hvordan parameterverdier varierer mellom roller. Denne gangen vil vi vurdere høyde:


Dette diagrammet antyder at, i gjennomsnitt, er høyden til førstemenn høyere enn høyden til andremenn. Senere i denne leksjonen vil vi lære hvordan vi kan teste denne hypotesen mer formelt, og hvordan vi kan demonstrere at våre data er statistisk signifikante for å vise dette.
@ -85,7 +85,7 @@ Dette diagrammet antyder at, i gjennomsnitt, er høyden til førstemenn høyere
For å se hva fordelingen av våre data er, kan vi lage et diagram kalt **histogram**. X-aksen vil inneholde et antall forskjellige vektintervaller (såkalte **bins**), og den vertikale aksen vil vise antall ganger vår tilfeldige variabelprøve var innenfor et gitt intervall.


Fra dette histogrammet kan du se at alle verdier er sentrert rundt en viss gjennomsnittsvekt, og jo lenger vi går fra den vekten - jo færre vekter av den verdien blir registrert. Det vil si, det er svært usannsynlig at vekten til en baseballspiller vil være veldig forskjellig fra gjennomsnittsvekten. Variansen i vekter viser i hvilken grad vektene sannsynligvis vil avvike fra gjennomsnittet.
Hvis vi plotter histogrammet for de genererte prøvene, vil vi se et bilde som ligner på det som er vist ovenfor. Og hvis vi øker antall prøver og antall bins, kan vi generere et bilde av en normalfordeling som er nærmere ideell:


*Normalfordeling med gjennomsnitt=0 og std.avvik=1*
@ -224,7 +224,7 @@ array([[1. , 0.52959196],
I vårt tilfelle indikerer verdien 0.53 at det er en viss korrelasjon mellom vekt og høyde til en person. Vi kan også lage et spredningsdiagram av én verdi mot den andre for å se relasjonen visuelt:


> Flere eksempler på korrelasjon og kovarians kan finnes i [tilhørende notatbok](notebook.ipynb).


> Foto av <ahref="https://unsplash.com/@dawson2406?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Stephen Dawson</a> på <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse leksjonene vil du oppdage hvordan Data Science defineres og lære om etiske hensyn som en dataforsker må ta i betraktning. Du vil også lære hvordan data defineres og få en introduksjon til statistikk og sannsynlighet, de sentrale akademiske områdene innen Data Science.
Mens databaser tilbyr svært effektive måter å lagre data og hente dem ved hjelp av spørringsspråk, er den mest fleksible måten å behandle data på å skrive ditt eget program for å manipulere data. I mange tilfeller vil en databasespørring være en mer effektiv løsning. Men i noen tilfeller, når mer kompleks databehandling er nødvendig, kan det ikke enkelt gjøres med SQL.
Databehandling kan programmeres i hvilket som helst programmeringsspråk, men det finnes visse språk som er mer tilpasset arbeid med data. Dataforskere foretrekker vanligvis ett av følgende språk:
@ -66,7 +66,7 @@ print(f"Length of index is {len(idx)}")
Nå antar vi at vi hver uke arrangerer en fest for venner, og vi tar med oss 10 ekstra pakker med iskrem til festen. Vi kan lage en annen series, indeksert etter uke, for å demonstrere dette:
```python
@ -77,7 +77,7 @@ Når vi legger sammen to series, får vi totalt antall:
> **Merk** at vi ikke bruker enkel syntaks `total_items+additional_items`. Hvis vi gjorde det, ville vi fått mange `NaN` (*Not a Number*) verdier i den resulterende serien. Dette skyldes at det mangler verdier for noen av indeksene i `additional_items`-serien, og å legge til `NaN` til noe resulterer i `NaN`. Derfor må vi spesifisere `fill_value`-parameteren under addisjonen.
@ -86,7 +86,7 @@ Med tidsserier kan vi også **resample** serien med forskjellige tidsintervaller
@ -212,7 +212,7 @@ Det første problemet vi skal fokusere på er modellering av epidemisk spredning
Siden vi ønsker å demonstrere hvordan man håndterer data, inviterer vi deg til å åpne [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) og lese det fra topp til bunn. Du kan også kjøre cellene og gjøre noen utfordringer som vi har lagt igjen til deg på slutten.
> Hvis du ikke vet hvordan du kjører kode i Jupyter Notebook, ta en titt på [denne artikkelen](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
@ -234,7 +234,7 @@ Et fullstendig eksempel på analyse av dette datasettet ved bruk av [Text Analyt
Åpne [`notebook-papers.ipynb`](notebook-papers.ipynb) og les det fra topp til bunn. Du kan også kjøre cellene og gjøre noen utfordringer som vi har lagt igjen til deg på slutten.
> Foto av <ahref="https://unsplash.com/@swimstaralex?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Alexander Sinn</a> på <ahref="https://unsplash.com/s/photos/data?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse leksjonene vil du lære noen av måtene data kan administreres, manipuleres og brukes i applikasjoner. Du vil lære om relasjonelle og ikke-relasjonelle databaser og hvordan data kan lagres i dem. Du vil lære det grunnleggende om å jobbe med Python for å håndtere data, og du vil oppdage noen av de mange måtene du kan bruke Python til å administrere og analysere data.
Vis nå de samme dataene med et honningfarget fargetema for å vise hvordan prisen utvikler seg over årene. Du kan gjøre dette ved å legge til en 'hue'-parameter for å vise endringen, år for år:
@ -51,7 +51,7 @@ Vis nå de samme dataene med et honningfarget fargetema for å vise hvordan pris
Med denne fargeendringen kan du tydelig se en sterk progresjon over årene når det gjelder honningpris per pund. Faktisk, hvis du ser på et utvalg i dataene for å verifisere (velg en gitt stat, for eksempel Arizona), kan du se et mønster av prisøkninger år for år, med få unntak:
Er dette et enkelt tilfelle av tilbud og etterspørsel? På grunn av faktorer som klimaendringer og kollaps av kolonier, er det mindre honning tilgjengelig for kjøp år for år, og dermed øker prisen?
✅ Fordi Seaborn aggregerer data rundt én linje, viser det "de flere målingene ved hver x-verdi ved å plotte gjennomsnittet og 95% konfidensintervallet rundt gjennomsnittet". [Kilde](https://seaborn.pydata.org/tutorial/relational.html). Denne tidkrevende oppførselen kan deaktiveres ved å legge til `ci=None`.
@ -105,7 +105,7 @@ Spørsmål: Vel, i 2003 kan vi også se en topp i honningtilførselen? Hva om du
Svar: Ikke egentlig. Hvis du ser på total produksjon, ser det faktisk ut til å ha økt det året, selv om mengden honning som produseres generelt sett er i nedgang i disse årene.
@ -130,7 +130,7 @@ sns.relplot(
```
I denne visualiseringen kan du sammenligne avkastning per koloni og antall kolonier år for år, side om side med wrap satt til 3 for kolonnene:
For dette datasettet skiller ingenting seg spesielt ut med hensyn til antall kolonier og deres avkastning, år for år og stat for stat. Er det en annen måte å se på korrelasjonen mellom disse to variablene?
Selv om ingenting skiller seg ut rundt året 2003, lar det oss avslutte denne leksjonen på en litt lykkeligere tone: selv om det generelt er et synkende antall kolonier, stabiliserer antallet kolonier seg, selv om deres avkastning per koloni er i nedgang.
Her installerer du `ggplot2`-pakken og importerer den deretter til arbeidsområdet ved hjelp av kommandoen `library("ggplot2")`. For å plotte et diagram i ggplot brukes funksjonen `ggplot()`, og du spesifiserer datasettet, x- og y-variablene som attributter. I dette tilfellet bruker vi funksjonen `geom_line()` siden vi ønsker å plotte et linjediagram.
Hva legger du merke til med en gang? Det ser ut til å være minst én uteligger - det er et ganske vingespenn! Et vingespenn på over 2000 centimeter tilsvarer mer enn 20 meter - er det Pterodaktyler som flyr rundt i Minnesota? La oss undersøke.
Selv med rotasjonen av etikettene satt til 45 grader, er det for mange til å lese. La oss prøve en annen strategi: merk bare uteliggerne og sett etikettene innenfor diagrammet. Du kan bruke et spredningsdiagram for å få mer plass til merkingen:
@ -91,7 +91,7 @@ Hva skjer her? Du brukte funksjonen `geom_point()` for å plotte spredningspunkt
Vi laget en ny dataframe `birds_filtered` og plottet deretter et spredningsdiagram. Ved å filtrere ut uteliggerne er dataene dine nå mer sammenhengende og forståelige.
I følgende kodebit installerer vi [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8)- og [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0)-pakkene for å hjelpe med å manipulere og gruppere data for å plotte et stablet stolpediagram. Først grupperer du dataene etter fuglenes `Category` og oppsummerer deretter kolonnene `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan`. Deretter plotter du stolpediagrammet ved hjelp av `ggplot2`-pakken og spesifiserer farger for de ulike kategoriene og etikettene.


Dette stolpediagrammet er imidlertid uleselig fordi det er for mye ugruppert data. Du må velge bare dataene du vil plotte, så la oss se på lengden av fugler basert på deres kategori.
Du teller først unike verdier i `Category`-kolonnen og sorterer dem deretter inn i en ny dataframe `birds_count`. Disse sorterte dataene faktoreres deretter på samme nivå slik at de plottes i sortert rekkefølge. Ved hjelp av `ggplot2` plotter du deretter dataene i et stolpediagram. `coord_flip()` plasserer horisontale stolper.
Dette stolpediagrammet gir et godt innblikk i antallet fugler i hver kategori. Med et blikk ser du at det største antallet fugler i denne regionen er i kategorien Ender/Gjess/Vannfugl. Minnesota er "landet med 10 000 innsjøer", så dette er ikke overraskende!


Dette gir en oversikt over den generelle fordelingen av kroppslengde per fugleorden, men det er ikke den optimale måten å vise sanne fordelinger på. Den oppgaven håndteres vanligvis ved å lage et histogram.
## Arbeide med histogrammer
@ -47,7 +47,7 @@ Dette gir en oversikt over den generelle fordelingen av kroppslengde per fugleor


Som du kan se, faller de fleste av de 400+ fuglene i dette datasettet innenfor området under 2000 for deres Maks Kroppsmasse. Få mer innsikt i dataene ved å endre `bins`-parameteren til et høyere tall, for eksempel 30:
@ -55,7 +55,7 @@ Som du kan se, faller de fleste av de 400+ fuglene i dette datasettet innenfor o
Dette diagrammet viser fordelingen på en litt mer detaljert måte. Et diagram som er mindre skjevt mot venstre kan opprettes ved å sørge for at du bare velger data innenfor et gitt område:


Det ser ikke ut til å være en god korrelasjon mellom minimum vingespenn og bevaringsstatus. Test andre elementer i datasettet ved hjelp av denne metoden. Du kan også prøve forskjellige filtre. Finner du noen korrelasjon?
@ -126,7 +126,7 @@ La oss jobbe med tetthetsdiagrammer nå!
Du kan se hvordan diagrammet gjenspeiler det forrige for Minimum Vingespenn-data; det er bare litt jevnere. Hvis du ønsket å gå tilbake til den hakkete MaksKroppsmasse-linjen i det andre diagrammet du laget, kunne du jevne den ut veldig godt ved å gjenskape den ved hjelp av denne metoden:
@ -134,7 +134,7 @@ Du kan se hvordan diagrammet gjenspeiler det forrige for Minimum Vingespenn-data
Voila, et kakediagram som viser proporsjonene av disse dataene basert på de to klassene av sopp. Det er ganske viktig å få rekkefølgen på etikettene riktig, spesielt her, så sørg for å verifisere rekkefølgen etikettarrayet er bygget med!
Ved å bruke et vaffeldiagram kan du tydelig se proporsjonene av hattfarger i dette soppdatasettet. Interessant nok er det mange sopper med grønne hatter!
I denne leksjonen lærte du tre måter å visualisere proporsjoner på. Først må du gruppere dataene dine i kategorier og deretter bestemme hvilken som er den beste måten å vise dataene på - kake, smultring eller vaffel. Alle er smakfulle og gir brukeren et øyeblikkelig innblikk i et datasett.
Vis nå de samme dataene med et honningfarget fargeskjema for å vise hvordan prisen utvikler seg over årene. Du kan gjøre dette ved å legge til en 'scale_color_gradientn'-parameter for å vise endringen år for år:
@ -52,7 +52,7 @@ Vis nå de samme dataene med et honningfarget fargeskjema for å vise hvordan pr
ggplot(honey, aes(x = priceperlb, y = state, color=year)) +
Med denne fargeendringen kan du tydelig se en sterk progresjon over årene når det gjelder honningpris per pund. Faktisk, hvis du ser på et utvalg i dataene for å verifisere (velg en gitt stat, for eksempel Arizona), kan du se et mønster med prisøkninger år for år, med få unntak:
Er dette et enkelt tilfelle av tilbud og etterspørsel? På grunn av faktorer som klimaendringer og kollaps av kolonier, er det mindre honning tilgjengelig for kjøp år for år, og dermed øker prisen?
Svar: Ikke egentlig. Hvis du ser på total produksjon, ser det faktisk ut til å ha økt det året, selv om mengden honning som produseres generelt sett er i nedgang i disse årene.
For dette datasettet skiller ingenting seg spesielt ut når det gjelder antall kolonier og deres avkastning, år for år og stat for stat. Er det en annen måte å finne en korrelasjon mellom disse to variablene?
Selv om ingenting skiller seg ut rundt året 2003, lar det oss avslutte denne leksjonen på en litt lykkeligere tone: selv om det generelt er et synkende antall kolonier, stabiliserer antallet kolonier seg, selv om deres avkastning per koloni avtar.
@ -38,25 +38,25 @@ I tidligere leksjoner eksperimenterte du med å lage alle slags interessante dat
Selv om en dataforsker er nøye med å velge riktig diagram for riktige data, finnes det mange måter data kan vises på for å bevise et poeng, ofte på bekostning av å undergrave dataene selv. Det finnes mange eksempler på villedende diagrammer og infografikk!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "How charts lie")
> 🎥 Klikk på bildet over for en konferansesamtale om villedende diagrammer
Dette diagrammet reverserer X-aksen for å vise det motsatte av sannheten, basert på dato:
[Dette diagrammet](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) er enda mer villedende, da øyet trekkes mot høyre for å konkludere med at COVID-tilfeller har gått ned over tid i de ulike fylkene. Faktisk, hvis du ser nøye på datoene, finner du at de har blitt omorganisert for å gi den villedende nedadgående trenden.
Dette beryktede eksempelet bruker farge OG en snudd Y-akse for å villede: i stedet for å konkludere med at våpendødsfall økte etter vedtaket av våpenvennlig lovgivning, blir øyet lurt til å tro at det motsatte er sant:
Å sammenligne det som ikke kan sammenlignes er nok et skyggefullt triks. Det finnes et [fantastisk nettsted](https://tylervigen.com/spurious-correlations) som handler om 'spuriøse korrelasjoner' og viser 'fakta' som korrelerer ting som skilsmisseraten i Maine og forbruket av margarin. En Reddit-gruppe samler også [stygge eksempler](https://www.reddit.com/r/dataisugly/top/?t=all) på databruk.
@ -91,13 +91,13 @@ Merk aksene dine, gi en legende hvis nødvendig, og tilby verktøytips for bedre
Hvis dataene dine er tekstbaserte og detaljerte på X-aksen, kan du vinkle teksten for bedre lesbarhet. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) tilbyr 3D-plotting, hvis dataene dine støtter det. Sofistikerte datavisualiseringer kan produseres ved hjelp av det.
Noen av de beste datavisualiseringene i dag er animerte. Shirley Wu har fantastiske eksempler laget med D3, som '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', hvor hver blomst er en visualisering av en film. Et annet eksempel for Guardian er 'bussed out', en interaktiv opplevelse som kombinerer visualiseringer med Greensock og D3 pluss en scrollytelling-artikkelformat for å vise hvordan NYC håndterer sitt hjemløse problem ved å sende folk ut av byen.
> "Bussed Out: How America Moves its Homeless" fra [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Visualiseringer av Nadieh Bremer & Shirley Wu
@ -107,7 +107,7 @@ Selv om denne leksjonen ikke går i dybden for å lære disse kraftige visualise
Du vil fullføre en webapp som viser en animert visning av dette sosiale nettverket. Den bruker et bibliotek som ble bygget for å lage en [visualisering av et nettverk](https://github.com/emiliorizzo/vue-d3-network) ved hjelp av Vue.js og D3. Når appen kjører, kan du dra nodene rundt på skjermen for å omorganisere dataene.


> Foto av <ahref="https://unsplash.com/@jenna2980?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Jenna Lee</a> på <ahref="https://unsplash.com/s/photos/bees-in-a-meadow?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
Å visualisere data er en av de viktigste oppgavene for en dataforsker. Bilder sier mer enn tusen ord, og en visualisering kan hjelpe deg med å identifisere alle slags interessante aspekter ved dataene dine, som topper, avvik, grupperinger, tendenser og mer, som kan hjelpe deg med å forstå historien dataene dine prøver å fortelle.
@ -16,7 +16,7 @@ Du har sannsynligvis innsett at datavitenskap er en prosess. Denne prosessen kan
Denne leksjonen fokuserer på tre deler av livssyklusen: innsamling, bearbeiding og vedlikehold.


> Foto av [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/)
## Innsamling
@ -92,7 +92,7 @@ Utforsk [Team Data Science Process-livssyklusen](https://docs.microsoft.com/en-u
|Team Data Science Process (TDSP)|Cross-industry standard process for data mining (CRISP-DM)|
|--|--|
| |  |
| |  |
| Bilde av [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Bilde av [Data Science Process Alliance](https://www.datascience-pm.com/crisp-dm-2/) |
## [Quiz etter forelesning](https://ff-quizzes.netlify.app/en/ds/quiz/27)
> Foto av <ahref="https://unsplash.com/@headwayio?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Headway</a> på <ahref="https://unsplash.com/s/photos/communication?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>
I disse leksjonene vil du utforske noen av aspektene ved livssyklusen for Data Science, inkludert analyse og kommunikasjon rundt data.
> Foto av [Jelleke Vanooteghem](https://unsplash.com/@ilumire) fra [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape)
Når det gjelder å utføre dataanalyse med store datamengder, kan skyen være en game changer. I de neste tre leksjonene skal vi se hva skyen er og hvorfor den kan være svært nyttig. Vi skal også utforske et datasett om hjertesvikt og bygge en modell for å vurdere sannsynligheten for at noen opplever hjertesvikt. Vi vil bruke kraften i skyen til å trene, distribuere og bruke en modell på to forskjellige måter. Den ene måten bruker kun brukergrensesnittet i en Low code/No code-tilnærming, den andre måten bruker Azure Machine Learning Software Developer Kit (Azure ML SDK).
@ -32,7 +32,7 @@ Takket være demokratiseringen av AI, finner utviklere det nå enklere å design
* [Data Science i helsevesenet](https://data-flair.training/blogs/data-science-in-healthcare/) - fremhever applikasjoner som medisinsk bildediagnostikk (f.eks. MR, røntgen, CT-skanning), genomikk (DNA-sekvensering), legemiddelutvikling (risikovurdering, suksessprediksjon), prediktiv analyse (pasientomsorg og logistikk), sykdomssporing og forebygging osv.
 Bildekreditt: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Bildekreditt: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
Figuren viser andre domener og eksempler på anvendelse av data science-teknikker. Vil du utforske andre applikasjoner? Sjekk ut [Gjennomgang og selvstudium](../../../../6-Data-Science-In-Wild/20-Real-World-Examples)-seksjonen nedenfor.
Azure Cloud Advocates hos Microsoft er glade for å tilby en 10-ukers, 20-leksjoners læreplan som handler helt om Data Science. Hver leksjon inkluderer quiz før og etter leksjonen, skriftlige instrukser for å fullføre leksjonen, en løsning og en oppgave. Vår prosjektbaserte undervisningsmetode lar deg lære mens du bygger, en bevist måte for nye ferdigheter å "feste" seg på.
Azure Cloud Advocates hos Microsoft er glade for å tilby en 10-ukers læreplan med 20 leksjoner, alt om Data Science. Hver leksjon inkluderer quiz før leksjon, quiz etter leksjon, skriftlige instruksjoner for å fullføre leksjonen, en løsning og en oppgave. Vår prosjektbaserte pedagogikk lar deg lære mens du bygger, en bevist måte for nye ferdigheter å 'sette seg'.
> Dette depotet inkluderer 50+ språkoversettelser som øker nedlastingsstørrelsen betydelig. For å klone uten oversettelser, bruk sparsommelig utsjekking:
>
> Dette depotet inkluderer 50+ språkoversettelser som øker nedlastningsstørrelsen betydelig. For å klone uten oversettelser, bruk sparsom sjekk ut:
> git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"
> ```
>
> Dette gir deg alt du trenger for å fullføre kurset med mye raskere nedlasting.
<!-- CO-OP TRANSLATOR LANGUAGES TABLE END -->
**Hvis du ønsker at flere oversettelsesspråk skal støttes, finner du listen [her](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
**Hvis du ønsker at flere oversettelsesspråk støttes, er de listet [her](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)**
Vi har en pågående Discord lær med AI-serie, lær mer og bli med oss på [Learn with AI Series](https://aka.ms/learnwithai/discord) fra 18. - 30. september 2025. Du vil få tips og triks for å bruke GitHub Copilot for Data Science.
Vi har en Discord-lær med AI-serie pågående, lær mer og bli med oss på [Learn with AI Series](https://aka.ms/learnwithai/discord) fra 18. - 30. september 2025. Du vil få tips og triks for bruk av GitHub Copilot for Data Science.

@ -59,139 +69,139 @@ Vi har en pågående Discord lær med AI-serie, lær mer og bli med oss på [Lea
Kom i gang med følgende ressurser:
- [Student Hub-siden](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) På denne siden finner du ressurser for nybegynnere, studentpakker og til og med muligheter til å få en gratis sertifiseringskupong. Dette er en side du bør bokmerke og sjekke jevnlig, da vi bytter ut innhold minst månedlig.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Bli med i et globalt studentambassadørfellesskap, dette kan være din vei inn i Microsoft.
- [Student Hub-side](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) På denne siden finner du nybegynnerressurser, studentpakker og til og med måter å få en gratis sertifikatkupong. Dette er en side du vil bokmerke og sjekke fra tid til annen, da vi bytter ut innhold minst månedlig.
- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Bli med i et globalt fellesskap av studentambassadører, dette kan være din inngang til Microsoft.
# Komme i gang
# Komme i Gang
## 📚 Dokumentasjon
- **[Installasjonsveiledning](INSTALLATION.md)** - Trinnvise instruksjoner for oppsett for nybegynnere
- **[Installasjonsguide](INSTALLATION.md)** - Trinnvise oppsettsinstruksjoner for nybegynnere
- **[Bruksanvisning](USAGE.md)** - Eksempler og vanlige arbeidsflyter
- **[Feilsøking](TROUBLESHOOTING.md)** - Løsninger på vanlige problemer
- **[Bidragsveiledning](CONTRIBUTING.md)** - Hvordan bidra til dette prosjektet
- **[For Lærere](for-teachers.md)** - Veiledning for undervisning og klasseromsressurser
- **[For lærere](for-teachers.md)** - Veiledning for undervisning og klasseromsressurser
## 👨🎓 For Studenter
> **Fullstendige Nybegynnere**: Ny innen data science? Start med våre [nybegynnervennlige eksempler](examples/README.md)! Disse enkle, godt kommenterte eksemplene vil hjelpe deg å forstå det grunnleggende før du dykker ned i hele læreplanen.
> **[Studenter](https://aka.ms/student-page)**: for å bruke denne læreplanen på egenhånd, forkk hele repoet og fullfør oppgavene på egenhånd, begynn med en pre-forelesningsquiz. Deretter les forelesningen og fullfør resten av aktivitetene. Prøv å lage prosjektene ved å forstå leksjonene i stedet for å kopiere løsningskoden; likevel er koden tilgjengelig i /solutions-mapper i hver prosjektorienterte leksjon. En annen idé er å danne en studiegruppe med venner og gå gjennom innholdet sammen. For videre studier anbefaler vi [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
> **Fullstendige nybegynnere**: Ny innen data science? Start med våre [nybegynnervennlige eksempler](examples/README.md)! Disse enkle, godt kommenterte eksemplene vil hjelpe deg å forstå det grunnleggende før du kaster deg ut i hele læreplanen.
> **[Studenter](https://aka.ms/student-page)**: for å bruke denne læreplanen på egen hånd, forkle hele repositoriet og fullfør oppgavene på egen hånd, start med en quiz før forelesningen. Les deretter forelesningen og fullfør resten av aktivitetene. Prøv å lage prosjektene ved å forstå leksjonene snarere enn å kopiere løsningskoden; denne koden er imidlertid tilgjengelig i /solutions-mappene i hver prosjektorienterte leksjon. En annen idé kan være å danne en studiegruppe med venner og gå gjennom innholdet sammen. For videre studier anbefaler vi [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum).
**Rask start:**
1. Sjekk [Installasjonsveiledningen](INSTALLATION.md) for å sette opp miljøet ditt
2. Gå gjennom [Bruksanvisningen](USAGE.md) for å lære hvordan du jobber med læreplanen
3. Start med Leksjon 1 og arbeid deg gjennom sekvensielt
1. Sjekk [Installasjonsguiden](INSTALLATION.md) for å sette opp miljøet ditt
2. Gå gjennom [Bruksanvisningen](USAGE.md) for å lære hvordan du arbeider med læreplanen
3. Start med Leksjon 1 og jobb deg gjennom sekvensielt
4. Bli med i vårt [Discord-fellesskap](https://aka.ms/ds4beginners/discord) for støtte
## 👩🏫 For Lærere
> **Lærere**: vi har [inkludert noen forslag](for-teachers.md) om hvordan bruke dette læreplanen. Vi setter stor pris på tilbakemeldingene deres [i vårt diskusjonsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> **Lærere**: vi har [inkludert noen forslag](for-teachers.md) om hvordan du kan bruke denne læreplanen. Vi ønsker gjerne din tilbakemelding [i vår diskusjonsforum](https://github.com/microsoft/Data-Science-For-Beginners/discussions)!
> 🎥 Klikk på bildet ovenfor for en video om prosjektet og menneskene som skapte det!
> 🎥 Klikk på bildet over for en video om prosjektet og folka som skapte det!
## Pedagogikk
Vi har valgt to pedagogiske prinsipper mens vi bygde dette pensumet: å sikre at det er prosjektbasert og at det inkluderer hyppige quizer. Ved slutten av denne serien vil studentene ha lært grunnleggende prinsipper for datavitenskap, inkludert etiske konsepter, dataklargjøring, forskjellige måter å jobbe med data på, datavisualisering, dataanalyse, virkelige brukstilfeller av datavitenskap, og mer.
Vi har valgt to pedagogiske prinsipper mens vi bygde denne læreplanen: sørge for at den er prosjektbasert og at den inkluderer hyppige quizzer. Ved slutten av denne serien vil studentene ha lært grunnleggende prinsipper i datavitenskap, inkludert etiske konsepter, datarensing, ulike måter å jobbe med data på, datavisualisering, dataanalyse, virkelige bruksområder for datavitenskap og mer.
I tillegg setter en lavrisiko-quiz før en time studentens intensjon mot å lære et emne, mens en andre quiz etter timen sikrer videre hukommelse. Dette pensumet ble designet for å være fleksibelt og morsomt og kan tas i sin helhet eller delvis. Prosjektene starter små og blir stadig mer komplekse ved slutten av 10-ukers syklusen.
I tillegg setter en lavrisiko quiz før en klasse studentens hensikt mot å lære et tema, mens en annen quiz etter klassen sikrer bedre hukommelse. Denne læreplanen er designet for å være fleksibel og morsom og kan tas i sin helhet eller delvis. Prosjektene starter smått og blir stadig mer komplekse mot slutten av 10-ukers syklusen.
> Finn våre [Regler for oppførsel](CODE_OF_CONDUCT.md), [Bidra](CONTRIBUTING.md), [Oversettelse](TRANSLATIONS.md) retningslinjer. Vi tar imot din konstruktive tilbakemelding!
> Finn vår [atferdskodeks](CODE_OF_CONDUCT.md), [bidragsyterveiledning](CONTRIBUTING.md), [oversettelsesretningslinjer](TRANSLATIONS.md). Vi ønsker dine konstruktive tilbakemeldinger velkommen!
## Hver leksjon inkluderer:
- Valgfri sketchnote
- Valgfri tilleggsvideo
- Valgfri skisse-notat
- Valgfri supplerende video
- Quiz som oppvarming før leksjonen
- Skriftlig leksjon
- For prosjektbaserte leksjoner, trinnvise guider for hvordan bygge prosjektet
- For prosjektbaserte leksjoner, steg-for-steg guider for hvordan bygge prosjektet
- Kunnskapssjekker
- En utfordring
- Tilleggslesning
- Supplerende lesning
- Oppgave
- [Quiz etter leksjonen](https://ff-quizzes.netlify.app/en/)
> **En merknad om quizer**: Alle quizer er samlet i Quiz-App-mappen, for totalt 40 quizer med tre spørsmål hver. De er lenket fra leksjonene, men quiz-appen kan kjøres lokalt eller distribueres til Azure; følg instruksjonene i `quiz-app`-mappen. De lokaliseres gradvis.
> **En notis om quizzer**: Alle quizzer ligger i Quiz-App-mappen, med totalt 40 quizzer med tre spørsmål hver. De er lenket fra leksjonene, men quiz-appen kan kjøres lokalt eller distribueres til Azure; følg instruksjonene i `quiz-app`-mappen. De blir gradvis oversatt.
## 🎓 Nybegynnervennlige eksempler
**Ny innen datavitenskap?** Vi har laget en spesiell [eksempelkatalog](examples/README.md) med enkel, godt kommentert kode for å hjelpe deg i gang:
**Ny på datavitenskap?** Vi har laget en spesiell [eksempelmappen](examples/README.md) med enkel, godt kommentert kode for å hjelpe deg i gang:
- 🌟 **Hello World** - Ditt første datavitenskapsprogram
- 📂 **Laste inn data** - Lær å lese og utforske datasett
- 📊 **Enkel analyse** - Beregn statistikk og finn mønstre
- 📈 **Grunnleggende visualisering** - Lag diagrammer og grafer
- 🔬 **Virkelig prosjekt** - Fullstendig arbeidsflyt fra start til slutt
- 🔬 **Virkelighetsprosjekt** - Komplett arbeidsflyt fra start til slutt
Hvert eksempel inkluderer detaljerte kommentarer som forklarer hvert steg, noe som gjør det perfekt for absolutt nybegynnere!
Hvert eksempel inkluderer detaljerte kommentarer som forklarer hvert steg, perfekt for absolutt nybegynnere!
👉 **[Start med eksemplene](examples/README.md)** 👈
## Leksjoner
||
||
|:---:|
| Datavitenskap for nybegynnere: Veikart - _Sketchnote av [@nitya](https://twitter.com/nitya)_ |
| Datavitenskap for nybegynnere: Veikart - _Skisse-notat av [@nitya](https://twitter.com/nitya)_ |
| 01 | Definere datavitenskap | [Introduksjon](1-Introduction/README.md) | Lær de grunnleggende konseptene bak datavitenskap og hvordan det er relatert til kunstig intelligens, maskinlæring og store data. | [leksjon](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Etikk i datavitenskap | [Introduksjon](1-Introduction/README.md) | Dataetikk konsepter, utfordringer og rammeverk. | [leksjon](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definere data | [Introduksjon](1-Introduction/README.md) | Hvordan data klassifiseres og dets vanlige kilder. | [leksjon](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Introduksjon til statistikk og sannsynlighet | [Introduksjon](1-Introduction/README.md) | De matematiske teknikkene sannsynlighet og statistikk for å forstå data. | [leksjon](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbeide med relasjonsdata | [Arbeide med data](2-Working-With-Data/README.md) | Introduksjon til relasjonsdata og det grunnleggende i å utforske og analysere relasjonsdata med Structured Query Language, også kjent som SQL (uttales “see-quell”). | [leksjon](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbeide med NoSQL-data | [Arbeide med data](2-Working-With-Data/README.md) | Introduksjon til ikke-relasjonelle data, ulike typer og det grunnleggende for å utforske og analysere dokumentdatabaser. | [leksjon](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 01 | Definere datavitenskap | [Introduksjon](1-Introduction/README.md) | Lær grunnleggende begreper bak datavitenskap og hvordan det er relatert til kunstig intelligens, maskinlæring og big data. | [leksjon](1-Introduction/01-defining-data-science/README.md) [video](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) |
| 02 | Datavitenskapsetikk | [Introduksjon](1-Introduction/README.md) | Begreper, utfordringer og rammeverk for dataetikk. | [leksjon](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) |
| 03 | Definere data | [Introduksjon](1-Introduction/README.md) | Hvordan data klassifiseres og vanlige kilder. | [leksjon](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 04 | Innføring i statistikk og sannsynlighet | [Introduksjon](1-Introduction/README.md) | De matematiske teknikkene innen sannsynlighet og statistikk for å forstå data. | [leksjon](1-Introduction/04-stats-and-probability/README.md) [video](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) |
| 05 | Arbeide med relasjonsdata | [Arbeide med data](2-Working-With-Data/README.md) | Innføring i relasjonsdata og grunnleggende om å utforske og analysere relasjonsdata med Structured Query Language, også kjent som SQL (uttales “see-quell”). | [leksjon](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | |
| 06 | Arbeide med NoSQL-data | [Arbeide med data](2-Working-With-Data/README.md) | Innføring i ikke-relasjonelle data, deres ulike typer og grunnleggende utforsking og analyse av dokumentdatabaser. | [leksjon](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)|
| 07 | Arbeide med Python | [Arbeide med data](2-Working-With-Data/README.md) | Grunnleggende bruk av Python for datautforskning med biblioteker som Pandas. Grunnleggende forståelse av Python-programmering anbefales. | [leksjon](2-Working-With-Data/07-python/README.md) [video](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) |
| 08 | Dataklargjøring | [Arbeide med data](2-Working-With-Data/README.md) | Emner om datateknikker for rengjøring og transformasjon av data for å håndtere utfordringer med manglende, unøyaktige eller ufullstendige data. | [leksjon](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisere kvantiteter | [Datavisualisering](3-Data-Visualization/README.md) | Lær hvordan du bruker Matplotlib for å visualisere fugledata 🦆 | [leksjon](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisere fordeling av data | [Datavisualisering](3-Data-Visualization/README.md) | Visualisere observasjoner og trender innen et intervall. | [leksjon](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 08 | Datapreparering | [Arbeide med data](2-Working-With-Data/README.md) | Temaer om datateknikker for rengjøring og transformering av data for å håndtere utfordringer med manglende, unøyaktige eller ufullstendige data. | [leksjon](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) |
| 09 | Visualisere mengder | [Datavisualisering](3-Data-Visualization/README.md) | Lær å bruke Matplotlib til å visualisere fugledata 🦆 | [leksjon](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) |
| 10 | Visualisere datafordelinger | [Datavisualisering](3-Data-Visualization/README.md) | Visualisere observasjoner og trender innen et intervall. | [leksjon](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) |
| 12 | Visualisere relasjoner | [Datavisualisering](3-Data-Visualization/README.md) | Visualisere forbindelser og korrelasjoner mellom datasett og deres variabler. | [leksjon](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) |
| 13 | Meningsfulle visualiseringer | [Datavisualisering](3-Data-Visualization/README.md) | Teknikkene og veiledning for å gjøre visualiseringene verdifulle for effektiv problemløsning og innsikt. | [leksjon](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduksjon til datavitenskapslivssyklus | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Introduksjon til datavitenskaps livssyklus og dets første steg med innhenting og utvinning av data. | [leksjon](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysering | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Denne fasen av datavitenskapslivssyklus fokuserer på teknikker for å analysere data. | [leksjon](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikasjon | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Denne fasen av datavitenskaps livssyklus fokuserer på å presentere innsiktene fra data på en måte som gjør det lettere for beslutningstakere å forstå. | [leksjon](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 13 | Meningsfulle visualiseringer | [Datavisualisering](3-Data-Visualization/README.md) | Teknikk og veiledning for å gjøre visualiseringene dine verdifulle for effektiv problemløsning og innsikt. | [leksjon](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) |
| 14 | Introduksjon til datavitenskapslivssyklus | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Innføring i datavitenskapslivssyklusen og det første steget med anskaffelse og utvinning av data. | [leksjon](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) |
| 15 | Analysering | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Denne fasen av datavitenskapslivssyklusen fokuserer på teknikker for å analysere data. | [leksjon](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | |
| 16 | Kommunikasjon | [Livssyklus](4-Data-Science-Lifecycle/README.md) | Denne fasen av datavitenskapslivssyklusen fokuserer på å presentere innsikter fra data på en måte som gjør det lettere for beslutningstakere å forstå. | [leksjon](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | |
| 17 | Datavitenskap i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Denne serien av leksjoner introduserer datavitenskap i skyen og fordelene ved det. | [leksjon](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 18 | Datavitenskap i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Trene modeller ved bruk av Low Code-verktøy. |[leksjon](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 19 | Datavitenskap i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Distribuere modeller med Azure Machine Learning Studio. | [leksjon](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 20 | Datavitenskap i det virkelige liv | [I det fri](6-Data-Science-In-Wild/README.md) | Datavitenskapsdrevne prosjekter i den virkelige verden. | [leksjon](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
| 18 | Datavitenskap i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Treningsmodeller ved bruk av lavkode-verktøy. |[leksjon](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 19 | Datavitenskap i skyen | [Skydata](5-Data-Science-In-Cloud/README.md) | Distribusjon av modeller med Azure Machine Learning Studio. | [leksjon](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) og [Maud](https://twitter.com/maudstweets) |
| 20 | Datavitenskap i praksis | [I praksis](6-Data-Science-In-Wild/README.md) | Datavitenskapsdrevne prosjekter i den virkelige verden. | [leksjon](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) |
## GitHub Codespaces
Følg disse trinnene for å åpne dette eksemplet i en Codespace:
1. Klikk på Code-rullegardinmenyen og velg alternativet Open with Codespaces.
Følg disse trinnene for å åpne dette eksempelet i en Codespace:
1. Klikk på rullegardinmenyen Code og velg Open with Codespaces.
2. Velg + New codespace nederst i panelet.
For mer info, sjekk ut [GitHub-dokumentasjonen](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
For mer informasjon, se [GitHub dokumentasjonen](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace).
## VSCode Remote - Containers
Følg disse trinnene for å åpne dette depotet i en container med din lokale maskin og VSCode ved bruk av VS Code Remote - Containers-utvidelsen:
Følg disse trinnene for å åpne dette depotet i en container ved å bruke din lokale maskin og VSCode med utvidelsen VS Code Remote - Containers:
1. Hvis dette er første gang du bruker en utviklingscontainer, sørg for at systemet ditt oppfyller forutsetningene (dvs. Docker er installert) i [komme i gang-dokumentasjonen](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
1. Hvis dette er første gang du bruker en utviklingscontainer, sørg for at systemet ditt oppfyller forutsetningene (f.eks. ha Docker installert) i [kom i gang-dokumentasjonen](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started).
For å bruke dette depotet kan du enten åpne depotet i et isolert Docker-volum:
For å bruke dette depotet kan du enten åpne det i et isolert Docker-volum:
**Merk**: Under panseret vil dette bruke Remote-Containers: **Clone Repository in Container Volume...**kommandoen for å klone kildekoden i et Docker-volum i stedet for det lokale filsystemet. [Volumer](https://docs.docker.com/storage/volumes/) er den foretrukne mekanismen for å bevare containerdata.
**Merk**: Under panseret vil dette bruke Remote-Containers: **Clone Repository in Container Volume...**-kommandoen for å klone kildekoden i et Docker-volum i stedet for det lokale filsystemet. [Volumer](https://docs.docker.com/storage/volumes/) er den foretrukne mekanismen for å bevare containerdata.
Eller åpne en lokalt klonet eller nedlastet versjon av depotet:
- Klon dette depotet til ditt lokale filsystem.
- Klon depotet til ditt lokale filsystem.
- Trykk F1 og velg kommandoen **Remote-Containers: Open Folder in Container...**.
- Velg den klonede kopien av denne mappen, vent på at containeren starter, og prøv det ut.
- Velg den klonede kopien av denne mappen, vent til containeren starter, og prøv det ut.
## Offline-tilgang
## Frakoblet tilgang
Du kan kjøre denne dokumentasjonen offline ved å bruke [Docsify](https://docsify.js.org/#/). Fork dette repoet, [installer Docsify](https://docsify.js.org/#/quickstart) på din lokale maskin, og skriv deretter `docsify serve` i rotmappen til dette repoet. Nettstedet vil bli servert på port 3000 på din localhost: `localhost:3000`.
Du kan kjøre denne dokumentasjonen frakoblet ved å bruke [Docsify](https://docsify.js.org/#/). Fork dette depotet, [installer Docsify](https://docsify.js.org/#/quickstart) på din lokale maskin, så i rotmappen av dette depotet, skriv `docsify serve`. Nettstedet vil være tilgjengelig på port 3000 på din localhost: `localhost:3000`.
> Merk, notatbøker vil ikke bli gjengitt via Docsify, så når du trenger å kjøre en notatbok, gjør det separat i VS Code med en Python-kjerne.
> Merk at notatbøker ikke vil bli gjengitt via Docsify, så når du trenger å kjøre en notatbok, gjør det separat i VS Code med en Python-kjerne.
## Andre pensum
## Andre læreplaner
Vårt team produserer andre pensum! Sjekk ut:
Teamet vårt produserer andre læreplaner! Sjekk ut:
<!-- CO-OP TRANSLATOR OTHER COURSES START -->
### LangChain
@ -208,7 +218,7 @@ Vårt team produserer andre pensum! Sjekk ut:
---
### Generative AI Serie
### Generativ AI-serie
[](https://github.com/microsoft/generative-ai-for-beginners?WT.mc_id=academic-105485-koreyst)
[-9333EA?style=for-the-badge&labelColor=E5E7EB&color=9333EA)](https://github.com/microsoft/Generative-AI-for-beginners-dotnet?WT.mc_id=academic-105485-koreyst)
[-C084FC?style=for-the-badge&labelColor=E5E7EB&color=C084FC)](https://github.com/microsoft/generative-ai-for-beginners-java?WT.mc_id=academic-105485-koreyst)
@ -216,7 +226,7 @@ Vårt team produserer andre pensum! Sjekk ut:
---
### Kjerne Læring
### Grunnleggende læring
[](https://aka.ms/ml-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/datascience-beginners?WT.mc_id=academic-105485-koreyst)
[](https://aka.ms/ai-beginners?WT.mc_id=academic-105485-koreyst)
@ -227,21 +237,21 @@ Vårt team produserer andre pensum! Sjekk ut:
---
### Copilot Serie
### Copilot-serie
[](https://aka.ms/GitHubCopilotAI?WT.mc_id=academic-105485-koreyst)
[](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers?WT.mc_id=academic-105485-koreyst)
**Opplever du problemer?** Sjekk vår [Feilsøkingsguide](TROUBLESHOOTING.md) for løsninger på vanlige problemer.
**Opplever du problemer?** Sjekk vår [Feilsøkingsveiledning](TROUBLESHOOTING.md) for løsninger på vanlige problemer.
Hvis du står fast eller har spørsmål om å bygge AI-apper, bli med andre elever og erfarne utviklere i diskusjoner om MCP. Det er et støttende fellesskap der spørsmål er velkomne og kunnskap deles fritt.
Hvis du står fast eller har spørsmål om å bygge AI-apper. Bli med andre lærende og erfarne utviklere i diskusjoner om MCP. Det er et støttende fellesskap hvor spørsmål er velkomne og kunnskap deles fritt.
@ -249,5 +259,5 @@ Hvis du har produktfeedback eller opplever feil under bygging, besøk:
<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Ansvarsfraskrivelse**:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk skal anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som følge av bruk av denne oversettelsen.
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi streber etter nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det opprinnelige dokumentet på originalspråket skal betraktes som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår som følge av bruk av denne oversettelsen.