You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fi/1-Introduction/01-defining-data-science
leestott a76609f340
🌐 Update translations via Co-op Translator
2 weeks ago
..
solution 🌐 Update translations via Co-op Translator 3 weeks ago
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 3 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

Tietotyypit

Kuten jo mainittiin, dataa on kaikkialla. Meidän täytyy vain osata kerätä se oikealla tavalla! On hyödyllistä erottaa toisistaan strukturoitu ja strukturoimaton data. Strukturoitu data esitetään yleensä hyvin jäsennellyssä muodossa, usein taulukkona tai useina taulukoina, kun taas strukturoimaton data on vain kokoelma tiedostoja. Joskus voidaan myös puhua puolistrukturoidusta datasta, jolla on jonkinlainen rakenne, mutta joka voi vaihdella suuresti.

Strukturoitu Puolistrukturoitu Strukturoimaton
Lista ihmisistä ja heidän puhelinnumeroistaan Wikipedian sivut linkkeineen Encyclopedia Britannican teksti
Lämpötila kaikissa rakennuksen huoneissa joka minuutti viimeisen 20 vuoden ajalta Tieteellisten artikkelien kokoelma JSON-muodossa, sisältäen kirjoittajat, julkaisupäivän ja tiivistelmän Yrityksen dokumenttien tiedostojako
Tiedot rakennukseen saapuvien ihmisten iästä ja sukupuolesta Internet-sivut Valvontakameran raaka videokuva

Mistä saada dataa

Datalla on lukemattomia mahdollisia lähteitä, eikä kaikkia voi mitenkään listata! Mainitaan kuitenkin joitakin tyypillisiä paikkoja, joista dataa voi saada:

  • Strukturoitu
    • Esineiden internet (IoT), mukaan lukien erilaiset sensorit, kuten lämpötila- tai paineanturit, tuottavat paljon hyödyllistä dataa. Esimerkiksi, jos toimistorakennus on varustettu IoT-sensoreilla, voimme automaattisesti ohjata lämmitystä ja valaistusta kustannusten minimoimiseksi.
    • Kyselyt, joita pyydämme käyttäjiä täyttämään ostoksen jälkeen tai verkkosivustolla vierailun jälkeen.
    • Käyttäytymisanalyysi voi esimerkiksi auttaa ymmärtämään, kuinka syvälle käyttäjä menee sivustolla ja mikä on tyypillinen syy sivustolta poistumiseen.
  • Strukturoimaton
    • Tekstit voivat olla rikas lähde oivalluksille, kuten yleinen tunnelmapisteytys tai avainsanojen ja semanttisen merkityksen poiminta.
    • Kuvat tai videot. Valvontakameran videoita voidaan käyttää liikenteen arvioimiseen tiellä ja tiedottamaan mahdollisista ruuhkista.
    • Verkkopalvelimen lokitiedostot voivat auttaa ymmärtämään, mitkä sivuston sivut ovat useimmin vierailtuja ja kuinka kauan niillä viivytään.
  • Puolistrukturoitu
    • Sosiaalisen verkoston graafit voivat olla loistavia datalähteitä käyttäjien persoonallisuuksista ja potentiaalisesta tehokkuudesta tiedon levittämisessä.
    • Kun meillä on joukko valokuvia juhlista, voimme yrittää poimia ryhmädynamiikkaa rakentamalla graafin ihmisistä, jotka ottavat kuvia toistensa kanssa.

Kun tiedät erilaiset mahdolliset datalähteet, voit miettiä erilaisia skenaarioita, joissa datatieteen tekniikoita voidaan soveltaa tilanteen parempaan ymmärtämiseen ja liiketoimintaprosessien parantamiseen.

Mitä datalla voi tehdä

Datatieteessä keskitymme seuraaviin datan käsittelyn vaiheisiin:

Digitalisaatio ja digitaalinen transformaatio

Viimeisen vuosikymmenen aikana monet yritykset ovat alkaneet ymmärtää datan merkityksen liiketoimintapäätösten tekemisessä. Jotta datatieteen periaatteita voidaan soveltaa liiketoiminnan pyörittämiseen, täytyy ensin kerätä dataa, eli muuttaa liiketoimintaprosessit digitaaliseen muotoon. Tätä kutsutaan digitalisaatioksi. Datatieteen tekniikoiden soveltaminen tähän dataan päätöksenteon ohjaamiseksi voi johtaa merkittäviin tuottavuuden kasvuun (tai jopa liiketoiminnan suunnanmuutokseen), jota kutsutaan digitaaliseksi transformaatioksi.

Otetaan esimerkki. Oletetaan, että meillä on datatieteen kurssi (kuten tämä), jonka toimitamme verkossa opiskelijoille, ja haluamme käyttää datatiedettä sen parantamiseen. Miten voimme tehdä sen?

Voimme aloittaa kysymällä "Mitä voidaan digitalisoida?" Yksinkertaisin tapa olisi mitata, kuinka kauan kullakin opiskelijalla kestää suorittaa kukin moduuli, ja mitata saavutettu tieto antamalla monivalintatesti kunkin moduulin lopussa. Kun lasketaan keskimääräinen suorittamisaika kaikkien opiskelijoiden kesken, voimme selvittää, mitkä moduulit aiheuttavat eniten vaikeuksia opiskelijoille ja työskennellä niiden yksinkertaistamiseksi. Voit väittää, että tämä lähestymistapa ei ole ihanteellinen, koska moduulit voivat olla eripituisia. On luultavasti oikeudenmukaisempaa jakaa aika moduulin pituuden mukaan (merkkien lukumäärässä) ja verrata näitä arvoja sen sijaan. Kun alamme analysoida monivalintatestien tuloksia, voimme yrittää selvittää, mitkä käsitteet tuottavat opiskelijoille vaikeuksia ymmärtää, ja käyttää tätä tietoa sisällön parantamiseen. Tätä varten meidän täytyy suunnitella testit siten, että jokainen kysymys liittyy tiettyyn käsitteeseen tai tietokokonaisuuteen.

Jos haluamme mennä vielä pidemmälle, voimme verrata kunkin moduulin suorittamiseen käytettyä aikaa opiskelijoiden ikäryhmiin. Saatamme huomata, että joillekin ikäryhmille moduulin suorittaminen vie kohtuuttoman kauan, tai että opiskelijat keskeyttävät ennen moduulin loppuun suorittamista. Tämä voi auttaa meitä antamaan ikäsuosituksia moduulille ja vähentämään ihmisten tyytymättömyyttä vääristä odotuksista.

🚀 Haaste

Tässä haasteessa yritämme löytää Data Science -alaan liittyviä käsitteitä tarkastelemalla tekstejä. Otamme Wikipedia-artikkelin Data Sciencesta, lataamme ja käsittelemme tekstin, ja sitten rakennamme sanapilven, kuten tämän:

Sanapilvi Data Sciencesta

Vieraile notebook.ipynb -tiedostossa lukeaksesi koodin läpi. Voit myös suorittaa koodin ja nähdä, miten se tekee kaikki datamuunnokset reaaliajassa.

Jos et tiedä, miten suorittaa koodia Jupyter Notebookissa, tutustu tähän artikkeliin.

Luennon jälkeinen kysely

Tehtävät

  • Tehtävä 1: Muokkaa yllä olevaa koodia löytääksesi liittyviä käsitteitä Big Data- ja Machine Learning -aloille.
  • Tehtävä 2: Pohdi Data Science -skenaarioita

Kiitokset

Tämän oppitunnin on kirjoittanut ♥️:lla Dmitry Soshnikov


Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, huomioithan, että automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäisellä kielellä tulee pitää ensisijaisena lähteenä. Kriittisen tiedon osalta suositellaan ammattimaista ihmiskääntämistä. Emme ole vastuussa tämän käännöksen käytöstä aiheutuvista väärinkäsityksistä tai virhetulkinnoista.