@ -17,60 +17,60 @@ Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naud
| Temperatūra visose pastato patalpose kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais |
| Temperatūra visose pastato patalpose kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais |
| Duomenys apie amžių ir lytį visų žmonių, įeinančių į pastatą | Interneto puslapiai | Neapdorotas vaizdo įrašas iš stebėjimo kameros |
| Duomenys apie amžių ir lytį visų žmonių, įeinančių į pastatą | Interneto puslapiai | Neapdorotas vaizdo įrašas iš stebėjimo kameros |
## Kur gauti duomenis
## Kur gauti duomenų
Yra daugybė galimų duomenų šaltinių, ir būtų neįmanoma išvardyti visų! Tačiau paminėkime keletą tipinių vietų, kur galima gauti duomenis:
Yra daugybė galimų duomenų šaltinių, ir būtų neįmanoma išvardyti visų! Tačiau paminėkime keletą tipinių vietų, kur galima gauti duomenų:
* **Struktūrizuoti**
* **Struktūrizuoti**
- **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, teikia daug naudingų duomenų. Pavyzdžiui, jei biurų pastatas yra aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas.
- **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, teikia daug naudingų duomenų. Pavyzdžiui, jei biurų pastatas yra aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas.
- **Apklausos**, kurias prašome vartotojų užpildyti po pirkimo ar apsilankymo svetainėje.
- **Apklausos**, kurias prašome vartotojų užpildyti po pirkimo ar apsilankymo svetainėje.
- **Elgsenos analizė** gali, pavyzdžiui, padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokia yra tipinė priežastis, kodėl jis ją palieka.
- **Elgsenos analizė** gali padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokios yra tipinės priežastys, kodėl jis ją palieka.
* **Nestruktūrizuoti**
* **Nestruktūrizuoti**
- **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos balas** arba raktinių žodžių ir semantinės prasmės išgavimas.
- **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos balas** arba raktažodžių ir semantinės prasmės išgavimas.
- **Vaizdai** ar **vaizdo įrašai**. Vaizdo įrašas iš stebėjimo kameros gali būti naudojamas eismo intensyvumui kelyje įvertinti ir informuoti žmones apie galimus kamščius.
- **Vaizdai** ar **vaizdo įrašai**. Vaizdo įrašas iš stebėjimo kameros gali būti naudojamas eismo intensyvumui kelyje įvertinti ir informuoti žmones apie galimus kamščius.
- Tinklalapių **žurnalai** gali būti naudojami suprasti, kurie mūsų svetainės puslapiai lankomi dažniausiai ir kiek laiko.
- Interneto serverio **žurnalai** gali padėti suprasti, kurie mūsų svetainės puslapiai yra dažniausiai lankomi ir kiek laiko.
* **Pusiau struktūrizuoti**
* **Pusiau struktūrizuoti**
- **Socialinių tinklų** grafai gali būti puikūs duomenų šaltiniai apie vartotojų asmenybes ir potencialų efektyvumą skleidžiant informaciją.
- **Socialinių tinklų** grafai gali būti puikūs duomenų šaltiniai apie vartotojų asmenybes ir potencialų efektyvumą skleidžiant informaciją.
- Kai turime daugybę nuotraukų iš vakarėlio, galime pabandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, fotografuojančių vieni kitus, grafą.
- Kai turime daugybę nuotraukų iš vakarėlio, galime pabandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, fotografuojančių vieni kitus, grafą.
Žinodami įvairius galimus duomenų šaltinius, galite pabandyti pagalvoti apie skirtingus scenarijus, kur duomenų mokslo technikos gali būti taikomos situacijai geriau suprasti ir verslo procesams tobulinti.
Žinodami įvairius galimus duomenų šaltinius, galite pabandyti pagalvoti apie skirtingus scenarijus, kur duomenų mokslo metodai gali būti taikomi situacijai geriau suprasti ir verslo procesams tobulinti.
## Ką galima daryti su duomenimis
## Ką galima daryti su duomenimis
Duomenų moksle mes sutelkiame dėmesį į šiuos duomenų kelionės etapus:
Duomenų moksle mes sutelkiame dėmesį į šiuos duomenų kelionės etapus:
Žinoma, priklausomai nuo konkrečių duomenų, kai kurie etapai gali būti praleisti (pvz., kai jau turime duomenis duomenų bazėje arba kai nereikia modelio mokymo), o kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas).
Žinoma, priklausomai nuo konkrečių duomenų, kai kurie etapai gali būti praleisti (pvz., kai duomenys jau yra duomenų bazėje arba kai nereikia modelio mokymo), o kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas).
## Skaitmenizacija ir skaitmeninė transformacija
## Skaitmenizacija ir skaitmeninė transformacija
Pastarąjį dešimtmetį daugelis verslų pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint taikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo technikų taikymas šiems duomenims sprendimams priimti gali lemti reikšmingą produktyvumo padidėjimą (ar net verslo krypties pakeitimą), vadinamą **skaitmenine transformacija**.
Pastarąjį dešimtmetį daugelis verslų pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint taikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo metodų taikymas šiems duomenims sprendimams priimti gali lemti reikšmingą produktyvumo padidėjimą (ar net verslo krypties pakeitimą), vadinamą **skaitmenine transformacija**.
Pažvelkime į pavyzdį. Tarkime, turime duomenų mokslo kursą (kaip šis), kurį pateikiame studentams internetu, ir norime jį patobulinti pasitelkdami duomenų mokslą. Kaip tai galime padaryti?
Pažvelkime į pavyzdį. Tarkime, turime duomenų mokslo kursą (kaip šis), kurį pristatome internetu studentams, ir norime jį patobulinti pasitelkdami duomenų mokslą. Kaip tai galime padaryti?
Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti laiką, kurio kiekvienam studentui reikia kiekvienam modulio užbaigimui, ir matuoti įgytas žinias, pateikiant daugiapakopį testą modulio pabaigoje. Vidutiniškai apskaičiavę laiką, reikalingą modulio užbaigimui visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti ties jų supaprastinimu.
Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti laiką, kurio kiekvienam studentui reikia kiekvienam modulio užbaigimui, ir įvertinti įgytas žinias, pateikiant daugiapakopį testą modulio pabaigoje. Vidutiniškai apskaičiavę laiką, reikalingą modulio užbaigimui visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti ties jų supaprastinimu.
Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiaus) ir palyginti tuos rezultatus.
Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiumi) ir palyginti šias reikšmes vietoj to.
Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams kyla sunkumų, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi.
Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams sunkiausia susidoroti, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi.
Jei norime eiti dar giliau, galime sudaryti grafiką, kuriame pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorija. Galime pastebėti, kad kai kurioms amžiaus grupėms modulio užbaigimas užtrunka neproporcingai ilgai arba kad studentai meta modulį jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių.
Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorijomis. Galime pastebėti, kad kai kurioms amžiaus grupėms užtrunka neproporcingai ilgai užbaigti modulį arba kad studentai meta mokymąsi jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių.
## 🚀 Iššūkis
## 🚀 Iššūkis
Šiame iššūkyje bandysime rasti sąvokas, susijusias su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį:
Šiame iššūkyje bandysime rasti sąvokas, susijusias su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį:


Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiu laiku atlieka visus duomenų transformavimus.
Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiuoju laiku atlieka visus duomenų transformavimus.
> Jei nežinote, kaip paleisti kodą Jupyter Notebook aplinkoje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> Jei nežinote, kaip paleisti kodą Jupyter Notebook aplinkoje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
Mes visi esame duomenų piliečiai, gyvenantys duomenų pasaulyje.
Mes visi esame duomenų piliečiai, gyvenantys duomenų pasaulyje.
Rinkos tendencijos rodo, kad iki 2022 m. 1 iš 3 didelių organizacijų pirks ir parduos savo duomenis per internetines [rinkas ir mainų platformas](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Kaip **programėlių kūrėjai**, mes galėsime lengviau ir pigiau integruoti duomenimis pagrįstas įžvalgas ir algoritmais valdomą automatizaciją į kasdienes vartotojų patirtis. Tačiau, kai dirbtinis intelektas tampa visur paplitęs, turėsime suprasti galimą žalą, kurią gali sukelti tokių algoritmų [ginklavimas](https://www.youtube.com/watch?v=TQHs8SA1qpk) dideliu mastu.
Rinkos tendencijos rodo, kad iki 2022 m. 1 iš 3 didelių organizacijų pirks ir parduos savo duomenis per internetines [rinkas ir biržas](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Kaip **programėlių kūrėjai**, mes galėsime lengviau ir pigiau integruoti duomenimis pagrįstas įžvalgas ir algoritmais pagrįstą automatizavimą į kasdienes vartotojų patirtis. Tačiau, kai dirbtinis intelektas tampa visur paplitęs, turėsime suprasti galimą žalą, kurią gali sukelti tokių algoritmų [ginklavimas](https://www.youtube.com/watch?v=TQHs8SA1qpk) dideliu mastu.
Tendencijos taip pat rodo, kad iki 2025 m. sukursime ir suvartosime daugiau nei [180 zettabaitų](https://www.statista.com/statistics/871513/worldwide-data-created/) duomenų. Kaip **duomenų mokslininkai**, turėsime precedento neturintį prieigą prie asmeninių duomenų. Tai reiškia, kad galėsime kurti vartotojų elgsenos profilius ir daryti įtaką sprendimų priėmimui taip, kad sukurtume [laisvo pasirinkimo iliuziją](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice), tuo pačiu galimai nukreipdami vartotojus link mums pageidaujamų rezultatų. Tai taip pat kelia platesnius klausimus apie duomenų privatumą ir vartotojų apsaugą.
Tendencijos taip pat rodo, kad iki 2025 m. sukursime ir suvartosime daugiau nei [180 zettabaitų](https://www.statista.com/statistics/871513/worldwide-data-created/) duomenų. Kaip **duomenų mokslininkai**, turėsime precedento neturintį prieigą prie asmeninių duomenų. Tai reiškia, kad galėsime kurti vartotojų elgesio profilius ir daryti įtaką sprendimų priėmimui taip, kad sukurtume [laisvo pasirinkimo iliuziją](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice), tuo pačiu galimai nukreipdami vartotojus link mums pageidaujamų rezultatų. Tai taip pat kelia platesnius klausimus apie duomenų privatumą ir vartotojų apsaugą.
Duomenų etika dabar yra _būtinos gairės_ duomenų mokslui ir inžinerijai, padedančios sumažinti galimą žalą ir netyčines pasekmes, kylančias iš mūsų veiksmų, pagrįstų duomenimis. [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifikuoja aktualias tendencijas skaitmeninėje etikoje, atsakingame dirbtiniame intelekte ir AI valdyme kaip pagrindinius veiksnius didesnėms megatendencijoms, susijusioms su _demokratizacija_ ir _industrializacija_ AI.
Duomenų etika dabar yra _būtinos gairės_ duomenų mokslui ir inžinerijai, padedančios sumažinti galimą žalą ir netyčines pasekmes, kylančias iš mūsų veiksmų, pagrįstų duomenimis. [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifikuoja aktualias tendencijas skaitmeninėje etikoje, atsakingame dirbtiniame intelekte ir AI valdyme kaip pagrindinius veiksnius didesnėms megatendencijoms, susijusioms su _demokratizacija_ ir _industrializacija_ AI.
@ -27,42 +27,42 @@ Duomenų etika dabar yra _būtinos gairės_ duomenų mokslui ir inžinerijai, pa
Šioje pamokoje nagrinėsime įdomią duomenų etikos sritį – nuo pagrindinių sąvokų ir iššūkių iki atvejų analizės ir taikomų AI koncepcijų, tokių kaip valdymas, kurios padeda sukurti etikos kultūrą komandose ir organizacijose, dirbančiose su duomenimis ir AI.
Šioje pamokoje nagrinėsime įdomią duomenų etikos sritį – nuo pagrindinių sąvokų ir iššūkių iki atvejų analizės ir taikomų AI koncepcijų, tokių kaip valdymas, kurios padeda sukurti etikos kultūrą komandose ir organizacijose, dirbančiose su duomenimis ir AI.
Žodis „etika“ kilęs iš [graikiško žodžio „ethikos“](https://en.wikipedia.org/wiki/Ethics) (ir jo šaknies „ethos“), reiškiančio _charakterį ar moralinę prigimtį_.
Žodis „etika“ kilęs iš [graikiško žodžio „ethikos“](https://en.wikipedia.org/wiki/Ethics) (ir jo šaknies „ethos“), reiškiančio _charakterį arba moralinę prigimtį_.
**Etika** – tai bendros vertybės ir moraliniai principai, kurie reguliuoja mūsų elgesį visuomenėje. Etika grindžiama ne įstatymais, o plačiai priimtomis normomis, kas yra „teisinga vs. neteisinga“. Tačiau etiniai svarstymai gali turėti įtakos įmonių valdymo iniciatyvoms ir vyriausybės reglamentams, kurie sukuria daugiau paskatų laikytis taisyklių.
**Etika** yra apie bendras vertybes ir moralinius principus, kurie reguliuoja mūsų elgesį visuomenėje. Etika grindžiama ne įstatymais, o plačiai priimtomis normomis, kas yra „teisinga prieš neteisinga“. Tačiau etiniai svarstymai gali turėti įtakos įmonių valdymo iniciatyvoms ir vyriausybės reglamentams, kurie sukuria daugiau paskatų laikytis taisyklių.
**Duomenų etika** yra [nauja etikos šaka](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), kuri „tiria ir vertina moralines problemas, susijusias su _duomenimis, algoritmais ir atitinkama praktika_“. Čia **„duomenys“** apima veiksmus, susijusius su generavimu, įrašymu, kuravimu, apdorojimu, sklaida, dalijimusi ir naudojimu, **„algoritmai“** apima AI, agentus, mašininį mokymąsi ir robotus, o **„praktika“** apima temas, tokias kaip atsakinga inovacija, programavimas, įsilaužimas ir etikos kodeksai.
**Duomenų etika** yra [nauja etikos šaka](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), kuri „tiria ir vertina moralines problemas, susijusias su _duomenimis, algoritmais ir atitinkama praktika_“. Čia **„duomenys“** apima veiksmus, susijusius su generavimu, įrašymu, kuravimu, apdorojimu, sklaida, dalijimusi ir naudojimu, **„algoritmai“** apima AI, agentus, mašininį mokymąsi ir robotus, o **„praktika“** apima temas, tokias kaip atsakinga inovacija, programavimas, įsilaužimas ir etikos kodeksai.
**Taikomoji etika** yra [moralinių svarstymų praktinis taikymas](https://en.wikipedia.org/wiki/Applied_ethics). Tai procesas, kai aktyviai tiriamos etinės problemos realių veiksmų, produktų ir procesų kontekste, ir imamasi korekcinių veiksmų, kad jie išliktų suderinti su apibrėžtomis etinėmis vertybėmis.
**Taikomoji etika** yra [moralinių svarstymų praktinis taikymas](https://en.wikipedia.org/wiki/Applied_ethics). Tai procesas, kai aktyviai tiriamos etinės problemos realaus pasaulio veiksmų, produktų ir procesų kontekste, ir imamasi korekcinių veiksmų, kad jie išliktų suderinti su apibrėžtomis etinėmis vertybėmis.
**Etikos kultūra** – tai [_taikomosios etikos operatyvinimas_](https://hbr.org/2019/05/how-to-design-an-ethical-organization), siekiant užtikrinti, kad mūsų etiniai principai ir praktika būtų nuosekliai ir masto požiūriu pritaikyti visoje organizacijoje. Sėkmingos etikos kultūros apibrėžia organizacijos mastu etinius principus, suteikia prasmingas paskatas laikytis taisyklių ir skatina bei stiprina pageidaujamą elgesį kiekviename organizacijos lygyje.
**Etikos kultūra** yra apie [_taikomosios etikos operatyvinimą_](https://hbr.org/2019/05/how-to-design-an-ethical-organization), siekiant užtikrinti, kad mūsų etiniai principai ir praktika būtų nuosekliai ir masteliškai priimti visoje organizacijoje. Sėkmingos etikos kultūros apibrėžia organizacijos mastu etinius principus, suteikia prasmingas paskatas laikytis taisyklių ir skatina bei stiprina pageidaujamą elgesį kiekviename organizacijos lygyje.
## Etikos sąvokos
## Etikos sąvokos
Šiame skyriuje aptarsime tokias sąvokas kaip **bendros vertybės** (principai) ir **etikos iššūkiai** (problemos) duomenų etikoje – ir nagrinėsime **atvejų analizes**, kurios padės suprasti šias sąvokas realiame kontekste.
Šiame skyriuje aptarsime tokias sąvokas kaip **bendros vertybės** (principai) ir **etikos iššūkiai** (problemos) duomenų etikoje – ir nagrinėsime **atvejų analizes**, kurios padės suprasti šias sąvokas realaus pasaulio kontekstuose.
### 1. Etikos principai
### 1. Etikos principai
Kiekviena duomenų etikos strategija prasideda nuo _etinių principų_ apibrėžimo – „bendrų vertybių“, kurios apibūdina priimtiną elgesį ir vadovauja veiksmams, atitinkantiems taisykles, mūsų duomenų ir AI projektuose. Juos galite apibrėžti individualiu ar komandos lygiu. Tačiau dauguma didelių organizacijų apibrėžia juos _etinio AI_ misijos pareiškime ar sistemoje, kuri yra apibrėžta korporatyviniu lygiu ir nuosekliai taikoma visose komandose.
Kiekviena duomenų etikos strategija prasideda nuo _etinių principų_ apibrėžimo – „bendrų vertybių“, kurios apibūdina priimtiną elgesį ir vadovauja veiksmams, atitinkantiems taisykles, mūsų duomenų ir AI projektuose. Juos galite apibrėžti individualiu ar komandos lygiu. Tačiau dauguma didelių organizacijų apibrėžia juos _etinio AI_ misijos pareiškime ar sistemoje, kuri yra apibrėžta korporatyviniu lygiu ir nuosekliai įgyvendinama visose komandose.
**Pavyzdys:** Microsoft [Atsakingo AI](https://www.microsoft.com/en-us/ai/responsible-ai) misijos pareiškimas skamba: _„Mes esame įsipareigoję AI pažangai, kurią skatina etiniai principai, pirmiausia orientuoti į žmones“_ – identifikuojant 6 etinius principus žemiau pateiktoje sistemoje:
**Pavyzdys:** „Microsoft“ [atsakingo AI](https://www.microsoft.com/en-us/ai/responsible-ai) misijos pareiškimas skamba: _„Mes esame įsipareigoję AI pažangai, vadovaujantis etiniais principais, kurie pirmiausia rūpinasi žmonėmis“_ – identifikuojant 6 etinius principus žemiau pateiktoje sistemoje:


Trumpai aptarkime šiuos principus. _Skaidrumas_ ir _atsakomybė_ yra pagrindinės vertybės, ant kurių statomi kiti principai – todėl pradėkime nuo jų:
Trumpai aptarkime šiuos principus. _Skaidrumas_ ir _atsakomybė_ yra pagrindinės vertybės, ant kurių statomi kiti principai – todėl pradėkime nuo jų:
* [**Atsakomybė**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) užtikrina, kad praktikai būtų _atsakingi_ už savo duomenų ir AI operacijas bei laikymąsi šių etinių principų.
* [**Atsakomybė**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) daro praktiką _atsakingą_ už jų duomenų ir AI operacijas bei atitiktį šiems etiniams principams.
* [**Skaidrumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) užtikrina, kad duomenų ir AI veiksmai būtų _suprantami_ vartotojams, paaiškinant, kas ir kodėl priimami sprendimai.
* [**Skaidrumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) užtikrina, kad duomenų ir AI veiksmai būtų _suprantami_(interpretuojami) vartotojams, paaiškinant, kas ir kodėl priimami sprendimai.
* [**Teisingumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) –orientuojasi į tai, kad AI elgtųsi _teisingai su visais žmonėmis_, sprendžiant bet kokius sisteminius ar implicitinius socio-techninius šališkumus duomenyse ir sistemose.
* [**Teisingumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) –siekia užtikrinti, kad AI elgtųsi _su visais žmonėmis_ teisingai, sprendžiant bet kokius sisteminius ar implicitinius socialinius-techninius šališkumus duomenyse ir sistemose.
* [**Patikimumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) – užtikrina, kad AI elgtųsi _nuosekliai_ su apibrėžtomis vertybėmis, sumažinant galimą žalą ar netyčines pasekmes.
* [**Patikimumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) – užtikrina, kad AI elgtųsi _nuosekliai_ su apibrėžtomis vertybėmis, sumažinant galimą žalą ar netyčines pasekmes.
* [**Privatumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) –tai duomenų kilmės supratimas ir _duomenų privatumo bei susijusių apsaugų_ suteikimas vartotojams.
* [**Privatumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) –yra apie duomenų kilmės supratimą ir vartotojų _duomenų privatumo bei susijusių apsaugų_ užtikrinimą.
* [**Įtrauktis**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) –tai AI sprendimų kūrimas su ketinimu, pritaikant juos _plačiam žmonių poreikių ir gebėjimų spektrui_.
* [**Įtrauktis**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) –yra apie AI sprendimų kūrimą su ketinimu, pritaikant juos _plačiam žmonių poreikių ir gebėjimų spektrui_.
> 🚨 Pagalvokite, kokia galėtų būti jūsų duomenų etikos misijos pareiškimas. Išnagrinėkite kitų organizacijų etinio AI sistemas – čia pateikiami pavyzdžiai iš [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ir [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Kokias bendras vertybes jie turi? Kaip šie principai susiję su AI produktu ar pramone, kurioje jie veikia?
> 🚨 Pagalvokite, kokia galėtų būti jūsų duomenų etikos misijos pareiškimas. Išnagrinėkite kitų organizacijų etinio AI sistemas – čia pateikiami pavyzdžiai iš [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ir [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Kokias bendras vertybes jie turi? Kaip šie principai susiję su AI produktu ar pramone, kurioje jie veikia?
@ -72,9 +72,9 @@ Kai turime apibrėžtus etinius principus, kitas žingsnis yra įvertinti mūsų
Renkant duomenis, veiksmai greičiausiai apims **asmeninius duomenis** arba asmeniškai identifikuojamą informaciją (PII), susijusią su identifikuojamais gyvais asmenimis. Tai apima [įvairius neasmeninių duomenų elementus](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), kurie _kolektyviai_ identifikuoja asmenį. Etikos iššūkiai gali būti susiję su _duomenų privatumu_, _duomenų nuosavybe_ ir susijusiomis temomis, tokiomis kaip _informuotas sutikimas_ ir _intelektinės nuosavybės teisės_ vartotojams.
Renkant duomenis, veiksmai greičiausiai apims **asmeninius duomenis** arba asmeniškai identifikuojamą informaciją (PII), susijusią su identifikuojamais gyvais asmenimis. Tai apima [įvairius neasmeninių duomenų elementus](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), kurie _kolektyviai_ identifikuoja asmenį. Etikos iššūkiai gali būti susiję su _duomenų privatumu_, _duomenų nuosavybe_ ir susijusiomis temomis, tokiomis kaip _informuotas sutikimas_ ir _intelektinės nuosavybės teisės_ vartotojams.
Kuriant algoritmus, veiksmai apims **duomenų rinkinių** rinkimą ir kuravimą, o vėliau jų naudojimą **duomenų modelių** mokymui ir diegimui, kurie prognozuoja rezultatus arba automatizuoja sprendimus realiame kontekste. Etikos iššūkiai gali kilti dėl _duomenų rinkinio šališkumo_, _duomenų kokybės_ problemų, _neteisingumo_ ir _klaidingo atvaizdavimo_ algoritmuose – įskaitant kai kurias sistemines problemas.
Kuriant algoritmus, veiksmai apims **duomenų rinkinių** rinkimą ir kuravimą, o vėliau jų naudojimą **duomenų modeliams** mokyti ir diegti, kurie prognozuoja rezultatus arba automatizuoja sprendimus realaus pasaulio kontekstuose. Etikos iššūkiai gali kilti dėl _duomenų rinkinio šališkumo_, _duomenų kokybės_ problemų, _neteisingumo_ ir _klaidingo atvaizdavimo_ algoritmuose – įskaitant kai kurias sistemines problemas.
Abiem atvejais etikos iššūkiai pabrėžia sritis, kuriose mūsų veiksmai gali susidurti su konfliktu su bendromis vertybėmis. Norėdami aptikti, sumažinti, minimizuoti ar pašalinti šias problemas, turime užduoti moralinius „taip/ne“ klausimus, susijusius su mūsų veiksmais, ir prireikus imtis korekcinių veiksmų. Pažvelkime į kai kuriuos etikos iššūkius ir moralinius klausimus, kuriuos jie kelia:
Abiem atvejais etikos iššūkiai pabrėžia sritis, kuriose mūsų veiksmai gali susidurti su konfliktu su mūsų bendromis vertybėmis. Norėdami aptikti, sumažinti, sušvelninti ar pašalinti šiuos rūpesčius, turime užduoti moralinius „taip/ne“ klausimus, susijusius su mūsų veiksmais, ir prireikus imtis korekcinių veiksmų. Pažvelkime į kai kuriuos etikos iššūkius ir moralinius klausimus, kuriuos jie kelia:
#### 2.1 Duomenų nuosavybė
#### 2.1 Duomenų nuosavybė
@ -83,26 +83,26 @@ Duomenų rinkimas dažnai apima asmeninius duomenis, kurie gali identifikuoti du
Moraliniai klausimai, kuriuos reikia užduoti:
Moraliniai klausimai, kuriuos reikia užduoti:
* Kas valdo duomenis? (vartotojas ar organizacija)
* Kas valdo duomenis? (vartotojas ar organizacija)
* Kokias teises turi duomenų subjektai? (pvz., prieiga, ištrynimas, perkeliamumas)
* Kokias teises turi duomenų subjektai? (pvz., prieiga, ištrynimas, perkeliamumas)
* Kokias teises turi organizacijos? (pvz., taisyti kenksmingas vartotojų apžvalgas)
* Kokias teises turi organizacijos? (pvz., pataisyti kenksmingas vartotojų apžvalgas)
#### 2.2 Informuotas sutikimas
#### 2.2 Informuotas sutikimas
[Informuotas sutikimas](https://legaldictionary.net/informed-consent/) apibrėžia vartotojų sutikimą veiksmui (pvz., duomenų rinkimui) su _pilnu supratimu_ apie svarbius faktus, įskaitant tikslą, galimas rizikas ir alternatyvas.
[Informuotas sutikimas](https://legaldictionary.net/informed-consent/) apibrėžia vartotojų veiksmą, kai jie sutinka su veiksmu (pvz., duomenų rinkimu), turėdami _pilną supratimą_ apie svarbius faktus, įskaitant tikslą, galimą riziką ir alternatyvas.
Klausimai, kuriuos reikia nagrinėti:
Klausimai, kuriuos reikia nagrinėti:
* Ar vartotojas (duomenų subjektas) davė leidimą duomenų rinkimui ir naudojimui?
* Ar vartotojas (duomenų subjektas) davė leidimą duomenų rinkimui ir naudojimui?
* Ar vartotojas suprato tikslą, dėl kurio buvo surinkti duomenys?
* Ar vartotojas suprato tikslą, dėl kurio buvo surinkti duomenys?
* Ar vartotojas suprato galimas rizikas, susijusias su jų dalyvavimu?
* Ar vartotojas suprato galimą riziką, susijusią su jų dalyvavimu?
#### 2.3 Intelektinė nuosavybė
#### 2.3 Intelektinė nuosavybė
[Intelektinė nuosavybė](https://en.wikipedia.org/wiki/Intellectual_property) reiškia nematerialius kūrinius, atsiradusius iš žmogaus iniciatyvos, kurie gali _turėti ekonominę vertę_ asmenims ar verslui.
[Intelektinė nuosavybė](https://en.wikipedia.org/wiki/Intellectual_property) reiškia nematerialius kūrinius, atsiradusius dėl žmogaus iniciatyvos, kurie gali _turėti ekonominę vertę_ asmenims ar verslui.
Klausimai, kuriuos reikia nagrinėti:
Klausimai, kuriuos reikia nagrinėti:
* Ar surinkti duomenys turėjo ekonominę vertę vartotojui ar verslui?
* Ar surinkti duomenys turėjo ekonominę vertę vartotojui ar verslui?
* Ar **vartotojas** turi intelektinę nuosavybę čia?
* Ar **vartotojas** turi intelektinę nuosavybę čia?
* Ar **organizacija** turi intelektinę nuosavybę čia?
* Ar **organizacija** turi intelektinę nuosavybę čia?
* Jei šios teisės egzistuoja, kaip jas saugome?
* Jei šios teisės egzistuoja, kaip mes jas saugome?
#### 2.4 Duomenų privatumas
#### 2.4 Duomenų privatumas
@ -116,7 +116,7 @@ Klausimai, kuriuos reikia nagrinėti:
#### 2.5 Teisė būti pamirštam
#### 2.5 Teisė būti pamirštam
[Teisė būti pamirštam](https://en.wikipedia.org/wiki/Right_to_be_forgotten) arba [Teisė į ištrynimą](https://www.gdpreu.org/right-to-be-forgotten/) suteikia papildomą asmeninių duomenų apsaugą vartotojams. Konkrečiai, tai suteikia vartotojams teisę prašyti asmeninių duomenų ištrynimo ar pašalinimo iš interneto paieškų ir kitų vietų, _tam tikromis aplinkybėmis_– leidžiant jiems naują pradžią internete be praeities veiksmų, kurie galėtų būti laikomi prieš juos.
[Teisė būti pamirštam](https://en.wikipedia.org/wiki/Right_to_be_forgotten) arba [teisė į ištrynimą](https://www.gdpreu.org/right-to-be-forgotten/) suteikia papildomą asmeninių duomenų apsaugą vartotojams. Konkrečiai, tai suteikia vartotojams teisę prašyti asmeninių duomenų ištrynimo ar pašalinimo iš interneto paieškų ir kitų vietų, _tam tikromis aplinkybėmis_– leidžiant jiems naują pradžią internete be praeities veiksmų, kurie galėtų būti laikomi prieš juos.
Klausimai, kuriuos reikia nagrinėti:
Klausimai, kuriuos reikia nagrinėti:
* Ar sistema leidžia duomenų subjektams prašyti ištrynimo?
* Ar sistema leidžia duomenų subjektams prašyti ištrynimo?
@ -126,15 +126,15 @@ Klausimai, kuriuos reikia nagrinėti:
#### 2.6 Duomenų rinkinio šališkumas
#### 2.6 Duomenų rinkinio šališkumas
Duomenų rinkinio arba [rinkimo šališkumas](http://researcharticles.com/index.php/bias-in-data-collection-in-research/) yra apie _nereprezentatyvaus_ du
Duomenų rinkinio arba [rinkimo šališkumas](http://researcharticles
[Algoritmų sąžiningumas](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) tikrina, ar algoritmų dizainas sistemingai nediskriminuoja tam tikrų duomenų subjektų grupių, sukeldamas [galimą žalą](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) _paskirstymo_ (kai ištekliai atimami arba nesuteikiami tai grupei) ir _paslaugų kokybės_ (kai AI nėra toks tikslus tam tikroms grupėms kaip kitoms) srityse.
[Algoritmų sąžiningumas](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) tikrina, ar algoritmų kūrimas sistemingai nediskriminuoja tam tikrų duomenų subjektų grupių, sukeldamas [galimą žalą](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) _paskirstymo_ (kai ištekliai atimami arba nesuteikiami tai grupei) ir _paslaugų kokybės_ (kai DI nėra toks tikslus tam tikroms grupėms kaip kitoms) srityse.
Klausimai, kuriuos verta apsvarstyti:
Klausimai, kuriuos verta apsvarstyti:
* Ar įvertinome modelio tikslumą įvairioms grupėms ir sąlygoms?
* Ar įvertinome modelio tikslumą įvairioms grupėms ir sąlygoms?
* Ar išanalizavome sistemą dėl galimos žalos (pvz., stereotipizavimo)?
* Ar išanalizavome sistemą dėl galimos žalos (pvz., stereotipizavimo)?
* Ar galime peržiūrėti duomenis arba iš naujo apmokyti modelius, kad sumažintume nustatytą žalą?
* Ar galime peržiūrėti duomenis arba iš naujo apmokyti modelius, kad sumažintume nustatytą žalą?
Susipažinkite su tokiais šaltiniais kaip [AI sąžiningumo kontroliniai sąrašai](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), kad sužinotumėte daugiau.
Susipažinkite su tokiais šaltiniais kaip [DI sąžiningumo kontroliniai sąrašai](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), kad sužinotumėte daugiau.
#### 2.9 Netinkamas duomenų pateikimas
#### 2.9 Netinkamas duomenų pateikimas
@ -144,7 +144,7 @@ Klausimai, kuriuos verta apsvarstyti:
* Ar pateikiame neišsamius ar netikslius duomenis?
* Ar pateikiame neišsamius ar netikslius duomenis?
* Ar vizualizuojame duomenis taip, kad sukeltume klaidingas išvadas?
* Ar vizualizuojame duomenis taip, kad sukeltume klaidingas išvadas?
* Ar naudojame selektyvius statistinius metodus rezultatams manipuliuoti?
* Ar naudojame selektyvius statistinius metodus rezultatams manipuliuoti?
* Ar yra alternatyvių paaiškinimų, kurie galėtų pasiūlyti kitokią išvadą?
* Ar yra alternatyvių paaiškinimų, kurie galėtų pateikti kitokią išvadą?
#### 2.10 Laisvo pasirinkimo iliuzija
#### 2.10 Laisvo pasirinkimo iliuzija
@ -153,25 +153,25 @@ Klausimai, kuriuos verta apsvarstyti:
Klausimai, kuriuos verta apsvarstyti:
Klausimai, kuriuos verta apsvarstyti:
* Ar vartotojas suprato, kokias pasekmes turi jo pasirinkimas?
* Ar vartotojas suprato, kokias pasekmes turi jo pasirinkimas?
* Ar vartotojas buvo informuotas apie (alternatyvius) pasirinkimus ir jų privalumus bei trūkumus?
* Ar vartotojas buvo informuotas apie (alternatyvius) pasirinkimus ir jų privalumus bei trūkumus?
* Ar vartotojas gali vėliau pakeisti automatizuotą ar įtakotą pasirinkimą?
* Ar vartotojas gali vėliau atšaukti automatizuotą ar įtakotą pasirinkimą?
### 3. Atvejų analizės
### 3. Atvejų analizės
Norint suprasti šiuos etikos iššūkius realiame pasaulyje, verta pažvelgti į atvejų analizes, kurios parodo galimą žalą ir pasekmes asmenims bei visuomenei, kai tokie etikos pažeidimai yra ignoruojami.
Norint suprasti šiuos etikos iššūkius realiame pasaulyje, verta peržiūrėti atvejų analizes, kurios parodo galimą žalą ir pasekmes asmenims bei visuomenei, kai tokie etikos pažeidimai yra ignoruojami.
Štai keletas pavyzdžių:
Štai keletas pavyzdžių:
| Etikos iššūkis | Atvejo analizė |
| Etikos iššūkis | Atvejo analizė |
|--- |--- |
|--- |--- |
| **Informuotas sutikimas** | 1972 m. - [Tuskegee sifilio tyrimas](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Afroamerikiečiai vyrai, dalyvavę tyrime, buvo pažadėti nemokama medicininė priežiūra, _bet buvo apgauti_ tyrėjų, kurie neinformavo jų apie diagnozę ar gydymo galimybes. Daugelis dalyvių mirė, o jų partneriai ar vaikai buvo paveikti; tyrimas truko 40 metų. |
| **Informuotas sutikimas** | 1972 m. - [Tuskegee sifilio tyrimas](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Afrikos amerikiečiai vyrai, dalyvavę tyrime, buvo pažadėti nemokama medicininė priežiūra, _bet buvo apgauti_ tyrėjų, kurie neinformavo jų apie diagnozę ar gydymo galimybes. Daugelis dalyvių mirė, o jų partneriai ar vaikai buvo paveikti; tyrimas truko 40 metų. |
| **Duomenų privatumas** | 2007 m. - [Netflix duomenų prizas](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) pateikė tyrėjams _10 mln. anonimizuotų filmų įvertinimų iš 50 tūkst. klientų_, siekiant pagerinti rekomendacijų algoritmus. Tačiau tyrėjai sugebėjo susieti anonimizuotus duomenis su asmeniškai identifikuojamais duomenimis _išoriniuose duomenų rinkiniuose_ (pvz., IMDb komentarais), efektyviai „deanonimizuodami“ kai kuriuos Netflix abonentus.|
| **Duomenų privatumas** | 2007 m. - [Netflix duomenų prizas](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) pateikė tyrėjams _10 mln. anonimizuotų filmų įvertinimų iš 50 tūkst. klientų_, siekiant pagerinti rekomendacijų algoritmus. Tačiau tyrėjai sugebėjo susieti anonimizuotus duomenis su asmeniškai identifikuojamais duomenimis _išoriniuose duomenų rinkiniuose_ (pvz., IMDb komentaruose), efektyviai „deanonimizuodami“ kai kuriuos Netflix abonentus.|
| **Duomenų rinkimo šališkumas** | 2013 m. - Bostono miestas [sukūrė Street Bump](https://www.boston.gov/transportation/street-bump), programėlę, leidžiančią piliečiams pranešti apie duobes, suteikiant miestui geresnius duomenis apie kelių būklę. Tačiau [žmonės iš mažesnių pajamų grupių turėjo mažiau prieigos prie automobilių ir telefonų](https://hbr.org/2013/04/the-hidden-biases-in-big-data), todėl jų kelių problemos tapo nematomos šioje programėlėje. Kūrėjai dirbo su akademikais, kad spręstų _teisingos prieigos ir skaitmeninės atskirties_ klausimus. |
| **Duomenų rinkimo šališkumas** | 2013 m. - Bostono miestas [sukūrė Street Bump](https://www.boston.gov/transportation/street-bump), programėlę, leidžiančią piliečiams pranešti apie duobes, suteikiant miestui geresnius duomenis apie kelių būklę. Tačiau [žmonės iš mažesnių pajamų grupių turėjo mažiau prieigos prie automobilių ir telefonų](https://hbr.org/2013/04/the-hidden-biases-in-big-data), todėl jų kelių problemos tapo nematomos šioje programėlėje. Kūrėjai dirbo su akademikais, kad spręstų _teisingos prieigos ir skaitmeninės atskirties_ klausimus. |
| **Algoritmų sąžiningumas** | 2018 m. - MIT [Gender Shades tyrimas](http://gendershades.org/overview.html) įvertino AI produktų tikslumą pagal lytį, atskleidžiant netikslumus moterų ir spalvotų žmonių atžvilgiu. [2019 m. Apple kortelė](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) atrodė, kad siūlo mažiau kredito moterims nei vyrams. Abu atvejai parodė algoritminio šališkumo problemas, sukeliančias socialinę ir ekonominę žalą.|
| **Algoritmų sąžiningumas** | 2018 m. - MIT [Gender Shades tyrimas](http://gendershades.org/overview.html) įvertino lyties klasifikavimo DI produktų tikslumą, atskleidžiant netikslumus moterims ir spalvotiems žmonėms. [2019 m. Apple kortelė](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) atrodė, kad siūlo mažiau kredito moterims nei vyrams. Abu atvejai parodė algoritminio šališkumo problemas, sukeliančias socialinę ir ekonominę žalą.|
| **Netinkamas duomenų pateikimas** | 2020 m. - [Džordžijos sveikatos departamentas paskelbė COVID-19 diagramas](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), kurios klaidino piliečius apie patvirtintų atvejų tendencijas, naudodamas nechronologinę x ašies tvarką. Tai iliustruoja netinkamą pateikimą per vizualizacijos triukus. |
| **Netinkamas duomenų pateikimas** | 2020 m. - [Džordžijos sveikatos departamentas paskelbė COVID-19 diagramas](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), kurios atrodė klaidinančios piliečius apie patvirtintų atvejų tendencijas, naudojant nechronologinį x ašies išdėstymą. Tai iliustruoja netinkamą pateikimą per vizualizacijos triukus. |
| **Laisvo pasirinkimo iliuzija** | 2020 m. - Mokymosi programėlė [ABCmouse sumokėjo 10 mln. dolerių, kad išspręstų FTC skundą](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), kai tėvai buvo priversti mokėti už prenumeratas, kurių negalėjo atšaukti. Tai iliustruoja tamsiuosius modelius pasirinkimo architektūrose, kur vartotojai buvo nukreipti link galimai žalingų pasirinkimų. |
| **Laisvo pasirinkimo iliuzija** | 2020 m. - Mokymosi programėlė [ABCmouse sumokėjo 10 mln. dolerių, kad išspręstų FTC skundą](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), kai tėvai buvo įstrigę mokant už prenumeratas, kurių negalėjo atšaukti. Tai iliustruoja tamsiuosius modelius pasirinkimo architektūrose, kur vartotojai buvo nukreipti link potencialiai žalingų pasirinkimų. |
| **Duomenų privatumas ir vartotojų teisės** | 2021 m. - Facebook [duomenų nutekėjimas](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) atskleidė 530 mln. vartotojų duomenis, dėl ko buvo skirta 5 mlrd. dolerių bauda FTC. Tačiau Facebook atsisakė informuoti vartotojus apie nutekėjimą, pažeisdamas vartotojų teises į duomenų skaidrumą ir prieigą. |
| **Duomenų privatumas ir vartotojų teisės** | 2021 m. - Facebook [duomenų nutekėjimas](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) atskleidė 530 mln. vartotojų duomenis, dėl ko FTC skyrė 5 mlrd. dolerių baudą. Tačiau Facebook atsisakė informuoti vartotojus apie nutekėjimą, pažeisdamas vartotojų teises į duomenų skaidrumą ir prieigą. |
Norite daugiau atvejų analizių? Peržiūrėkite šiuos šaltinius:
Norite sužinoti daugiau atvejų analizių? Peržiūrėkite šiuos šaltinius:
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - etikos dilemos įvairiose pramonės šakose.
* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - etikos dilemos įvairiose pramonės šakose.
* [Duomenų mokslo etikos kursas](https://www.coursera.org/learn/data-science-ethics#syllabus) - svarbiausių atvejų analizės.
* [Duomenų mokslo etikos kursas](https://www.coursera.org/learn/data-science-ethics#syllabus) - svarbiausių atvejų analizės.
* [Kur viskas nepavyko](https://deon.drivendata.org/examples/) - Deon kontrolinis sąrašas su pavyzdžiais.
* [Kur viskas nepavyko](https://deon.drivendata.org/examples/) - Deon kontrolinis sąrašas su pavyzdžiais.
@ -184,7 +184,7 @@ Mes aptarėme etikos sąvokas, iššūkius ir atvejų analizes realiame pasaulyj
### 1. Profesiniai kodeksai
### 1. Profesiniai kodeksai
Profesiniai kodeksai siūlo vieną iš būdų organizacijoms „skatinti“ narius palaikyti jų etikos principus ir misiją. Kodeksai yra _moralinės gairės_ profesiniam elgesiui, padedančios darbuotojams ar nariams priimti sprendimus, atitinkančius organizacijos principus. Jie yra veiksmingi tiek, kiek nariai savanoriškai jų laikosi; tačiau daugelis organizacijų siūlo papildomas paskatas ir bausmes, kad motyvuotų narius laikytis kodekso.
Profesiniai kodeksai siūlo vieną iš būdų organizacijoms „skatinti“ narius palaikyti jų etikos principus ir misiją. Kodeksai yra _moralinės gairės_ profesiniam elgesiui, padedančios darbuotojams ar nariams priimti sprendimus, atitinkančius jų organizacijos principus. Jie yra veiksmingi tiek, kiek nariai savanoriškai jų laikosi; tačiau daugelis organizacijų siūlo papildomas paskatas ir bausmes, kad motyvuotų narius laikytis kodekso.
Pavyzdžiai:
Pavyzdžiai:
* [Oksfordo Miuncheno](http://www.code-of-ethics.org/code-of-conduct/) etikos kodeksas
* [Oksfordo Miuncheno](http://www.code-of-ethics.org/code-of-conduct/) etikos kodeksas
@ -195,21 +195,21 @@ Pavyzdžiai:
### 2. Etikos kontroliniai sąrašai
### 2. Etikos kontroliniai sąrašai
Nors profesiniai kodeksai apibrėžia reikalaujamą _etikos elgesį_specialistams, jie [turi žinomų apribojimų](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) vykdymo užtikrinime, ypač didelio masto projektuose. Vietoj to, daugelis duomenų mokslo ekspertų [rekomenduoja kontrolinius sąrašus](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), kurie gali **susieti principus su praktikomis** labiau apibrėžtais ir veiksmais pagrįstais būdais.
Nors profesiniai kodeksai apibrėžia reikalaujamą _etikos elgesį_praktikams, jie [turi žinomų apribojimų](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) vykdymo užtikrinime, ypač didelio masto projektuose. Vietoj to, daugelis duomenų mokslo ekspertų [rekomenduoja kontrolinius sąrašus](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), kurie gali **susieti principus su praktikomis** labiau deterministiniais ir praktiškais būdais.
Kontroliniai sąrašai paverčia klausimus „taip/ne“ užduotimis, kurias galima įgyvendinti, leidžiant juos stebėti kaip standartinių produktų išleidimo darbo eigų dalį.
Kontroliniai sąrašai paverčia klausimus „taip/ne“ užduotimis, kurias galima įgyvendinti, leidžiant juos sekti kaip standartinių produktų išleidimo darbo eigų dalį.
Pavyzdžiai:
Pavyzdžiai:
* [Deon](https://deon.drivendata.org/) - bendros paskirties duomenų etikos kontrolinis sąrašas, sukurtas remiantis [pramonės rekomendacijomis](https://deon.drivendata.org/#checklist-citations) su komandinės eilutės įrankiu lengvam integravimui.
* [Deon](https://deon.drivendata.org/) - bendros paskirties duomenų etikos kontrolinis sąrašas, sukurtas remiantis [pramonės rekomendacijomis](https://deon.drivendata.org/#checklist-citations) su komandinės eilutės įrankiu lengvam integravimui.
* [Privatumo audito kontrolinis sąrašas](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - pateikia bendras gaires informacijos tvarkymo praktikoms iš teisinės ir socialinės perspektyvos.
* [Privatumo audito kontrolinis sąrašas](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - pateikia bendras gaires informacijos tvarkymo praktikoms iš teisinių ir socialinių perspektyvų.
* [AI sąžiningumo kontrolinis sąrašas](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - sukurtas AI specialistų, siekiant palaikyti sąžiningumo patikrinimų integraciją į AI kūrimo ciklus.
* [DI sąžiningumo kontrolinis sąrašas](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - sukurtas DI praktikų, siekiant palaikyti sąžiningumo patikrinimų integraciją į DI kūrimo ciklus.
* [22 klausimai apie etiką duomenyse ir AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - atviresnė sistema, skirta pradinei etikos klausimų analizei dizaino, įgyvendinimo ir organizaciniuose kontekstuose.
* [22 klausimai apie etiką duomenyse ir DI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - atviresnė struktūra, skirta pradinei etikos klausimų analizei dizaino, įgyvendinimo ir organizaciniuose kontekstuose.
### 3. Etikos reguliavimas
### 3. Etikos reguliavimas
Etika yra apie bendrų vertybių apibrėžimą ir teisingų veiksmų atlikimą _savanoriškai_. **Atitiktis** yra apie _įstatymų laikymąsi_, jei jie yra apibrėžti. **Valdymas** apima visas organizacijų veiklos formas, skirtas etikos principams įgyvendinti ir laikytis nustatytų įstatymų.
Etika yra apie bendrų vertybių apibrėžimą ir teisingų veiksmų atlikimą _savanoriškai_. **Atitiktis** yra apie _įstatymų laikymąsi_, jei jie yra apibrėžti. **Valdymas** apima visas organizacijų veiklos formas, skirtas etikos principų laikymuisi ir nustatytų įstatymų laikymuisi.
Šiandien valdymas organizacijose vyksta dviem formomis. Pirma, tai yra apie **etinių AI** principų apibrėžimą ir praktikų nustatymą, siekiant užtikrinti jų taikymą visiems su AI susijusiems projektams organizacijoje. Antra, tai yra apie visų vyriausybės nustatytų **duomenų apsaugos reguliavimų** laikymąsi regionuose, kuriuose organizacija veikia.
Šiandien valdymas organizacijose vyksta dviem formomis. Pirma, tai yra apie **etinio DI** principų apibrėžimą ir praktikų nustatymą, siekiant užtikrinti jų taikymą visiems su DI susijusiems projektams organizacijoje. Antra, tai yra apie visų vyriausybės nustatytų **duomenų apsaugos reguliavimų** laikymąsi regionuose, kuriuose organizacija veikia.
Duomenų apsaugos ir privatumo reguliavimo pavyzdžiai:
Duomenų apsaugos ir privatumo reguliavimo pavyzdžiai:
@ -218,15 +218,15 @@ Duomenų apsaugos ir privatumo reguliavimo pavyzdžiai:
* `1998`, [JAV Vaikų internetinio privatumo apsaugos aktas (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - saugo vaikų iki 13 metų duomenų privatumą.
* `1998`, [JAV Vaikų internetinio privatumo apsaugos aktas (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - saugo vaikų iki 13 metų duomenų privatumą.
* `2018`, [Bendrasis duomenų apsaugos reglamentas (GDPR)](https://gdpr-info.eu/) - suteikia vartotojų teises, duomenų apsaugą ir privatumą.
* `2018`, [Bendrasis duomenų apsaugos reglamentas (GDPR)](https://gdpr-info.eu/) - suteikia vartotojų teises, duomenų apsaugą ir privatumą.
* `2018`, [Kalifornijos vartotojų privatumo aktas (CCPA)](https://www.oag.ca.gov/privacy/ccpa) suteikia vartotojams daugiau _teisių_ į jų (asmeninius) duomenis.
* `2018`, [Kalifornijos vartotojų privatumo aktas (CCPA)](https://www.oag.ca.gov/privacy/ccpa) suteikia vartotojams daugiau _teisių_ į jų (asmeninius) duomenis.
* `2021`, Kinijos [Asmeninės informacijos apsaugos įstatymas](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) ką tik priimtas, sukuriantis vieną iš stipriausių internetinių duomenų privatumo reguliavimų pasaulyje.
* `2021`, Kinijos [Asmeninės informacijos apsaugos įstatymas](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) ką tik priimtas, sukuriant vieną iš stipriausių internetinių duomenų privatumo reguliavimų pasaulyje.
> 🚨 Europos Sąjungos apibrėžtas GDPR (Bendrasis duomenų apsaugos reglamentas) išlieka vienu įtakingiausių duomenų privatumo reguliavimų šiandien. Ar žinojote, kad jis taip pat apibrėžia [8 vartotojų teises](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr), skirtas apsaugoti piliečių skaitmeninį privatumą ir asmens duomenis? Sužinokite, kokios jos yra ir kodėl jos svarbios.
> 🚨 Europos Sąjungos apibrėžtas GDPR (Bendrasis duomenų apsaugos reglamentas) išlieka vienu iš įtakingiausių duomenų privatumo reguliavimų šiandien. Ar žinojote, kad jis taip pat apibrėžia [8 vartotojų teises](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr), skirtas apsaugoti piliečių skaitmeninį privatumą ir asmens duomenis? Sužinokite, kokios jos yra ir kodėl jos svarbios.
### 4. Etikos kultūra
### 4. Etikos kultūra
Atkreipkite dėmesį, kad vis dar egzistuoja nematomas atotrūkis tarp _atitikties_ (pakankamo veikimo pagal „įstatymo raidę“) ir [sisteminių problemų](https://www.coursera.org/learn/data-science-ethics/home/week/4) sprendimo (pvz., ossifikacijos, informacijos asimetrijos ir paskirstymo neteisingumo), kurios gali paspartinti AI ginklavimą.
Atkreipkite dėmesį, kad išlieka nematomas atotrūkis tarp _atitikties_ (pakankamo veikimo pagal „įstatymo raidę“) ir [sisteminių problemų](https://www.coursera.org/learn/data-science-ethics/home/week/4) sprendimo (pvz., ossifikacijos, informacijos asimetrijos ir paskirstymo neteisingumo), kurios gali paspartinti DI ginklavimą.
Pastarasis reikalauja [bendradarbiavimo metodų etikos kultūrų apibrėžimui](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), kurie kuria emocinius ryšius ir nuoseklias bendras vertybes _visose organizacijose_ pramonėje. Tai reikalauja daugiau [formalizuotų duomenų etikos kultūrų](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) organizacijose – leidžiant _bet kam_ [traukti Andon virvę](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (kad anksti iškeltų
Pastarasis reikalauja [bendradarbiavimo metodų etikos kultūrų apibrėžimui](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), kurie kuria emocinius ryšius ir nuoseklias bendras vertybes _visose organizacijose_ pramonėje. Tai reikalauja daugiau [formalizuotų duomenų etikos kultūrų](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) organizacijose - leidžiant _bet kam_ [traukti Andon virvę](https://en.wikipedia.org/wiki/Andon_(manufacturing)) (
* [Atsakingo dirbtinio intelekto principai](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - nemokamas mokymosi kelias iš Microsoft Learn.
* [Atsakingo dirbtinio intelekto principai](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - nemokamas mokymosi kelias iš Microsoft Learn.
* [Etika ir duomenų mokslas](https://resources.oreilly.com/examples/0636920203964) - O'Reilly elektroninė knyga (M. Loukides, H. Mason ir kt.)
* [Etika ir duomenų mokslas](https://resources.oreilly.com/examples/0636920203964) - O'Reilly elektroninė knyga (M. Loukides, H. Mason ir kt.)
* [Duomenų mokslo etika](https://www.coursera.org/learn/data-science-ethics#syllabus) - internetinis kursas iš Mičigano universiteto.
* [Duomenų mokslo etika](https://www.coursera.org/learn/data-science-ethics#syllabus) - internetinis kursas iš Mičigano universiteto.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
| ](../../sketchnotes/03-DefiningData.png)|
| ](../../sketchnotes/03-DefiningData.png)|
|:---:|
|:---:|
|Duomenų apibrėžimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|Duomenų apibrėžimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Duomenys yra faktai, informacija, stebėjimai ir matavimai, kurie naudojami atradimams daryti ir pagrįstiems sprendimams priimti. Duomenų taškas yra vienetas duomenų rinkinyje, kuris yra duomenų taškų kolekcija. Duomenų rinkiniai gali būti įvairių formatų ir struktūrų, dažniausiai priklausomai nuo jų šaltinio arba vietos, iš kur duomenys buvo gauti. Pavyzdžiui, įmonės mėnesio pajamos gali būti pateiktos skaičiuoklėje, o išmaniojo laikrodžio valandiniai širdies ritmo duomenys gali būti [JSON](https://stackoverflow.com/a/383699) formatu. Duomenų mokslininkai dažnai dirba su skirtingais duomenų tipais viename duomenų rinkinyje.
Duomenys – tai faktai, informacija, stebėjimai ir matavimai, naudojami atradimams daryti ir pagrįstiems sprendimams priimti. Duomenų taškas yra vienas duomenų vienetas duomenų rinkinyje, kuris yra duomenų taškų kolekcija. Duomenų rinkiniai gali būti įvairių formatų ir struktūrų, dažniausiai priklausomai nuo jų šaltinio arba vietos, iš kur jie buvo gauti. Pavyzdžiui, įmonės mėnesinės pajamos gali būti pateiktos skaičiuoklėje, o išmaniojo laikrodžio valandinis širdies ritmo duomenys gali būti [JSON](https://stackoverflow.com/a/383699) formatu. Duomenų mokslininkai dažnai dirba su skirtingų tipų duomenimis viename duomenų rinkinyje.
Ši pamoka skirta duomenų identifikavimui ir klasifikavimui pagal jų savybes ir šaltinius.
Ši pamoka skirta duomenų identifikavimui ir klasifikavimui pagal jų savybes ir šaltinius.
Pirminiai duomenys yra duomenys, kurie gauti iš šaltinio pradinėje būsenoje ir dar nebuvo analizuoti ar organizuoti. Kad būtų galima suprasti, kas vyksta su duomenų rinkiniu, jis turi būti organizuotas į formatą, kurį suprastų žmonės ir technologijos, naudojamos tolimesnei analizei. Duomenų rinkinio struktūra apibūdina, kaip jis organizuotas, ir gali būti klasifikuojama kaip struktūrizuota, nestruktūrizuota ir pusiau struktūrizuota. Šios struktūros tipai skiriasi priklausomai nuo šaltinio, tačiau galiausiai telpa į šias tris kategorijas.
Pirminiai duomenys yra duomenys, kurie gaunami tiesiai iš šaltinio savo pradinėje būsenoje ir dar nėra analizuoti ar organizuoti. Kad būtų galima suprasti, kas vyksta su duomenų rinkiniu, jis turi būti organizuotas į formatą, kurį suprastų tiek žmonės, tiek technologijos, naudojamos tolesnei analizei. Duomenų rinkinio struktūra apibūdina, kaip jis yra organizuotas, ir gali būti klasifikuojama kaip struktūrizuota, nestruktūrizuota arba pusiau struktūrizuota. Šios struktūros tipai skirsis priklausomai nuo šaltinio, tačiau galiausiai atitiks vieną iš šių trijų kategorijų.
### Kiekybiniai duomenys
### Kiekybiniai duomenys
Kiekybiniai duomenys yra skaitiniai stebėjimai duomenų rinkinyje, kuriuos paprastai galima analizuoti, matuoti ir naudoti matematiškai. Kai kurie kiekybinių duomenų pavyzdžiai: šalies gyventojų skaičius, žmogaus ūgis ar įmonės ketvirčio pajamos. Su papildoma analize kiekybiniai duomenys galėtų būti naudojami sezoninėms oro kokybės indekso (AQI) tendencijoms atrasti arba numatyti tikimybę, kad darbo dienos piko metu bus eismas.
Kiekybiniai duomenys yra skaitiniai stebėjimai duomenų rinkinyje, kuriuos paprastai galima analizuoti, matuoti ir naudoti matematiškai. Kai kurie kiekybinių duomenų pavyzdžiai: šalies gyventojų skaičius, žmogaus ūgis ar įmonės ketvirčio pajamos. Atlikus papildomą analizę, kiekybiniai duomenys galėtų būti naudojami sezoninėms oro kokybės indekso (AQI) tendencijoms nustatyti arba spėti, kokia tikimybė, kad darbo dienos piko metu bus eismas.
### Kokybiniai duomenys
### Kokybiniai duomenys
Kokybiniai duomenys, dar vadinami kategoriniais duomenimis, yra duomenys, kurių negalima objektyviai išmatuoti, kaip kiekybinių duomenų stebėjimų. Tai paprastai yra įvairūs subjektyvūs duomenys, kurie fiksuoja kažko kokybę, pavyzdžiui, produkto ar proceso. Kartais kokybiniai duomenys yra skaitiniai, tačiau paprastai nenaudojami matematiškai, kaip telefono numeriai ar laiko žymos. Kai kurie kokybinių duomenų pavyzdžiai: vaizdo įrašų komentarai, automobilio markė ir modelis arba artimiausių draugų mėgstamiausia spalva. Kokybiniai duomenys galėtų būti naudojami suprasti, kurie produktai vartotojams patinka labiausiai, arba identifikuoti populiarius raktažodžius darbo paraiškų gyvenimo aprašymuose.
Kokybiniai duomenys, dar vadinami kategoriniais duomenimis, yra duomenys, kurių negalima objektyviai išmatuoti, kaip kiekybinių duomenų stebėjimų. Tai dažniausiai įvairių formatų subjektyvūs duomenys, kurie atspindi kažko kokybę, pavyzdžiui, produkto ar proceso. Kartais kokybiniai duomenys yra skaitiniai, tačiau paprastai nenaudojami matematiškai, pavyzdžiui, telefono numeriai ar laiko žymos. Kai kurie kokybinių duomenų pavyzdžiai: vaizdo įrašų komentarai, automobilio markė ir modelis arba artimiausių draugų mėgstamiausia spalva. Kokybiniai duomenys galėtų būti naudojami norint suprasti, kurie produktai vartotojams patinka labiausiai, arba nustatyti populiarius raktinius žodžius darbo paraiškų gyvenimo aprašymuose.
### Struktūrizuoti duomenys
### Struktūrizuoti duomenys
Struktūrizuoti duomenys yra duomenys, kurie organizuoti į eilutes ir stulpelius, kur kiekviena eilutė turi tą patį stulpelių rinkinį. Stulpeliai atspindi tam tikro tipo vertę ir yra identifikuojami pavadinimu, apibūdinančiu, ką vertė reiškia, o eilutės turi faktines vertes. Stulpeliai dažnai turi specifines taisykles ar apribojimus vertėms, kad būtų užtikrinta, jog vertės tiksliai atspindi stulpelį. Pavyzdžiui, įsivaizduokite klientų skaičiuoklę, kur kiekviena eilutė turi turėti telefono numerį, o telefono numeriai niekada neturi turėti abėcėlinių simbolių. Gali būti taikomos taisyklės, kad telefono numerio stulpelis niekada nebūtų tuščias ir turėtų tik skaičius.
Struktūrizuoti duomenys yra organizuoti į eilutes ir stulpelius, kur kiekviena eilutė turi tą patį stulpelių rinkinį. Stulpeliai atspindi tam tikro tipo reikšmę ir bus identifikuojami pavadinimu, apibūdinančiu, ką ta reikšmė reiškia, o eilutės turės faktines reikšmes. Stulpeliai dažnai turi specifines taisykles ar apribojimus reikšmėms, kad būtų užtikrinta, jog reikšmės tiksliai atspindi stulpelį. Pavyzdžiui, įsivaizduokite klientų skaičiuoklę, kur kiekviena eilutė privalo turėti telefono numerį, o telefono numeriai niekada neturi raidžių. Gali būti taikomos taisyklės, užtikrinančios, kad telefono numerio stulpelis niekada nebūtų tuščias ir jame būtų tik skaičiai.
Struktūrizuotų duomenų privalumas yra tas, kad jie gali būti organizuoti taip, kad būtų susiję su kitais struktūrizuotais duomenimis. Tačiau, kadangi duomenys sukurti būti organizuoti specifiniu būdu, jų bendros struktūros keitimas gali pareikalauti daug pastangų. Pavyzdžiui, pridėti el. pašto stulpelį klientų skaičiuoklėje, kuris negali būti tuščias, reiškia, kad reikės sugalvoti, kaip pridėti šias vertes esamoms klientų eilutėms duomenų rinkinyje.
Struktūrizuotų duomenų privalumas yra tas, kad jie gali būti organizuoti taip, kad būtų susiję su kitais struktūrizuotais duomenimis. Tačiau dėl to, kad duomenys yra sukurti būti organizuoti konkrečiu būdu, jų bendros struktūros keitimas gali pareikalauti daug pastangų. Pavyzdžiui, pridėjus el. pašto stulpelį klientų skaičiuoklėje, kuris negali būti tuščias, reikės nuspręsti, kaip pridėti šias reikšmes prie esamų klientų eilučių duomenų rinkinyje.
Struktūrizuotų duomenų pavyzdžiai: skaičiuoklės, reliacinės duomenų bazės, telefono numeriai, banko išrašai.
Struktūrizuotų duomenų pavyzdžiai: skaičiuoklės, reliacinės duomenų bazės, telefono numeriai, banko išrašai.
### Nestruktūrizuoti duomenys
### Nestruktūrizuoti duomenys
Nestruktūrizuoti duomenys paprastai negali būti suskirstyti į eilutes ar stulpelius ir neturi formato ar taisyklių rinkinio, kurio reikia laikytis. Kadangi nestruktūrizuoti duomenys turi mažiau apribojimų savo struktūrai, lengviau pridėti naują informaciją, palyginti su struktūrizuotu duomenų rinkiniu. Jei jutiklis, fiksuojantis duomenis apie barometrinį slėgį kas 2 minutes, gauna atnaujinimą, leidžiantį matuoti ir registruoti temperatūrą, nereikia keisti esamų duomenų, jei jie yra nestruktūrizuoti. Tačiau tai gali užtrukti ilgiau analizuojant ar tiriant tokius duomenis. Pavyzdžiui, mokslininkas, norintis rasti vidutinę temperatūrą praėjusį mėnesį iš jutiklio duomenų, gali pastebėti, kad jutiklis kai kuriuose duomenyse įrašė "e", kad pažymėtų, jog jis buvo sugedęs, o ne įprastą skaičių, todėl duomenys yra neišsamūs.
Nestruktūrizuoti duomenys paprastai negali būti suskirstyti į eilutes ar stulpelius ir neturi formato ar taisyklių rinkinio, kurio reikėtų laikytis. Kadangi nestruktūrizuoti duomenys turi mažiau apribojimų savo struktūrai, juos lengviau papildyti nauja informacija, palyginti su struktūrizuotu duomenų rinkiniu. Jei jutiklis, fiksuojantis barometrinį slėgį kas 2 minutes, gauna atnaujinimą, leidžiantį matuoti ir registruoti temperatūrą, nereikia keisti esamų duomenų, jei jie yra nestruktūrizuoti. Tačiau tai gali apsunkinti šių duomenų analizę ar tyrimą. Pavyzdžiui, mokslininkas, norintis rasti vidutinę praėjusio mėnesio temperatūrą pagal jutiklio duomenis, gali pastebėti, kad jutiklis kai kuriuose įrašuose užfiksavo „e“, nurodydamas, kad jis buvo sugedęs, o tai reiškia, kad duomenys yra neišsamūs.
Nestruktūrizuotų duomenų pavyzdžiai: tekstiniai failai, tekstinės žinutės, vaizdo failai.
Nestruktūrizuotų duomenų pavyzdžiai: tekstiniai failai, tekstinės žinutės, vaizdo failai.
### Pusiau struktūrizuoti duomenys
### Pusiau struktūrizuoti duomenys
Pusiau struktūrizuoti duomenys turi savybių, kurios daro juos struktūrizuotų ir nestruktūrizuotų duomenų deriniu. Jie paprastai neatitinka eilutėms ir stulpeliams būdingo formato, tačiau yra organizuoti taip, kad laikomi struktūrizuotais ir gali laikytis fiksuoto formato ar taisyklių rinkinio. Struktūra skiriasi priklausomai nuo šaltinio, pavyzdžiui, nuo gerai apibrėžtos hierarchijos iki lankstesnės, leidžiančios lengvai integruoti naują informaciją. Metaduomenys yra indikatoriai, padedantys nuspręsti, kaip duomenys organizuojami ir saugomi, ir turi įvairius pavadinimus, priklausomai nuo duomenų tipo. Kai kurie dažni metaduomenų pavadinimai yra žymos, elementai, subjektai ir atributai. Pavyzdžiui, tipinis el. laiškas turės temą, turinį ir gavėjų rinkinį, ir gali būti organizuotas pagal tai, kas ar kada jis buvo išsiųstas.
Pusiau struktūrizuoti duomenys turi savybių, dėl kurių jie yra struktūrizuotų ir nestruktūrizuotų duomenų derinys. Jie paprastai neatitinka eilučių ir stulpelių formato, tačiau yra organizuoti taip, kad būtų laikomi struktūrizuotais ir gali laikytis nustatyto formato ar taisyklių rinkinio. Struktūra skirsis priklausomai nuo šaltinio, pavyzdžiui, nuo gerai apibrėžtos hierarchijos iki lankstesnės, leidžiančios lengvai integruoti naują informaciją. Metaduomenys yra indikatoriai, padedantys nuspręsti, kaip duomenys yra organizuoti ir saugomi, ir turės įvairius pavadinimus, priklausomai nuo duomenų tipo. Kai kurie įprasti metaduomenų pavadinimai yra žymos, elementai, subjektai ir atributai. Pavyzdžiui, tipinė el. laiško žinutė turės temą, turinį ir gavėjų rinkinį ir gali būti organizuota pagal tai, kas ar kada ją išsiuntė.
Pusiau struktūrizuotų duomenų pavyzdžiai: HTML, CSV failai, JavaScript Object Notation (JSON).
Pusiau struktūrizuotų duomenų pavyzdžiai: HTML, CSV failai, JavaScript Object Notation (JSON).
## Duomenų šaltiniai
## Duomenų šaltiniai
Duomenų šaltinis yra pradinė vieta, kurioje duomenys buvo sugeneruoti arba kur jie "gyvena", ir skiriasi priklausomai nuo to, kaip ir kada jie buvo surinkti. Duomenys, sugeneruoti jų vartotojų, vadinami pirminiais duomenimis, o antriniai duomenys gaunami iš šaltinio, kuris surinko duomenis bendram naudojimui. Pavyzdžiui, mokslininkų grupė, renkantys stebėjimus atogrąžų miške, būtų laikomi pirminiais, o jei jie nuspręstų pasidalinti jais su kitais mokslininkais, tai būtų laikoma antriniais tiems, kurie juos naudoja.
Duomenų šaltinis yra pradinė vieta, kurioje duomenys buvo sugeneruoti arba „gyvena“, ir skirsis priklausomai nuo to, kaip ir kada jie buvo surinkti. Duomenys, sugeneruoti jų naudotojų, vadinami pirminiais duomenimis, o antriniai duomenys gaunami iš šaltinio, kuris surinko duomenis bendram naudojimui. Pavyzdžiui, mokslininkų grupė, renkantys stebėjimus atogrąžų miške, būtų laikomi pirminiais, o jei jie nuspręstų pasidalinti šiais duomenimis su kitais mokslininkais, jie būtų laikomi antriniais tiems, kurie juos naudoja.
Duomenų bazės yra dažnas šaltinis ir remiasi duomenų bazių valdymo sistema, kad talpintų ir prižiūrėtų duomenis, kur vartotojai naudoja komandas, vadinamas užklausomis, duomenims tyrinėti. Failai kaip duomenų šaltiniai gali būti garso, vaizdo ir vaizdo failai, taip pat skaičiuoklės, tokios kaip Excel. Interneto šaltiniai yra dažna vieta duomenims talpinti, kur galima rasti tiek duomenų bazių, tiek failų. Programų programavimo sąsajos, dar vadinamos API, leidžia programuotojams kurti būdus dalintis duomenimis su išoriniais vartotojais per internetą, o procesas, vadinamas interneto duomenų išgavimo, ištraukia duomenis iš tinklalapio. [Pamokos apie darbą su duomenimis](../../../../../../../../../2-Working-With-Data) yra skirtos tam, kaip naudoti įvairius duomenų šaltinius.
Duomenų bazės yra dažnas šaltinis ir remiasi duomenų bazių valdymo sistema, kuri talpina ir prižiūri duomenis, kur naudotojai naudoja užklausas duomenims tyrinėti. Failai kaip duomenų šaltiniai gali būti garso, vaizdo ir vaizdo failai, taip pat skaičiuoklės, tokios kaip Excel. Interneto šaltiniai yra dažna vieta duomenims talpinti, kur galima rasti tiek duomenų bazių, tiek failų. Programų programavimo sąsajos, dar žinomos kaip API, leidžia programuotojams kurti būdus dalintis duomenimis su išoriniais naudotojais per internetą, o interneto duomenų nuskaitymas išgauna duomenis iš tinklalapio. [Pamokos apie darbą su duomenimis](../../../../../../../../../2-Working-With-Data) yra skirtos įvairių duomenų šaltinių naudojimui.
## Išvada
## Išvada
@ -63,16 +63,16 @@ Duomenų bazės yra dažnas šaltinis ir remiasi duomenų bazių valdymo sistema
## 🚀 Iššūkis
## 🚀 Iššūkis
Kaggle yra puikus atvirų duomenų rinkinių šaltinis. Naudokite [duomenų rinkinių paieškos įrankį](https://www.kaggle.com/datasets), kad surastumėte įdomių duomenų rinkinių ir klasifikuokite 3–5 rinkinius pagal šiuos kriterijus:
Kaggle yra puikus atvirų duomenų rinkinių šaltinis. Naudokite [duomenų rinkinių paieškos įrankį](https://www.kaggle.com/datasets), kad rastumėte įdomių duomenų rinkinių ir klasifikuokite 3–5 rinkinius pagal šiuos kriterijus:
- Ar duomenys yra kiekybiniai ar kokybiniai?
- Ar duomenys yra kiekybiniai ar kokybiniai?
- Ar duomenys yra struktūrizuoti, nestruktūrizuoti ar pusiau struktūrizuoti?
- Ar duomenys yra struktūrizuoti, nestruktūrizuoti ar pusiau struktūrizuoti?
- Šis Microsoft Learn modulis, pavadintas [Klasifikuokite savo duomenis](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), turi išsamų struktūrizuotų, pusiau struktūrizuotų ir nestruktūrizuotų duomenų aprašymą.
- Šis „Microsoft Learn“ modulis, pavadintas [Klasifikuokite savo duomenis](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), išsamiai aprašo struktūrizuotus, pusiau struktūrizuotus ir nestruktūrizuotus duomenis.
## Užduotis
## Užduotis
@ -81,4 +81,4 @@ Kaggle yra puikus atvirų duomenų rinkinių šaltinis. Naudokite [duomenų rink
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
| Statistika ir tikimybių teorija - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Statistika ir tikimybių teorija - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra itin svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek verta susipažinti bent su pagrindinėmis sąvokomis. Čia pateiksime trumpą įvadą, kuris padės jums pradėti.
Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra labai svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek naudinga suprasti bent pagrindines sąvokas. Čia pateiksime trumpą įvadą, kuris padės jums pradėti.
**Tikimybė** yra skaičius tarp 0 ir 1, kuris parodo, kaip tikėtinas yra tam tikras **įvykis**. Ji apibrėžiama kaip teigiamų rezultatų (kurie veda į įvykį) skaičius, padalintas iš bendro rezultatų skaičiaus, jei visi rezultatai yra vienodai tikėtini. Pavyzdžiui, metant kauliuką, tikimybė gauti lyginį skaičių yra 3/6 = 0.5.
**Tikimybė** yra skaičius tarp 0 ir 1, kuris parodo, kaip tikėtinas yra tam tikras **įvykis**. Ji apibrėžiama kaip teigiamų rezultatų (kurie veda į įvykį) skaičius, padalintas iš visų rezultatų skaičiaus, jei visi rezultatai yra vienodai tikėtini. Pavyzdžiui, metant kauliuką, tikimybė, kad gausime lyginį skaičių, yra 3/6 = 0.5.
Kalbėdami apie įvykius, naudojame **atsitiktinius kintamuosius**. Pavyzdžiui, atsitiktinis kintamasis, kuris atspindi skaičių, gautą metant kauliuką, gali turėti reikšmes nuo 1 iki 6. Skaičių rinkinys nuo 1 iki 6 vadinamas **imties erdve**. Galime kalbėti apie tikimybę, kad atsitiktinis kintamasis įgaus tam tikrą reikšmę, pavyzdžiui, P(X=3)=1/6.
Kalbėdami apie įvykius, naudojame **atsitiktinius kintamuosius**. Pavyzdžiui, atsitiktinis kintamasis, kuris reprezentuoja skaičių, gautą metant kauliuką, gali turėti reikšmes nuo 1 iki 6. Skaičių rinkinys nuo 1 iki 6 vadinamas **imties erdve**. Galime kalbėti apie tikimybę, kad atsitiktinis kintamasis įgaus tam tikrą reikšmę, pavyzdžiui, P(X=3)=1/6.
Ankstesniame pavyzdyje atsitiktinis kintamasis vadinamas **diskrečiu**, nes jo imties erdvė yra skaičiuojama, t. y. yra atskiri reikšmių, kurias galima išvardyti, rinkiniai. Yra atvejų, kai imties erdvė yra realių skaičių intervalas arba visas realių skaičių rinkinys. Tokie kintamieji vadinami **tęstiniais**. Geras pavyzdys yra autobuso atvykimo laikas.
Ankstesniame pavyzdyje atsitiktinis kintamasis vadinamas **diskrečiu**, nes jo imties erdvė yra skaičiuojama, t. y. yra atskiri reikšmės, kurias galima išvardinti. Yra atvejų, kai imties erdvė yra realių skaičių intervalas arba visas realių skaičių rinkinys. Tokie kintamieji vadinami **tęstiniais**. Geras pavyzdys yra autobuso atvykimo laikas.
## Tikimybių pasiskirstymas
## Tikimybių pasiskirstymas
Diskrečių atsitiktinių kintamųjų atveju lengva aprašyti kiekvieno įvykio tikimybę funkcija P(X). Kiekvienai reikšmei *s* iš imties erdvės *S* ji suteiks skaičių nuo 0 iki 1, taip, kad visų P(X=s) reikšmių suma visiems įvykiams būtų lygi 1.
Diskrečių atsitiktinių kintamųjų atveju lengva aprašyti kiekvieno įvykio tikimybę funkcija P(X). Kiekvienai reikšmei *s* iš imties erdvės *S* ji suteiks skaičių nuo 0 iki 1, taip, kad visų P(X=s) reikšmių suma visiems įvykiams būtų lygi 1.
Labiausiai žinomas diskretus pasiskirstymas yra **vienodas pasiskirstymas**, kai imties erdvėje yra N elementų, kurių kiekvieno tikimybė yra 1/N.
Labiausiai žinomas diskretus pasiskirstymas yra **vienodas pasiskirstymas**, kuriame yra N elementų imties erdvė, su vienoda tikimybe 1/N kiekvienam iš jų.
Sunkiau aprašyti tęstinio kintamojo tikimybių pasiskirstymą, kai reikšmės imamos iš tam tikro intervalo [a,b] arba viso realių skaičių rinkinio ℝ. Pavyzdžiui, autobuso atvykimo laikas. Iš tiesų, kiekvienam tiksliam atvykimo laikui *t* tikimybė, kad autobusas atvyks būtent tuo metu, yra lygi 0!
Sunkiau aprašyti tęstinio kintamojo tikimybių pasiskirstymą, kai reikšmės yra iš tam tikro intervalo [a,b] arba viso realių skaičių rinkinio ℝ. Pavyzdžiui, autobuso atvykimo laikas. Iš tiesų, kiekvienam tiksliam atvykimo laikui *t* tikimybė, kad autobusas atvyks būtent tuo metu, yra 0!
> Dabar žinote, kad įvykiai, kurių tikimybė yra 0, vis tiek įvyksta, ir labai dažnai! Bent jau kiekvieną kartą, kai atvyksta autobusas!
> Dabar žinote, kad įvykiai su 0 tikimybe įvyksta, ir labai dažnai! Bent jau kiekvieną kartą, kai atvyksta autobusas!
Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t<sub>1</sub>≤X<t<sub>2</sub>). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad
Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t<sub>1</sub>≤X<t<sub>2</sub>). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad
@ -43,11 +43,11 @@ Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmi
Tęstinis vienodo pasiskirstymo analogas vadinamas **tęstiniu vienodu pasiskirstymu**, kuris apibrėžiamas baigtiniame intervale. Tikimybė, kad reikšmė X pateks į intervalo ilgį l, yra proporcinga l ir didėja iki 1.
Tęstinis vienodo pasiskirstymo analogas vadinamas **tęstiniu vienodu pasiskirstymu**, kuris apibrėžiamas baigtiniame intervale. Tikimybė, kad reikšmė X pateks į intervalo ilgį l, yra proporcinga l ir didėja iki 1.
Kitas svarbus pasiskirstymas yra **normalusis pasiskirstymas**, apie kurį plačiau kalbėsime toliau.
Kitas svarbus pasiskirstymas yra **normalusis pasiskirstymas**, apie kurį kalbėsime išsamiau žemiau.
## Vidurkis, dispersija ir standartinis nuokrypis
## Vidurkis, dispersija ir standartinis nuokrypis
Tarkime, kad paimame n atsitiktinio kintamojo X imčių seką: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. Galime apibrėžti **vidurkį** (arba **aritmetinį vidurkį**) tradiciniu būdu kaip (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n. Didindami imties dydį (t. y. imdami ribą su n→∞), gausime pasiskirstymo vidurkį (dar vadinamą **lūkesčiu**). Lūkesčius žymėsime **E**(x).
Tarkime, kad ištraukiame n atsitiktinio kintamojo X imčių seką: x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>. Galime apibrėžti **vidurkį** (arba **aritmetinį vidurkį**) tradiciniu būdu kaip (x<sub>1</sub>+x<sub>2</sub>+x<sub>n</sub>)/n. Didinant imties dydį (t. y. imant ribą su n→∞), gausime pasiskirstymo vidurkį (dar vadinamą **lūkesčiu**). Lūkesčius žymėsime **E**(x).
> Galima parodyti, kad bet kuriam diskrečiam pasiskirstymui su reikšmėmis {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} ir atitinkamomis tikimybėmis p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, lūkesčiai bus lygūs E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
> Galima parodyti, kad bet kuriam diskrečiam pasiskirstymui su reikšmėmis {x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>N</sub>} ir atitinkamomis tikimybėmis p<sub>1</sub>, p<sub>2</sub>, ..., p<sub>N</sub>, lūkesčiai bus lygūs E(X)=x<sub>1</sub>p<sub>1</sub>+x<sub>2</sub>p<sub>2</sub>+...+x<sub>N</sub>p<sub>N</sub>.
@ -55,7 +55,7 @@ Norėdami nustatyti, kaip toli reikšmės yra išsisklaidžiusios, galime apskai
## Moda, mediana ir kvartiliai
## Moda, mediana ir kvartiliai
Kartais vidurkis nepakankamai gerai atspindi „tipinę“ duomenų reikšmę. Pavyzdžiui, kai yra keletas ekstremalių reikšmių, kurios visiškai išsiskiria iš diapazono, jos gali paveikti vidurkį. Kitas geras rodiklis yra **mediana**, reikšmė, tokia, kad pusė duomenų taškų yra mažesni už ją, o kita pusė - didesni.
Kartais vidurkis nepakankamai gerai atspindi „tipinę“ duomenų reikšmę. Pavyzdžiui, kai yra keletas ekstremalių reikšmių, kurios visiškai iškrenta iš diapazono, jos gali paveikti vidurkį. Kitas geras rodiklis yra **mediana**, reikšmė, tokia, kad pusė duomenų taškų yra mažesni už ją, o kita pusė - didesni.
Norėdami geriau suprasti duomenų pasiskirstymą, naudinga kalbėti apie **kvartilius**:
Norėdami geriau suprasti duomenų pasiskirstymą, naudinga kalbėti apie **kvartilius**:
@ -68,17 +68,17 @@ Grafiškai galime pavaizduoti medianos ir kvartilių santykį diagramoje, vadina
Čia taip pat apskaičiuojame **tarpkvartilinį diapazoną** IQR=Q3-Q1 ir vadinamuosius **išskirtinius taškus** - reikšmes, kurios yra už ribų [Q1-1.5*IQR,Q3+1.5*IQR].
Čia taip pat apskaičiuojame **tarpkvartilinį diapazoną** IQR=Q3-Q1 ir vadinamuosius **išskirtinius taškus** - reikšmes, kurios yra už ribų [Q1-1.5*IQR,Q3+1.5*IQR].
Mažos galimų reikšmių skaičiaus baigtinio pasiskirstymo atveju gera „tipinė“ reikšmė yra ta, kuri pasirodo dažniausiai, vadinama **moda**. Ji dažnai taikoma kategoriniams duomenims, pvz., spalvoms. Įsivaizduokite situaciją, kai turime dvi žmonių grupes - vieni stipriai mėgsta raudoną spalvą, o kiti - mėlyną. Jei spalvas koduotume skaičiais, vidutinė mėgstamos spalvos reikšmė būtų kažkur oranžinės-žalios spektro ribose, kas neatspindėtų nei vienos grupės tikrosios preferencijos. Tačiau moda būtų viena iš spalvų arba abi spalvos, jei žmonių, balsuojančių už jas, skaičius būtų vienodas (tokiu atveju imtis vadinama **daugiamodine**).
Baigtiniam pasiskirstymui, kuriame yra nedaug galimų reikšmių, gera „tipinė“ reikšmė yra ta, kuri pasirodo dažniausiai, vadinama **moda**. Ji dažnai taikoma kategoriniams duomenims, tokiems kaip spalvos. Įsivaizduokite situaciją, kai turime dvi žmonių grupes - vieni stipriai mėgsta raudoną spalvą, o kiti mėgsta mėlyną. Jei koduotume spalvas skaičiais, vidutinė mėgstamos spalvos reikšmė būtų kažkur oranžinės-žalios spektro dalyje, kuri neatspindėtų tikrosios nei vienos grupės preferencijos. Tačiau moda būtų viena iš spalvų arba abi spalvos, jei žmonių, balsuojančių už jas, skaičius būtų vienodas (tokiu atveju imtis vadinama **daugiamodine**).
## Realūs duomenys
## Realūs duomenys
Analizuojant realaus pasaulio duomenis, jie dažnai nėra tikri atsitiktiniai kintamieji, ta prasme, kad neatliekame eksperimentų su nežinomu rezultatu. Pavyzdžiui, apsvarstykime beisbolo žaidėjų komandą ir jų kūno duomenis, tokius kaip ūgis, svoris ir amžius. Šie skaičiai nėra visiškai atsitiktiniai, tačiau vis tiek galime taikyti tuos pačius matematinius konceptus. Pavyzdžiui, žmonių svorių seka gali būti laikoma reikšmių seka, paimta iš tam tikro atsitiktinio kintamojo. Žemiau pateikiama faktinių beisbolo žaidėjų svorių seka iš [Major League Baseball](http://mlb.mlb.com/index.jsp), paimta iš [šio duomenų rinkinio](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (patogumui pateikiamos tik pirmos 20 reikšmių):
Analizuojant realaus pasaulio duomenis, jie dažnai nėra atsitiktiniai kintamieji, ta prasme, kad neatliekame eksperimentų su nežinomu rezultatu. Pavyzdžiui, apsvarstykime beisbolo žaidėjų komandą ir jų kūno duomenis, tokius kaip ūgis, svoris ir amžius. Šie skaičiai nėra visiškai atsitiktiniai, tačiau vis tiek galime taikyti tuos pačius matematinius konceptus. Pavyzdžiui, žmonių svorių seka gali būti laikoma reikšmių seka, paimta iš tam tikro atsitiktinio kintamojo. Žemiau pateikiama faktinių beisbolo žaidėjų svorių seka iš [Major League Baseball](http://mlb.mlb.com/index.jsp), paimta iš [šio duomenų rinkinio](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (patogumui pateikiamos tik pirmos 20 reikšmių):
> **Pastaba**: Norėdami pamatyti, kaip dirbti su šiuo duomenų rinkiniu, peržiūrėkite [pridedamą užrašų knygelę](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb). Pamokoje taip pat yra keletas užduočių, kurias galite atlikti pridėdami kodą į tą užrašų knygelę. Jei nesate tikri, kaip dirbti su duomenimis, nesijaudinkite - vėliau grįšime prie darbo su duomenimis naudojant Python. Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
> **Pastaba**: Norėdami pamatyti, kaip dirbti su šiuo duomenų rinkiniu, peržiūrėkite [pridedamą užrašų knygelę](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb). Pamokoje taip pat yra keletas užduočių, kurias galite atlikti pridėdami kodą į tą užrašų knygelę. Jei nesate tikri, kaip dirbti su duomenimis, nesijaudinkite - vėliau grįšime prie darbo su duomenimis naudojant Python. Jei nežinote, kaip vykdyti kodą Jupyter užrašų knygelėje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
Štai dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims:
Štai dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims:
@ -90,26 +90,26 @@ Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis*
Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti.
Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti.
> Dirbdami su realaus pasaulio duomenimis, darome prielaidą, kad visi duomenų taškai yra imtys, paimtos iš tam tikro tikimybių pasiskirstymo. Ši prielaida leidžia taikyti mašininio mokymosi metodus ir kurti veikiančius prognozavimo modelius.
> Dirbant su realaus pasaulio duomenimis, darome prielaidą, kad visi duomenų taškai yra imtys, paimtos iš tam tikro tikimybių pasiskirstymo. Ši prielaida leidžia taikyti mašininio mokymosi metodus ir kurti veikiančius prognozavimo modelius.
Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis rodytų, kiek kartų mūsų atsitiktinio kintamojo imtis buvo tam tikrame intervale.
Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis turėtų rodyti, kiek kartų mūsų atsitiktinio kintamojo imtis buvo tam tikrame intervale.


Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. T. y., labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio.
Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. Kitaip tariant, labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio.
> Jei paimtume kitų žmonių, ne iš beisbolo lygos, svorius, pasiskirstymas greičiausiai būtų kitoks. Tačiau pasiskirstymo forma išliktų tokia pati, tik vidurkis ir dispersija pasikeistų. Taigi, jei treniruosime savo modelį su beisbolo žaidėjais, jis greičiausiai duos neteisingus rezultatus, kai bus taikomas universiteto studentams, nes pagrindinis pasiskirstymas yra kitoks.
> Jei paimtume kitų žmonių, ne iš beisbolo lygos, svorius, pasiskirstymas greičiausiai būtų kitoks. Tačiau pasiskirstymo forma išliktų ta pati, tik vidurkis ir dispersija pasikeistų. Taigi, jei treniruosime savo modelį su beisbolo žaidėjais, jis greičiausiai duos neteisingus rezultatus, kai bus taikomas universiteto studentams, nes pagrindinis pasiskirstymas yra kitoks.
## Normalusis pasiskirstymas
## Normalusis pasiskirstymas
Svorio pasiskirstymas, kurį matėme aukščiau, yra labai tipiškas, ir daugelis realaus pasaulio matavimų seka tokio paties tipo pasiskirstymą, tačiau su skirtingu vidurkiu ir dispersija. Šis pasiskirstymas vadinamas **normaliuoju pasiskirstymu**, ir jis vaidina labai svarbų vaidmenį statistikoje.
Svorio pasiskirstymas, kurį matėme aukščiau, yra labai tipiškas, ir daugelis realaus pasaulio matavimų seka tokio paties tipo pasiskirstymą, bet su skirtingu vidurkiu ir dispersija. Šis pasiskirstymas vadinamas **normaliuoju pasiskirstymu**, ir jis vaidina labai svarbų vaidmenį statistikoje.
Naudoti normalųjį pasiskirstymą yra teisingas būdas generuoti potencialių beisbolo žaidėjų atsitiktinius svorius. Kai žinome vidutinį svorį `mean` ir standartinį nuokrypį `std`, galime sugeneruoti 1000 svorio imčių šiuo būdu:
Naudoti normalųjį pasiskirstymą yra teisingas būdas generuoti potencialių beisbolo žaidėjų atsitiktinius svorius. Kai žinome vidutinį svorį `mean` ir standartinį nuokrypį `std`, galime sugeneruoti 1000 svorio imčių šiuo būdu:
```python
```python
samples = np.random.normal(mean,std,1000)
samples = np.random.normal(mean,std,1000)
```
```
Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris bus artimesnis idealiam:
Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris yra artimesnis idealiam:


@ -119,22 +119,26 @@ Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai pana
Kalbėdami apie beisbolo žaidėjų svorius, darome prielaidą, kad yra tam tikras **atsitiktinis kintamasis W**, kuris atitinka idealų visų beisbolo žaidėjų svorių tikimybių pasiskirstymą (vadinamą **populiacija**). Mūsų svorių seka atitinka visų beisbolo žaidėjų pogrupį, kurį vadiname **imčiu**. Įdomus klausimas yra, ar galime žinoti W pasiskirstymo parametrus, t. y. populiacijos vidurkį ir dispersiją?
Kalbėdami apie beisbolo žaidėjų svorius, darome prielaidą, kad yra tam tikras **atsitiktinis kintamasis W**, kuris atitinka idealų visų beisbolo žaidėjų svorių tikimybių pasiskirstymą (vadinamą **populiacija**). Mūsų svorių seka atitinka visų beisbolo žaidėjų pogrupį, kurį vadiname **imčiu**. Įdomus klausimas yra, ar galime žinoti W pasiskirstymo parametrus, t. y. populiacijos vidurkį ir dispersiją?
Lengviausias atsakymas būtų apskaičiuoti mūsų imties vidurkį ir dispersiją. Tačiau gali nutikti taip, kad mūsų atsitiktinė imtis nepakankamai tiksliai atspindi visą populiaciją. Todėl prasminga kalbėti apie **pasitikėjimo intervalą**.
Lengviausias atsakymas būtų apskaičiuoti mūsų imties vidurkį ir dispersiją. Tačiau gali nutikti taip, kad mūsų atsitiktinė imtis tiksliai neatspindi visos populiacijos. Todėl prasminga kalbėti apie **pasitikėjimo intervalą**.
> **Pasitikėjimo intervalas** yra tikrosios populiacijos vidurkio įvertinimas, remiantis mūsų imtimi, kuris yra tikslus tam tikra tikimybe (arba **pasitikėjimo lygiu**).
Tarkime, turime imtį X<sub>1</sub>, ..., X<sub>n</sub> iš mūsų skirstinio. Kiekvieną kartą, kai imame imtį iš skirstinio, gauname skirtingą vidurkio reikšmę μ. Taigi, μ galima laikyti atsitiktiniu dydžiu. **Pasitikėjimo intervalas** su pasitikėjimu p yra reikšmių pora (L<sub>p</sub>, R<sub>p</sub>), tokia, kad **P**(L<sub>p</sub>≤μ≤R<sub>p</sub>) = p, t. y. tikimybė, kad išmatuotas vidurkis pateks į intervalą, lygi p.
Išsamiai aptarti, kaip skaičiuojami pasitikėjimo intervalai, yra už mūsų trumpo įvado ribų. Daugiau informacijos galite rasti [Vikipedijoje](https://en.wikipedia.org/wiki/Confidence_interval). Trumpai tariant, mes apibrėžiame apskaičiuoto imties vidurkio skirstinį, palyginti su tikru populiacijos vidurkiu, kuris vadinamas **studento skirstiniu**.
> **Pasitikėjimo intervalas** yra tikrojo populiacijos vidurkio įvertinimas, atsižvelgiant į mūsų imtį, kuris yra tikslus tam tikra tikimybe (arba **pasitikėjimo lygiu**).
> **Įdomus faktas**: Studentų skirstinys pavadintas matematikos mokslininko William Sealy Gosset garbei, kuris savo darbą publikavo pseudonimu „Student“. Jis dirbo „Guinness“ alaus darykloje, ir, pasak vienos versijos, jo darbdavys nenorėjo, kad visuomenė sužinotų, jog jie naudoja statistinius testus žaliavų kokybei nustatyti.
Tarkime, turime imtį X
Jei norime įvertinti populiacijos vidurkį μ su pasitikėjimu p, turime paimti *(1-p)/2-tąjį procentilį* iš Studentų skirstinio A, kurį galima rasti lentelėse arba apskaičiuoti naudojant statistinės programinės įrangos (pvz., Python, R ir kt.) funkcijas. Tada μ intervalas būtų X±A*D/√n, kur X yra gautas imties vidurkis, o D yra standartinis nuokrypis.
1<sub>1</sub>, ..., X<sub>n</sub> iš mūsų paskirstymo. Kiekvieną kartą, kai imame pavyzdį iš paskirstymo, gauname skirtingą vidutinę reikšmę μ. Taigi, μ gali būti laikoma atsitiktiniu kintamuoju. **Pasitikėjimo intervalas** su pasitikėjimu p yra reikšmių pora (L<sub>p</sub>,R<sub>p</sub>), tokia, kad **P**(L<sub>p</sub>≤μ≤R<sub>p</sub>) = p, t. y. tikimybė, kad išmatuota vidutinė reikšmė pateks į intervalą, lygi p.
> **Pastaba**: Taip pat praleidžiame svarbios sąvokos [laisvės laipsniai](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) aptarimą, kuris yra svarbus Studentų skirstinio kontekste. Norėdami geriau suprasti šią sąvoką, galite pasidomėti išsamesnėmis statistikos knygomis.
Išsamiai aptarti, kaip skaičiuojami pasitikėjimo intervalai, viršija mūsų trumpo įvado ribas. Daugiau informacijos galima rasti [Vikipedijoje](https://en.wikipedia.org/wiki/Confidence_interval). Trumpai tariant, mes apibrėžiame apskaičiuoto pavyzdžio vidurkio paskirstymą, palyginti su tikru populiacijos vidurkiu, kuris vadinamas **studento paskirstymu**.
> **Įdomus faktas**: Studentų paskirstymas pavadintas matematikos mokslininko William Sealy Gosset garbei, kuris savo darbą publikavo pseudonimu „Student“. Jis dirbo Guinness alaus darykloje, ir, pasak vienos versijos, jo darbdavys nenorėjo, kad visuomenė žinotų, jog jie naudoja statistinius testus žaliavų kokybei nustatyti.
Jei norime įvertinti populiacijos vidurkį μ su pasitikėjimu p, turime paimti *(1-p)/2-tą procentilę* iš Studentų paskirstymo A, kurią galima rasti lentelėse arba apskaičiuoti naudojant statistinės programinės įrangos (pvz., Python, R ir kt.) funkcijas. Tada μ intervalas būtų X±A*D/√n, kur X yra gautas pavyzdžio vidurkis, D yra standartinis nuokrypis.
> **Pastaba**: Taip pat praleidžiame svarbios sąvokos [laisvės laipsniai](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) aptarimą, kuri yra svarbi studentų paskirstymui. Norėdami geriau suprasti šią sąvoką, galite kreiptis į išsamesnes statistikos knygas.
Pavyzdys, kaip apskaičiuoti pasitikėjimo intervalą svoriams ir ūgiams, pateiktas [pridedamuose užrašuose](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb).
Pavyzdys, kaip apskaičiuoti pasitikėjimo intervalą svoriams ir ūgiams, pateiktas [pridedamuose užrašuose](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb).
| p | Svorio vidurkis |
| p | Vidutinis svoris |
|-----|-----------|
|-----|----------------|
| 0.85 | 201.73±0.94 |
| 0.85 | 201.73±0.94 |
| 0.90 | 201.73±1.08 |
| 0.90 | 201.73±1.08 |
| 0.95 | 201.73±1.28 |
| 0.95 | 201.73±1.28 |
@ -143,10 +147,10 @@ Atkreipkite dėmesį, kad kuo didesnė pasitikėjimo tikimybė, tuo platesnis pa
## Hipotezių testavimas
## Hipotezių testavimas
Mūsų beisbolo žaidėjų duomenų rinkinyje yra skirtingos žaidėjų pozicijos, kurios gali būti apibendrintos žemiau (žr. [pridedamą užrašų knygelę](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb), kad pamatytumėte, kaip ši lentelė buvo apskaičiuota):
Mūsų beisbolo žaidėjų duomenų rinkinyje yra skirtingos žaidėjų pozicijos, kurios gali būti apibendrintos žemiau (žr. [pridedamą užrašų knygelę](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb), kad pamatytumėte, kaip ši lentelė gali būti apskaičiuota):
| Pozicija | Ūgis | Svoris | Kiekis |
| Pozicija | Ūgis | Svoris | Kiekis |
|------|--------|--------|-------|
|----------|------|--------|--------|
| Gaudytojas | 72.723684 | 204.328947 | 76 |
| Gaudytojas | 72.723684 | 204.328947 | 76 |
| Smūgiuotojas | 74.222222 | 220.888889 | 18 |
| Smūgiuotojas | 74.222222 | 220.888889 | 18 |
| Pirmasis bazės žaidėjas | 74.000000 | 213.109091 | 55 |
| Pirmasis bazės žaidėjas | 74.000000 | 213.109091 | 55 |
@ -154,30 +158,30 @@ Mūsų beisbolo žaidėjų duomenų rinkinyje yra skirtingos žaidėjų pozicijo
| Trečiasis bazės žaidėjas | 73.044444 | 200.955556 | 45 |
| Trečiasis bazės žaidėjas | 73.044444 | 200.955556 | 45 |
Galime pastebėti, kad pirmųjų bazės žaidėjų vidutinis ūgis yra didesnis nei antrųjų bazės žaidėjų. Todėl galime manyti, kad **pirmieji bazės žaidėjai yra aukštesni nei antrieji bazės žaidėjai**.
Galime pastebėti, kad pirmųjų bazės žaidėjų vidutinis ūgis yra didesnis nei antrųjų bazės žaidėjų. Taigi galime manyti, kad **pirmieji bazės žaidėjai yra aukštesni nei antrieji bazės žaidėjai**.
> Šis teiginys vadinamas **hipoteze**, nes nežinome, ar tai iš tikrųjų tiesa.
> Šis teiginys vadinamas **hipoteze**, nes mes nežinome, ar tai iš tikrųjų tiesa.
Tačiau ne visada akivaizdu, ar galime padaryti tokią išvadą. Iš aukščiau pateiktos diskusijos žinome, kad kiekvienas vidurkis turi susijusį pasitikėjimo intervalą, todėl šis skirtumas gali būti tik statistinė klaida. Mums reikia formalesnio būdo hipotezei patikrinti.
Tačiau ne visada akivaizdu, ar galime padaryti tokią išvadą. Iš aukščiau pateiktos diskusijos žinome, kad kiekvienas vidurkis turi susijusį pasitikėjimo intervalą, todėl šis skirtumas gali būti tik statistinė klaida. Mums reikia formalesnio būdo hipotezei patikrinti.
Apskaičiuokime pasitikėjimo intervalus atskirai pirmųjų ir antrųjų bazės žaidėjų ūgiams:
Apskaičiuokime pasitikėjimo intervalus atskirai pirmųjų ir antrųjų bazės žaidėjų ūgiams:
| Pasitikėjimas | Pirmieji bazės žaidėjai | Antrieji bazės žaidėjai |
| Pasitikėjimas | Pirmieji bazės žaidėjai | Antrieji bazės žaidėjai |
Matome, kad jokiu pasitikėjimo lygiu intervalai nesusikerta. Tai patvirtina mūsų hipotezę, kad pirmieji bazės žaidėjai yra aukštesni nei antrieji bazės žaidėjai.
Matome, kad jokiu pasitikėjimo lygiu intervalai nesutampa. Tai įrodo mūsų hipotezę, kad pirmieji bazės žaidėjai yra aukštesni nei antrieji bazės žaidėjai.
Formaliau, problema, kurią sprendžiame, yra nustatyti, ar **du tikimybiniai skirstiniai yra vienodi**, arba bent jau turi tuos pačius parametrus. Priklausomai nuo skirstinio, turime naudoti skirtingus testus. Jei žinome, kad mūsų skirstiniai yra normalūs, galime taikyti **[Studentų t-testą](https://en.wikipedia.org/wiki/Student%27s_t-test)**.
Formaliau, problema, kurią sprendžiame, yra patikrinti, ar **dvi tikimybių paskirstymo funkcijos yra vienodos**, arba bent jau turi tuos pačius parametrus. Priklausomai nuo paskirstymo, tam reikia naudoti skirtingus testus. Jei žinome, kad mūsų paskirstymai yra normalūs, galime taikyti **[Studento t-testą](https://en.wikipedia.org/wiki/Student%27s_t-test)**.
Studentų t-teste apskaičiuojame vadinamąją **t-reikšmę**, kuri nurodo vidurkių skirtumą, atsižvelgiant į dispersiją. Įrodyta, kad t-reikšmė atitinka **studentų skirstinį**, kuris leidžia mums gauti ribinę reikšmę tam tikram pasitikėjimo lygiui **p** (tai galima apskaičiuoti arba rasti skaitmeninėse lentelėse). Tada lyginame t-reikšmę su šia ribine reikšme, kad patvirtintume arba atmestume hipotezę.
Studento t-teste apskaičiuojame vadinamąją **t-reikšmę**, kuri nurodo vidurkių skirtumą, atsižvelgiant į dispersiją. Įrodyta, kad t-reikšmė atitinka **studento paskirstymą**, kuris leidžia mums gauti ribinę reikšmę tam tikram pasitikėjimo lygiui **p** (tai galima apskaičiuoti arba rasti skaitmeninėse lentelėse). Tada palyginame t-reikšmę su šia ribine reikšme, kad patvirtintume arba atmestume hipotezę.
Python kalboje galime naudoti **SciPy** paketą, kuriame yra funkcija`ttest_ind` (be daugelio kitų naudingų statistinių funkcijų!). Ji apskaičiuoja t-reikšmę už mus ir taip pat atlieka atvirkštinį pasitikėjimo p-reikšmės paiešką, kad galėtume tiesiog pažvelgti į pasitikėjimą ir padaryti išvadą.
Python programoje galime naudoti **SciPy** paketą, kuris apima funkciją`ttest_ind` (be daugelio kitų naudingų statistinių funkcijų!). Ji apskaičiuoja t-reikšmę už mus ir taip pat atlieka atvirkštinį pasitikėjimo p-reikšmės paiešką, kad galėtume tiesiog pažvelgti į pasitikėjimą ir padaryti išvadą.
Pavyzdžiui, mūsų palyginimas tarp pirmųjų ir antrųjų bazės žaidėjų ūgių duoda šiuos rezultatus:
Pavyzdžiui, mūsų palyginimas tarp pirmųjų ir antrųjų bazės žaidėjų ūgių duoda šiuos rezultatus:
Mūsų atveju p-reikšmė yra labai maža, tai reiškia, kad yra stiprių įrodymų, patvirtinančių, kad pirmieji bazės žaidėjai yra aukštesni.
Mūsų atveju p-reikšmė yra labai maža, tai reiškia, kad yra stiprūs įrodymai, patvirtinantys, kad pirmieji bazės žaidėjai yra aukštesni.
Taip pat yra kitų hipotezių tipų, kuriuos galime norėti patikrinti, pavyzdžiui:
Taip pat yra kitų hipotezių tipų, kuriuos galime norėti patikrinti, pavyzdžiui:
* Įrodyti, kad tam tikra imtis atitinka tam tikrą skirstinį. Mūsų atveju mes darėme prielaidą, kad ūgiai yra normaliai pasiskirstę, tačiau tai reikia formaliai statistiškai patvirtinti.
* Įrodyti, kad tam tikras pavyzdys atitinka tam tikrą paskirstymą. Mūsų atveju mes darėme prielaidą, kad ūgiai yra normaliai paskirstyti, tačiau tai reikia formaliai statistiškai patikrinti.
* Įrodyti, kad imties vidurkis atitinka tam tikrą iš anksto nustatytą reikšmę
* Įrodyti, kad pavyzdžio vidutinė reikšmė atitinka tam tikrą iš anksto nustatytą reikšmę
* Palyginti kelių imčių vidurkius (pvz., koks yra laimės lygio skirtumas tarp skirtingų amžiaus grupių)
* Palyginti kelių pavyzdžių vidurkius (pvz., koks yra laimės lygio skirtumas tarp skirtingų amžiaus grupių)
## Didelių skaičių dėsnis ir Centrinė ribinė teorema
## Didelių skaičių dėsnis ir centrinė ribinė teorema
Viena iš priežasčių, kodėl normalusis skirstinys yra toks svarbus, yra vadinamoji **centrinė ribinė teorema**. Tarkime, turime didelę nepriklausomų N reikšmių X<sub>1</sub>, ..., X<sub>N</sub>imtį, paimtą iš bet kokio skirstinio su vidurkiu μ ir dispersija σ<sup>2</sup>. Tada, kai N yra pakankamai didelis (kitaip tariant, kai N→∞), vidurkis Σ<sub>i</sub>X<sub>i</sub> bus normaliai pasiskirstęs, su vidurkiu μ ir dispersija σ<sup>2</sup>/N.
Viena iš priežasčių, kodėl normalus paskirstymas yra toks svarbus, yra vadinamoji **centrinė ribinė teorema**. Tarkime, turime didelį nepriklausomų N reikšmių X<sub>1</sub>, ..., X<sub>N</sub>pavyzdį, paimtą iš bet kokio paskirstymo su vidurkiu μ ir dispersija σ<sup>2</sup>. Tada, kai N yra pakankamai didelis (kitaip tariant, kai N→∞), vidurkis Σ<sub>i</sub>X<sub>i</sub> bus normaliai paskirstytas, su vidurkiu μ ir dispersija σ<sup>2</sup>/N.
> Kitas būdas interpretuoti centrinę ribinę teoremą yra pasakyti, kad nepriklausomai nuo skirstinio, kai apskaičiuojate bet kokių atsitiktinių dydžių sumos vidurkį, gaunate normalųjį skirstinį.
> Kitas būdas interpretuoti centrinę ribinę teoremą yra pasakyti, kad nepriklausomai nuo paskirstymo, kai apskaičiuojate bet kokių atsitiktinių kintamųjų reikšmių sumos vidurkį, gaunate normalų paskirstymą.
Iš centrinės ribinės teoremos taip pat išplaukia, kad, kai N→∞, tikimybė, kad imties vidurkis bus lygus μ, tampa 1. Tai vadinama **didelių skaičių dėsniu**.
Iš centrinės ribinės teoremos taip pat išplaukia, kad, kai N→∞, tikimybė, kad pavyzdžio vidurkis bus lygus μ, tampa 1. Tai vadinama **didelių skaičių dėsniu**.
## Kovariacija ir Koreliacija
## Kovariacija ir koreliacija
Viena iš duomenų mokslo užduočių yra rasti ryšius tarp duomenų. Sakome, kad dvi sekos **koreliuoja**, kai jos elgiasi panašiai tuo pačiu metu, t. y. jos arba kyla/krenta kartu, arba viena kyla, kai kita krenta, ir atvirkščiai. Kitaip tariant, atrodo, kad tarp dviejų sekų yra tam tikras ryšys.
Viena iš duomenų mokslo užduočių yra rasti ryšius tarp duomenų. Sakome, kad dvi sekos **koreliuoja**, kai jos rodo panašų elgesį tuo pačiu metu, t. y. jos arba kyla/krenta kartu, arba viena kyla, kai kita krenta, ir atvirkščiai. Kitaip tariant, atrodo, kad tarp dviejų sekų yra tam tikras ryšys.
> Koreliacija nebūtinai reiškia priežastinį ryšį tarp dviejų sekų; kartais abi kintamosios gali priklausyti nuo išorinės priežasties, arba tai gali būti grynas atsitiktinumas, kad dvi sekos koreliuoja. Tačiau stipri matematinė koreliacija yra geras rodiklis, kad dvi kintamosios yra kažkaip susijusios.
> Koreliacija nebūtinai rodo priežastinį ryšį tarp dviejų sekų; kartais abu kintamieji gali priklausyti nuo išorinės priežasties, arba tai gali būti grynas atsitiktinumas, kad dvi sekos koreliuoja. Tačiau stipri matematinė koreliacija yra geras rodiklis, kad du kintamieji yra kažkaip susiję.
Matematiškai pagrindinė sąvoka, rodanti ryšį tarp dviejų atsitiktinių dydžių, yra **kovariacija**, kuri apskaičiuojama taip: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Mes apskaičiuojame abiejų kintamųjų nuokrypį nuo jų vidurkių ir tada šių nuokrypių sandaugą. Jei abu kintamieji nukrypsta kartu, sandauga visada bus teigiama reikšmė, kuri prisidės prie teigiamos kovariacijos. Jei abu kintamieji nukrypsta nesinchronizuotai (t. y. vienas nukrenta žemiau vidurkio, kai kitas pakyla virš vidurkio), visada gausime neigiamas reikšmes, kurios prisidės prie neigiamos kovariacijos. Jei nuokrypiai nėra priklausomi, jie maždaug susidės iki nulio.
Matematiškai pagrindinė sąvoka, rodanti ryšį tarp dviejų atsitiktinių kintamųjų, yra **kovariacija**, kuri apskaičiuojama taip: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Mes apskaičiuojame abiejų kintamųjų nuokrypį nuo jų vidutinių reikšmių, o tada šių nuokrypių sandaugą. Jei abu kintamieji nukrypsta kartu, sandauga visada bus teigiama reikšmė, kuri prisidės prie teigiamos kovariacijos. Jei abu kintamieji nukrypsta nesinchronizuotai (t. y. vienas nukrenta žemiau vidurkio, kai kitas pakyla virš vidurkio), visada gausime neigiamas reikšmes, kurios prisidės prie neigiamos kovariacijos. Jei nuokrypiai nėra priklausomi, jie maždaug sudarys nulį.
Kovariacijos absoliuti reikšmė nepasako daug apie tai, koks stiprus yra ryšys, nes ji priklauso nuo faktinių reikšmių dydžio. Norėdami ją normalizuoti, galime padalyti kovariaciją iš abiejų kintamųjų standartinio nuokrypio ir gauti **koreliaciją**. Gerai tai, kad koreliacija visada yra intervale [-1,1], kur 1 reiškia stiprią teigiamą koreliaciją tarp reikšmių, -1 - stiprią neigiamą koreliaciją, o 0 - jokios koreliacijos (kintamieji yra nepriklausomi).
Kovariacijos absoliuti reikšmė nepasako daug apie tai, koks stiprus yra ryšys, nes ji priklauso nuo faktinių reikšmių dydžio. Norėdami ją normalizuoti, galime padalyti kovariaciją iš abiejų kintamųjų standartinio nuokrypio, kad gautume **koreliaciją**. Geras dalykas yra tas, kad koreliacija visada yra intervale [-1,1], kur 1 rodo stiprią teigiamą koreliaciją tarp reikšmių, -1 - stiprią neigiamą koreliaciją, o 0 - jokios koreliacijos (kintamieji yra nepriklausomi).
**Pavyzdys**: Galime apskaičiuoti koreliaciją tarp beisbolo žaidėjų svorių ir ūgių iš aukščiau paminėto duomenų rinkinio:
**Pavyzdys**: Galime apskaičiuoti koreliaciją tarp beisbolo žaidėjų svorių ir ūgių iš aukščiau paminėto duomenų rinkinio:
```python
```python
@ -225,38 +229,38 @@ array([[1. , 0.52959196],
[0.52959196, 1. ]])
[0.52959196, 1. ]])
```
```
> Koreliacijos matrica C gali būti apskaičiuota bet kokiam įvesties sekų S<sub>1</sub>, ..., S<sub>n</sub> skaičiui. C<sub>ij</sub> reikšmė yra koreliacija tarp S<sub>i</sub> ir S<sub>j</sub>, o įstrižainės elementai visada yra 1 (tai yra S<sub>i</sub> savikoreliacija).
> Koreliacijos matrica C gali būti apskaičiuota bet kokiam skaičiui įvesties sekų S<sub>1</sub>, ..., S<sub>n</sub>. C<sub>ij</sub> reikšmė yra koreliacija tarp S<sub>i</sub> ir S<sub>j</sub>, o diagonalės elementai visada yra 1 (tai taip pat yra S<sub>i</sub> savikoreliacija).
Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį:
Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį:


> Daugiau koreliacijos ir kovariacijos pavyzdžių galite rasti [pridedamoje užrašų knygelėje](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb).
> Daugiau koreliacijos ir kovariacijos pavyzdžių galima rasti [pridedamoje užrašų knygelėje](../../../../1-Introduction/04-stats-and-probability/notebook.ipynb).
## Išvada
## Išvada
Šioje dalyje išmokome:
Šioje dalyje išmokome:
* pagrindines statistines duomenų savybes, tokias kaip vidurkis, dispersija, moda ir kvartiliai
* pagrindines statistines duomenų savybes, tokias kaip vidurkis, dispersija, moda ir kvartiliai
* skirtingus atsitiktinių dydžių skirstinius, įskaitant normalųjį skirstinį
* skirtingus atsitiktinių kintamųjų paskirstymus, įskaitant normalų paskirstymą
* kaip rasti koreliaciją tarp skirtingų savybių
* kaip rasti koreliaciją tarp skirtingų savybių
* kaip naudoti matematikos ir statistikos metodus hipotezėms įrodyti
* kaip naudoti matematikos ir statistikos metodus hipotezėms įrodyti
* kaip apskaičiuoti pasitikėjimo intervalus atsitiktiniam dydžiui, remiantis duomenų imtimi
* kaip apskaičiuoti pasitikėjimo intervalus atsitiktiniam kintamajam, remiantis duomenų pavyzdžiu
Nors tai tikrai nėra išsamus tikimybių ir statistikos temų sąrašas, jis turėtų būti pakankamas, kad suteiktų jums gerą pradžią šiame kurse.
Nors tai tikrai nėra išsamus tikimybių ir statistikos temų sąrašas, jis turėtų būti pakankamas, kad suteiktų jums gerą pradžią šiam kursui.
## 🚀 Iššūkis
## 🚀 Iššūkis
Naudokite užrašų knygelės pavyzdinį kodą, kad patikrintumėte kitas hipotezes:
Naudokite pavyzdinį kodą užrašų knygelėje, kad patikrintumėte kitas hipotezes:
1. Pirmieji bazės žaidėjai yra vyresni nei antrieji bazės žaidėjai
1. Pirmieji bazės žaidėjai yra vyresni nei antrieji bazės žaidėjai
2. Pirmieji bazės žaidėjai yra aukštesni nei trečiasis bazės žaidėjai
2. Pirmieji bazės žaidėjai yra aukštesni nei trečieji bazės žaidėjai
3. Trumpieji žaidėjai yra aukštesni nei antrieji bazės žaidėjai
3. Trumpieji žaidėjai yra aukštesni nei antrieji bazės žaidėjai
Tikimybė ir statistika yra tokia plati tema, kad ji nusipelno atskiro kurso. Jei norite giliau pasinerti į teoriją, galite tęsti skaitydami šias knygas:
Tikimybė ir statistika yra tokia plati tema, kad ji nusipelno atskiro kurso. Jei norite gilintis į teoriją, galite tęsti skaitydami šias knygas:
1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) iš Niujorko universiteto turi puikius paskaitų užrašus [Tikimybė ir statistika duomenų mokslui](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (prieinami internete)
1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) iš Niujorko universiteto turi puikius paskaitų užrašus [Tikimybė ir statistika duomenų mokslui](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (prieinami internete)
1. [Peter ir Andrew Bruce. Praktinė statistika duomenų mokslininkams.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[pavyzdinis kodas R](https://github.com/andrewgbruce/statistics-for-data-scientists)].
1. [Peter ir Andrew Bruce. Praktinė statistika duomenų mokslininkams.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[pavyzdinis kodas R](https://github.com/andrewgbruce/statistics-for-data-scientists)].
| Darbas su duomenimis: Reliacinės duomenų bazės - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Darbas su duomenimis: Reliacinės duomenų bazės - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Tikėtina, kad anksčiau esate naudoję skaičiuoklę informacijai saugoti. Turėjote eilučių ir stulpelių rinkinį, kur eilutės turėjo informaciją (arba duomenis), o stulpeliai apibūdino tą informaciją (kartais vadinamą metaduomenimis). Reliacinė duomenų bazė yra sukurta remiantis šiuo pagrindiniu principu –lentelėmis su stulpeliais ir eilutėmis, leidžiančiomis informaciją paskirstyti per kelias lenteles. Tai suteikia galimybę dirbti su sudėtingesniais duomenimis, išvengti dubliavimo ir turėti lankstumo tyrinėjant duomenis. Pažvelkime į reliacinės duomenų bazės koncepcijas.
Tikėtina, kad anksčiau esate naudoję skaičiuoklę informacijai saugoti. Turėjote eilučių ir stulpelių rinkinį, kur eilutės turėjo informaciją (arba duomenis), o stulpeliai apibūdino tą informaciją (kartais vadinamą metaduomenimis). Reliacinė duomenų bazė yra sukurta remiantis šiuo pagrindiniu principu –stulpeliais ir eilutėmis lentelėse, leidžiančiais informaciją paskirstyti per kelias lenteles. Tai leidžia dirbti su sudėtingesniais duomenimis, išvengti dubliavimo ir suteikia lankstumo tyrinėjant duomenis. Pažvelkime į reliacinės duomenų bazės koncepcijas.
@ -24,34 +24,34 @@ Reliacinės duomenų bazės pagrindas yra lentelės. Kaip ir skaičiuoklėje, le
Pradėkime tyrinėjimą sukurdami lentelę, kurioje saugosime informaciją apie miestus. Galime pradėti nuo jų pavadinimo ir šalies. Tai galėtume saugoti lentelėje taip:
Pradėkime tyrinėjimą sukurdami lentelę, kurioje saugosime informaciją apie miestus. Galime pradėti nuo jų pavadinimo ir šalies. Tai galėtume saugoti lentelėje taip:
| Miestas | Šalis |
| Miestas | Šalis |
| -------- | -------------- |
| -------- | ------------- |
| Tokijas | Japonija |
| Tokijas | Japonija |
| Atlanta | Jungtinės Valstijos |
| Atlanta | Jungtinės Valstijos |
| Oklendas | Naujoji Zelandija |
| Oklendas | Naujoji Zelandija |
Atkreipkite dėmesį, kad stulpelių pavadinimai **miestas**, **šalis** ir **populiacija** apibūdina saugomus duomenis, o kiekviena eilutė pateikia informaciją apie vieną miestą.
Atkreipkite dėmesį, kad stulpelių pavadinimai **miestas**, **šalis** ir **populiacija** apibūdina saugomus duomenis, o kiekviena eilutė turi informaciją apie vieną miestą.
## Vienos lentelės metodo trūkumai
## Vienos lentelės metodo trūkumai
Tikėtina, kad aukščiau pateikta lentelė jums atrodo gana pažįstama. Pradėkime pridėti papildomų duomenų į mūsų augančią duomenų bazę – metinį kritulių kiekį (milimetrais). Susitelkime į 2018, 2019 ir 2020 metus. Jei pridėtume duomenis apie Tokiją, tai galėtų atrodyti taip:
Tikėtina, kad aukščiau pateikta lentelė jums atrodo gana pažįstama. Pradėkime pridėti papildomų duomenų į mūsų augančią duomenų bazę – metinį kritulių kiekį (milimetrais). Susitelkime į 2018, 2019 ir 2020 metus. Jei pridėtume duomenis apie Tokiją, tai galėtų atrodyti taip:
| Miestas | Šalis | Metai | Kiekis |
| Miestas | Šalis | Metai | Kiekis |
| ------- | ------ | ----- | ------ |
| -------- | ------ | ----- | ------ |
| Tokijas | Japonija | 2020 | 1690 |
| Tokijas | Japonija | 2020 | 1690 |
| Tokijas | Japonija | 2019 | 1874 |
| Tokijas | Japonija | 2019 | 1874 |
| Tokijas | Japonija | 2018 | 1445 |
| Tokijas | Japonija | 2018 | 1445 |
Ką pastebite apie mūsų lentelę? Galbūt pastebėjote, kad mes kartojame miesto pavadinimą ir šalį vėl ir vėl. Tai gali užimti nemažai vietos ir iš esmės yra nereikalinga. Juk Tokijas turi tik vieną pavadinimą, kuris mus domina.
Ką pastebite apie mūsų lentelę? Galbūt pastebėjote, kad mes kartojame miesto pavadinimą ir šalį vėl ir vėl. Tai gali užimti nemažai vietos ir iš esmės yra nereikalinga. Juk mus domina tik vienas Tokijo pavadinimas.
Gerai, pabandykime ką nors kita. Pridėkime naujus stulpelius kiekvieniems metams:
Gerai, pabandykime ką nors kita. Pridėkime naujus stulpelius kiekvieniems metams:
Nors tai padeda išvengti eilučių dubliavimo, atsiranda keletas kitų iššūkių. Kiekvieną kartą atsiradus naujiems metams, reikėtų keisti lentelės struktūrą. Be to, augant duomenims, metų naudojimas kaip stulpelių apsunkins reikšmių gavimą ir skaičiavimą.
Nors tai padeda išvengti eilučių dubliavimo, atsiranda keletas kitų iššūkių. Kiekvieną kartą atsiradus naujiems metams, turėtume keisti lentelės struktūrą. Be to, augant duomenims, metų naudojimas kaip stulpelių apsunkins reikšmių gavimą ir skaičiavimą.
Štai kodėl mums reikia kelių lentelių ir ryšių. Padalindami duomenis galime išvengti dubliavimo ir turėti daugiau lankstumo dirbant su duomenimis.
Štai kodėl mums reikia kelių lentelių ir ryšių. Padalindami duomenis galime išvengti dubliavimo ir turėti daugiau lankstumo dirbant su duomenimis.
@ -60,7 +60,7 @@ Nors tai padeda išvengti eilučių dubliavimo, atsiranda keletas kitų iššūk
Grįžkime prie savo duomenų ir nuspręskime, kaip juos padalinti. Žinome, kad norime saugoti miestų pavadinimus ir šalis, todėl tai greičiausiai geriausiai veiks vienoje lentelėje.
Grįžkime prie savo duomenų ir nuspręskime, kaip juos padalinti. Žinome, kad norime saugoti miestų pavadinimus ir šalis, todėl tai greičiausiai geriausiai veiks vienoje lentelėje.
| Miestas | Šalis |
| Miestas | Šalis |
| -------- | -------------- |
| --------- | ------------- |
| Tokijas | Japonija |
| Tokijas | Japonija |
| Atlanta | Jungtinės Valstijos |
| Atlanta | Jungtinės Valstijos |
| Oklendas | Naujoji Zelandija |
| Oklendas | Naujoji Zelandija |
@ -71,20 +71,20 @@ Tačiau prieš kurdami kitą lentelę, turime nuspręsti, kaip nurodyti kiekvien
### miestai
### miestai
| miestas_id | Miestas | Šalis |
| miesto_id | Miestas | Šalis |
| ---------- | -------- | -------------- |
| --------- | --------- | ------------- |
| 1 | Tokijas | Japonija |
| 1 | Tokijas | Japonija |
| 2 | Atlanta | Jungtinės Valstijos |
| 2 | Atlanta | Jungtinės Valstijos |
| 3 | Oklendas | Naujoji Zelandija |
| 3 | Oklendas | Naujoji Zelandija |
> ✅ Pastebėsite, kad šioje pamokoje terminus "id" ir "pirminis raktas" naudojame pakaitomis. Šios koncepcijos taikomos ir "DataFrames", kuriuos tyrinėsite vėliau. "DataFrames" nenaudoja termino "pirminis raktas", tačiau pastebėsite, kad jie veikia labai panašiai.
> ✅ Pastebėsite, kad šios pamokos metu terminus "id" ir "pirminis raktas" naudojame pakaitomis. Šios koncepcijos taikomos ir "DataFrames", kuriuos tyrinėsite vėliau. "DataFrames" nenaudoja termino "pirminis raktas", tačiau pastebėsite, kad jie elgiasi labai panašiai.
Sukūrę miestų lentelę, saugokime kritulių duomenis. Užuot dubliavę visą informaciją apie miestą, galime naudoti ID. Taip pat turėtume užtikrinti, kad naujai sukurtoje lentelėje būtų *id* stulpelis, nes visos lentelės turėtų turėti ID arba pirminį raktą.
Sukūrę miestų lentelę, saugokime kritulių duomenis. Užuot dubliavę visą informaciją apie miestą, galime naudoti ID. Taip pat turėtume užtikrinti, kad naujai sukurtoje lentelėje būtų *id* stulpelis, nes visos lentelės turėtų turėti ID arba pirminį raktą.
### krituliai
### krituliai
| krituliai_id | miestas_id | Metai | Kiekis |
| kritulių_id | miesto_id | Metai | Kiekis |
| ------------ | ---------- | ----- | ------ |
| ----------- | --------- | ----- | ------ |
| 1 | 1 | 2018 | 1445 |
| 1 | 1 | 2018 | 1445 |
| 2 | 1 | 2019 | 1874 |
| 2 | 1 | 2019 | 1874 |
| 3 | 1 | 2020 | 1690 |
| 3 | 1 | 2020 | 1690 |
@ -95,7 +95,7 @@ Sukūrę miestų lentelę, saugokime kritulių duomenis. Užuot dubliavę visą
| 8 | 3 | 2019 | 942 |
| 8 | 3 | 2019 | 942 |
| 9 | 3 | 2020 | 1176 |
| 9 | 3 | 2020 | 1176 |
Atkreipkite dėmesį į **miestas_id** stulpelį naujai sukurtoje **krituliai** lentelėje. Šis stulpelis turi reikšmes, kurios nurodo ID **miestai** lentelėje. Techniniais reliacinių duomenų terminais tai vadinama **užsienio raktu**; tai yra pirminis raktas iš kitos lentelės. Galite tiesiog galvoti apie tai kaip apie nuorodą arba rodyklę. **miestas_id** 1 nurodo Tokiją.
Atkreipkite dėmesį į **miesto_id** stulpelį naujai sukurtoje **krituliai** lentelėje. Šis stulpelis turi reikšmes, kurios nurodo ID **miestai** lentelėje. Techniniais reliacinių duomenų terminais tai vadinama **užsienio raktu**; tai yra pirminis raktas iš kitos lentelės. Galite tiesiog galvoti apie tai kaip apie nuorodą arba rodyklę. **miesto_id** 1 nurodo Tokiją.
> [!NOTE] Užsienio raktas dažnai trumpinamas kaip FK
> [!NOTE] Užsienio raktas dažnai trumpinamas kaip FK
@ -134,11 +134,11 @@ WHERE country = 'New Zealand';
Iki šiol gavome duomenis iš vienos lentelės. Dabar norime sujungti duomenis iš **miestai** ir **krituliai**. Tai atliekama *sujungiant* juos. Iš esmės sukursite siūlę tarp dviejų lentelių ir suderinsite reikšmes iš stulpelio kiekvienoje lentelėje.
Iki šiol gavome duomenis iš vienos lentelės. Dabar norime sujungti duomenis iš **miestai** ir **krituliai**. Tai atliekama *sujungiant* juos. Iš esmės sukursite siūlę tarp dviejų lentelių ir suderinsite reikšmes iš stulpelio kiekvienoje lentelėje.
Mūsų pavyzdyje suderinsime **miestas_id** stulpelį **krituliai** su **miestas_id** stulpeliu **miestai**. Tai suderins kritulių reikšmę su atitinkamu miestu. Sujungimo tipas, kurį atliksime, vadinamas *vidiniu* sujungimu, tai reiškia, kad jei kokios nors eilutės nesutampa su kita lentele, jos nebus rodomos. Mūsų atveju kiekvienas miestas turi kritulių duomenis, todėl viskas bus parodyta.
Mūsų pavyzdyje suderinsime **miesto_id** stulpelį **krituliai** su **miesto_id** stulpeliu **miestai**. Tai suderins kritulių reikšmę su atitinkamu miestu. Sujungimo tipas, kurį atliksime, vadinamas *vidiniu* sujungimu, tai reiškia, kad jei kokios nors eilutės nesutampa su niekuo iš kitos lentelės, jos nebus rodomos. Mūsų atveju kiekvienas miestas turi kritulių duomenis, todėl viskas bus parodyta.
Pažiūrėkime kritulių duomenis už 2019 metus visiems mūsų miestams.
Pažiūrėkime kritulių duomenis už 2019 metus visiems mūsų miestams.
Tai atliksime etapais. Pirmas žingsnis yra sujungti duomenis, nurodant stulpelius siūlei –**miestas_id**, kaip buvo pabrėžta anksčiau.
Tai atliksime etapais. Pirmas žingsnis yra sujungti duomenis, nurodant stulpelius siūlei –**miesto_id**, kaip buvo pabrėžta anksčiau.
```sql
```sql
SELECT cities.city
SELECT cities.city
@ -147,7 +147,7 @@ FROM cities
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
INNER JOIN rainfall ON cities.city_id = rainfall.city_id
```
```
Pabrėžėme du stulpelius, kurių norime, ir tai, kad norime sujungti lenteles pagal **miestas_id**. Dabar galime pridėti `WHERE` sakinį, kad filtruotume tik 2019 metus.
Pabrėžėme du stulpelius, kurių norime, ir faktą, kad norime sujungti lenteles pagal **miesto_id**. Dabar galime pridėti `WHERE` sakinį, kad filtruotume tik 2019 metus.
```sql
```sql
SELECT cities.city
SELECT cities.city
@ -167,7 +167,7 @@ WHERE rainfall.year = 2019
## Santrauka
## Santrauka
Reliacinės duomenų bazės yra orientuotos į informacijos padalijimą į kelias lenteles, kurios vėliau sujungiamos rodymui ir analizei. Tai suteikia didelį lankstumą atliekant skaičiavimus ir kitaip manipuliuojant duomenimis. Jūs susipažinote su pagrindinėmis reliacinės duomenų bazės koncepcijomis ir kaip atlikti sujungimą tarp dviejų lentelių.
Reliacinės duomenų bazės yra orientuotos į informacijos padalijimą tarp kelių lentelių, kurios vėliau sujungiamos rodymui ir analizei. Tai suteikia didelį lankstumą atliekant skaičiavimus ir kitaip manipuliuojant duomenimis. Jūs susipažinote su pagrindinėmis reliacinės duomenų bazės koncepcijomis ir kaip atlikti sujungimą tarp dviejų lentelių.
## 🚀 Iššūkis
## 🚀 Iššūkis
@ -175,9 +175,9 @@ Internete yra daugybė reliacinių duomenų bazių. Galite tyrinėti duomenis na
Yra keletas išteklių [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum), kurie padės jums toliau tyrinėti SQL ir reliacinių duomenų bazių koncepcijas:
Yra keletas išteklių [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum), kurie padės jums toliau tyrinėti SQL ir reliacinių duomenų bazių koncepcijas:
@ -192,4 +192,4 @@ Yra keletas išteklių [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo.
Duomenys nėra apriboti relacinėmis duomenų bazėmis. Ši pamoka skirta nerelaciniams duomenims ir apims pagrindus apie skaičiuokles ir NoSQL.
Duomenys nėra apriboti relacinėmis duomenų bazėmis. Ši pamoka skirta nerelaciniams duomenims ir apims pagrindus apie skaičiuokles bei NoSQL.
## Skaičiuoklės
## Skaičiuoklės
Skaičiuoklės yra populiarus būdas saugoti ir analizuoti duomenis, nes jų naudojimas reikalauja mažiau pastangų pradiniam nustatymui. Šioje pamokoje sužinosite pagrindinius skaičiuoklės komponentus, taip pat formules ir funkcijas. Pavyzdžiai bus pateikti naudojant Microsoft Excel, tačiau dauguma dalių ir temų turės panašius pavadinimus ir veiksmus, palyginti su kitomis skaičiuoklių programomis.
Skaičiuoklės yra populiarus būdas saugoti ir analizuoti duomenis, nes jų naudojimas reikalauja mažiau pastangų pradiniam nustatymui. Šioje pamokoje sužinosite pagrindinius skaičiuoklės komponentus, taip pat formules ir funkcijas. Pavyzdžiai bus iliustruoti naudojant Microsoft Excel, tačiau dauguma dalių ir temų turės panašius pavadinimus ir veiksmus, palyginti su kitomis skaičiuoklių programomis.


Skaičiuoklė yra failas, kurį galima pasiekti kompiuterio, įrenginio ar debesų failų sistemoje. Programinė įranga gali būti naršyklės pagrindu arba programa, kurią reikia įdiegti kompiuteryje ar atsisiųsti kaip programėlę. Excel failai taip pat vadinami **darbaknygėmis**, ir ši terminologija bus naudojama visoje pamokoje.
Skaičiuoklė yra failas, kurį galima pasiekti kompiuterio, įrenginio ar debesų failų sistemoje. Programinė įranga gali būti naršyklės pagrindu arba programa, kurią reikia įdiegti kompiuteryje ar atsisiųsti kaip programėlę. Excel failai taip pat vadinami **darbaknygėmis**, ir ši terminologija bus naudojama visoje pamokoje.
Darbaknygė turi vieną ar daugiau **darbalapių**, kurių kiekvienas pažymėtas skirtukais. Darbalapyje yra stačiakampiai, vadinami **langeliais**, kuriuose yra faktiniai duomenys. Langelis yra eilutės ir stulpelio sankirta, kur stulpeliai pažymėti abėcėliniais simboliais, o eilutės - skaitmenimis. Kai kurios skaičiuoklės pirmose eilutėse turi antraštes, kurios apibūdina langelio duomenis.
Darbaknygė sudaryta iš vieno ar daugiau **darbalapių**, kurių kiekvienas pažymėtas skirtukais. Darbalapyje yra stačiakampiai, vadinami **langeliais**, kuriuose saugomi faktiniai duomenys. Langelis yra eilutės ir stulpelio sankirta, kur stulpeliai pažymėti abėcėliniais simboliais, o eilutės - skaitmenimis. Kai kurios skaičiuoklės pirmose eilutėse turi antraštes, kurios apibūdina duomenis langelyje.
Naudodami šiuos pagrindinius Excel darbaknygės elementus, pasitelksime pavyzdį iš [Microsoft Templates](https://templates.office.com/), susijusį su inventoriaus valdymu, kad aptartume papildomas skaičiuoklės dalis.
Naudodami šiuos pagrindinius Excel darbaknygės elementus, pasitelksime pavyzdį iš [Microsoft Templates](https://templates.office.com/), susijusį su inventoriaus valdymu, kad aptartume papildomas skaičiuoklės dalis.
### Inventoriaus valdymas
### Inventoriaus valdymas
Skaičiuoklės failas, pavadintas "InventoryExample", yra suformatuota inventoriaus elementų skaičiuoklė, turinti tris darbalapius, kurių skirtukai pažymėti "Inventory List", "Inventory Pick List" ir "Bin Lookup". 4-oji eilutė "Inventory List" darbalapyje yra antraštė, apibūdinanti kiekvieno langelio reikšmę antraštės stulpelyje.
Skaičiuoklės failas, pavadintas "InventoryExample", yra suformatuota inventoriaus elementų skaičiuoklė, kurioje yra trys darbalapiai, pažymėti skirtukais "Inventory List", "Inventory Pick List" ir "Bin Lookup". 4-oji eilutė darbalapyje "Inventory List" yra antraštė, apibūdinanti kiekvieno langelio reikšmę antraštės stulpelyje.


Yra atvejų, kai langelio reikšmė priklauso nuo kitų langelių reikšmių, kad būtų sugeneruota galutinė reikšmė. Inventoriaus sąrašo skaičiuoklė seka kiekvieno inventoriaus elemento kainą, tačiau ką daryti, jei reikia žinoti viso inventoriaus vertę? [**Formulės**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) atlieka veiksmus su langelių duomenimis ir naudojamos inventoriaus vertės apskaičiavimui šiame pavyzdyje. Ši skaičiuoklė naudoja formulę "Inventory Value" stulpelyje, kad apskaičiuotų kiekvieno elemento vertę, padauginant kiekį iš "QTY" antraštės ir kainą iš "COST" antraštės langelių. Dukart spustelėjus arba paryškinus langelį, bus rodoma formulė. Pastebėsite, kad formulės prasideda lygybės ženklu, po kurio seka skaičiavimas ar operacija.
Yra atvejų, kai langelio reikšmė priklauso nuo kitų langelių reikšmių, kad būtų sugeneruota jo reikšmė. Inventoriaus sąrašo skaičiuoklė seka kiekvieno inventoriaus elemento kainą, tačiau ką daryti, jei reikia sužinoti viso inventoriaus vertę? [**Formulės**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) atlieka veiksmus su langelių duomenimis ir naudojamos inventoriaus vertės apskaičiavimui šiame pavyzdyje. Ši skaičiuoklė naudoja formulę stulpelyje "Inventory Value", kad apskaičiuotų kiekvieno elemento vertę, padauginant kiekį iš stulpelio "QTY" ir kainą iš stulpelio "COST". Dukart spustelėjus arba paryškinus langelį, bus matoma formulė. Pastebėsite, kad formulės prasideda lygybės ženklu, po kurio seka skaičiavimas ar operacija.


Galime naudoti kitą formulę, kad sudėtume visas "Inventory Value" reikšmes ir gautume bendrą vertę. Tai galėtų būti apskaičiuota sudedant kiekvieną langelį, tačiau tai gali būti varginantis darbas. Excel turi [**funkcijas**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), arba iš anksto apibrėžtas formules, skirtas skaičiavimams su langelių reikšmėmis atlikti. Funkcijoms reikalingi argumentai, kurie yra būtinos reikšmės skaičiavimams atlikti. Kai funkcijoms reikia daugiau nei vieno argumento, jie turi būti išvardyti tam tikra tvarka, kitaip funkcija gali apskaičiuoti neteisingą reikšmę. Šiame pavyzdyje naudojama SUM funkcija, kuri naudoja "Inventory Value" reikšmes kaip argumentą, kad sugeneruotų bendrą vertę, nurodytą 3-oje eilutėje, B stulpelyje (taip pat vadinama B3).
Galime naudoti kitą formulę, kad sudėtume visas inventoriaus vertės reikšmes ir gautume bendrą vertę. Tai galėtų būti apskaičiuota sudedant kiekvieną langelį, tačiau tai gali būti varginantis darbas. Excel turi [**funkcijas**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), arba iš anksto apibrėžtas formules, skirtas skaičiavimams su langelių reikšmėmis. Funkcijoms reikalingi argumentai, kurie yra būtinos reikšmės skaičiavimams atlikti. Kai funkcijoms reikia daugiau nei vieno argumento, jie turi būti išvardyti tam tikra tvarka, kitaip funkcija gali neteisingai apskaičiuoti reikšmę. Šiame pavyzdyje naudojama funkcija SUM, kuri naudoja inventoriaus vertės reikšmes kaip argumentą, kad sugeneruotų bendrą vertę, nurodytą 3-oje eilutėje, B stulpelyje (taip pat vadinama B3).
## NoSQL
## NoSQL
NoSQL yra bendras terminas, apibūdinantis skirtingus būdus saugoti nerelacinius duomenis, ir gali būti interpretuojamas kaip "ne-SQL", "nerelacinis" arba "ne tik SQL". Šios duomenų bazės sistemos gali būti suskirstytos į 4 tipus.
NoSQL yra bendras terminas, apibūdinantis skirtingus būdus saugoti nerelacinius duomenis, ir gali būti interpretuojamas kaip "ne-SQL", "nerelacinis" arba "ne tik SQL". Šios duomenų bazės sistemos gali būti suskirstytos į 4 tipus.


[Raktų-reikšmių](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) duomenų bazės susieja unikalius raktus, kurie yra unikalūs identifikatoriai, susieti su reikšme. Šios poros saugomos naudojant [maišos lentelę](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) su tinkama maišos funkcija.
[Raktų-reikšmių](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) duomenų bazės susieja unikalius raktus, kurie yra unikalūs identifikatoriai, susieti su reikšme. Šios poros saugomos naudojant [maišos lentelę](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) su tinkama maišos funkcija.


[Grafų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) duomenų bazės aprašo ryšius tarp duomenų ir yra vaizduojamos kaip mazgų ir briaunų kolekcija. Mazgas atspindi objektą, egzistuojantį realiame pasaulyje, pvz., studentą ar banko išrašą. Briaunos atspindi ryšį tarp dviejų objektų. Kiekvienas mazgas ir briauna turi savybes, kurios suteikia papildomos informacijos apie mazgus ir briaunas.
[Grafų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) duomenų bazės aprašo ryšius tarp duomenų ir yra vaizduojamos kaip mazgų ir briaunų kolekcija. Mazgas atspindi objektą, egzistuojantį realiame pasaulyje, pvz., studentą ar banko išrašą. Briaunos atspindi ryšį tarp dviejų objektų. Kiekvienas mazgas ir briauna turi savybes, kurios suteikia papildomos informacijos apie mazgus ir briaunas.


[Kolonų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) duomenų saugyklos organizuoja duomenis į stulpelius ir eilutes, panašiai kaip relacinė duomenų struktūra, tačiau kiekvienas stulpelis yra padalintas į grupes, vadinamas kolonų šeimomis, kur visi duomenys po vienu stulpeliu yra susiję ir gali būti gauti bei pakeisti kaip vienetas.
[Stulpelinės](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) duomenų saugyklos organizuoja duomenis į stulpelius ir eilutes, panašiai kaip relacinė duomenų struktūra, tačiau kiekvienas stulpelis yra suskirstytas į grupes, vadinamas stulpelių šeimomis, kur visi duomenys po vienu stulpeliu yra susiję ir gali būti gauti ar pakeisti kaip vienetas.
### Dokumentų duomenų saugyklos su Azure Cosmos DB
### Dokumentų duomenų saugyklos su Azure Cosmos DB
[Dokumentų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) duomenų saugyklos remiasi raktų-reikšmių duomenų saugyklos koncepcija ir sudarytos iš laukų ir objektų kolekcijos. Šiame skyriuje bus nagrinėjamos dokumentų duomenų bazės naudojant Cosmos DB emuliatorių.
[Dokumentų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) duomenų saugyklos remiasi raktų-reikšmių duomenų saugyklos koncepcija ir sudarytos iš laukų ir objektų kolekcijos. Šiame skyriuje bus nagrinėjamos dokumentų duomenų bazės naudojant Cosmos DB emuliatorių.
Cosmos DB duomenų bazė atitinka "ne tik SQL" apibrėžimą, kur Cosmos DB dokumentų duomenų bazė naudoja SQL duomenų užklausoms. [Ankstesnė pamoka](../05-relational-databases/README.md) apie SQL apima kalbos pagrindus, ir kai kurias užklausas galėsime pritaikyti dokumentų duomenų bazėje čia. Naudosime Cosmos DB emuliatorių, kuris leidžia sukurti ir tyrinėti dokumentų duomenų bazę vietoje kompiuteryje. Daugiau apie emuliatorių skaitykite [čia](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21).
Cosmos DB duomenų bazė atitinka "ne tik SQL" apibrėžimą, kur Cosmos DB dokumentų duomenų bazė naudoja SQL duomenų užklausoms. [Ankstesnė pamoka](../05-relational-databases/README.md) apie SQL apima kalbos pagrindus, ir galėsime pritaikyti kai kurias tas pačias užklausas dokumentų duomenų bazėje čia. Naudosime Cosmos DB emuliatorių, kuris leidžia sukurti ir tyrinėti dokumentų duomenų bazę vietiniame kompiuteryje. Daugiau apie emuliatorių skaitykite [čia](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21).
Dokumentas yra laukų ir objektų reikšmių kolekcija, kur laukai apibūdina, ką objektų reikšmės atspindi. Žemiau pateiktas dokumento pavyzdys.
Dokumentas yra laukų ir objektų reikšmių kolekcija, kur laukai apibūdina, ką objektų reikšmė atspindi. Žemiau pateiktas dokumento pavyzdys.
```json
```json
{
{
@ -84,13 +84,13 @@ Dokumentas yra laukų ir objektų reikšmių kolekcija, kur laukai apibūdina, k
#### Duomenų tyrinėjimas su Cosmos DB emuliatoriumi
#### Duomenų tyrinėjimas su Cosmos DB emuliatoriumi
Emuliatorių galite atsisiųsti ir įdiegti [Windows sistemai čia](https://aka.ms/cosmosdb-emulator). Žiūrėkite šią [dokumentaciją](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos), kad sužinotumėte, kaip paleisti emuliatorių macOS ir Linux sistemose.
Emuliatorių galite atsisiųsti ir įdiegti [Windows sistemai čia](https://aka.ms/cosmosdb-emulator). Žr. šią [dokumentaciją](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) dėl galimybių paleisti emuliatorių macOS ir Linux sistemose.
Emuliatorius atidaro naršyklės langą, kuriame Explorer vaizdas leidžia tyrinėti dokumentus.
Emuliatorius atidaro naršyklės langą, kuriame Explorer vaizdas leidžia tyrinėti dokumentus.


Jei sekate pamoką, spustelėkite "Start with Sample", kad sugeneruotumėte pavyzdinę duomenų bazę, pavadintą SampleDB. Jei išplėsite SampleDB spustelėdami rodyklę, rasite konteinerį, pavadintą `Persons`. Konteineris talpina elementų kolekciją, kurie yra dokumentai konteineryje. Galite tyrinėti keturis atskirus dokumentus po `Items`.
Jei sekate pamoką, spustelėkite "Start with Sample", kad sugeneruotumėte pavyzdinę duomenų bazę, pavadintą SampleDB. Jei išplėsite SampleDB spustelėdami rodyklę, rasite konteinerį, pavadintą `Persons`. Konteineris saugo elementų kolekciją, kurie yra dokumentai konteineryje. Galite tyrinėti keturis atskirus dokumentus po `Items`.


@ -98,7 +98,7 @@ Jei sekate pamoką, spustelėkite "Start with Sample", kad sugeneruotumėte pavy
Taip pat galime užklausti pavyzdinius duomenis spustelėdami naujos SQL užklausos mygtuką (antras mygtukas iš kairės).
Taip pat galime užklausti pavyzdinius duomenis spustelėdami naujos SQL užklausos mygtuką (antras mygtukas iš kairės).
`SELECT * FROM c` grąžina visus dokumentus konteineryje. Pridėkime sąlygą "where" ir suraskime visus, kurių amžius mažesnis nei 40.
`SELECT * FROM c` grąžina visus dokumentus konteineryje. Pridėkime sąlygą "where" ir suraskime visus, jaunesnius nei 40 metų.
`SELECT * FROM c where c.age < 40`
`SELECT * FROM c where c.age < 40`
@ -108,9 +108,9 @@ Užklausa grąžina du dokumentus, pastebėkite, kad kiekvieno dokumento amžiau
#### JSON ir dokumentai
#### JSON ir dokumentai
Jei esate susipažinę su JavaScript Object Notation (JSON), pastebėsite, kad dokumentai atrodo panašūs į JSON. Šiame kataloge yra `PersonsData.json` failas su daugiau duomenų, kuriuos galite įkelti į `Persons` konteinerį emuliatoriuje naudodami`Upload Item` mygtuką.
Jei esate susipažinę su JavaScript Object Notation (JSON), pastebėsite, kad dokumentai atrodo panašūs į JSON. Šiame kataloge yra `PersonsData.json` failas su daugiau duomenų, kuriuos galite įkelti į `Persons` konteinerį emuliatoriuje per`Upload Item` mygtuką.
Daugeliu atvejų API, kurios grąžina JSON duomenis, gali būti tiesiogiai perduotos ir saugomos dokumentų duomenų bazėse. Žemiau pateiktas dar vienas dokumentas, kuris atspindi "Microsoft" Twitter paskyros tviterius, gautus naudojant Twitter API, o vėliau įkeltus į Cosmos DB.
Daugeliu atvejų API, kurios grąžina JSON duomenis, gali būti tiesiogiai perduotos ir saugomos dokumentų duomenų bazėse. Žemiau pateiktas dar vienas dokumentas, jis atspindi "Microsoft" Twitter paskyros tviterius, kurie buvo gauti naudojant Twitter API, o vėliau įkelti į Cosmos DB.
```json
```json
{
{
@ -128,23 +128,23 @@ Daugeliu atvejų API, kurios grąžina JSON duomenis, gali būti tiesiogiai perd
## 🚀 Iššūkis
## 🚀 Iššūkis
Šiame kataloge yra `TwitterData.json` failas, kurį galite įkelti į SampleDB duomenų bazę. Rekomenduojama jį pridėti į atskirą konteinerį. Tai galima padaryti:
Yra `TwitterData.json` failas, kurį galite įkelti į SampleDB duomenų bazę. Rekomenduojama jį pridėti į atskirą konteinerį. Tai galima padaryti:
1. Spustelėjus naujo konteinerio mygtuką viršutiniame dešiniajame kampe
1. Spustelėjus naujo konteinerio mygtuką viršutiniame dešiniajame kampe
1. Pasirinkus esamą duomenų bazę (SampleDB) ir sukuriant konteinerio ID
1. Pasirinkus esamą duomenų bazę (SampleDB), sukuriant konteinerio ID
1. Nustatant skaidymo raktą kaip`/id`
1. Nustatant skaidymo raktą į`/id`
1. Spustelėjus OK (galite ignoruoti likusią informaciją šiame vaizde, nes tai yra mažas duomenų rinkinys, veikiantis vietoje jūsų kompiuteryje)
1. Spustelėjus OK (galite ignoruoti likusią informaciją šiame vaizde, nes tai yra mažas duomenų rinkinys, veikiantis vietiniame kompiuteryje)
1. Atidarius naują konteinerį ir įkėlus Twitter duomenų failą naudojant`Upload Item` mygtuką
1. Atidarykite naują konteinerį ir įkelkite Twitter Data failą per`Upload Item` mygtuką
Pabandykite atlikti kelias užklausas, kad rastumėte dokumentus, kuriuose lauke "text" yra žodis "Microsoft". Užuomina: pabandykite naudoti [LIKE raktinį žodį](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character).
Pabandykite atlikti kelias užklausas, kad rastumėte dokumentus, kuriuose lauke "text" yra "Microsoft". Užuomina: pabandykite naudoti [LIKE raktinį žodį](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character).
- Yra papildomų formatavimo ir funkcijų, pridėtų prie šios skaičiuoklės, kurių ši pamoka neapima. Microsoft turi [didelę dokumentacijos ir vaizdo įrašų biblioteką](https://support.microsoft.com/excel) apie Excel, jei norite sužinoti daugiau.
- Yra papildomų formatavimo ir funkcijų, pridėtų prie šios skaičiuoklės, kurių ši pamoka neapima. Microsoft turi [didelę dokumentacijos ir vaizdo įrašų biblioteką](https://support.microsoft.com/excel) apie Excel, jei norite sužinoti daugiau.
- Ši architektūrinė dokumentacija detalizuoja skirtingų nerelacinių duomenų tipų charakteristikas: [Nerelaciniai duomenys ir NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)
- Ši architektūrinė dokumentacija aprašo skirtingų nerelacinių duomenų tipų savybes: [Nerelaciniai duomenys ir NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data)
- Cosmos DB yra debesų pagrindu veikianti nerelacinė duomenų bazė, kuri taip pat gali saugoti skirtingus NoSQL tipus, paminėtus šioje pamokoje. Sužinokite daugiau apie šiuos tipus šiame [Cosmos DB Microsoft Learn Module](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/)
- Cosmos DB yra debesų pagrindu veikianti nerelacinė duomenų bazė, kuri taip pat gali saugoti skirtingus NoSQL tipus, paminėtus šioje pamokoje. Sužinokite daugiau apie šiuos tipus šiame [Cosmos DB Microsoft Learn Module](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/)
@ -155,4 +155,4 @@ Pabandykite atlikti kelias užklausas, kad rastumėte dokumentus, kuriuose lauke
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir juos užklausti naudojant užklausų kalbas, lankstiausias būdas apdoroti duomenis yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikia sudėtingesnio duomenų apdorojimo, tai negali būti lengvai atlikta naudojant SQL.
Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir užklausas vykdyti naudojant užklausų kalbas, lankstiausias duomenų apdorojimo būdas yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikalingas sudėtingesnis duomenų apdorojimas, tai negali būti lengvai atlikta naudojant SQL.
Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikros kalbos, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai dažniausiai renkasi vieną iš šių kalbų:
Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikrų kalbų, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai dažniausiai renkasi vieną iš šių kalbų:
* **[Python](https://www.python.org/)** – universali programavimo kalba, dažnai laikoma viena geriausių pasirinkimų pradedantiesiems dėl savo paprastumo. Python turi daugybę papildomų bibliotekų, kurios gali padėti išspręsti daugelį praktinių problemų, pvz., išgauti duomenis iš ZIP archyvo ar konvertuoti paveikslėlį į pilkąjį toną. Be duomenų mokslo, Python taip pat dažnai naudojama interneto svetainių kūrimui.
* **[Python](https://www.python.org/)** – universali programavimo kalba, kuri dažnai laikoma viena geriausių pasirinkimų pradedantiesiems dėl savo paprastumo. Python turi daugybę papildomų bibliotekų, kurios gali padėti išspręsti daugelį praktinių problemų, pavyzdžiui, išgauti duomenis iš ZIP archyvo ar konvertuoti paveikslėlį į pilką spalvą. Be duomenų mokslo, Python taip pat dažnai naudojama interneto svetainių kūrimui.
* **[R](https://www.r-project.org/)** – tradicinė įrankių dėžė, sukurta statistinių duomenų apdorojimui. Ji taip pat turi didelę bibliotekų saugyklą (CRAN), todėl yra geras pasirinkimas duomenų apdorojimui. Tačiau R nėra universali programavimo kalba ir retai naudojama už duomenų mokslo ribų.
* **[R](https://www.r-project.org/)** – tradicinė įrankių dėžė, sukurta statistinių duomenų apdorojimui. Ji taip pat turi didelę bibliotekų saugyklą (CRAN), todėl yra geras pasirinkimas duomenų apdorojimui. Tačiau R nėra universali programavimo kalba ir retai naudojama už duomenų mokslo ribų.
* **[Julia](https://julialang.org/)** – kita kalba, sukurta specialiai duomenų mokslui. Ji siekia geresnio našumo nei Python, todėl yra puikus įrankis moksliniams eksperimentams.
* **[Julia](https://julialang.org/)** – kita kalba, sukurta specialiai duomenų mokslui. Ji skirta geresniam našumui nei Python, todėl yra puikus įrankis moksliniams eksperimentams.
Šioje pamokoje mes sutelksime dėmesį į Python naudojimą paprastam duomenų apdorojimui. Mes prisiimsime, kad turite pagrindines žinias apie šią kalbą. Jei norite gilesnio Python kurso, galite pasinaudoti šiais ištekliais:
Šioje pamokoje mes sutelksime dėmesį į Python naudojimą paprastam duomenų apdorojimui. Mes prielaida, kad turite pagrindines žinias apie šią kalbą. Jei norite giliau susipažinti su Python, galite pasinaudoti vienu iš šių šaltinių:
* [Learn Python in a Fun Way with Turtle Graphics and Fractals](https://github.com/shwars/pycourse) – greitas įvadas į Python programavimą GitHub platformoje
* [Mokykitės Python smagiai su Turtle Graphics ir Fractals](https://github.com/shwars/pycourse) – greitas įvadas į Python programavimą GitHub platformoje
* [Take your First Steps with Python](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) – mokymosi kelias [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum)
* [Pradėkite savo pirmuosius žingsnius su Python](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) Mokymosi kelias [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum)
Duomenys gali būti įvairių formų. Šioje pamokoje mes apsvarstysime tris duomenų formas –**lentelinius duomenis**, **tekstą** ir **vaizdus**.
Duomenys gali būti įvairių formų. Šioje pamokoje mes apsvarstysime tris duomenų formas –**lentelinius duomenis**, **tekstą** ir **vaizdus**.
Mes sutelksime dėmesį į keletą duomenų apdorojimo pavyzdžių, o ne pateiksime visą susijusių bibliotekų apžvalgą. Tai leis jums suprasti pagrindinę idėją, kas yra įmanoma, ir paliks jus su žiniomis, kur rasti sprendimus savo problemoms, kai jų prireiks.
Mes sutelksime dėmesį į keletą duomenų apdorojimo pavyzdžių, o ne pateiksime visą susijusių bibliotekų apžvalgą. Tai leis jums suprasti pagrindinę idėją, kas įmanoma, ir paliks jums supratimą, kur rasti sprendimus savo problemoms, kai jų prireiks.
> **Naudingiausias patarimas**. Kai reikia atlikti tam tikrą operaciją su duomenimis, kurios nežinote, kaip atlikti, pabandykite ieškoti informacijos internete. [Stackoverflow](https://stackoverflow.com/) dažnai turi daug naudingų Python kodo pavyzdžių, skirtų daugybei tipinių užduočių.
> **Naudingiausias patarimas**. Kai reikia atlikti tam tikrą operaciją su duomenimis, kurios nežinote, kaip atlikti, pabandykite ieškoti informacijos internete. [Stackoverflow](https://stackoverflow.com/) dažnai turi daug naudingų Python kodo pavyzdžių daugeliui tipinių užduočių.
Jūs jau susipažinote su lenteliniais duomenimis, kai kalbėjome apie reliacines duomenų bazes. Kai turite daug duomenų, kurie yra saugomi skirtingose susietose lentelėse, tikrai verta naudoti SQL darbui su jais. Tačiau yra daug atvejų, kai turime vieną duomenų lentelę ir norime gauti tam tikrą **supratimą** ar **įžvalgas** apie šiuos duomenis, pvz., pasiskirstymą, vertybių koreliaciją ir pan. Duomenų moksle dažnai reikia atlikti tam tikras originalių duomenų transformacijas, po kurių seka vizualizacija. Abi šios užduotys gali būti lengvai atliktos naudojant Python.
Jūs jau susipažinote su lenteliniais duomenimis, kai kalbėjome apie reliacines duomenų bazes. Kai turite daug duomenų, kurie yra saugomi skirtingose susietose lentelėse, tikrai verta naudoti SQL darbui su jais. Tačiau yra daug atvejų, kai turime duomenų lentelę ir norime gauti tam tikrą **supratimą** ar **įžvalgas** apie šiuos duomenis, pavyzdžiui, pasiskirstymą, vertybių koreliaciją ir pan. Duomenų moksle dažnai reikia atlikti tam tikras pradinio duomenų transformacijas, po kurių seka vizualizacija. Abi šios užduotys gali būti lengvai atliktos naudojant Python.
Python turi dvi naudingiausias bibliotekas, kurios padeda dirbti su lenteliniais duomenimis:
Yra dvi naudingiausios Python bibliotekos, kurios gali padėti dirbti su lenteliniais duomenimis:
* **[Pandas](https://pandas.pydata.org/)** leidžia manipuliuoti vadinamaisiais **duomenų rėmeliais** (Dataframes), kurie yra analogiški reliacinėms lentelėms. Galite turėti pavadintas stulpelius ir atlikti įvairias operacijas su eilutėmis, stulpeliais ir duomenų rėmeliais apskritai.
* **[Pandas](https://pandas.pydata.org/)** leidžia manipuliuoti vadinamaisiais **duomenų rėmeliais**, kurie yra analogiški reliacinėms lentelėms. Galite turėti pavadintas stulpelius ir atlikti įvairias operacijas su eilutėmis, stulpeliais ir duomenų rėmeliais apskritai.
* **[Numpy](https://numpy.org/)** – biblioteka, skirta dirbti su **tensoriais**, t. y. daugiamačiais **masyvais**. Masyvas turi vienodo tipo vertes ir yra paprastesnis nei duomenų rėmelis, tačiau siūlo daugiau matematinių operacijų ir sukuria mažiau papildomų išteklių.
* **[Numpy](https://numpy.org/)** yra biblioteka, skirta dirbti su **tensoriais**, t. y. daugiamačiais **masyvais**. Masyvas turi tos pačios pagrindinės rūšies vertybes, yra paprastesnis nei duomenų rėmelis, tačiau siūlo daugiau matematinių operacijų ir sukuria mažiau apkrovos.
Taip pat yra keletas kitų bibliotekų, kurias verta žinoti:
Taip pat yra keletas kitų bibliotekų, kurias verta žinoti:
* **[Matplotlib](https://matplotlib.org/)** – biblioteka, naudojama duomenų vizualizacijai ir grafų braižymui
* **[Matplotlib](https://matplotlib.org/)** – biblioteka, naudojama duomenų vizualizacijai ir grafų braižymui
* **[SciPy](https://www.scipy.org/)** – biblioteka su papildomomis mokslinėmis funkcijomis. Jau susidūrėme su šia biblioteka, kai kalbėjome apie tikimybes ir statistiką.
* **[SciPy](https://www.scipy.org/)** – biblioteka su papildomomis mokslinėmis funkcijomis. Jau susidūrėme su šia biblioteka, kai kalbėjome apie tikimybes ir statistiką
Štai kodo fragmentas, kurį paprastai naudotumėte šių bibliotekų importavimui Python programos pradžioje:
Štai kodo fragmentas, kurį paprastai naudotumėte šių bibliotekų importavimui Python programos pradžioje:
```python
```python
@ -55,15 +57,15 @@ import matplotlib.pyplot as plt
from scipy import ... # you need to specify exact sub-packages that you need
from scipy import ... # you need to specify exact sub-packages that you need
```
```
Pandas biblioteka yra pagrįsta keliais pagrindiniais konceptais.
Pandas yra pagrįsta keliais pagrindiniais konceptais.
### Serijos
### Serijos
**Serija** – tai vertybių seka, panaši į sąrašą ar numpy masyvą. Pagrindinis skirtumas yra tas, kad serija taip pat turi **indeksą**, ir kai atliekame operacijas su serijomis (pvz., jas sudedame), indeksas yra įtraukiamas į skaičiavimus. Indeksas gali būti toks paprastas kaip eilutės numeris (tai yra numatytasis indeksas, kai serija kuriama iš sąrašo ar masyvo), arba jis gali turėti sudėtingą struktūrą, pvz., datos intervalą.
**Serijos** yra vertybių seka, panaši į sąrašą ar numpy masyvą. Pagrindinis skirtumas yra tas, kad serijos taip pat turi **indeksą**, ir kai atliekame operacijas su serijomis (pvz., jas sudedame), indeksas yra įtraukiamas į skaičiavimus. Indeksas gali būti toks paprastas kaip eilutės numeris (tai yra numatytasis indeksas, kai serija kuriama iš sąrašo ar masyvo), arba jis gali turėti sudėtingą struktūrą, pvz., datos intervalą.
> **Pastaba**: Įvadinis Pandas kodas pateiktas pridedamame užrašų knygelėje [`notebook.ipynb`](../../../../2-Working-With-Data/07-python/notebook.ipynb). Čia pateikiame tik keletą pavyzdžių, tačiau tikrai kviečiame peržiūrėti visą užrašų knygelę.
> **Pastaba**: Įvadinis Pandas kodas pateiktas pridedamame užrašų knygelėje [`notebook.ipynb`](../../../../2-Working-With-Data/07-python/notebook.ipynb). Čia pateikiame tik keletą pavyzdžių, tačiau tikrai kviečiame peržiūrėti visą užrašų knygelę.
Pavyzdžiui, norime analizuoti mūsų ledų parduotuvės pardavimus. Sukurkime seriją pardavimų skaičių (kiek vienetų parduota kiekvieną dieną) tam tikram laikotarpiui:
Pavyzdžiui, norime analizuoti mūsų ledų parduotuvės pardavimus. Sukurkime seriją pardavimų skaičių (kiekvieną dieną parduotų prekių skaičius) tam tikram laikotarpiui:
**Filtravimas** tik tam tikrų eilučių pagal kriterijus. Pavyzdžiui, norėdami palikti tik eilutes, kuriose stulpelis `A` yra didesnis nei 5, galime rašyti `df[df['A']>5]`.
**Filtravimas** tik tam tikrų eilučių pagal kriterijus. Pavyzdžiui, norėdami palikti tik eilutes, kuriose stulpelis `A` yra didesnis nei 5, galime rašyti `df[df['A']>5]`.
> **Pastaba**: Filtravimas veikia taip. Išraiška `df['A']<5` grąžina loginę seriją, kuri nurodo, ar išraiška yra `True` ar `False` kiekvienam originalios serijos `df['A']` elementui. Kai loginė serija naudojama kaip indeksas, ji grąžina eilučių pogrupį duomenų rėmelyje. Todėl negalima naudoti bet kokios Python loginės išraiškos, pvz., rašyti `df[df['A']>5 and df['A']<7]` būtų neteisinga. Vietoj to, turėtumėte naudoti specialią `&` operaciją loginėms serijoms, rašydami `df[(df['A']>5) & (df['A']<7)]` (*skliaustai čia yra svarbūs*).
> **Pastaba**: Filtravimas veikia taip. Išraiška `df['A']<5` grąžina loginę seriją, kuri nurodo, ar išraiška yra `True` ar `False` kiekvienam pradiniam serijos `df['A']` elementui. Kai loginė serija naudojama kaip indeksas, ji grąžina eilučių pogrupį duomenų rėmelyje. Todėl negalima naudoti bet kokios Python loginės išraiškos, pavyzdžiui, rašyti `df[df['A']>5 and df['A']<7]` būtų neteisinga. Vietoj to turėtumėte naudoti specialią `&` operaciją loginėms serijoms, rašydami `df[(df['A']>5) & (df['A']<7)]` (*skliaustai čia yra svarbūs*).
**Naujų skaičiuojamų stulpelių kūrimas**. Galime lengvai sukurti naujus skaičiuojamus stulpelius savo duomenų rėmelyje naudodami intuityvią išraišką, pvz.:
**Naujų skaičiuojamų stulpelių kūrimas**. Galime lengvai sukurti naujus skaičiuojamus stulpelius savo duomenų rėmelyje naudodami intuityvią išraišką, pvz.:
```python
```python
df['DivA'] = df['A']-df['A'].mean()
df['DivA'] = df['A']-df['A'].mean()
```
```
Šis pavyzdys apskaičiuoja A nukrypimą nuo jo vidutinės vertės. Kas iš tikrųjų vyksta, yra tai, kad mes apskaičiuojame seriją ir tada priskiriame šią seriją kairiajai pusei, sukurdami kitą stulpelį. Todėl negalime naudoti jokių operacijų, kurios nesuderinamos su serijomis, pvz., žemiau pateiktas kodas yra neteisingas:
Šis pavyzdys apskaičiuoja A nukrypimą nuo jo vidutinės vertės. Kas iš tikrųjų vyksta, yra tai, kad mes apskaičiuojame seriją ir tada priskiriame šią seriją kairiajai pusei, sukurdami kitą stulpelį. Todėl negalime naudoti jokių operacijų, kurios nesuderinamos su serijomis, pavyzdžiui, žemiau pateiktas kodas yra neteisingas:
```python
```python
# Wrong code -> df['ADescr'] = "Low" if df['A'] <5else"Hi"
# Wrong code -> df['ADescr'] = "Low" if df['A'] <5else"Hi"
df['LenB'] = len(df['B']) # <-Wrongresult
df['LenB'] = len(df['B']) # <-Wrongresult
@ -203,21 +205,21 @@ Mes jau matėme, kaip lengva sukurti Series ir DataFrames iš Python objektų. T
```python
```python
df = pd.read_csv('file.csv')
df = pd.read_csv('file.csv')
```
```
Daugiau duomenų įkėlimo pavyzdžių, įskaitant jų gavimą iš išorinių svetainių, aptarsime „Iššūkių“ skyriuje.
Daugiau duomenų įkėlimo pavyzdžių, įskaitant jų gavimą iš išorinių svetainių, aptarsime „Iššūkio“ skyriuje.
### Spausdinimas ir Vizualizavimas
### Spausdinimas ir Vizualizavimas
Duomenų mokslininkas dažnai turi tyrinėti duomenis, todėl svarbu mokėti juos vizualizuoti. Kai DataFrame yra didelis, dažnai norime tiesiog įsitikinti, kad viską darome teisingai, išspausdindami pirmas kelias eilutes. Tai galima padaryti iškviečiant `df.head()`. Jei tai vykdote iš Jupyter Notebook, jis išspausdins DataFrame gražioje lentelės formoje.
Duomenų mokslininkas dažnai turi tyrinėti duomenis, todėl svarbu mokėti juos vizualizuoti. Kai DataFrame yra didelis, dažnai norime tiesiog įsitikinti, kad viską darome teisingai, išspausdindami pirmas kelias eilutes. Tai galima padaryti iškviečiant `df.head()`. Jei tai vykdote iš Jupyter Notebook, jis išspausdins DataFrame gražioje lentelės formoje.
Mes taip pat matėme `plot` funkcijos naudojimą kai kurių stulpelių vizualizavimui. Nors `plot` yra labai naudinga daugeliui užduočių ir palaiko daugybę skirtingų grafiko tipų per `kind=` parametrą, visada galite naudoti „matplotlib“ biblioteką, kad sukurtumėte sudėtingesnį grafiką. Duomenų vizualizavimą detaliai aptarsime atskirose kurso pamokose.
Mes taip pat matėme `plot` funkcijos naudojimą kai kurių stulpelių vizualizavimui. Nors `plot` yra labai naudinga daugeliui užduočių ir palaiko daugybę skirtingų grafiko tipų per `kind=` parametrą, visada galite naudoti „matplotlib“ biblioteką, kad sukurtumėte sudėtingesnį grafiką. Duomenų vizualizavimą išsamiai aptarsime atskirose kurso pamokose.
Ši apžvalga apima svarbiausias Pandas koncepcijas, tačiau biblioteka yra labai turtinga, ir nėra ribų, ką su ja galite padaryti! Dabar pritaikykime šias žinias sprendžiant konkrečią problemą.
Ši apžvalga apima svarbiausias Pandas koncepcijas, tačiau biblioteka yra labai turtinga, ir nėra ribų, ką su ja galite nuveikti! Dabar pritaikykime šias žinias sprendžiant konkrečią problemą.
## 🚀 Iššūkis 1: COVID plitimo analizė
## 🚀 Iššūkis 1: COVID plitimo analizė
Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo modeliavimas. Tam naudosime duomenis apie užsikrėtusių asmenų skaičių skirtingose šalyse, kuriuos pateikė [Sistemų mokslo ir inžinerijos centras](https://systems.jhu.edu/) (CSSE) iš [Johns Hopkins universiteto](https://jhu.edu/). Duomenų rinkinys pasiekiamas [šiame GitHub saugykloje](https://github.com/CSSEGISandData/COVID-19).
Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo modeliavimas. Tam naudosime duomenis apie užsikrėtusių asmenų skaičių skirtingose šalyse, kuriuos pateikė [Sistemų mokslo ir inžinerijos centras](https://systems.jhu.edu/) (CSSE) iš [Johns Hopkins universiteto](https://jhu.edu/). Duomenų rinkinys pasiekiamas [šiame GitHub saugykloje](https://github.com/CSSEGISandData/COVID-19).
Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](../../../../2-Working-With-Data/07-python/notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti kai kuriuos iššūkius, kuriuos palikome jums pabaigoje.
Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](../../../../2-Working-With-Data/07-python/notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
@ -237,9 +239,9 @@ Nors duomenys dažnai pateikiami lentelės forma, kai kuriais atvejais turime di
Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum) kognityvinę paslaugą aprašytas [šiame tinklaraščio įraše](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/). Aptarsime supaprastintą šios analizės versiją.
Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum) kognityvinę paslaugą aprašytas [šiame tinklaraščio įraše](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/). Aptarsime supaprastintą šios analizės versiją.
> **NOTE**: Mes nepateikiame duomenų rinkinio kopijos kaip šios saugyklos dalies. Pirmiausia gali tekti atsisiųsti [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) failą iš [šio Kaggle duomenų rinkinio](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge). Gali reikėti registracijos Kaggle. Taip pat galite atsisiųsti duomenų rinkinį be registracijos [iš čia](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html), tačiau jis apims visus pilnus tekstus be metaduomenų failo.
> **NOTE**: Mes nepateikiame duomenų rinkinio kopijos kaip šios saugyklos dalies. Pirmiausia gali tekti atsisiųsti [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) failą iš [šio Kaggle duomenų rinkinio](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge). Gali reikėti registracijos Kaggle. Taip pat galite atsisiųsti duomenų rinkinį be registracijos [iš čia](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html), tačiau jis apims visus pilnus tekstus, be metaduomenų failo.
Atidarykite [`notebook-papers.ipynb`](../../../../2-Working-With-Data/07-python/notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti kai kuriuos iššūkius, kuriuos palikome jums pabaigoje.
Atidarykite [`notebook-papers.ipynb`](../../../../2-Working-With-Data/07-python/notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti langelius ir atlikti keletą iššūkių, kuriuos palikome jums pabaigoje.
@ -259,9 +261,9 @@ Visos šios debesų paslaugos gali būti iškviečiamos naudojant [Python SDKs](
## Išvada
## Išvada
Nesvarbu, ar jau turite struktūruotus, ar nestruktūruotus duomenis, naudodami Python galite atlikti visus su duomenų apdorojimu ir supratimu susijusius veiksmus. Tai turbūt lankstiausias duomenų apdorojimo būdas, todėl dauguma duomenų mokslininkų naudoja Python kaip pagrindinį įrankį. Mokytis Python išsamiai yra gera idėja, jei rimtai žiūrite į savo duomenų mokslo kelionę!
Nesvarbu, ar jau turite struktūruotus, ar nestruktūruotus duomenis, naudodami Python galite atlikti visus duomenų apdorojimo ir supratimo veiksmus. Tai turbūt lankstiausias duomenų apdorojimo būdas, todėl dauguma duomenų mokslininkų naudoja Python kaip pagrindinį įrankį. Mokytis Python išsamiai yra gera idėja, jei rimtai žiūrite į savo duomenų mokslo kelionę!
Priklausomai nuo šaltinio, neapdoroti duomenys gali turėti tam tikrų neatitikimų, kurie sukels sunkumų analizuojant ir modeliuojant. Kitaip tariant, šie duomenys gali būti laikomi „nešvariais“ ir juos reikės išvalyti. Ši pamoka orientuota į duomenų valymo ir transformavimo technikas, siekiant spręsti problemas, susijusias su trūkstamais, netiksliais ar neišsamiais duomenimis. Pamokoje aptariamos temos naudos Python ir Pandas biblioteką, o jos bus [pademonstruotos užrašų knygelėje](../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb) šiame kataloge.
Priklausomai nuo šaltinio, neapdoroti duomenys gali turėti tam tikrų neatitikimų, kurie sukels sunkumų analizuojant ir modeliuojant. Kitaip tariant, šie duomenys gali būti laikomi „nešvariais“ ir juos reikės išvalyti. Ši pamoka skirta duomenų valymo ir transformavimo technikoms, siekiant spręsti problemas, susijusias su trūkstamais, netiksliais ar neišsamiais duomenimis. Pamokoje aptariamos temos naudos Python ir Pandas biblioteką, o jos bus [pademonstruotos užrašų knygelėje](../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb) šiame kataloge.
## Duomenų valymo svarba
## Duomenų valymo svarba
- **Patogumas naudoti ir pakartotinai naudoti**: Kai duomenys yra tinkamai organizuoti ir normalizuoti, juos lengviau ieškoti, naudoti ir dalintis su kitais.
- **Naudojimo ir pakartotinio naudojimo paprastumas**: Kai duomenys yra tinkamai organizuoti ir normalizuoti, juos lengviau ieškoti, naudoti ir dalintis su kitais.
- **Nuoseklumas**: Duomenų mokslas dažnai reikalauja dirbti su daugiau nei vienu duomenų rinkiniu, kur duomenų rinkiniai iš skirtingų šaltinių turi būti sujungti. Užtikrinus, kad kiekvienas atskiras duomenų rinkinys turi bendrą standartizaciją, duomenys išliks naudingi, kai jie bus sujungti į vieną rinkinį.
- **Nuoseklumas**: Duomenų mokslas dažnai reikalauja dirbti su daugiau nei vienu duomenų rinkiniu, kur duomenų rinkiniai iš skirtingų šaltinių turi būti sujungti. Užtikrinus, kad kiekvienas atskiras duomenų rinkinys turi bendrą standartizaciją, duomenys išliks naudingi, kai visi bus sujungti į vieną rinkinį.
- **Modelio tikslumas**: Išvalyti duomenys pagerina modelių, kurie jais remiasi, tikslumą.
- **Modelio tikslumas**: Išvalyti duomenys pagerina modelių, kurie jais remiasi, tikslumą.
## Dažniausi valymo tikslai ir strategijos
## Dažniausi valymo tikslai ir strategijos
- **Duomenų rinkinio tyrimas**: Duomenų tyrimas, kuris aptariamas [vėlesnėje pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing), gali padėti atrasti duomenis, kuriuos reikia išvalyti. Vizualiai stebint reikšmes duomenų rinkinyje galima nustatyti, ko tikėtis iš likusios dalies, arba gauti idėją apie problemas, kurias galima išspręsti. Tyrimas gali apimti pagrindinius užklausų vykdymus, vizualizacijas ir pavyzdžių analizę.
- **Duomenų rinkinio tyrimas**: Duomenų tyrimas, kuris aptariamas [vėlesnėje pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing), gali padėti atrasti duomenis, kuriuos reikia išvalyti. Vizualiai stebint reikšmes duomenų rinkinyje galima nustatyti lūkesčius, kaip atrodys likusi dalis, arba gauti idėją apie problemas, kurias galima išspręsti. Tyrimas gali apimti pagrindinius užklausų vykdymus, vizualizacijas ir pavyzdžių analizę.
- **Formatavimas**: Priklausomai nuo šaltinio, duomenys gali turėti neatitikimų, kaip jie pateikiami. Tai gali sukelti problemų ieškant ir atvaizduojant reikšmes, kai jos matomos duomenų rinkinyje, bet nėra tinkamai pateiktos vizualizacijose ar užklausų rezultatuose. Dažnos formatavimo problemos apima tarpus, datas ir duomenų tipus. Formatavimo problemų sprendimas paprastai priklauso nuo žmonių, kurie naudoja duomenis. Pavyzdžiui, standartai, kaip pateikiamos datos ir skaičiai, gali skirtis priklausomai nuo šalies.
- **Formatavimas**: Priklausomai nuo šaltinio, duomenys gali turėti neatitikimų, kaip jie pateikiami. Tai gali sukelti problemų ieškant ir atvaizduojant reikšmes, kur jos matomos duomenų rinkinyje, bet nėra tinkamai pateiktos vizualizacijose ar užklausų rezultatuose. Dažnos formatavimo problemos apima tarpus, datas ir duomenų tipus. Formatavimo problemų sprendimas paprastai priklauso nuo žmonių, kurie naudoja duomenis. Pavyzdžiui, standartai, kaip pateikiamos datos ir skaičiai, gali skirtis priklausomai nuo šalies.
- **Dubliavimas**: Duomenys, kurie pasikartoja daugiau nei vieną kartą, gali sukelti netikslius rezultatus ir paprastai turėtų būti pašalinti. Tai dažnai pasitaiko, kai sujungiami du ar daugiau duomenų rinkinių. Tačiau yra atvejų, kai dubliavimas sujungtuose duomenų rinkiniuose gali turėti papildomos informacijos, kurią gali reikėti išsaugoti.
- **Dubliavimas**: Duomenys, kurie pasikartoja daugiau nei vieną kartą, gali sukelti netikslius rezultatus ir paprastai turėtų būti pašalinti. Tai dažnai pasitaiko, kai sujungiami du ar daugiau duomenų rinkinių. Tačiau yra atvejų, kai dubliavimas sujungtuose duomenų rinkiniuose gali turėti papildomos informacijos, kurią gali reikėti išsaugoti.
- **Trūkstami duomenys**: Trūkstami duomenys gali sukelti netikslumus, taip pat silpnus ar šališkus rezultatus. Kartais tai galima išspręsti „pakartotiniu įkėlimu“ arba trūkstamų reikšmių užpildymu skaičiavimais ir kodu, pavyzdžiui, Python, arba tiesiog pašalinant reikšmę ir atitinkamus duomenis. Yra daugybė priežasčių, kodėl duomenys gali būti trūkstami, o veiksmai, kurių imamasi norint išspręsti šias trūkstamas reikšmes, gali priklausyti nuo to, kaip ir kodėl jie dingo.
- **Trūkstami duomenys**: Trūkstami duomenys gali sukelti netikslumus, taip pat silpnus ar šališkus rezultatus. Kartais tai galima išspręsti „pakartotiniu įkėlimu“ duomenų, trūkstamų reikšmių užpildymu skaičiavimais ir kodu, pvz., Python, arba tiesiog pašalinant reikšmę ir atitinkamus duomenis. Yra daugybė priežasčių, kodėl duomenys gali būti trūkstami, o veiksmai, kurių imamasi norint išspręsti šias trūkstamas reikšmes, gali priklausyti nuo to, kaip ir kodėl jie dingo.
## Duomenų rėmelio informacijos tyrimas
## Duomenų rėmelio informacijos tyrimas
> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte jaustis patogiai ieškodami bendros informacijos apie duomenis, saugomus pandas DataFrame.
> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte jaustis patogiai ieškodami bendros informacijos apie duomenis, saugomus pandas DataFrame.
@ -75,7 +75,7 @@ memory usage: 4.8 KB
```
```
Iš to sužinome, kad *Iris* duomenų rinkinys turi 150 įrašų keturiuose stulpeliuose be jokių tuščių įrašų. Visi duomenys saugomi kaip 64 bitų slankiojo kablelio skaičiai.
Iš to sužinome, kad *Iris* duomenų rinkinys turi 150 įrašų keturiuose stulpeliuose be jokių tuščių įrašų. Visi duomenys saugomi kaip 64 bitų slankiojo kablelio skaičiai.
- **DataFrame.head()**: Toliau, norėdami patikrinti faktinį `DataFrame` turinį, naudojame `head()` metodą. Pažiūrėkime, kaip atrodo pirmosios kelios mūsų `iris_df` eilutės:
- **DataFrame.head()**: Toliau, norėdami patikrinti faktinį `DataFrame` turinį, naudojame `head()` metodą. Pažiūrėkime, kaip atrodo pirmos kelios mūsų `iris_df` eilutės:
```python
```python
iris_df.head()
iris_df.head()
```
```
@ -99,20 +99,20 @@ iris_df.tail()
148 6.2 3.4 5.4 2.3
148 6.2 3.4 5.4 2.3
149 5.9 3.0 5.1 1.8
149 5.9 3.0 5.1 1.8
```
```
> **Išvada:** Net tik pažvelgus į metaduomenis apie informaciją `DataFrame` arba pirmąsias ir paskutines kelias reikšmes, galite iš karto susidaryti idėją apie duomenų dydį, formą ir turinį.
> **Išvada:** Net ir tiesiog pažvelgus į metaduomenis apie informaciją `DataFrame` arba pirmąsias ir paskutines kelias reikšmes, galite iš karto susidaryti idėją apie duomenų dydį, formą ir turinį.
## Darbas su trūkstamais duomenimis
## Darbas su trūkstamais duomenimis
> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte žinoti, kaip pakeisti arba pašalinti tuščias reikšmes iš DataFrame.
> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte žinoti, kaip pakeisti arba pašalinti null reikšmes iš DataFrame.
Dažniausiai duomenų rinkiniai, kuriuos norite naudoti (arba privalote naudoti), turi trūkstamų reikšmių. Kaip trūkstami duomenys tvarkomi, turi subtilių kompromisų, kurie gali paveikti galutinę analizę ir realaus pasaulio rezultatus.
Dažniausiai duomenų rinkiniai, kuriuos norite naudoti (arba privalote naudoti), turi trūkstamų reikšmių. Kaip trūkstami duomenys tvarkomi, turi subtilių kompromisų, kurie gali paveikti galutinę analizę ir realaus pasaulio rezultatus.
Pandas trūkstamas reikšmes tvarko dviem būdais. Pirmasis, kurį jau matėte ankstesnėse dalyse: `NaN`, arba Not a Number. Tai iš tikrųjų yra speciali reikšmė, kuri yra IEEE slankiojo kablelio specifikacijos dalis ir naudojama tik trūkstamoms slankiojo kablelio reikšmėms nurodyti.
Pandas trūkstamas reikšmes tvarko dviem būdais. Pirmasis, kurį jau matėte ankstesnėse dalyse: `NaN`, arba Not a Number. Tai iš tikrųjų yra speciali reikšmė, kuri yra IEEE slankiojo kablelio specifikacijos dalis ir naudojama tik trūkstamoms slankiojo kablelio reikšmėms nurodyti.
Kitoms trūkstamoms reikšmėms, išskyrus slankiojo kablelio skaičius, pandas naudoja Python `None` objektą. Nors gali atrodyti painu, kad susidursite su dviem skirtingomis reikšmėmis, kurios iš esmės reiškia tą patį, yra pagrįstų programavimo priežasčių šiam dizaino pasirinkimui, ir praktiškai tai leidžia pandas pateikti gerą kompromisą daugumai atvejų. Nepaisant to, tiek `None`, tiek `NaN` turi apribojimų, kuriuos reikia žinoti, atsižvelgiant į tai, kaip jie gali būti naudojami.
Kitoms trūkstamoms reikšmėms, išskyrus slankiojo kablelio skaičius, pandas naudoja Python `None` objektą. Nors gali atrodyti painu, kad susidursite su dviem skirtingomis reikšmėmis, kurios iš esmės reiškia tą patį, yra pagrįstų programavimo priežasčių šiam dizaino pasirinkimui, o praktikoje toks požiūris leidžia pandas pasiekti gerą kompromisą daugeliu atvejų. Nepaisant to, tiek `None`, tiek `NaN` turi apribojimų, kuriuos reikia žinoti, atsižvelgiant į tai, kaip jie gali būti naudojami.
Daugiau apie `NaN` ir `None` galite sužinoti iš [užrašų knygelės](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb)!
Daugiau apie `NaN` ir `None` galite sužinoti iš [užrašų knygelės](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb)!
- **Tuščių reikšmių aptikimas**: Pandas `isnull()` ir `notnull()` metodai yra pagrindiniai metodai, skirti aptikti tuščius duomenis. Abu grąžina Boole'o kaukes per jūsų duomenis. Naudosime `numpy``NaN` reikšmėms:
- **Null reikšmių aptikimas**: Pandas `isnull()` ir `notnull()` metodai yra pagrindiniai metodai, skirti aptikti null duomenis. Abu grąžina Boole'o kaukes per jūsų duomenis. Naudosime `numpy``NaN` reikšmėms:
```python
```python
import numpy as np
import numpy as np
@ -126,13 +126,13 @@ example1.isnull()
3 True
3 True
dtype: bool
dtype: bool
```
```
Atidžiai pažiūrėkite į rezultatą. Ar kas nors jus nustebino? Nors `0` yra aritmetinis nulis, jis vis tiek yra visiškai geras sveikasis skaičius, ir pandas jį taip traktuoja. `''` yra šiek tiek subtilesnis. Nors jį naudojome 1 skyriuje kaip tuščios eilutės reikšmę, jis vis tiek yra eilutės objektas ir pandas nelaiko jo tuščia reikšme.
Atidžiai pažiūrėkite į rezultatą. Ar kas nors jus nustebino? Nors `0` yra aritmetinis null, jis vis dėlto yra visiškai geras sveikasis skaičius, ir pandas jį taip traktuoja. `''` yra šiek tiek subtilesnis. Nors jį naudojome 1 skyriuje kaip tuščios eilutės reikšmę, jis vis dėlto yra eilutės objektas ir pandas nelaiko jo null reikšme.
Dabar apsukime tai ir naudokime šiuos metodus taip, kaip dažniausiai juos naudosite praktikoje. Boole'o kaukes galite naudoti tiesiogiai kaip ``Series`` arba ``DataFrame`` indeksą, kuris gali būti naudingas, kai bandote dirbti su izoliuotomis trūkstamomis (arba esamomis) reikšmėmis.
Dabar apsukime tai ir naudokime šiuos metodus taip, kaip dažniausiai juos naudosite praktikoje. Boole'o kaukes galite naudoti tiesiogiai kaip ``Series`` arba ``DataFrame`` indeksą, kuris gali būti naudingas, kai bandote dirbti su izoliuotomis trūkstamomis (arba esamomis) reikšmėmis.
> **Išvada**: Tiek `isnull()`, tiek `notnull()` metodai duoda panašius rezultatus, kai juos naudojate `DataFrame`: jie rodo rezultatus ir tų rezultatų indeksą, kuris jums labai padės, kai dirbsite su savo duomenimis.
> **Išvada**: Tiek `isnull()`, tiek `notnull()` metodai duoda panašius rezultatus, kai juos naudojate `DataFrame`: jie rodo rezultatus ir jų indeksą, kuris labai padės jums dirbant su duomenimis.
- **Tuščių reikšmių pašalinimas**: Be trūkstamų reikšmių identifikavimo, pandas suteikia patogų būdą pašalinti tuščias reikšmes iš `Series` ir `DataFrame`. (Ypač dideliuose duomenų rinkiniuose dažnai patartina tiesiog pašalinti trūkstamas [NA] reikšmes iš analizės, o ne tvarkyti jas kitais būdais.) Norėdami tai pamatyti praktiškai, grįžkime prie `example1`:
- **Null reikšmių pašalinimas**: Be trūkstamų reikšmių identifikavimo, pandas suteikia patogų būdą pašalinti null reikšmes iš `Series` ir `DataFrame`. (Ypač dideliuose duomenų rinkiniuose dažnai patartina tiesiog pašalinti trūkstamas [NA] reikšmes iš analizės, o ne tvarkyti jas kitais būdais.) Norėdami tai pamatyti veiksmuose, grįžkime prie `example1`:
```python
```python
example1 = example1.dropna()
example1 = example1.dropna()
example1
example1
@ -142,7 +142,7 @@ example1
2
2
dtype: object
dtype: object
```
```
Atkreipkite dėmesį, kad tai turėtų atrodyti kaip jūsų rezultatas iš `example3[example3.notnull()]`. Skirtumas čia yra tas, kad, užuot tiesiog indeksavus kaukės reikšmes, `dropna` pašalino tas trūkstamas reikšmes iš `Series``example1`.
Atkreipkite dėmesį, kad tai turėtų atrodyti kaip jūsų rezultatas iš `example3[example3.notnull()]`. Skirtumas čia yra tas, kad, užuot tiesiog indeksavę kaukės reikšmes, `dropna` pašalino tas trūkstamas reikšmes iš `Series``example1`.
Kadangi `DataFrame` turi dvi dimensijas, jie suteikia daugiau galimybių duomenų pašalinimui.
Kadangi `DataFrame` turi dvi dimensijas, jie suteikia daugiau galimybių duomenų pašalinimui.
@ -158,9 +158,9 @@ example2
|1 |2.0|5.0|8 |
|1 |2.0|5.0|8 |
|2 |NaN|6.0|9 |
|2 |NaN|6.0|9 |
(Ar pastebėjote, kad pandas pakeitė du stulpelius į slankiojo kablelio skaičius, kad pritaikytų`NaN`?)
(Ar pastebėjote, kad pandas dvi stulpelius pakeitė į slankiojo kablelio skaičius, kad galėtų apdoroti`NaN`?)
Negalite pašalinti vienos reikšmės iš `DataFrame`, todėl turite pašalinti visas eilutes arba stulpelius. Priklausomai nuo to, ką darote, galite norėti daryti vieną ar kitą, todėl pandas suteikia galimybes abiem. Kadangi duomenų moksle stulpeliai paprastai atspindi kintamuosius, o eilutės – stebėjimus, labiau tikėtina, kad pašalinsite duomenų eilutes; numatytasis `dropna()` nustatymas yra pašalinti visas eilutes, kuriose yra bet kokių tuščių reikšmių:
Negalite pašalinti vienos reikšmės iš `DataFrame`, todėl turite pašalinti visas eilutes arba stulpelius. Priklausomai nuo to, ką darote, galite norėti daryti vieną ar kitą, todėl pandas suteikia galimybes abiem. Kadangi duomenų moksle stulpeliai paprastai atspindi kintamuosius, o eilutės – stebėjimus, labiau tikėtina, kad pašalinsite duomenų eilutes; numatytasis `dropna()` nustatymas yra pašalinti visas eilutes, kuriose yra bet kokių null reikšmių:
Atkreipkite dėmesį, kad tai gali pašalinti daug duomenų, kuriuos galbūt norėtumėte išsaugoti, ypač mažesniuose duomenų rinkiniuose. Ką daryti, jei norite pašalinti tik tas eilutes ar stulpelius, kuriuose yra kelios arba net visos tuščios reikšmės? Šiuos nustatymus galite nurodyti `dropna` su `how` ir `thresh` parametrais.
Atkreipkite dėmesį, kad tai gali pašalinti daug duomenų, kuriuos galbūt norėtumėte išsaugoti, ypač mažesniuose duomenų rinkiniuose. Ką daryti, jei norite pašalinti tik tas eilutes ar stulpelius, kuriuose yra kelios arba net visos null reikšmės? Šiuos nustatymus galite nurodyti `dropna` su `how` ir `thresh` parametrais.
Pagal numatytuosius nustatymus `how='any'` (jei norite patikrinti patys arba pamatyti, kokius kitus parametrus turi metodas, paleiskite `example4.dropna?` kodų langelyje). Galite alternatyviai nurodyti `how='all'`, kad pašalintumėte tik tas eilutes ar stulpelius, kuriuose yra visos tuščios reikšmės. Išplėskime mūsų pavyzdinį `DataFrame`, kad pamatytume tai praktiškai.
Pagal numatytuosius nustatymus `how='any'` (jei norite patikrinti patys arba pamatyti, kokius kitus parametrus turi metodas, paleiskite `example4.dropna?` kodų langelyje). Galite alternatyviai nurodyti `how='all'`, kad pašalintumėte tik tas eilutes ar stulpelius, kuriuose yra visos null reikšmės. Išplėskime mūsų pavyzdinį `DataFrame`, kad pamatytume tai veiksmuose.
```python
```python
example2[3] = np.nan
example2[3] = np.nan
@ -193,7 +193,7 @@ example2
|1 |2.0|5.0|8 |NaN|
|1 |2.0|5.0|8 |NaN|
|2 |NaN|6.0|9 |NaN|
|2 |NaN|6.0|9 |NaN|
`thresh` parametras suteikia jums detalesnę kontrolę: nustatote, kiek *ne-tuščių* reikšmių eilutė ar stulpelis turi turėti, kad būtų išsaugotas:
`thresh` parametras suteikia jums smulkesnę kontrolę: nustatote *ne-null* reikšmių skaičių, kurį eilutė ar stulpelis turi turėti, kad būtų išsaugotas:
Čia pirmoji ir paskutinė eilutės buvo pašalintos, nes jose yra tik dvi ne-tuščios reikšmės.
Čia pirmoji ir paskutinė eilutės buvo pašalintos, nes jose yra tik dvi ne-null reikšmės.
- **Tuščių reikšmių užpildymas**: Priklausomai nuo jūsų duomenų rinkinio, kartais gali būti prasmingiau užpildyti tuščias reikšmes galiojančiomis, o ne jas pašalinti. Galėtumėte naudoti `isnull`, kad tai padarytumėte vietoje, tačiau tai gali būti varginantis darbas, ypač jei turite daug reikšmių, kurias reikia užpildyti. Kadangi tai yra tokia dažna užduotis duomenų moksle, pandas siūlo `fillna`, kuris grąžina `Series` arba `DataFrame` kopiją su trūkstamomis reikšmėmis, pakeistomis jūsų pasirinkta reikšme. Sukurkime dar vieną pavyzdinį `Series`, kad pamatytume, kaip tai veikia praktiškai.
- **Null reikšmių užpildymas**: Priklausomai nuo jūsų duomenų rinkinio, kartais gali būti prasmingiau užpildyti null reikšmes galiojančiomis, o ne jas pašalinti. Galėtumėte naudoti `isnull`, kad tai padarytumėte vietoje, tačiau tai gali būti varginantis darbas, ypač jei turite daug reikšmių, kurias reikia užpildyti. Kadangi tai yra tokia dažna užduotis duomenų moksle, pandas siūlo `fillna`, kuris grąžina `Series` arba `DataFrame` kopiją su trūkstamomis reikšmėmis, pakeistomis jūsų pasirinkta reikšme. Sukurkime dar vieną pavyzdinį `Series`, kad pamatytume, kaip tai veikia praktikoje.
Taip pat galite **užpildyti atgal**, kad propaguotumėte kitą galiojančią reikšmę atgal, kad užpildytumėte tuščią:
Taip pat galite **užpildyti atgal**, kad propaguotumėte kitą galiojančią reikšmę atgal null reikšmei užpildyti:
```python
```python
example3.fillna(method='bfill')
example3.fillna(method='bfill')
```
```
@ -252,19 +252,25 @@ d 3.0
e 3.0
e 3.0
dtype: float64
dtype: float64
```
```
Kaip galite spėti, tai veikia taip pat su `DataFrame`, tačiau taip pat galite nurodyti `axis`, pagal kurį užpildyti tuščias reikšmes. Naudojant anksčiau naudotą `example2`:
Kaip galite spėti, tai veikia taip pat su `DataFrame`, tačiau taip pat galite nurodyti `axis`, pagal kurį užpildyti null reikšmes. Naudojant anksčiau naudotą `example2`:
```python
```python
example2.fillna(method='ffill', axis=1)
example2.fillna(method='ffill', axis=1)
```
```
> **Svarbiausia:** Yra daugybė būdų, kaip spręsti trūkstamų reikšmių problemą jūsų duomenų rinkiniuose. Konkreti strategija, kurią pasirinksite (pašalinimas, pakeitimas ar net tai, kaip pakeisite), turėtų būti diktuojama konkrečių duomenų ypatumų. Kuo daugiau dirbsite su duomenų rinkiniais, tuo geriau suprasite, kaip tvarkyti trūkstamas reikšmes.
```
0 1 2 3
## Dublikatų duomenų pašalinimas
0 1.0 1.0 7.0 7.0
1 2.0 5.0 8.0 8.0
2 NaN 6.0 9.0 9.0
```
Atkreipkite dėmesį, kad kai ankstesnė reikšmė nėra prieinama užpildymui pirmyn,
> **Svarbiausia:** Yra daugybė būdų, kaip spręsti trūkstamų reikšmių problemą jūsų duomenų rinkiniuose. Konkreti strategija, kurią pasirinksite (pašalinimas, pakeitimas ar net būdas, kaip pakeisite), turėtų būti nulemta konkrečių duomenų ypatybių. Kuo daugiau dirbsite su duomenų rinkiniais ir juos analizuosite, tuo geriau suprasite, kaip tvarkyti trūkstamas reikšmes.
## Pašalinimas pasikartojančių duomenų
> **Mokymosi tikslas:** Šios poskyrio pabaigoje turėtumėte jaustis užtikrintai identifikuodami ir pašalindami pasikartojančias reikšmes iš `DataFrame`.
> **Mokymosi tikslas:** Šio poskyrio pabaigoje turėtumėte jaustis užtikrintai atpažindami ir pašalindami pasikartojančias reikšmes iš `DataFrame`.
Be trūkstamų duomenų, realiuose duomenų rinkiniuose dažnai susidursite su pasikartojančiais duomenimis. Laimei, `pandas` suteikia paprastą būdą aptikti ir pašalinti pasikartojančias įrašus.
Be trūkstamų duomenų, realaus pasaulio duomenų rinkiniuose dažnai susidursite su pasikartojančiais duomenimis. Laimei, `pandas` suteikia paprastą būdą aptikti ir pašalinti pasikartojančius įrašus.
- **Dublikatų identifikavimas: `duplicated`**: Pasikartojančias reikšmes galite lengvai aptikti naudodami `duplicated` metodą `pandas`, kuris grąžina Boole'o kaukę, nurodančią, ar įrašas `DataFrame` yra ankstesnio įrašo dublikatas. Sukurkime dar vieną pavyzdinį `DataFrame`, kad pamatytume, kaip tai veikia.
- **Pasikartojimų atpažinimas: `duplicated`**: Pasikartojančias reikšmes galite lengvai pastebėti naudodami `duplicated` metodą `pandas`, kuris grąžina Boole'o kaukę, nurodančią, ar įrašas `DataFrame` yra ankstesnio įrašo pasikartojimas. Sukurkime dar vieną pavyzdinį `DataFrame`, kad pamatytume, kaip tai veikia.
- **Dublikatų pašalinimas: `drop_duplicates`:** paprasčiausiai grąžina duomenų kopiją, kurioje visos `duplicated` reikšmės yra `False`:
- **Pasikartojimų pašalinimas: `drop_duplicates`:** paprasčiausiai grąžina duomenų kopiją, kur visi `duplicated` įrašai yra `False`:
```python
```python
example4.drop_duplicates()
example4.drop_duplicates()
```
```
@ -299,7 +305,7 @@ example4.drop_duplicates()
1 B 2
1 B 2
3 B 3
3 B 3
```
```
Tiek `duplicated`, tiek `drop_duplicates` pagal numatymą analizuoja visas stulpelius, tačiau galite nurodyti, kad jie analizuotų tik tam tikrą `DataFrame` stulpelių dalį:
Tiek `duplicated`, tiek `drop_duplicates` pagal nutylėjimą analizuoja visas stulpelius, tačiau galite nurodyti, kad jie analizuotų tik tam tikrą stulpelių rinkinį jūsų `DataFrame`:
```python
```python
example4.drop_duplicates(['letters'])
example4.drop_duplicates(['letters'])
```
```
@ -309,20 +315,20 @@ letters numbers
1 B 2
1 B 2
```
```
> **Svarbiausia:** Pasikartojančių duomenų pašalinimas yra esminė beveik kiekvieno duomenų mokslo projekto dalis. Pasikartojantys duomenys gali pakeisti jūsų analizės rezultatus ir pateikti netikslius rezultatus!
> **Svarbiausia:** Pasikartojančių duomenų pašalinimas yra būtina beveik kiekvieno duomenų mokslo projekto dalis. Pasikartojantys duomenys gali pakeisti jūsų analizės rezultatus ir pateikti netikslius rezultatus!
## 🚀 Iššūkis
## 🚀 Iššūkis
Visos aptartos medžiagos pateikiamos kaip [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb). Be to, po kiekvieno skyriaus yra pratimai – išbandykite juos!
Visos aptartos medžiagos pateikiamos kaip [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb). Be to, po kiekvieno skyriaus yra pratimai – išbandykite juos!
Yra daugybė būdų, kaip atrasti ir pasiruošti duomenų analizės bei modeliavimo procesui, o duomenų valymas yra svarbus žingsnis, kuris reikalauja praktinio darbo. Išbandykite šiuos Kaggle iššūkius, kad susipažintumėte su technikomis, kurios nebuvo aptartos šioje pamokoje.
Yra daugybė būdų atrasti ir pasiruošti duomenų analizei bei modeliavimui, o duomenų valymas yra svarbus žingsnis, reikalaujantis praktinio darbo. Išbandykite šiuos iššūkius iš Kaggle, kad išnagrinėtumėte technikas, kurių ši pamoka neaptarė.
| Vizualizuojame kiekius - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Vizualizuojame kiekius - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Šioje pamokoje sužinosite, kaip naudoti vieną iš daugelio Python bibliotekų, kad sukurtumėte įdomias vizualizacijas, susijusias su kiekių koncepcija. Naudodami išvalytą duomenų rinkinį apie Minesotos paukščius, galite sužinoti daug įdomių faktų apie vietinę laukinę gamtą.
Šioje pamokoje sužinosite, kaip naudoti vieną iš daugelio Python bibliotekų, kad sukurtumėte įdomias vizualizacijas, susijusias su kiekių koncepcija. Naudodami išvalytą duomenų rinkinį apie Minesotos paukščius, galite sužinoti daug įdomių faktų apie vietinę laukinę gamtą.
Puiki biblioteka, skirta kurti tiek paprastus, tiek sudėtingus įvairių tipų grafikus ir diagramas, yra [Matplotlib](https://matplotlib.org/stable/index.html). Bendrai kalbant, duomenų vaizdavimo procesas naudojant šias bibliotekas apima duomenų rėmelio dalių, kurias norite analizuoti, identifikavimą, reikalingų transformacijų atlikimą, x ir y ašių reikšmių priskyrimą, grafiko tipo pasirinkimą ir jo rodymą. Matplotlib siūlo daugybę vizualizacijų, tačiau šioje pamokoje susitelkime į tas, kurios labiausiai tinka kiekių vizualizavimui: linijines diagramas, sklaidos diagramas ir stulpelines diagramas.
Puiki biblioteka, skirta kurti tiek paprastus, tiek sudėtingus grafikus ir diagramas, yra [Matplotlib](https://matplotlib.org/stable/index.html). Bendrai kalbant, duomenų vizualizavimo procesas naudojant šias bibliotekas apima duomenų rėmelio dalių identifikavimą, reikalingų transformacijų atlikimą, x ir y ašių reikšmių priskyrimą, sprendimą, kokio tipo grafiką rodyti, ir galiausiai grafiko rodymą. Matplotlib siūlo daugybę vizualizacijų, tačiau šioje pamokoje susitelkime į tas, kurios labiausiai tinka kiekių vizualizavimui: linijinius grafikus, sklaidos diagramas ir stulpelines diagramas.
> ✅ Pasirinkite geriausią grafiką, atitinkantį jūsų duomenų struktūrą ir pasakojimą, kurį norite perteikti.
> ✅ Pasirinkite geriausią grafiką, atitinkantį jūsų duomenų struktūrą ir pasakojimą, kurį norite perteikti.
> - Norint analizuoti tendencijas laikui bėgant: linijinė diagrama
> - Norint analizuoti tendencijas laikui bėgant: linijinis grafikas
> - Norint palyginti reikšmes: stulpelinė, koloninė, pyrago, sklaidos diagrama
> - Norint palyginti reikšmes: stulpelinė, kolonos, pyrago, sklaidos diagrama
> - Norint parodyti, kaip dalys susijusios su visuma: pyrago diagrama
> - Norint parodyti, kaip dalys susijusios su visuma: pyrago diagrama
> - Norint parodyti duomenų pasiskirstymą: sklaidos diagrama, stulpelinė diagrama
> - Norint parodyti duomenų pasiskirstymą: sklaidos diagrama, stulpelinė diagrama
> - Norint parodyti tendencijas: linijinė, koloninė diagrama
> - Norint parodyti tendencijas: linijinis, kolonos grafikas
> - Norint parodyti reikšmių tarpusavio ryšius: linijinė, sklaidos, burbulinė diagrama
> - Norint parodyti ryšius tarp reikšmių: linijinis grafikas, sklaidos diagrama, burbulų diagrama
Jei turite duomenų rinkinį ir norite sužinoti, kiek tam tikro elemento yra, pirmasis jūsų uždavinys bus patikrinti jo reikšmes.
Jei turite duomenų rinkinį ir norite sužinoti, kiek tam tikro elemento yra įtraukta, viena iš pirmųjų užduočių bus patikrinti jo reikšmes.
✅ Puikūs „cheat sheet“ dokumentai Matplotlib yra prieinami [čia](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
✅ Yra puikių „cheat sheet“ dokumentų, skirtų Matplotlib, [čia](https://matplotlib.org/cheatsheets/cheatsheets.pdf).
## Sukurkite linijinę diagramą apie paukščių sparnų ilgio reikšmes
## Sukurkite linijinį grafiką apie paukščių sparnų ilgius
Atidarykite `notebook.ipynb` failą, esantį šios pamokos aplanko šaknyje, ir pridėkite langelį.
Atidarykite `notebook.ipynb` failą šios pamokos aplanko šaknyje ir pridėkite langelį.
> Pastaba: duomenys saugomi šio repo šaknyje `/data` aplanke.
> Pastaba: duomenys saugomi šio repo šaknyje `/data` aplanke.
@ -46,7 +46,7 @@ birds.head()
```
```
Šie duomenys yra tekstų ir skaičių mišinys:
Šie duomenys yra tekstų ir skaičių mišinys:
| | Pavadinimas | MokslinisPavadinimas | Kategorija | Eilė | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasė | MaxKūnoMasė | MinSparnųIlgis | MaxSparnųIlgis |
| | Pavadinimas | MokslinisPavadinimas | Kategorija | Būrys | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasė | MaxKūnoMasė | MinSparnųIlgis | MaxSparnųIlgis |
Pradėkime nuo kai kurių skaitinių duomenų vaizdavimo naudojant paprastą linijinę diagramą. Tarkime, norite pamatyti šių įdomių paukščių maksimalų sparnų ilgį.
Pradėkime nuo kai kurių skaitinių duomenų vizualizavimo naudojant paprastą linijinį grafiką. Tarkime, norite pamatyti šių įdomių paukščių maksimalų sparnų ilgį.
Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis – tai gana įspūdingas sparnų ilgis! 2300 centimetrų sparnų ilgis prilygsta 23 metrams – ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime.
Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis – tai gana įspūdingas sparnų ilgis! 2300 centimetrų sparnų ilgis prilygsta 23 metrams – ar Minesotoje skraido pterodaktiliai? Ištirkime.
Nors galėtumėte greitai surūšiuoti Excel programoje, kad rastumėte tuos išskirtinius atvejus, kurie greičiausiai yra klaidos, tęskite vizualizacijos procesą dirbdami tiesiai iš grafiko.
Nors galėtumėte greitai surūšiuoti Excel programoje, kad rastumėte tuos išskirtinius atvejus, kurie greičiausiai yra klaidos, tęskite vizualizavimo procesą dirbdami tiesiai iš grafiko.
Pridėkite x ašies etiketes, kad parodytumėte, kokie paukščiai yra nagrinėjami:
Pridėkite x ašies etiketes, kad parodytumėte, kokie paukščiai yra nagrinėjami:
@ -82,7 +82,7 @@ plt.show()
```
```


Net ir pasukus etiketes 45 laipsniais, jų per daug, kad būtų galima perskaityti. Išbandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes grafike. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms:
Net ir pasukus etiketes 45 laipsnių kampu, jų per daug, kad būtų galima perskaityti. Išbandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes grafike. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms:
```python
```python
plt.title('Max Wingspan in Centimeters')
plt.title('Max Wingspan in Centimeters')
@ -98,14 +98,14 @@ for i in range(len(birds)):
plt.show()
plt.show()
```
```
Kas čia vyksta? Naudojote `tick_params`, kad paslėptumėte apatines etiketes, ir tada sukūrėte ciklą per savo paukščių duomenų rinkinį. Vaizduodami grafiką su mažais apvaliais mėlynais taškais, naudodami `bo`, patikrinote, ar yra paukščių, kurių maksimalus sparnų ilgis viršija 500, ir jei taip, šalia taško parodėte jų etiketę. Šiek tiek paslinkote etiketes y ašyje (`y * (1 - 0.05)`) ir kaip etiketę naudojote paukščio pavadinimą.
Kas čia vyksta? Naudojote `tick_params`, kad paslėptumėte apatines etiketes, ir tada sukūrėte ciklą per savo paukščių duomenų rinkinį. Braižydami grafiką su mažais apvaliais mėlynais taškais naudodami `bo`, patikrinote, ar yra paukščių, kurių maksimalus sparnų ilgis viršija 500, ir jei taip, šalia taško parodėte jų etiketę. Šiek tiek paslinkote etiketes y ašyje (`y * (1 - 0.05)`) ir kaip etiketę naudojote paukščio pavadinimą.
Tiek Plikasis erelis, tiek Prerijų sakalas, nors greičiausiai labai dideli paukščiai, atrodo, yra neteisingai pažymėti, pridėjus papildomą `0` prie jų maksimalaus sparnų ilgio. Mažai tikėtina, kad sutiksite Plikąjį erelį su 25 metrų sparnų ilgiu, bet jei taip, praneškite mums! Sukurkime naują duomenų rėmelį be šių dviejų išskirtinių atvejų:
Tiek Plikasis erelis, tiek Prerijų sakalas, nors greičiausiai labai dideli paukščiai, atrodo neteisingai pažymėti, su papildomu `0` pridėtu prie jų maksimalaus sparnų ilgio. Mažai tikėtina, kad sutiksite Plikąjį erelį su 25 metrų sparnų ilgiu, bet jei taip, praneškite mums! Sukurkime naują duomenų rėmelį be šių dviejų išskirtinių atvejų:
```python
```python
plt.title('Max Wingspan in Centimeters')
plt.title('Max Wingspan in Centimeters')
@ -122,18 +122,18 @@ plt.show()
Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni.
Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni.


Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų ilgio atžvilgiu, sužinokime daugiau apie šiuos paukščius.
Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų ilgio atžvilgiu, sužinokime daugiau apie šiuos paukščius.
Nors linijinės ir sklaidos diagramos gali parodyti informaciją apie duomenų reikšmes ir jų pasiskirstymą, norime pagalvoti apie šio duomenų rinkinio reikšmes. Galėtumėte sukurti vizualizacijas, kad atsakytumėte į šiuos klausimus apie kiekius:
Nors linijiniai ir sklaidos grafikai gali parodyti informaciją apie duomenų reikšmes ir jų pasiskirstymą, norime pagalvoti apie reikšmes, esančias šiame duomenų rinkinyje. Galėtumėte sukurti vizualizacijas, kad atsakytumėte į šiuos klausimus apie kiekius:
> Kiek paukščių kategorijų yra ir kokie jų skaičiai?
> Kiek paukščių kategorijų yra ir kokie jų skaičiai?
> Kiek paukščių yra išnykę, nykstantys, reti ar paplitę?
> Kiek paukščių yra išnykę, nykstantys, reti ar paplitę?
> Kiek yra įvairių genčių ir eilių pagal Linėjaus terminologiją?
> Kiek yra įvairių genčių ir būrių pagal Linėjaus terminologiją?
## Tyrinėkite stulpelines diagramas
## Tyrinėkite stulpelines diagramas
Stulpelinės diagramos yra praktiškos, kai reikia parodyti duomenų grupes. Išnagrinėkime paukščių kategorijas, esančias šiame duomenų rinkinyje, kad pamatytume, kuri yra dažniausia pagal skaičių.
Stulpelinės diagramos yra praktiškos, kai reikia parodyti duomenų grupes. Ištirkime paukščių kategorijas, esančias šiame duomenų rinkinyje, kad pamatytume, kuri yra dažniausia pagal skaičių.


Tačiau ši stulpelinė diagrama yra neįskaitoma, nes yra per daug negrupuotų duomenų. Jums reikia pasirinkti tik tuos duomenis, kuriuos norite vaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją.
Tačiau ši stulpelinė diagrama yra neįskaitoma, nes yra per daug negrupuotų duomenų. Reikia pasirinkti tik tuos duomenis, kuriuos norite braižyti, todėl pažvelkime į paukščių ilgius pagal jų kategoriją.
Filtruokite savo duomenis, kad būtų įtraukta tik paukščių kategorija.
Filtruokite savo duomenis, kad įtrauktumėte tik paukščių kategoriją.
✅ Atkreipkite dėmesį, kad naudojate Pandas duomenims valdyti, o Matplotlib – diagramoms kurti.
✅ Atkreipkite dėmesį, kad naudojate Pandas duomenims valdyti, o Matplotlib – diagramoms kurti.
Kadangi yra daug kategorijų, galite parodyti šią diagramą vertikaliai ir pakoreguoti jos aukštį, kad būtų atsižvelgta į visus duomenis:
Kadangi yra daug kategorijų, galite parodyti šią diagramą vertikaliai ir pakoreguoti jos aukštį, kad tilptų visi duomenys:


Ši stulpelinė diagrama aiškiai parodo paukščių skaičių kiekvienoje kategorijoje. Iš karto matote, kad didžiausias paukščių skaičius šiame regione priklauso Antys/Giesmininkai/Vandens paukščiai kategorijai. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina!
Ši stulpelinė diagrama rodo gerą paukščių skaičiaus kiekvienoje kategorijoje vaizdą. Akimirksniu matote, kad didžiausias paukščių skaičius šiame regione yra Antys/Giesmininkai/Vandens paukščiai kategorijoje. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina!
✅ Išbandykite kitus skaičiavimus šiame duomenų rinkinyje. Ar kas nors jus nustebina?
✅ Išbandykite kitus skaičiavimus šiame duomenų rinkinyje. Ar kas nors jus nustebina?
Čia nieko nestebina: kolibriai turi mažiausią MaxIlgį, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka!
Čia niekas nestebina: kolibriai turi mažiausią MaxIlgį, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka!
Galite sukurti įdomesnes stulpelinių diagramų vizualizacijas, uždėdami duomenis vieną ant kito. Uždėkime Minimalų ir Maksimalų Ilgį ant tam tikros paukščių kategorijos:
Galite sukurti įdomesnes stulpelinių diagramų vizualizacijas, uždedami duomenis vienas ant kito. Uždėkime Minimalų ir Maksimalų Ilgį ant tam tikros paukščių kategorijos:
Šioje diagramoje galite matyti kiekvienos paukščių kategorijos Minimalų ir Maksimalų Ilgį. Galite drąsiai teigti, kad, remiantis šiais duomenimis, kuo didesnis paukštis, tuo platesnis jo ilgio diapazonas. Įdomu!
Šiame grafike galite matyti kiekvienos paukščių kategorijos Minimalų ir Maksimalų Ilgį. Galite drąsiai teigti, kad, remiantis šiais duomenimis, kuo didesnis paukštis, tuo platesnis jo ilgio diapazonas. Įdomu!
Šis paukščių duomenų rinkinys siūlo daugybę informacijos apie įvairius paukščių tipus tam tikroje ekosistemoje. Paieškokite internete ir pažiūrėkite, ar galite rasti kitų paukščių duomenų rinkinių. Praktikuokite diagramų ir grafikų kūrimą apie šiuos paukščius, kad atrastumėte faktus, kurių nežinojote.
Šis paukščių duomenų rinkinys siūlo daugybę informacijos apie įvairius paukščių tipus tam tikroje ekosistemoje. Paieškokite internete ir pažiūrėkite, ar galite rasti kitų paukščių duomenų rinkinių. Praktikuokite diagramų ir grafikų kūrimą apie šiuos paukščius, kad atrastumėte faktus, kurių nežinojote.
Pirma pamoka suteikė jums informacijos apie tai, kaip naudoti Matplotlib kiekių vizualizavimui. Atlikite tyrimus apie kitus būdus dirbti su duomenų rinkiniais vizualizacijai. [Plotly](https://github.com/plotly/plotly.py) yra viena iš jų, kurios neaptarsime šiose pamokose, todėl pažiūrėkite, ką ji gali pasiūlyti.
Pirma pamoka suteikė jums informacijos apie tai, kaip naudoti Matplotlib kiekių vizualizavimui. Atlikite tyrimus apie kitus būdus dirbti su duomenų rinkiniais vizualizavimui. [Plotly](https://github.com/plotly/plotly.py) yra viena iš jų, kurios neaptarsime šiose pamokose, todėl pažiūrėkite, ką ji gali pasiūlyti.
## Užduotis
## Užduotis
[Linijos, Sklaidos ir Stulpeliai](assignment.md)
[Linijos, Sklaidos ir Stulpeliai](assignment.md)
@ -215,4 +215,4 @@ Pirma pamoka suteikė jums informacijos apie tai, kaip naudoti Matplotlib kieki
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
| ](../../sketchnotes/10-Visualizing-Distributions.png)|
| ](../../sketchnotes/10-Visualizing-Distributions.png)|
|:---:|
|:---:|
| Vizualizuojant duomenų pasiskirstymą - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Vizualizuojame pasiskirstymus - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Ankstesnėje pamokoje sužinojote keletą įdomių faktų apie Minesotos paukščių duomenų rinkinį. Vizualizuodami išskirtis aptikote klaidingus duomenis ir išnagrinėjote paukščių kategorijų skirtumus pagal jų maksimalų ilgį.
Ankstesnėje pamokoje sužinojote keletą įdomių faktų apie Minesotos paukščių duomenų rinkinį. Aptikote klaidingų duomenų vizualizuodami išskirtis ir išanalizavote paukščių kategorijų skirtumus pagal jų maksimalų ilgį.
Kitas būdas gilintis į duomenis yra analizuoti jų pasiskirstymą, arba kaip duomenys yra organizuoti pagal ašį. Pavyzdžiui, galbūt norėtumėte sužinoti bendrą pasiskirstymą šiame duomenų rinkinyje pagal maksimalų sparnų ilgį ar maksimalų kūno masę Minesotos paukščiams.
Kitas būdas gilintis į duomenis yra pažvelgti į jų pasiskirstymą arba kaip duomenys yra organizuoti pagal ašį. Pavyzdžiui, galbūt norėtumėte sužinoti apie bendrą maksimalios sparnų amplitudės ar maksimalios kūno masės pasiskirstymą Minesotos paukščių duomenų rinkinyje.
Atraskime keletą faktų apie duomenų pasiskirstymą šiame duomenų rinkinyje. _notebook.ipynb_ faile, esančiame šios pamokos aplanko šaknyje, importuokite Pandas, Matplotlib ir savo duomenis:
Atraskime keletą faktų apie šio duomenų rinkinio pasiskirstymus. _notebook.ipynb_ faile, esančiame šios pamokos aplanko šaknyje, importuokite Pandas, Matplotlib ir savo duomenis:
| | Pavadinimas | Mokslinis pavadinimas | Kategorija | Būrys | Šeima | Gentis | Apsaugos statusas | MinIlgis | MaxIlgis | MinKūnoMasa | MaxKūnoMasa | MinSparnųIlgis | MaxSparnųIlgis |
| | Pavadinimas | MokslinisPavadinimas | Kategorija | Būrys | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasa | MaxKūnoMasa | MinSparnųAmplitudė | MaxSparnųAmplitudė |


Tai suteikia bendrą kūno ilgio pasiskirstymo per paukščių būrius apžvalgą, tačiau tai nėra optimalus būdas parodyti tikrąjį pasiskirstymą. Šią užduotį paprastai atlieka histograma.
Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalgą, tačiau tai nėra optimalus būdas tikriems pasiskirstymams parodyti. Šią užduotį paprastai atlieka histograma.
## Darbas su histogramomis
## Darbas su histogramomis
Matplotlib siūlo puikius būdus vizualizuoti duomenų pasiskirstymą naudojant histogramas. Šio tipo diagrama yra panaši į stulpelinę diagramą, kur pasiskirstymas matomas per stulpelių kilimą ir kritimą. Norint sukurti histogramą, reikia skaitinių duomenų. Histogramą galima sukurti nurodant diagramos tipą kaip 'hist'. Ši diagrama rodo MaxBodyMass pasiskirstymą visame duomenų rinkinyje. Padalindama jai pateiktą duomenų masyvą į mažesnius intervalus, ji gali parodyti duomenų reikšmių pasiskirstymą:
Matplotlib siūlo puikius būdus vizualizuoti duomenų pasiskirstymą naudojant histogramas. Šio tipo diagrama yra panaši į stulpelinę diagramą, kur pasiskirstymas matomas per stulpelių kilimą ir kritimą. Norint sukurti histogramą, reikia skaitinių duomenų. Histogramą galite sukurti, nurodydami diagramos tipą kaip 'hist'. Ši diagrama rodo MaxBodyMass pasiskirstymą visame duomenų rinkinyje. Padalindama jai pateiktą duomenų masyvą į mažesnius intervalus, ji gali parodyti duomenų reikšmių pasiskirstymą:


Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės kategoriją. Gaukite daugiau įžvalgų apie duomenis pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30:
Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30:


Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą galima sukurti užtikrinant, kad pasirinksite duomenis tik tam tikrame intervale:
Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą galima sukurti užtikrinant, kad pasirinktumėte tik duomenis tam tikrame diapazone:
Filtruokite savo duomenis, kad gautumėte tik tuos paukščius, kurių kūno masė yra mažesnė nei 60, ir parodykite 40 `bins`:
Filtruokite savo duomenis, kad gautumėte tik tuos paukščius, kurių kūno masė yra mažesnė nei 60, ir parodykite 40 `bins`:
@ -83,9 +83,9 @@ plt.show()
✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus.
✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus.
Histograma siūlo keletą gražių spalvų ir žymėjimo patobulinimų, kuriuos verta išbandyti:
Histogramoje taip pat galima išbandyti spalvų ir žymėjimo patobulinimus:
Sukurkite 2D histogramą, kad palygintumėte dviejų pasiskirstymų santykį. Palyginkime `MaxBodyMass` ir `MaxLength`. Matplotlib siūlo įmontuotą būdą parodyti susikirtimą naudojant ryškesnes spalvas:
Sukurkite 2D histogramą, kad palygintumėte dviejų pasiskirstymų santykį. Palyginkime `MaxBodyMass` ir `MaxLength`. Matplotlib siūlo įmontuotą būdą parodyti susiliejimą naudojant ryškesnes spalvas:
```python
```python
x = filteredBirds['MaxBodyMass']
x = filteredBirds['MaxBodyMass']
@ -94,25 +94,25 @@ y = filteredBirds['MaxLength']
fig, ax = plt.subplots(tight_layout=True)
fig, ax = plt.subplots(tight_layout=True)
hist = ax.hist2d(x, y)
hist = ax.hist2d(x, y)
```
```
Atrodo, kad yra tikėtinas ryšys tarp šių dviejų elementų pagal numatomą ašį, su vienu ypač stipriu susikirtimo tašku:
Atrodo, kad tarp šių dviejų elementų yra tikėtinas koreliavimas pagal numatomą ašį, su viena ypač stipria susiliejimo vieta:
Histogramos gerai veikia pagal numatytąją skaitinių duomenų funkciją. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis?
Histogramos gerai veikia pagal nutylėjimą su skaitiniais duomenimis. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis?
## Tyrinėkite duomenų rinkinį pagal tekstinius duomenis
## Tyrinėjame duomenų rinkinį pagal tekstinius duomenis
Šis duomenų rinkinys taip pat apima gerą informaciją apie paukščių kategoriją, jų gentį, rūšį, šeimą ir apsaugos statusą. Panagrinėkime šią apsaugos informaciją. Koks yra paukščių pasiskirstymas pagal jų apsaugos statusą?
Šiame duomenų rinkinyje taip pat yra naudinga informacija apie paukščių kategoriją, jų gentį, rūšį, šeimą ir apsaugos statusą. Pažvelkime į šią apsaugos informaciją. Koks yra paukščių pasiskirstymas pagal jų apsaugos statusą?
> ✅ Duomenų rinkinyje naudojami keli akronimai, apibūdinantys apsaugos statusą. Šie akronimai yra iš [IUCN Raudonojo sąrašo kategorijų](https://www.iucnredlist.org/), organizacijos, kataloguojančios rūšių statusą.
> ✅ Duomenų rinkinyje naudojami keli akronimai, apibūdinantys apsaugos statusą. Šie akronimai yra iš [IUCN Raudonojo sąrašo kategorijų](https://www.iucnredlist.org/), organizacijos, kataloguojančios rūšių statusą.
>
>
> - CR: Kritiškai nykstantys
> - CR: Kritiškai nykstantis
> - EN: Nykstantys
> - EN: Nykstantis
> - EX: Išnykę
> - EX: Išnykęs
> - LC: Mažiausiai susirūpinimą keliantys
> - LC: Mažiausiai susirūpinimą keliantis
> - NT: Netoli nykimo
> - NT: Beveik nykstantis
> - VU: Pažeidžiami
> - VU: Pažeidžiamas
Tai yra tekstinės reikšmės, todėl jums reikės atlikti transformaciją, kad sukurtumėte histogramą. Naudodami filteredBirds duomenų rėmelį, parodykite jo apsaugos statusą kartu su minimaliu sparnų ilgiu. Ką pastebite?
Tai yra tekstinės reikšmės, todėl norint sukurti histogramą reikės atlikti transformaciją. Naudodami `filteredBirds` duomenų rėmelį, parodykite jo apsaugos statusą kartu su minimaliu sparnų amplitudės dydžiu. Ką pastebite?


Atrodo, kad nėra gero ryšio tarp minimalaus sparnų ilgio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors ryšį?
Atrodo, kad nėra gero ryšio tarp minimalaus sparnų amplitudės dydžio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors ryšį?
## Tankio diagramos
## Tankio diagramos
Galbūt pastebėjote, kad histogramos, kurias iki šiol nagrinėjome, yra „žingsniuotos“ ir nesudaro sklandžios arkos. Norėdami parodyti sklandesnę tankio diagramą, galite išbandyti tankio diagramą.
Galbūt pastebėjote, kad iki šiol nagrinėtos histogramos yra „laiptinės“ ir nesudaro sklandžios kreivės. Norėdami parodyti sklandesnę tankio diagramą, galite išbandyti tankio diagramą.
Norėdami dirbti su tankio diagramomis, susipažinkite su nauja diagramos biblioteka, [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html).
Norėdami dirbti su tankio diagramomis, susipažinkite su nauja braižymo biblioteka, [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html).
Įkeldami Seaborn, išbandykite pagrindinę tankio diagramą:
Galite matyti, kaip diagrama atspindi ankstesnę minimalaus sparnų ilgio diagramą; ji tiesiog šiek tiek sklandesnė. Pasak Seaborn dokumentacijos, „Lyginant su histograma, KDE gali sukurti diagramą, kuri yra mažiau perkrauta ir lengviau interpretuojama, ypač kai piešiamos kelios pasiskirstymo kreivės. Tačiau ji gali sukelti iškraipymus, jei pagrindinis pasiskirstymas yra ribotas arba nesklidus. Kaip ir histograma, vaizdavimo kokybė taip pat priklauso nuo gerų išlyginimo parametrų pasirinkimo.“ [šaltinis](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Kitaip tariant, išskirtys, kaip visada, gali neigiamai paveikti jūsų diagramas.
Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitudės duomenų diagramą; ji tiesiog yra šiek tiek sklandesnė. Pasak Seaborn dokumentacijos, „Palyginti su histograma, KDE gali sukurti diagramą, kuri yra mažiau užgriozdinta ir lengviau interpretuojama, ypač kai braižomos kelios pasiskirstymo kreivės. Tačiau ji gali sukelti iškraipymus, jei pagrindinis pasiskirstymas yra ribotas arba nesudaro sklandžios kreivės. Kaip ir histograma, atvaizdavimo kokybė taip pat priklauso nuo gerų lyginimo parametrų pasirinkimo.“ [šaltinis](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Kitaip tariant, išskirtys, kaip visada, gali iškreipti jūsų diagramas.
Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą:
Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti naudodami šį metodą:
```python
```python
sns.kdeplot(filteredBirds['MaxBodyMass'])
sns.kdeplot(filteredBirds['MaxBodyMass'])
@ -171,11 +171,11 @@ Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `


✅ Perskaitykite apie parametrus, galimus šio tipo diagramai, ir eksperimentuokite!
✅ Perskaitykite apie šio tipo diagramos parametrus ir eksperimentuokite!
Šio tipo diagrama siūlo puikiai paaiškinančias vizualizacijas. Pavyzdžiui, su keliomis kodo eilutėmis galite parodyti maksimalios kūno masės tankį pagal paukščių būrį:
Šio tipo diagrama siūlo puikiai paaiškinančias vizualizacijas. Pavyzdžiui, keliais kodo eilutėmis galite parodyti maksimalios kūno masės tankį pagal paukščių būrį:
```python
```python
sns.kdeplot(
sns.kdeplot(
@ -187,25 +187,25 @@ sns.kdeplot(


Taip pat galite žemėlapyje parodyti kelių kintamųjų tankį vienoje diagramoje. Palyginkite paukščio MaxLength ir MinLength su jų apsaugos statusu:
Taip pat galite vienoje diagramoje pavaizduoti kelių kintamųjų tankį. Palyginkite paukščio MaxLength ir MinLength su jų apsaugos statusu:

Galbūt verta ištirti, ar „Pažeidžiamų“ paukščių grupė pagal jų ilgius yra reikšminga.
Galbūt verta ištirti, ar „Pažeidžiamų“ paukščių grupė pagal jų ilgius yra reikšminga.
## 🚀 Iššūkis
## 🚀 Iššūkis
Histogramos yra sudėtingesnis diagramų tipas nei paprastos sklaidos diagramos, stulpelinės diagramos ar linijinės diagramos. Ieškokite internete gerų histogramų naudojimo pavyzdžių. Kaip jos naudojamos, ką jos demonstruoja ir kokiose srityse ar tyrimų srityse jos dažniausiai naudojamos?
Histogramos yra sudėtingesnis diagramos tipas nei paprastos sklaidos, stulpelinės ar linijinės diagramos. Ieškokite internete gerų histogramų naudojimo pavyzdžių. Kaip jos naudojamos, ką jos demonstruoja ir kokiose srityse ar tyrimų srityse jos dažniausiai naudojamos?
Šioje pamokoje naudojote Matplotlib ir pradėjote dirbti su Seaborn, kad sukurtumėte sudėtingesnes diagramas. Atlikite tyrimą apie `kdeplot` Seaborn bibliotekoje, „nuolatinės tikimybės tankio kreivę vienoje ar keliose dimensijose“. Perskaitykite [dokumentaciją](https://seaborn.pydata.org/generated/seaborn.kdeplot.html), kad suprastumėte, kaip ji veikia.
Šioje pamokoje naudojote Matplotlib ir pradėjote dirbti su Seaborn, kad sukurtumėte sudėtingesnes diagramas. Atlikite tyrimą apie `kdeplot` Seaborn bibliotekoje, „nepertraukiamą tikimybių tankio kreivę vienoje ar keliose dimensijose“. Perskaitykite [dokumentaciją](https://seaborn.pydata.org/generated/seaborn.kdeplot.html), kad suprastumėte, kaip ji veikia.
|Vizualizuojame proporcijas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
|Vizualizuojame proporcijas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Šioje pamokoje naudosite kitą gamtos tematikos duomenų rinkinį, kad vizualizuotumėte proporcijas, pavyzdžiui, kiek skirtingų grybų rūšių sudaro tam tikrą duomenų rinkinį apie grybus. Panagrinėkime šiuos įdomius grybus naudodami duomenų rinkinį iš Audubon, kuriame pateikiama informacija apie 23 rūšis grybų su lakšteliais iš Agaricus ir Lepiota šeimų. Eksperimentuosite su skaniais vizualizacijų tipais, tokiais kaip:
Šioje pamokoje naudosite kitą gamtos tematikos duomenų rinkinį, kad vizualizuotumėte proporcijas, pavyzdžiui, kiek skirtingų grybų rūšių yra tam tikrame duomenų rinkinyje apie grybus. Panagrinėkime šiuos įdomius grybus naudodami duomenų rinkinį iš Audubon, kuriame pateikiama informacija apie 23 rūšis grybų su lakšteliais iš Agaricus ir Lepiota šeimų. Eksperimentuosite su skaniais vizualizacijų tipais, tokiais kaip:
- Pyrago diagramos 🥧
- Pyrago diagramos 🥧
- Spurgos diagramos 🍩
- Spurgos diagramos 🍩
@ -21,7 +21,7 @@ CO_OP_TRANSLATOR_METADATA:
> 💡 Labai įdomus projektas, vadinamas [Charticulator](https://charticulator.com) iš Microsoft Research, siūlo nemokamą „drag and drop“ sąsają duomenų vizualizacijoms. Viename iš jų mokymų taip pat naudojamas šis grybų duomenų rinkinys! Taigi galite tyrinėti duomenis ir tuo pačiu metu mokytis naudotis biblioteka: [Charticulator tutorial](https://charticulator.com/tutorials/tutorial4.html).
> 💡 Labai įdomus projektas, vadinamas [Charticulator](https://charticulator.com) iš Microsoft Research, siūlo nemokamą „drag and drop“ sąsają duomenų vizualizacijoms. Viename iš jų mokymų taip pat naudojamas šis grybų duomenų rinkinys! Taigi galite tyrinėti duomenis ir tuo pačiu metu mokytis naudotis biblioteka: [Charticulator tutorial](https://charticulator.com/tutorials/tutorial4.html).
## [Testas po paskaitos](https://ff-quizzes.netlify.app/en/ds/)
Atspausdinama lentelė su puikiais duomenimis analizei:
Atspausdinama lentelė su puikiais duomenimis analizei:
| klasė | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių tvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | kotelio šaknis | kotelio paviršius virš žiedo | kotelio paviršius po žiedu | kotelio spalva virš žiedo | kotelio spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų atspaudų spalva | populiacija | buveinė |
| klasė | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių tvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | kotelio šaknis | kotelio paviršius virš žiedo | kotelio paviršius po žiedu | kotelio spalva virš žiedo | kotelio spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų atspaudo spalva | populiacija | buveinė |
| Nuodingas | Išgaubta | Lygi | Ruda | Mėlynės | Aitrus | Laisvas | Artimi | Siauri | Juoda | Platėjantis | Lygi | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Juoda | Išsibarstę | Miestas |
| Nuodingas | Išgaubta | Lygi | Ruda | Mėlynės | Aitrus | Laisvas | Tankus | Siauras | Juoda | Platėjantis | Lygi | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Juoda | Išsibarstę | Miestas |
| Valgomas | Išgaubta | Lygi | Geltona | Mėlynės | Migdolų | Laisvas | Artimi | Platus | Juoda | Platėjantis | Klubas | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Ruda | Daugybė | Žolės |
| Valgomas | Išgaubta | Lygi | Geltona | Mėlynės | Migdolų | Laisvas | Tankus | Platus | Juoda | Platėjantis | Klubas | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Ruda | Daugybė | Žolės |
| Valgomas | Varpelis | Lygi | Balta | Mėlynės | Anyžinis | Laisvas | Artimi | Platus | Ruda | Platėjantis | Klubas | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Ruda | Daugybė | Pievos |
| Valgomas | Varpelis | Lygi | Balta | Mėlynės | Anyžinis | Laisvas | Tankus | Platus | Ruda | Platėjantis | Klubas | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Ruda | Daugybė | Pievos |
| Nuodingas | Išgaubta | Žvynuota | Balta | Mėlynės | Aitrus | Laisvas | Artimi | Siauri | Ruda | Platėjantis | Lygi | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Juoda | Išsibarstę | Miestas |
| Nuodingas | Išgaubta | Žvynuota | Balta | Mėlynės | Aitrus | Laisvas | Tankus | Siauras | Ruda | Platėjantis | Lygi | Lygi | Lygi | Balta | Balta | Dalinis | Balta | Vienas | Pakabukas | Juoda | Išsibarstę | Miestas |
Iškart pastebėsite, kad visi duomenys yra tekstiniai. Turėsite konvertuoti šiuos duomenis, kad galėtumėte juos naudoti diagramoje. Dauguma duomenų, iš tiesų, yra pateikti kaip objektas:
Iškart pastebite, kad visi duomenys yra tekstiniai. Turėsite konvertuoti šiuos duomenis, kad galėtumėte juos naudoti diagramoje. Dauguma duomenų iš tiesų yra pateikti kaip objektas:
Dabar, jei atspausdinsite grybų duomenis, pamatysite, kad jie buvo suskirstyti į kategorijas pagal nuodingų/valgomų klasę:
Dabar, jei atspausdinsite grybų duomenis, pamatysite, kad jie buvo suskirstyti į kategorijas pagal nuodingų/valgomų grybų klasę:
| | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių tvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | ... | kotelio paviršius po žiedu | kotelio spalva virš žiedo | kotelio spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų atspaudų spalva | populiacija | buveinė |
| | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių tvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | ... | kotelio paviršius po žiedu | kotelio spalva virš žiedo | kotelio spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų atspaudo spalva | populiacija | buveinė |
Šis kodas nubrėžia diagramą ir centrinį apskritimą, tada prideda tą centrinį apskritimą į diagramą. Redaguokite centrinio apskritimo plotį pakeisdami `0.40` į kitą reikšmę.
Šis kodas nupiešia diagramą ir centrinį apskritimą, tada prideda tą centrinį apskritimą į diagramą. Redaguokite centrinio apskritimo plotį pakeisdami „0.40“ į kitą reikšmę.
Spurgos diagramas galima koreguoti įvairiais būdais, kad pakeistumėte etiketes. Etiketės ypač gali būti paryškintos, kad būtų lengviau jas skaityti. Sužinokite daugiau [dokumentacijoje](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut).
Spurgos diagramas galima koreguoti įvairiais būdais, kad pakeistumėte etiketes. Etiketės ypač gali būti paryškintos, kad būtų lengviau jas perskaityti. Sužinokite daugiau [dokumentacijoje](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut).
Dabar, kai žinote, kaip grupuoti savo duomenis ir juos rodyti kaip pyragą ar spurgą, galite tyrinėti kitus diagramų tipus. Išbandykite vaflių diagramą, kuri yra tiesiog kitoks būdas tyrinėti kiekius.
Dabar, kai žinote, kaip grupuoti savo duomenis ir juos rodyti kaip pyrago ar spurgos diagramą, galite tyrinėti kitus diagramų tipus. Išbandykite vaflių diagramą, kuri yra tiesiog kitoks būdas tyrinėti kiekius.
## Vafliai!
## Vafliai!
„Vaflio“ tipo diagrama yra kitoks būdas vizualizuoti kiekius kaip 2D kvadratų masyvą. Pabandykite vizualizuoti skirtingus grybų kepurėlių spalvų kiekius šiame duomenų rinkinyje. Norėdami tai padaryti, turite įdiegti pagalbinę biblioteką, vadinamą [PyWaffle](https://pypi.org/project/pywaffle/) ir naudoti Matplotlib:
„Vaflio“ tipo diagrama yra kitoks būdas vizualizuoti kiekius kaip 2D kvadratų masyvą. Pabandykite vizualizuoti skirtingus grybų kepurėlių spalvų kiekius šiame duomenų rinkinyje. Norėdami tai padaryti, turite įdiegti pagalbinę biblioteką, vadinamą [PyWaffle](https://pypi.org/project/pywaffle/) ir naudoti Matplotlib:
@ -174,16 +174,16 @@ Naudodami vaflio diagramą, galite aiškiai matyti grybų kepurėlių spalvų pr
✅ Pywaffle palaiko piktogramas diagramose, kurios naudoja bet kokią piktogramą, esančią [Font Awesome](https://fontawesome.com/). Eksperimentuokite, kad sukurtumėte dar įdomesnę vaflio diagramą, naudodami piktogramas vietoj kvadratų.
✅ Pywaffle palaiko piktogramas diagramose, kurios naudoja bet kokią piktogramą, esančią [Font Awesome](https://fontawesome.com/). Eksperimentuokite, kad sukurtumėte dar įdomesnę vaflio diagramą, naudodami piktogramas vietoj kvadratų.
Šioje pamokoje išmokote tris būdus vizualizuoti proporcijas. Pirmiausia turite grupuoti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, spurga ar vaflis. Visi yra skanūs ir suteikia vartotojui akimirksniu suprantamą duomenų rinkinį.
Šioje pamokoje išmokote tris būdus vizualizuoti proporcijas. Pirmiausia turite grupuoti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai tinka duomenims rodyti - pyragas, spurga ar vaflis. Visi yra skanūs ir suteikia vartotojui greitą duomenų rinkinio vaizdą.
## 🚀 Iššūkis
## 🚀 Iššūkis
Pabandykite atkurti šias skanias diagramas [Charticulator](https://charticulator.com).
Pabandykite atkurti šias skanias diagramas [Charticulator](https://charticulator.com).
## [Testas po paskaitos](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21)
@ -201,4 +201,4 @@ Atlikite tyrimus, kad rastumėte daugiau informacijos apie šį sudėtingą spre
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
| ](../../sketchnotes/12-Visualizing-Relationships.png)|
| ](../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:|
|:---:|
@ -19,9 +19,9 @@ Tęsdami mūsų tyrimų dėmesį į gamtą, atraskime įdomius vizualizacijos b
Būtų įdomu vizualizuoti ryšį tarp tam tikros valstijos gamybos per metus ir, pavyzdžiui, medaus kainos toje valstijoje. Arba galite vizualizuoti ryšį tarp valstijų medaus derliaus vienai kolonijai. Šis laikotarpis apima niokojantį „CCD“ arba „Kolonijų žlugimo sutrikimą“, pirmą kartą pastebėtą 2006 m. (http://npic.orst.edu/envir/ccd.html), todėl tai yra prasmingas duomenų rinkinys tyrimui. 🐝
Būtų įdomu vizualizuoti ryšį tarp tam tikros valstijos gamybos per metus ir, pavyzdžiui, medaus kainos toje valstijoje. Arba galite vizualizuoti ryšį tarp valstijų medaus derliaus vienai kolonijai. Šis laikotarpis apima niokojantį „CCD“ arba „Kolonijų žlugimo sutrikimą“, pirmą kartą pastebėtą 2006 m. (http://npic.orst.edu/envir/ccd.html), todėl tai yra prasmingas duomenų rinkinys tyrimui. 🐝
Šioje pamokoje galite naudoti Seaborn, kurį jau naudojote anksčiau, kaip puikią biblioteką vizualizuoti ryšius tarp kintamųjų. Ypač įdomi yra Seaborn funkcija `relplot`, kuri leidžia greitai kurti sklaidos diagramas ir linijines diagramas, vizualizuojant '[statistinius ryšius](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)', leidžiančius duomenų mokslininkui geriau suprasti, kaip kintamieji tarpusavyje susiję.
Šioje pamokoje galite naudoti Seaborn, kurį jau naudojote anksčiau, kaip puikią biblioteką vizualizuoti ryšius tarp kintamųjų. Ypač įdomi yra Seaborn funkcija `relplot`, kuri leidžia greitai kurti sklaidos diagramas ir linijines diagramas, vizualizuojant '[statistinius ryšius](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)', padedančius duomenų mokslininkui geriau suprasti, kaip kintamieji tarpusavyje susiję.
## Sklaidos diagramos
## Sklaidos diagramos
@ -39,7 +39,7 @@ honey.head()
Pastebėsite, kad medaus duomenyse yra keletas įdomių stulpelių, įskaitant metus ir kainą už svarą. Išnagrinėkime šiuos duomenis, suskirstytus pagal JAV valstijas:
Pastebėsite, kad medaus duomenyse yra keletas įdomių stulpelių, įskaitant metus ir kainą už svarą. Išnagrinėkime šiuos duomenis, suskirstytus pagal JAV valstijas:
| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai |
| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai |


Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'hue' parametrą, kad parodytumėte pokyčius per metus:
Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'hue' parametrą, kuris parodys pokyčius per metus:
> ✅ Sužinokite daugiau apie [spalvų paletes, kurias galite naudoti Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html) - išbandykite gražią vaivorykštės spalvų schemą!
> ✅ Sužinokite daugiau apie [spalvų paletes, kurias galite naudoti Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html) - išbandykite gražią vaivorykštės spalvų schemą!


Su šiuo spalvų schemos pakeitimu galite matyti, kad akivaizdžiai yra stipri progresija per metus, kalbant apie medaus kainą už svarą. Iš tiesų, jei peržiūrėsite duomenų pavyzdį, kad patikrintumėte (pasirinkite tam tikrą valstiją, pavyzdžiui, Arizoną), galite pastebėti kainų didėjimo modelį metai iš metų, su keliomis išimtimis:
Su šiuo spalvų schemos pakeitimu galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei pažiūrėsite į duomenų pavyzdį, kad patikrintumėte (pasirinkite tam tikrą valstiją, pavyzdžiui, Arizoną), galite pastebėti kainų kilimo modelį metai iš metų, su keliomis išimtimis:
| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai |
| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai |
Kitas būdas vizualizuoti šią progresiją yra naudoti dydį, o ne spalvą. Spalvų aklumo turintiems vartotojams tai gali būti geresnis pasirinkimas. Redaguokite savo vizualizaciją, kad parodytumėte kainos didėjimą per taško apskritimo didėjimą:
Kitas būdas vizualizuoti šį progresą yra naudoti dydį, o ne spalvą. Spalvų aklumo turintiems vartotojams tai gali būti geresnis pasirinkimas. Redaguokite savo vizualizaciją, kad parodytumėte kainos didėjimą, didinant taško apskritimo dydį:
Galite matyti, kaip taškų dydis palaipsniui didėja.
Galite pastebėti, kad taškų dydis palaipsniui didėja.


@ -108,7 +108,7 @@ Atsakymas: Taip, su kai kuriomis išimtimis apie 2003 metus:
✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laiko reikalaujantį elgesį galima išjungti pridėjus `ci=None`.
✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laiko reikalaujantį elgesį galima išjungti pridėjus `ci=None`.
Klausimas: Na, 2003 metais ar taip pat matome medaus tiekimo šuolį? O jei pažvelgtumėte į bendrą gamybą metai iš metų?
Klausimas: Na, o 2003 metais, ar galime pastebėti medaus pasiūlos šuolį? Ką, jei pažvelgtumėte į bendrą gamybą metai iš metų?
@ -120,11 +120,11 @@ Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tik
Klausimas: Tokiu atveju, kas galėjo sukelti medaus kainos šuolį apie 2003 metus?
Klausimas: Tokiu atveju, kas galėjo sukelti medaus kainos šuolį apie 2003 metus?
Norėdami tai atrasti, galite panagrinėti facet grid.
Norėdami tai atrasti, galite naudoti facet grid.
## Facet grid
## Facet grid
Facet grid leidžia pasirinkti vieną jūsų duomenų rinkinio aspektą (mūsų atveju galite pasirinkti „metus“, kad išvengtumėte per daug facetų). Seaborn tada gali sukurti diagramą kiekvienam iš šių aspektų, pasirinktų x ir y koordinačių, kad būtų lengviau vizualiai palyginti. Ar 2003 metai išsiskiria tokio tipo palyginime?
Facet grid leidžia pasirinkti vieną jūsų duomenų rinkinio aspektą (mūsų atveju galite pasirinkti 'metus', kad išvengtumėte per daug facetų). Tada Seaborn gali sukurti diagramą kiekvienam iš šių aspektų, pasirinktų x ir y koordinačių, kad būtų lengviau palyginti. Ar 2003 metai išsiskiria tokio tipo palyginime?
Sukurkite facet grid, toliau naudodami `relplot`, kaip rekomenduoja [Seaborn dokumentacija](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid).
Sukurkite facet grid, toliau naudodami `relplot`, kaip rekomenduoja [Seaborn dokumentacija](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid).
@ -144,7 +144,7 @@ sns.relplot(
## Dvigubos linijos diagramos
## Dvigubos linijos diagramos
Išbandykite daugiagubą linijinę diagramą, uždėdami dvi linijines diagramas viena ant kitos, naudodami Seaborn funkciją 'despine', kad pašalintumėte jų viršutines ir dešines linijas, ir naudodami `ax.twinx` [gautą iš Matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx leidžia diagramai dalintis x ašimi ir rodyti dvi y ašis. Taigi, parodykite derlių vienai kolonijai ir kolonijų skaičių, uždėtus vienas ant kito:
Išbandykite daugiagubą linijinę diagramą, uždėdami dvi linijines diagramas viena ant kitos, naudodami Seaborn 'despine', kad pašalintumėte jų viršutines ir dešines linijas, ir naudodami `ax.twinx` [gautą iš Matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx leidžia diagramai dalintis x ašimi ir rodyti dvi y ašis. Taigi, parodykite derlių vienai kolonijai ir kolonijų skaičių, uždėtus vienas ant kito:
```python
```python
fig, ax = plt.subplots(figsize=(12,6))
fig, ax = plt.subplots(figsize=(12,6))
@ -170,9 +170,9 @@ Pirmyn, bitės, pirmyn!
🐝❤️
🐝❤️
## 🚀 Iššūkis
## 🚀 Iššūkis
Šioje pamokoje sužinojote šiek tiek daugiau apie kitus sklaidos diagramų ir linijinių gridų naudojimo būdus, įskaitant facet grid. Išbandykite save, sukurdami facet grid naudodami kitą duomenų rinkinį, galbūt tą, kurį naudojote prieš šias pamokas. Atkreipkite dėmesį, kiek laiko jie užtrunka ir kaip reikia būti atsargiems dėl to, kiek gridų reikia piešti naudojant šiuos metodus.
Šioje pamokoje sužinojote šiek tiek daugiau apie kitus sklaidos diagramų ir linijinių tinklų naudojimo būdus, įskaitant facet grid. Išbandykite save, sukurdami facet grid naudodami kitą duomenų rinkinį, galbūt tą, kurį naudojote prieš šias pamokas. Atkreipkite dėmesį, kiek laiko jie užtrunka ir kaip reikia būti atsargiems dėl to, kiek tinklų reikia piešti naudojant šiuos metodus.
@ -184,4 +184,4 @@ Linijinės diagramos gali būti paprastos arba gana sudėtingos. Šiek tiek pasi
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
| ](../../sketchnotes/13-MeaningfulViz.png)|
| ](../../sketchnotes/13-MeaningfulViz.png)|
|:---:|
|:---:|
| Prasmingos vizualizacijos - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Prasmingos Vizualizacijos - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
> „Jei pakankamai ilgai kankinsi duomenis, jie prisipažins bet ką“ -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
> „Jei pakankamai ilgai kankinsi duomenis, jie prisipažins bet ką“ – [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase)
Viena iš pagrindinių duomenų mokslininko įgūdžių yra gebėjimas sukurti prasmingą duomenų vizualizaciją, kuri padėtų atsakyti į turimus klausimus. Prieš vizualizuodami duomenis, turite įsitikinti, kad jie buvo išvalyti ir paruošti, kaip tai darėte ankstesnėse pamokose. Po to galite pradėti spręsti, kaip geriausiai pateikti duomenis.
Viena iš pagrindinių duomenų mokslininko įgūdžių yra gebėjimas sukurti prasmingą duomenų vizualizaciją, kuri padėtų atsakyti į jums rūpimus klausimus. Prieš vizualizuodami savo duomenis, turite įsitikinti, kad jie buvo išvalyti ir paruošti, kaip tai darėte ankstesnėse pamokose. Po to galite pradėti spręsti, kaip geriausiai pateikti duomenis.
Šioje pamokoje peržiūrėsite:
Šioje pamokoje peržiūrėsite:
1. Kaip pasirinkti tinkamą diagramos tipą
1. Kaip pasirinkti tinkamą diagramos tipą
2. Kaip išvengti klaidinančių diagramų
2. Kaip išvengti klaidinančių diagramų
3. Kaip dirbti su spalvomis
3. Kaip naudoti spalvas
4. Kaip stilizuoti diagramas, kad jos būtų lengvai suprantamos
4. Kaip stilizuoti diagramas, kad jos būtų lengvai suprantamos
Ankstesnėse pamokose eksperimentavote kurdami įvairias įdomias duomenų vizualizacijas naudodami Matplotlib ir Seaborn diagramoms. Paprastai galite pasirinkti [tinkamą diagramos tipą](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) pagal klausimą, kurį norite atsakyti, naudodamiesi šia lentele:
Ankstesnėse pamokose eksperimentavote kurdami įvairias įdomias duomenų vizualizacijas naudodami Matplotlib ir Seaborn. Apskritai, galite pasirinkti [tinkamą diagramos tipą](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) pagal klausimą, kurį norite atsakyti, naudodamiesi šia lentele:
> ✅ Priklausomai nuo jūsų duomenų sudėties, gali tekti konvertuoti juos iš teksto į skaitinius, kad tam tikra diagrama galėtų juos palaikyti.
> ✅ Priklausomai nuo jūsų duomenų sudėties, gali tekti juos konvertuoti iš teksto į skaitinius, kad tam tikra diagrama juos palaikytų.
## Venkite klaidinimo
## Venkite klaidinančių diagramų
Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pažeidžiant pačius duomenis. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių!
Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pakenkiant pačių duomenų patikimumui. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių!
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
[](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos")
> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas
> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas
Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis:
Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis:

[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar klaidinančesnė, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Iš tiesų, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo pertvarkytos, kad būtų parodyta klaidinanti mažėjimo tendencija.
[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo perrikiuotos, kad būtų parodyta klaidinanti mažėjimo tendencija.

Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius išaugo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga:
Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius išaugo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga:

Palyginti nepalyginamus dalykus yra dar vienas šešėlinis triukas. Yra [puiki svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, koreliuojantys tokius dalykus kaip skyrybų rodiklis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all).
Palyginti nepalyginamus dalykus yra dar vienas abejotinas triukas. Yra [nuostabi svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, siejantys, pavyzdžiui, skyrybų rodiklį Meino valstijoje ir margarino vartojimą. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all).
Svarbu suprasti, kaip lengvai akis gali būti apgauta klaidinančiomis diagramomis. Net jei duomenų mokslininko ketinimai yra geri, blogo diagramos tipo pasirinkimas, pavyzdžiui, pyrago diagrama, kurioje per daug kategorijų, gali būti klaidinantis.
Svarbu suprasti, kaip lengvai akis gali būti apgauta klaidinančių diagramų. Net jei duomenų mokslininko ketinimai yra geri, blogo diagramos tipo pasirinkimas, pavyzdžiui, skritulinė diagrama su per daug kategorijų, gali būti klaidinantis.
## Spalvos
## Spalvos
Kaip matėte aukščiau esančioje „Floridos ginklų smurto“ diagramoje, spalva gali suteikti papildomą prasmės sluoksnį diagramoms, ypač toms, kurios nėra sukurtos naudojant tokias bibliotekas kaip Matplotlib ir Seaborn, kurios turi įvairias patikrintas spalvų bibliotekas ir paletes. Jei kuriate diagramą rankiniu būdu, šiek tiek pasidomėkite [spalvų teorija](https://colormatters.com/color-and-design/basic-color-theory).
Kaip matėte aukščiau esančioje „Floridos ginklų smurto“ diagramoje, spalvos gali suteikti papildomą reikšmės sluoksnį diagramoms, ypač toms, kurios nėra sukurtos naudojant tokias bibliotekas kaip Matplotlib ir Seaborn, kurios turi įvairias patikrintas spalvų bibliotekas ir paletes. Jei kuriate diagramą rankiniu būdu, šiek tiek pasidomėkite [spalvų teorija](https://colormatters.com/color-and-design/basic-color-theory).
> ✅ Kurdamas diagramas, atkreipkite dėmesį, kad prieinamumas yra svarbus vizualizacijos aspektas. Kai kurie jūsų vartotojai gali būti spalvų akli - ar jūsų diagrama gerai rodoma vartotojams, turintiems regos sutrikimų?
> ✅ Kurdami diagramas, atkreipkite dėmesį, kad prieinamumas yra svarbus vizualizacijos aspektas. Kai kurie jūsų naudotojai gali būti spalvų akli – ar jūsų diagrama gerai matoma naudotojams su regos sutrikimais?
Būkite atsargūs rinkdamiesi spalvas diagramai, nes spalva gali perteikti prasmę, kurios galbūt nenorėjote. „Rožinės damos“ aukščiau esančioje „ūgio“ diagramoje perteikia aiškiai „moterišką“ prasmę, kuri dar labiau sustiprina pačios diagramos keistumą.
Būkite atsargūs rinkdamiesi spalvas savo diagramai, nes spalvos gali perteikti reikšmę, kurios galbūt nenorėjote. Aukščiau esančioje „aukščio“ diagramoje „rožinės damos“ perteikia aiškiai „moterišką“ reikšmę, kuri dar labiau sustiprina pačios diagramos keistumą.
Nors [spalvų prasmė](https://colormatters.com/color-symbolism/the-meanings-of-colors) gali skirtis skirtingose pasaulio dalyse ir keistis priklausomai nuo jų atspalvio, paprastai spalvų reikšmės apima:
Nors [spalvų reikšmės](https://colormatters.com/color-symbolism/the-meanings-of-colors) gali skirtis skirtingose pasaulio dalyse ir keistis priklausomai nuo jų atspalvio, apskritai spalvų reikšmės apima:
| Spalva | Reikšmė |
| Spalva | Reikšmė |
| ------ | ------------------- |
| ------- | ------------------- |
| raudona | galia |
| raudona | galia |
| mėlyna | pasitikėjimas, lojalumas |
| mėlyna | pasitikėjimas, lojalumas |
| geltona | laimė, atsargumas |
| geltona | laimė, atsargumas |
@ -90,45 +90,45 @@ Nors [spalvų prasmė](https://colormatters.com/color-symbolism/the-meanings-of-
| violetinė | laimė |
| violetinė | laimė |
| oranžinė | gyvybingumas |
| oranžinė | gyvybingumas |
Jei jums pavesta kurti diagramą su pasirinktinėmis spalvomis, įsitikinkite, kad jūsų diagramos yra prieinamos ir pasirinkta spalva atitinka prasmę, kurią norite perteikti.
Jei jums pavesta kurti diagramą su pasirinktinėmis spalvomis, įsitikinkite, kad jūsų diagramos yra tiek prieinamos, tiek spalvos atitinka reikšmę, kurią norite perteikti.
## Stilizuokite diagramas, kad jos būtų lengvai suprantamos
## Diagramų stilizavimas, kad jos būtų lengvai suprantamos
Diagramos nėra prasmingos, jei jos nėra lengvai suprantamos! Skirkite laiko apsvarstyti diagramos pločio ir aukščio stilizavimą, kad ji gerai atitiktų jūsų duomenis. Jei reikia parodyti vieną kintamąjį (pvz., visas 50 valstijų), parodykite jas vertikaliai Y ašyje, jei įmanoma, kad išvengtumėte horizontaliai slenkančios diagramos.
Diagramos nėra prasmingos, jei jos nėra lengvai suprantamos! Skirkite laiko apsvarstyti, kaip pritaikyti diagramos plotį ir aukštį, kad ji gerai atitiktų jūsų duomenis. Jei reikia parodyti vieną kintamąjį (pvz., visas 50 valstijų), parodykite jas vertikaliai Y ašyje, jei įmanoma, kad išvengtumėte horizontalaus slinkimo.
Pažymėkite ašis, pateikite legendą, jei reikia, ir pasiūlykite patarimus, kad duomenys būtų geriau suprantami.
Pažymėkite savo ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (tooltips), kad duomenys būtų lengviau suprantami.
Jei jūsų duomenys yra tekstiniai ir išsamūs X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) siūlo 3D diagramas, jei jūsų duomenys tai palaiko. Naudojant `mpl_toolkits.mplot3d` galima sukurti sudėtingas duomenų vizualizacijas.
Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) siūlo 3D braižymą, jei jūsų duomenys tai palaiko. Naudodami `mpl_toolkits.mplot3d` galite sukurti sudėtingas duomenų vizualizacijas.
Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu turi nuostabių vizualizacijų, sukurtų su D3, tokių kaip '[filmų gėlės](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, skirtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei „scrollytelling“ straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto.
Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu sukūrė nuostabias vizualizacijas su D3, tokias kaip '[filmų gėlės](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, skirtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto.
> „Bussed Out: Kaip Amerika perkelia savo benamius“ iš [Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu
> „Bussed Out: Kaip Amerika perkelia savo benamius“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu
Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šias galingas vizualizacijos bibliotekas, pabandykite naudoti D3 Vue.js programoje, naudodami biblioteką, kad parodytumėte knygos „Pavojingos pažintys“ animuotą socialinį tinklą.
Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šių galingų vizualizacijos bibliotekų, pabandykite naudoti D3 Vue.js programoje, naudodami biblioteką, kad parodytumėte knygos „Pavojingi ryšiai“ animuotą socialinį tinklą.
> „Les Liaisons Dangereuses“ yra epistolinis romanas, arba romanas, pateiktas kaip laiškų serija. Parašytas 1782 m. Choderlos de Laclos, jis pasakoja apie žiaurius, morališkai bankrutavusius socialinius manevrus dviejų pagrindinių veikėjų iš Prancūzijos aristokratijos XVIII a. pabaigoje, vikonto de Valmont ir markizės de Merteuil. Abu galiausiai žūsta, tačiau ne be didelės socialinės žalos. Romane pateikiama laiškų serija, rašyta įvairiems žmonėms jų aplinkoje, siekiant keršto arba tiesiog sukelti problemų. Sukurkite šių laiškų vizualizaciją, kad atrastumėte pagrindinius pasakojimo veikėjus vizualiai.
> „Les Liaisons Dangereuses“ yra epistolinis romanas, arba romanas, pateiktas kaip laiškų serija. Parašytas 1782 m. Choderlos de Laclos, jis pasakoja apie žiaurius, morališkai bankrutavusius socialinius manevrus dviejų pagrindinių XVIII a. Prancūzijos aristokratijos veikėjų – vikonto de Valmont ir markizės de Merteuil. Abu galiausiai žūsta, tačiau ne be didelės socialinės žalos. Romane laiškai rašomi įvairiems žmonėms jų aplinkoje, siekiant keršto arba tiesiog sukelti problemų. Sukurkite šių laiškų vizualizaciją, kad atrastumėte pagrindinius pasakojimo veikėjus vizualiai.
Jūs užbaigsite interneto programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą sukurti [tinklo vizualizaciją](https://github.com/emiliorizzo/vue-d3-network) naudojant Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis.
Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) su Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis.
## Projektas: Sukurkite diagramą, rodančią tinklą, naudojant D3.js
## Projektas: Sukurkite diagramą tinklui parodyti naudojant D3.js
> Šio pamokos aplanko „solution“ aplanke rasite užbaigtą projektą, skirtą jūsų nuorodai.
> Šios pamokos aplanke yra `solution` aplankas, kuriame galite rasti užbaigtą projektą kaip nuorodą.
1. Sekite instrukcijas README.md faile, esančiame pradinio aplanko šaknyje. Įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node.js prieš diegdami projekto priklausomybes.
1. Vadovaukitės README.md failo instrukcijomis pradiniame aplanke. Įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node.js prieš diegiant projekto priklausomybes.
2. Atidarykite `starter/src` aplanką. Rasite `assets` aplanką, kuriame yra .json failas su visais romano laiškais, sunumeruotais, su „to“ ir „from“ anotacijomis.
2. Atidarykite `starter/src` aplanką. Rasite `assets` aplanką, kuriame yra .json failas su visais romano laiškais, sunumeruotais, su „to“ ir „from“ anotacijomis.
3. Užbaikite kodą `components/Nodes.vue`, kad įgalintumėte vizualizaciją. Suraskite metodą, vadinamą`createLinks()` ir pridėkite šį įdėtą ciklą.
3. Užbaikite kodą `components/Nodes.vue`, kad įgalintumėte vizualizaciją. Ieškokite metodo`createLinks()` ir pridėkite šį įdėtą ciklą.
Ciklu peržiūrėkite .json objektą, kad užfiksuotumėte „to“ ir „from“ duomenis apie laiškus ir sukurtumėte `links` objektą, kad vizualizacijos biblioteka galėtų jį naudoti:
Peržiūrėkite .json objektą, kad užfiksuotumėte „to“ ir „from“ duomenis apie laiškus ir sukurtumėte `links` objektą, kurį galėtų naudoti vizualizacijos biblioteka:
```javascript
```javascript
//loop through letters
//loop through letters
@ -152,9 +152,9 @@ Paleiskite savo programą iš terminalo (npm run serve) ir mėgaukitės vizualiz
## 🚀 Iššūkis
## 🚀 Iššūkis
Pasidairykite internete, kad atrastumėte klaidinančias vizualizacijas. Kaip autorius apgauna vartotoją, ir ar tai tyčia? Pabandykite pataisyti vizualizacijas, kad parodytumėte, kaip jos turėtų atrodyti.
Naršykite internete, kad atrastumėte klaidinančias vizualizacijas. Kaip autorius apgauna naudotoją, ir ar tai tyčia? Pabandykite pataisyti vizualizacijas, kad parodytumėte, kaip jos turėtų atrodyti.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šiuo metu turbūt jau supratote, kad duomenų mokslas yra procesas. Šį procesą galima suskirstyti į 5 etapus:
Šiuo metu turbūt jau supratote, kad duomenų mokslas yra procesas. Šį procesą galima suskirstyti į 5 etapus:
@ -31,19 +31,19 @@ CO_OP_TRANSLATOR_METADATA:
## Duomenų rinkimas
## Duomenų rinkimas
Pirmasis gyvavimo ciklo etapas yra labai svarbus, nes nuo jo priklauso visi kiti etapai. Iš esmės tai yra du etapai, sujungti į vieną: duomenų gavimas ir projekto tikslų bei spręstinų problemų apibrėžimas.
Pirmasis gyvavimo ciklo etapas yra labai svarbus, nes nuo jo priklauso visi kiti etapai. Iš esmės tai yra du etapai, sujungti į vieną: duomenų gavimas ir projekto tikslų bei spręstinų problemų apibrėžimas.
Projekto tikslų apibrėžimas reikalauja gilesnio problemos ar klausimo konteksto. Pirmiausia reikia identifikuoti ir surinkti tuos, kuriems reikia išspręsti problemą. Tai gali būti verslo suinteresuotosios šalys arba projekto rėmėjai, kurie gali padėti nustatyti, kas ar kas pasinaudos šiuo projektu, taip pat kodėl ir kam to reikia. Aiškiai apibrėžtas tikslas turėtų būti išmatuojamas ir kiekybiškai įvertinamas, kad būtų galima apibrėžti priimtiną rezultatą.
Projekto tikslų apibrėžimas reikalauja gilesnio problemos ar klausimo konteksto. Pirmiausia reikia identifikuoti ir surinkti tuos, kuriems reikia išspręsti problemą. Tai gali būti verslo suinteresuotosios šalys arba projekto rėmėjai, kurie padės nustatyti, kas ar kas pasinaudos šiuo projektu, taip pat kodėl ir kam to reikia. Aiškiai apibrėžtas tikslas turėtų būti išmatuojamas ir kiekybiškai įvertinamas, kad būtų galima nustatyti priimtiną rezultatą.
Klausimai, kuriuos gali užduoti duomenų mokslininkas:
Klausimai, kuriuos gali užduoti duomenų mokslininkas:
- Ar ši problema jau buvo spręsta anksčiau? Ką buvo atrasta?
- Ar ši problema jau buvo spręsta anksčiau? Ką pavyko atrasti?
- Ar tikslas ir paskirtis yra aiškiai suprantami visiems dalyviams?
- Ar visi dalyviai supranta tikslą ir paskirtį?
- Ar yra neaiškumų ir kaip juos sumažinti?
- Ar yra neaiškumų, ir kaip juos sumažinti?
- Kokie yra apribojimai?
- Kokie yra apribojimai?
- Kaip galėtų atrodyti galutinis rezultatas?
- Kaip galėtų atrodyti galutinis rezultatas?
- Kiek resursų (laiko, žmonių, skaičiavimo galimybių) yra prieinama?
- Kiek turime resursų (laiko, žmonių, skaičiavimo galimybių)?
Toliau reikia identifikuoti, surinkti ir galiausiai ištirti duomenis, reikalingus šiems apibrėžtiems tikslams pasiekti. Šiame duomenų gavimo etape duomenų mokslininkai taip pat turi įvertinti duomenų kiekį ir kokybę. Tam reikia šiek tiek duomenų tyrimo, kad būtų patvirtinta, jog surinkti duomenys padės pasiekti norimą rezultatą.
Toliau reikia identifikuoti, surinkti ir galiausiai ištirti duomenis, reikalingus šiems tikslams pasiekti. Šiame duomenų gavimo etape duomenų mokslininkai taip pat turi įvertinti duomenų kiekį ir kokybę. Tam reikia atlikti tam tikrą duomenų tyrimą, kad būtų patvirtinta, jog surinkti duomenys padės pasiekti norimą rezultatą.
Klausimai, kuriuos duomenų mokslininkas gali užduoti apie duomenis:
Klausimai, kuriuos gali užduoti duomenų mokslininkas apie duomenis:
- Kokie duomenys jau yra prieinami?
- Kokie duomenys jau yra prieinami?
- Kas yra šių duomenų savininkas?
- Kas yra šių duomenų savininkas?
- Kokie yra privatumo klausimai?
- Kokie yra privatumo klausimai?
@ -53,39 +53,39 @@ Klausimai, kuriuos duomenų mokslininkas gali užduoti apie duomenis:
## Apdorojimas
## Apdorojimas
Gyvavimo ciklo apdorojimo etapas orientuotas į duomenų šablonų atradimą ir modeliavimą. Kai kurie apdorojimo etape naudojami metodai reikalauja statistinių metodų, kad būtų atskleisti šablonai. Paprastai tai būtų varginanti užduotis žmogui, dirbančiam su dideliu duomenų rinkiniu, todėl procesui paspartinti pasitelkiami kompiuteriai. Šiame etape duomenų mokslas ir mašininis mokymasis susikerta. Kaip sužinojote pirmoje pamokoje, mašininis mokymasis yra modelių kūrimo procesas, siekiant suprasti duomenis. Modeliai yra duomenų kintamųjų tarpusavio ryšių reprezentacija, padedanti prognozuoti rezultatus.
Gyvavimo ciklo apdorojimo etapas orientuotas į duomenų šablonų atradimą ir modeliavimą. Kai kurie metodai, naudojami apdorojimo etape, reikalauja statistinių metodų, kad būtų atskleisti šablonai. Paprastai tai būtų varginanti užduotis žmogui, dirbančiam su dideliu duomenų rinkiniu, todėl procesui paspartinti pasitelkiami kompiuteriai. Šiame etape duomenų mokslas ir mašininis mokymasis susikerta. Kaip sužinojote pirmoje pamokoje, mašininis mokymasis yra modelių kūrimo procesas, siekiant suprasti duomenis. Modeliai yra duomenų kintamųjų tarpusavio ryšių reprezentacija, padedanti prognozuoti rezultatus.
Dažniausiai naudojami metodai šiame etape aptariami „ML for Beginners“ mokymo programoje. Sekite nuorodas, kad sužinotumėte daugiau apie juos:
Dažniausiai naudojami metodai šiame etape aptariami „ML for Beginners“ mokymo programoje. Sekite nuorodas, kad sužinotumėte daugiau apie juos:
- [Klasifikacija](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): Duomenų organizavimas į kategorijas efektyvesniam naudojimui.
- [Klasifikacija](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): Duomenų organizavimas į kategorijas efektyvesniam naudojimui.
- [Klasterizacija](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): Duomenų grupavimas į panašias grupes.
- [Grupavimas](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): Duomenų suskirstymas į panašias grupes.
- [Regresija](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): Kintamųjų tarpusavio ryšių nustatymas, siekiant prognozuoti ar numatyti vertes.
- [Regresija](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): Kintamųjų tarpusavio ryšių nustatymas, siekiant prognozuoti ar numatyti vertes.
## Priežiūra
## Priežiūra
Gyvavimo ciklo diagramoje galite pastebėti, kad priežiūra yra tarp duomenų rinkimo ir apdorojimo. Priežiūra yra nuolatinis duomenų valdymo, saugojimo ir apsaugos procesas viso projekto metu ir turėtų būti atsižvelgiama į visą projekto eigą.
Gyvavimo ciklo diagramoje galite pastebėti, kad priežiūra yra tarp duomenų rinkimo ir apdorojimo. Priežiūra yra nuolatinis duomenų valdymo, saugojimo ir apsaugos procesas viso projekto metu ir turėtų būti svarstoma viso projekto eigoje.
### Duomenų saugojimas
### Duomenų saugojimas
Sprendimai, kaip ir kur saugoti duomenis, gali turėti įtakos saugojimo kainai, taip pat duomenų prieigos greičiui. Tokius sprendimus greičiausiai priima ne vien duomenų mokslininkas, tačiau jis gali būti atsakingas už tai, kaip dirbti su duomenimis, atsižvelgiant į jų saugojimo būdą.
Sprendimai, kaip ir kur saugoti duomenis, gali turėti įtakos saugojimo kaštams, taip pat duomenų prieigos greičiui. Tokius sprendimus greičiausiai priima ne vien duomenų mokslininkas, tačiau jis gali būti atsakingas už pasirinkimus, kaip dirbti su duomenimis, atsižvelgiant į jų saugojimo būdą.
Štai keletas šiuolaikinių duomenų saugojimo sistemų aspektų, galinčių turėti įtakos šiems pasirinkimams:
Štai keletas šiuolaikinių duomenų saugojimo sistemų aspektų, galinčių turėti įtakos šiems pasirinkimams:
**Vietinis saugojimas vs nuotolinis saugojimas vs viešas ar privatus debesų saugojimas**
**Vietinis saugojimas vs nuotolinis saugojimas vs viešas ar privatus debesų saugojimas**
Vietinis saugojimas reiškia duomenų valdymą savo įrangoje, pavyzdžiui, turint serverį su kietaisiais diskais, kuriuose saugomi duomenys, o nuotolinis saugojimas remiasi įranga, kurios jūs neturite, pavyzdžiui, duomenų centru. Viešas debesų saugojimas yra populiarus pasirinkimas duomenims saugoti, kuris nereikalauja žinių apie tai, kaip ar kur tiksliai duomenys yra saugomi, kur viešas reiškia bendrą infrastruktūrą, kuria naudojasi visi debesų paslaugų vartotojai. Kai kurios organizacijos turi griežtas saugumo politikos taisykles, kurios reikalauja visiškos prieigos prie įrangos, kurioje saugomi duomenys, ir pasirenka privatų debesų saugojimą, kuris teikia savo debesų paslaugas. Apie duomenis debesyse sužinosite daugiau [vėlesnėse pamokose](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud).
Vietinis saugojimas reiškia duomenų talpinimą ir valdymą savo įrangoje, pavyzdžiui, serveryje su kietaisiais diskais, kuriuose saugomi duomenys, o nuotolinis saugojimas remiasi įranga, kurios jūs nevaldote, pavyzdžiui, duomenų centru. Viešas debesų saugojimas yra populiarus pasirinkimas, kai nereikia žinoti, kaip ar kur tiksliai saugomi duomenys, o viešas reiškia bendrą infrastruktūrą, kuria naudojasi visi debesų paslaugų vartotojai. Kai kurios organizacijos turi griežtas saugumo politikos taisykles, kurios reikalauja visiškos prieigos prie įrangos, kurioje saugomi duomenys, ir pasirenka privatų debesų saugojimą, kuris teikia savo debesų paslaugas. Apie duomenis debesyse sužinosite daugiau [vėlesnėse pamokose](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud).
**Šalti vs karšti duomenys**
**Šalti vs karšti duomenys**
Mokant modelius, jums gali prireikti daugiau mokymo duomenų. Jei esate patenkinti savo modeliu, daugiau duomenų bus naudojama modeliui atlikti savo funkciją. Bet kuriuo atveju duomenų saugojimo ir prieigos kaina didės, kai jų kiekis augs. Retai naudojamų duomenų, vadinamų šaltais duomenimis, atskyrimas nuo dažnai pasiekiamų karštų duomenų gali būti pigesnis saugojimo sprendimas per techninę ar programinę įrangą. Jei reikia pasiekti šaltus duomenis, jų gavimas gali užtrukti šiek tiek ilgiau nei karštų duomenų.
Mokant modelius, jums gali prireikti daugiau mokymo duomenų. Jei esate patenkinti savo modeliu, daugiau duomenų bus naudojama modeliui atlikti savo funkciją. Bet kuriuo atveju saugojimo ir prieigos kaštai didės, kai kaupsite daugiau duomenų. Retai naudojamų duomenų, vadinamų šaltais duomenimis, atskyrimas nuo dažnai pasiekiamų karštų duomenų gali būti pigesnis saugojimo sprendimas, naudojant techninę ar programinę įrangą. Jei reikia pasiekti šaltus duomenis, jų gavimas gali užtrukti šiek tiek ilgiau nei karštų duomenų.
### Duomenų valdymas
### Duomenų valdymas
Dirbdami su duomenimis galite pastebėti, kad kai kuriuos duomenis reikia išvalyti naudojant pamokoje aptartus metodus, skirtus [duomenų paruošimui](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation), kad būtų galima sukurti tikslius modelius. Kai atvyksta nauji duomenys, jiems reikės taikyti tuos pačius metodus, kad būtų išlaikyta kokybės nuoseklumas. Kai kurie projektai apima automatizuoto įrankio naudojimą duomenų valymui, agregavimui ir suspaudimui prieš duomenų perkėlimą į galutinę vietą. „Azure Data Factory“ yra vienas iš tokių įrankių pavyzdžių.
Dirbdami su duomenimis galite pastebėti, kad kai kuriuos duomenis reikia išvalyti, naudojant pamokoje apie [duomenų paruošimą](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation) aptartus metodus, kad būtų galima sukurti tikslius modelius. Kai atvyksta nauji duomenys, jiems reikės taikyti tuos pačius metodus, kad būtų išlaikyta kokybės nuoseklumas. Kai kurie projektai apima automatizuoto įrankio naudojimą duomenų valymui, agregavimui ir suspaudimui prieš duomenų perkėlimą į galutinę vietą. „Azure Data Factory“ yra vienas iš tokių įrankių pavyzdžių.
### Duomenų apsauga
### Duomenų apsauga
Viena iš pagrindinių duomenų apsaugos tikslų yra užtikrinti, kad tie, kurie dirba su duomenimis, kontroliuotų, kas yra surenkama ir kokiame kontekste tai naudojama. Duomenų apsauga apima prieigos apribojimą tik tiems, kuriems jos reikia, vietinių įstatymų ir reglamentų laikymąsi, taip pat etikos standartų laikymąsi, kaip aptarta [etikos pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics).
Viena pagrindinių duomenų apsaugos tikslų yra užtikrinti, kad tie, kurie dirba su duomenimis, kontroliuotų, kas yra renkama ir kokiame kontekste tai naudojama. Duomenų apsauga apima prieigos apribojimą tik tiems, kuriems jos reikia, vietinių įstatymų ir reglamentų laikymąsi, taip pat etikos standartų laikymąsi, aptartų [etikos pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics).
Štai keletas dalykų, kuriuos komanda gali atlikti, atsižvelgdama į saugumą:
Štai keletas dalykų, kuriuos komanda gali atlikti, atsižvelgdama į saugumą:
- Užtikrinti, kad visi duomenys būtų užšifruoti
- Užtikrinti, kad visi duomenys būtų užšifruoti
@ -104,11 +104,11 @@ Išnagrinėkite [Komandos duomenų mokslo proceso gyvavimo ciklą](https://docs.
| |  |
| |  |
| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) |
| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) |
Duomenų mokslo gyvavimo ciklo taikymas apima daugybę vaidmenų ir užduočių, kur kai kurie gali būti orientuoti į konkrečias kiekvieno etapo dalis. Komandos duomenų mokslo procesas pateikia keletą išteklių, kurie paaiškina vaidmenų ir užduočių tipus, kuriuos kažkas gali turėti projekte.
Duomenų mokslo gyvavimo ciklo taikymas apima įvairius vaidmenis ir užduotis, kur kai kurie gali būti orientuoti į konkrečias kiekvieno etapo dalis. Komandos duomenų mokslo procesas pateikia keletą išteklių, kurie paaiškina vaidmenų ir užduočių tipus, kuriuos kažkas gali turėti projekte.
* [Komandos duomenų mokslo proceso vaidmenys ir užduotys](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
* [Komandos duomenų mokslo proceso vaidmenys ir užduotys](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks)
* [Duomenų mokslo užduočių vykdymas: tyrimas, modeliavimas ir diegimas](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
* [Duomenų mokslo užduočių vykdymas: tyrimas, modeliavimas ir diegimas](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks)
@ -120,4 +120,4 @@ Duomenų mokslo gyvavimo ciklo taikymas apima daugybę vaidmenų ir užduočių,
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Analizavimas duomenų gyvavimo cikle patvirtina, kad duomenys gali atsakyti į pateiktus klausimus arba išspręsti konkrečią problemą. Šis etapas taip pat gali būti skirtas patvirtinti, kad modelis tinkamai sprendžia šiuos klausimus ir problemas. Ši pamoka orientuota į duomenų tyrimo analizę (EDA), kuri apima technikas, skirtas apibrėžti duomenų savybes ir ryšius, bei paruošti duomenis modeliavimui.
Analizavimas duomenų gyvavimo cikle patvirtina, kad duomenys gali atsakyti į pateiktus klausimus arba išspręsti konkrečią problemą. Šis etapas taip pat gali būti skirtas patvirtinti, kad modelis tinkamai sprendžia šiuos klausimus ir problemas. Ši pamoka orientuota į duomenų tyrimo analizę (EDA), kuri apima technikas, padedančias apibrėžti duomenų savybes ir ryšius bei paruošti duomenis modeliavimui.
Naudosime pavyzdinį duomenų rinkinį iš [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1), kad parodytume, kaip tai galima pritaikyti naudojant Python ir Pandas biblioteką. Šis duomenų rinkinys apima dažniausiai pasitaikančių žodžių skaičių el. laiškuose, o šių laiškų šaltiniai yra anonimiški. Naudokite [užrašų knygelę](../../../../4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) šiame kataloge, kad galėtumėte sekti pamoką.
Naudosime pavyzdinį duomenų rinkinį iš [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1), kad parodytume, kaip tai galima pritaikyti naudojant Python ir Pandas biblioteką. Šis duomenų rinkinys apima dažniausiai pasitaikančių žodžių skaičių el. laiškuose, o šių laiškų šaltiniai yra anonimiški. Naudokite [užrašų knygelę](../../../../4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) šiame kataloge, kad galėtumėte sekti pamoką.
@ -27,34 +27,34 @@ Duomenų surinkimo etapas gyvavimo cikle yra tas, kuriame duomenys įgyjami, tai
Priminkime, kad duomenų mokslininkas gali užduoti šiuos klausimus, kai gauna duomenis:
Priminkime, kad duomenų mokslininkas gali užduoti šiuos klausimus, kai gauna duomenis:
- Ar turiu pakankamai duomenų šiai problemai išspręsti?
- Ar turiu pakankamai duomenų šiai problemai išspręsti?
- Ar duomenų kokybė yra tinkama šiai problemai?
- Ar duomenų kokybė yra tinkama šiai problemai?
- Jei per šiuos duomenis atrandu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perapibrėžimą?
- Jei per šiuos duomenis atrandu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perdefinavimą?
Duomenų tyrimo analizė yra procesas, padedantis geriau pažinti duomenis ir atsakyti į šiuos klausimus, taip pat identifikuoti iššūkius, susijusius su duomenų rinkiniu. Pažvelkime į kai kurias technikas, naudojamas šiam tikslui pasiekti.
Duomenų tyrimo analizė yra procesas, padedantis geriau pažinti duomenis ir atsakyti į šiuos klausimus, taip pat identifikuoti iššūkius, susijusius su duomenų rinkiniu. Pažvelkime į kai kurias technikas, naudojamas šiam tikslui pasiekti.
## Duomenų profilavimas, aprašomoji statistika ir Pandas
## Duomenų profilavimas, aprašomoji statistika ir Pandas
Kaip įvertinti, ar turime pakankamai duomenų problemai išspręsti? Duomenų profilavimas gali apibendrinti ir surinkti bendrą informaciją apie mūsų duomenų rinkinį, naudojant aprašomosios statistikos technikas. Duomenų profilavimas padeda suprasti, kas mums prieinama, o aprašomoji statistika padeda suprasti, kiek turime.
Kaip įvertinti, ar turime pakankamai duomenų problemai išspręsti? Duomenų profilavimas gali apibendrinti ir surinkti bendrą informaciją apie mūsų duomenų rinkinį, naudojant aprašomosios statistikos technikas. Duomenų profilavimas padeda suprasti, kas mums prieinama, o aprašomoji statistika padeda suprasti, kiek turime.
Keletą ankstesnių pamokų metu naudojome Pandas, kad pateiktume aprašomąją statistiką su [`describe()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Ji pateikia skaičių, maksimalias ir minimalias reikšmes, vidurkį, standartinį nuokrypį ir kvantiles skaitmeniniams duomenims. Naudojant aprašomąją statistiką, tokią kaip `describe()` funkcija, galima įvertinti, kiek turime duomenų ir ar jų reikia daugiau.
Keletą ankstesnių pamokų metu naudojome Pandas, kad gautume aprašomąją statistiką su [`describe()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Ji pateikia skaičių, maksimalias ir minimalias reikšmes, vidurkį, standartinį nuokrypį ir kvantiles skaitiniuose duomenyse. Naudojant aprašomąją statistiką, kaip `describe()` funkciją, galima įvertinti, kiek turime duomenų ir ar jų reikia daugiau.
## Imčių ėmimas ir užklausos
## Imčių ėmimas ir užklausos
Didelio duomenų rinkinio analizavimas gali būti labai laiko reikalaujantis ir dažnai paliekamas kompiuteriui. Tačiau imčių ėmimas yra naudinga priemonė, padedanti geriau suprasti duomenis ir tai, ką jie reprezentuoja. Naudojant imtį, galima taikyti tikimybių teoriją ir statistiką, kad būtų galima padaryti bendras išvadas apie duomenis. Nors nėra nustatytos taisyklės, kiek duomenų reikėtų imti, svarbu pažymėti, kad kuo daugiau duomenų imsite, tuo tikslesnės bus jūsų bendros išvados apie duomenis.
Didelio duomenų rinkinio tyrimas gali būti labai laiko reikalaujantis ir dažnai paliekamas kompiuteriui. Tačiau imčių ėmimas yra naudinga priemonė, padedanti geriau suprasti duomenis ir tai, ką jie reprezentuoja. Naudojant imtį, galima taikyti tikimybių teoriją ir statistiką, kad būtų galima padaryti bendras išvadas apie duomenis. Nors nėra nustatytos taisyklės, kiek duomenų reikėtų imti, svarbu pažymėti, kad kuo daugiau duomenų imsite, tuo tikslesnės bus jūsų bendros išvados apie duomenis.
Pandas bibliotekoje yra [`sample()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html), kurioje galite nurodyti, kiek atsitiktinių imčių norite gauti ir naudoti.
Pandas biblioteka turi [`sample()` funkciją](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html), kurioje galite nurodyti, kiek atsitiktinių imčių norite gauti ir naudoti.
Bendros duomenų užklausos gali padėti atsakyti į kai kuriuos bendrus klausimus ir teorijas, kurias turite. Skirtingai nuo imčių ėmimo, užklausos leidžia jums kontroliuoti ir susitelkti į konkrečias duomenų dalis, kurios jus domina.
Bendros duomenų užklausos gali padėti atsakyti į kai kuriuos bendrus klausimus ir teorijas, kurias turite. Skirtingai nuo imčių, užklausos leidžia jums kontroliuoti ir susitelkti į konkrečias duomenų dalis, kurios jus domina.
Pandas bibliotekoje [`query()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) leidžia pasirinkti stulpelius ir gauti paprastus atsakymus apie duomenis per gautas eilutes.
[`query()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) Pandas bibliotekoje leidžia pasirinkti stulpelius ir gauti paprastus atsakymus apie duomenis per gautas eilutes.
## Vizualizacijos tyrimo metu
## Tyrimas naudojant vizualizacijas
Jums nereikia laukti, kol duomenys bus visiškai išvalyti ir išanalizuoti, kad pradėtumėte kurti vizualizacijas. Iš tiesų, vizualinis atvaizdavimas tyrimo metu gali padėti identifikuoti duomenų šablonus, ryšius ir problemas. Be to, vizualizacijos suteikia galimybę bendrauti su tais, kurie nėra tiesiogiai susiję su duomenų valdymu, ir gali būti proga pasidalinti bei patikslinti papildomus klausimus, kurie nebuvo sprendžiami surinkimo etape. Žr. [Vizualizacijų skyrių](../../../../../../../../../3-Data-Visualization), kad sužinotumėte daugiau apie populiarius vizualinio tyrimo būdus.
Jums nereikia laukti, kol duomenys bus visiškai išvalyti ir išanalizuoti, kad pradėtumėte kurti vizualizacijas. Iš tiesų, vizualinis atvaizdavimas tyrimo metu gali padėti identifikuoti duomenų šablonus, ryšius ir problemas. Be to, vizualizacijos suteikia galimybę bendrauti su tais, kurie nėra tiesiogiai susiję su duomenų valdymu, ir gali būti proga pasidalinti bei patikslinti papildomus klausimus, kurie nebuvo sprendžiami surinkimo etape. Žr. [Vizualizacijų skyrių](../../../../../../../../../3-Data-Visualization), kad sužinotumėte daugiau apie populiarius vizualinio tyrimo būdus.
## Nenuoseklumų identifikavimas tyrimo metu
## Tyrimas siekiant identifikuoti neatitikimus
Visos šios pamokos temos gali padėti identifikuoti trūkstamas ar nenuoseklias reikšmes, tačiau Pandas suteikia funkcijas, skirtas kai kurioms iš jų patikrinti. [isna() arba isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) gali patikrinti trūkstamas reikšmes. Vienas svarbus aspektas, tyrinėjant šias reikšmes duomenyse, yra suprasti, kodėl jos atsirado. Tai gali padėti nuspręsti, kokių [veiksmų imtis, kad jas išspręstumėte](../../../../../../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb).
Visos šios pamokos temos gali padėti identifikuoti trūkstamas ar nesuderinamas reikšmes, tačiau Pandas suteikia funkcijas, skirtas kai kuriems iš jų patikrinti. [isna() arba isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) gali patikrinti trūkstamas reikšmes. Vienas svarbus aspektas, tyrinėjant šias reikšmes duomenyse, yra suprasti, kodėl jos atsirado. Tai gali padėti nuspręsti, kokius [veiksmus reikėtų atlikti, kad jas išspręstumėte](../../../../../../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb).
## [Testas po paskaitos](https://ff-quizzes.netlify.app/en/ds/)
Patikrinkite savo žinias apie tai, kas laukia, atlikdami aukščiau pateiktą prieš paskaitos testą!
Patikrinkite savo žinias apie tai, kas laukia, naudodamiesi aukščiau pateiktu išankstiniu paskaitos testu!
# Įvadas
# Įvadas
@ -23,88 +23,88 @@ Patikrinkite savo žinias apie tai, kas laukia, atlikdami aukščiau pateiktą p
Pradėkime šią pamoką apibrėždami, ką reiškia komunikuoti. **Komunikuoti reiškia perduoti arba keistis informacija.** Informacija gali būti idėjos, mintys, jausmai, žinutės, slapti signalai, duomenys – bet kas, ką **_siuntėjas_** (tas, kuris siunčia informaciją) nori, kad **_gavėjas_** (tas, kuris gauna informaciją) suprastų. Šioje pamokoje siuntėjus vadinsime komunikatoriais, o gavėjus – auditorija.
Pradėkime šią pamoką apibrėždami, ką reiškia komunikuoti. **Komunikuoti reiškia perduoti arba keistis informacija.** Informacija gali būti idėjos, mintys, jausmai, žinutės, slapti signalai, duomenys – bet kas, ką **_siuntėjas_** (tas, kuris siunčia informaciją) nori, kad **_gavėjas_** (tas, kuris gauna informaciją) suprastų. Šioje pamokoje siuntėjus vadinsime komunikatoriais, o gavėjus – auditorija.
### Duomenų komunikacija ir pasakojimas
### Duomenų komunikacija ir pasakojimas
Suprantame, kad komunikuojant tikslas yra perduoti arba keistis informacija. Tačiau komunikuojant duomenis, jūsų tikslas neturėtų būti vien tik skaičių perdavimas auditorijai. Jūsų tikslas turėtų būti pasakojimas, paremtas jūsų duomenimis – efektyvi duomenų komunikacija ir pasakojimas yra neatsiejami. Auditorija labiau prisimins pasakojimą, kurį papasakosite, nei skaičių, kurį pateiksite. Vėliau šioje pamokoje aptarsime keletą būdų, kaip galite naudoti pasakojimą, kad efektyviau komunikuotumėte savo duomenis.
Suprantame, kad komunikuojant tikslas yra perduoti arba keistis informacija. Tačiau komunikuojant duomenis, jūsų tikslas neturėtų būti tiesiog perduoti skaičius auditorijai. Jūsų tikslas turėtų būti perteikti istoriją, kurią informuoja jūsų duomenys – efektyvi duomenų komunikacija ir pasakojimas yra neatsiejami. Jūsų auditorija labiau prisimins pasakojimą, kurį papasakosite, nei skaičių, kurį pateiksite. Vėliau šioje pamokoje aptarsime keletą būdų, kaip galite naudoti pasakojimą, kad efektyviau perteiktumėte savo duomenis.
### Komunikacijos tipai
### Komunikacijos tipai
Šioje pamokoje bus aptarti du skirtingi komunikacijos tipai: vienpusė komunikacija ir dvipusė komunikacija.
Šioje pamokoje bus aptarti du skirtingi komunikacijos tipai: Vienpusė komunikacija ir Dvipusė komunikacija.
**Vienpusė komunikacija** vyksta, kai siuntėjas perduoda informaciją gavėjui, nesulaukdamas jokio grįžtamojo ryšio ar atsakymo. Vienpusės komunikacijos pavyzdžių matome kasdien – masiniuose el. laiškuose, kai naujienos praneša naujausias istorijas, ar net televizijos reklamoje, kuri informuoja, kodėl jų produktas yra puikus. Kiekvienu iš šių atvejų siuntėjas nesiekia keistis informacija, o tik perduoti ją.
**Vienpusė komunikacija** vyksta, kai siuntėjas perduoda informaciją gavėjui, nesitikėdamas jokio grįžtamojo ryšio ar atsakymo. Vienpusės komunikacijos pavyzdžių matome kasdien – masiniuose el. laiškuose, kai naujienos praneša naujausias istorijas, ar net televizijos reklamoje, kuri informuoja, kodėl jų produktas yra puikus. Kiekvienu iš šių atvejų siuntėjas nesiekia keistis informacija, o tik perduoti ją.
**Dvipusė komunikacija** vyksta, kai visi dalyvaujantys asmenys veikia tiek kaip siuntėjai, tiek kaip gavėjai. Siuntėjas pradeda komunikuoti su gavėju, o gavėjas pateikia grįžtamąjį ryšį ar atsakymą. Dvipusė komunikacija yra tai, ką tradiciškai laikome komunikacija. Paprastai galvojame apie žmones, kurie dalyvauja pokalbyje – asmeniškai, telefonu, socialiniuose tinkluose ar žinutėmis.
**Dvipusė komunikacija** vyksta, kai visi dalyvaujantys asmenys veikia tiek kaip siuntėjai, tiek kaip gavėjai. Siuntėjas pradeda komunikuoti su gavėju, o gavėjas pateikia grįžtamąjį ryšį ar atsakymą. Dvipusė komunikacija yra tai, ką tradiciškai laikome komunikacija. Paprastai galvojame apie žmones, kurie dalyvauja pokalbyje – asmeniškai, telefonu, socialiniuose tinkluose ar žinutėmis.
Komunikuojant duomenis, bus atvejų, kai naudosite vienpusę komunikaciją (pvz., pristatant konferencijoje ar didelėje grupėje, kur klausimai nebus užduodami tiesiogiai po pristatymo), ir atvejų, kai naudosite dvipusę komunikaciją (pvz., naudojant duomenis įtikinti kelis suinteresuotus asmenis pritarti idėjai arba įtikinti komandos narį, kad verta skirti laiko ir pastangų kuriant kažką naujo).
Komunikuojant duomenis, bus atvejų, kai naudosite vienpusę komunikaciją (pvz., pristatydami konferencijoje ar didelėje grupėje, kur klausimai nebus užduodami tiesiogiai po pristatymo), ir atvejų, kai naudosite dvipusę komunikaciją (pvz., naudodami duomenis įtikinti kelis suinteresuotus asmenis ar įtikinti komandos narį, kad verta skirti laiko ir pastangų kuriant kažką naujo).
# Efektyvi komunikacija
# Efektyvi komunikacija
### Jūsų atsakomybės kaip komunikatoriaus
### Jūsų atsakomybės kaip komunikatoriaus
Komunikuojant jūsų darbas yra užtikrinti, kad gavėjas (-ai) suprastų informaciją, kurią norite perduoti. Komunikuojant duomenis, nenorite, kad gavėjai tiesiog išsineštų skaičius – norite, kad jie išsineštų pasakojimą, paremtą jūsų duomenimis. Geras duomenų komunikatorius yra geras pasakotojas.
Komunikuojant jūsų darbas yra užtikrinti, kad jūsų gavėjas (-ai) suprastų informaciją, kurią norite perduoti. Komunikuojant duomenis, nenorite, kad gavėjai tiesiog suprastų skaičius – norite, kad jie suprastų istoriją, kurią informuoja jūsų duomenys. Geras duomenų komunikatorius yra geras pasakotojas.
Kaip pasakoti istoriją su duomenimis? Yra begalė būdų – tačiau žemiau pateikiami 6, kuriuos aptarsime šioje pamokoje:
Kaip pasakoti istoriją su duomenimis? Yra begalė būdų – tačiau žemiau pateikiame 6, kuriuos aptarsime šioje pamokoje:
1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą
1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą
2. Pradėkite nuo galutinio tikslo
2. Pradėkite nuo galutinio tikslo
3. Pristatykite tai kaip tikrą istoriją
3. Prieikite prie to kaip prie tikros istorijos
4. Naudokite prasmingus žodžius ir frazes
4. Naudokite prasmingus žodžius ir frazes
5. Naudokite emocijas
5. Naudokite emocijas
Kiekviena iš šių strategijų išsamiau paaiškinta žemiau.
Kiekviena iš šių strategijų yra išsamiau paaiškinta žemiau.
### 1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą
### 1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą
Bendravimas su šeimos nariais greičiausiai skiriasi nuo bendravimo su draugais. Tikriausiai naudojate skirtingus žodžius ir frazes, kurias žmonės, su kuriais kalbate, labiau supranta. Tą patį požiūrį turėtumėte taikyti komunikuodami duomenis. Pagalvokite, kam komunikuojate. Pagalvokite apie jų tikslus ir kontekstą, kurį jie turi apie situaciją, kurią jiems aiškinate.
Bendravimas su šeimos nariais greičiausiai skiriasi nuo bendravimo su draugais. Tikriausiai naudojate skirtingus žodžius ir frazes, kurias žmonės, su kuriais kalbate, labiau supranta. Turėtumėte taikyti tą patį požiūrį komunikuodami duomenis. Pagalvokite, kam komunikuojate. Pagalvokite apie jų tikslus ir kontekstą, kurį jie turi apie situaciją, kurią jiems aiškinate.
Daugumą savo auditorijos galite suskirstyti į kategorijas. _Harvard Business Review_ straipsnyje „[Kaip pasakoti istoriją su duomenimis](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/)“ Dell vykdomasis strategas Jim Stikeleather išskiria penkias auditorijos kategorijas:
Daugumą savo auditorijos galite suskirstyti į kategorijas. _Harvard Business Review_ straipsnyje „[Kaip pasakoti istoriją su duomenimis](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/)“ Dell vykdomasis strategas Jim Stikeleather išskiria penkias auditorijos kategorijas:
- **Naujokas**: pirmas susidūrimas su tema, tačiau nenori per daug supaprastinimo
- **Naujokas**: pirmas susidūrimas su tema, tačiau nenori per daug supaprastinimo
- **Bendrasis**: susipažinęs su tema, bet ieško apžvalgos ir pagrindinių temų
- **Bendrasis**: žino apie temą, bet ieško apžvalgos ir pagrindinių temų
- **Vadovaujantis**: išsamus, praktiškas supratimas apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių
- **Vadovaujantis**: išsamus, praktiškas supratimas apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių
- **Ekspertas**: daugiau tyrinėjimo ir atradimų, mažiau pasakojimo, su dideliu detalių kiekiu
- **Ekspertas**: daugiau tyrinėjimo ir atradimų, mažiau pasakojimo, su dideliu detalumu
- **Vadovas**: turi laiko tik suprasti reikšmę ir išvadas, pagrįstas tikimybėmis
- **Vadovas**: turi laiko tik suprasti reikšmę ir išvadas, pagrįstas tikimybėmis
Šios kategorijos gali padėti jums nuspręsti, kaip pateikti duomenis savo auditorijai.
Šios kategorijos gali padėti jums nuspręsti, kaip pateikti duomenis savo auditorijai.
Be auditorijos kategorijos, turėtumėte apsvarstyti ir kanalą, kurį naudojate komunikuodami. Jūsų požiūris turėtų šiek tiek skirtis, jei rašote memorandumą ar el. laišką, palyginti su susitikimu ar pristatymu konferencijoje.
Be auditorijos kategorijos, turėtumėte apsvarstyti ir kanalą, kurį naudojate komunikuodami su auditorija. Jūsų požiūris turėtų šiek tiek skirtis, jei rašote memorandumą ar el. laišką, palyginti su susitikimu ar pristatymu konferencijoje.
Taip pat svarbu suprasti, ar komunikuojate vienpusiu ar dvipusiu būdu.
Taip pat svarbu suprasti, ar komunikuojate vienpusiu ar dvipusiu būdu.
Jei komunikuojate su dauguma naujokų auditorijos ir naudojate vienpusę komunikaciją, pirmiausia turite šviesti auditoriją ir suteikti jiems tinkamą kontekstą. Tada turite pateikti savo duomenis ir paaiškinti, ką jie reiškia ir kodėl jie svarbūs. Tokiu atveju turėtumėte būti labai aiškūs, nes jūsų auditorija negalės užduoti tiesioginių klausimų.
Jei komunikuojate su dauguma naujokų auditorijos ir naudojate vienpusę komunikaciją, pirmiausia turite šviesti auditoriją ir suteikti jiems tinkamą kontekstą. Tada turite pateikti jiems savo duomenis, paaiškinti, ką jie reiškia ir kodėl jie svarbūs. Tokiu atveju turėtumėte būti itin aiškūs, nes jūsų auditorija negalės užduoti tiesioginių klausimų.
Jei komunikuojate su dauguma vadovaujančios auditorijos ir naudojate dvipusę komunikaciją, greičiausiai nereikės šviesti auditorijos ar suteikti jiems daug konteksto. Galėsite iškart pereiti prie duomenų aptarimo ir jų svarbos. Tačiau šiuo atveju turėtumėte būti dėmesingi laikui ir kontroliuoti savo pristatymą. Naudojant dvipusę komunikaciją (ypač su vadovaujančia auditorija, kuri siekia „praktinio supratimo apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių“), pokalbio metu gali kilti klausimų, kurie nukreipia diskusiją nuo jūsų pasakojimo. Tokiais atvejais galite imtis veiksmų ir grąžinti diskusiją į jūsų pasakojimą.
Jei komunikuojate su dauguma vadovaujančios auditorijos ir naudojate dvipusę komunikaciją, greičiausiai nereikės šviesti auditorijos ar suteikti jiems daug konteksto. Galėsite iškart pereiti prie duomenų aptarimo ir jų svarbos. Tačiau šiuo atveju turėtumėte būti dėmesingi laikui ir kontroliuoti savo pristatymą. Naudojant dvipusę komunikaciją (ypač su vadovaujančia auditorija, kuri siekia „praktinio supratimo apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių“), klausimai gali kilti jūsų sąveikos metu ir nukreipti diskusiją į temą, nesusijusią su jūsų pasakojama istorija. Kai taip nutinka, galite imtis veiksmų ir grąžinti diskusiją į jūsų pasakojimą.
### 2. Pradėkite nuo galutinio tikslo
### 2. Pradėkite nuo galutinio tikslo
Pradėti nuo galutinio tikslo reiškia suprasti, kokias išvadas norite, kad jūsų auditorija padarytų, dar prieš pradedant komunikuoti. Apgalvojimas, ką norite, kad jūsų auditorija išsineštų, gali padėti sukurti pasakojimą, kurį auditorija galės sekti. Pradėti nuo galutinio tikslo tinka tiek vienpusėje, tiek dvipusėje komunikacijoje.
Pradėti nuo galutinio tikslo reiškia suprasti, kokias išvadas norite, kad jūsų auditorija padarytų, prieš pradėdami komunikuoti su ja. Apgalvojimas, ką norite, kad jūsų auditorija suprastų iš anksto, gali padėti jums sukurti istoriją, kurią auditorija galės sekti. Pradėti nuo galutinio tikslo tinka tiek vienpusiai, tiek dvipusiai komunikacijai.
Kaip pradėti nuo galutinio tikslo? Prieš komunikuodami savo duomenis, užsirašykite pagrindines išvadas. Tada kiekviename pasiruošimo žingsnyje klauskite savęs: „Kaip tai integruojasi į pasakojimą, kurį pasakoju?“
Kaip pradėti nuo galutinio tikslo? Prieš komunikuodami savo duomenis, užsirašykite pagrindines išvadas. Tada kiekviename pasiruošimo žingsnyje, kai ruošiate istoriją, kurią norite papasakoti su savo duomenimis, klauskite savęs: „Kaip tai integruojasi į pasakojamą istoriją?“
Būkite atsargūs – nors pradėti nuo galutinio tikslo yra idealu, nenorite komunikuoti tik duomenų, kurie palaiko jūsų numatytas išvadas. Tai vadinama „vyšnių rinkimu“, kai komunikatorius pateikia tik tuos duomenis, kurie palaiko jo argumentą, ignoruodamas visus kitus.
Būkite atsargūs – nors pradėti nuo galutinio tikslo yra idealu, nenorite komunikuoti tik tų duomenų, kurie palaiko jūsų numatytas išvadas. Tai vadinama „vyšnių rinkimu“, kai komunikatorius pateikia tik tuos duomenis, kurie palaiko jo teiginį, ignoruodamas visus kitus duomenis.
Jei visi surinkti duomenys aiškiai palaiko jūsų numatytas išvadas – puiku. Tačiau jei yra duomenų, kurie nepalaiko jūsų išvadų arba netgi palaiko priešingą argumentą, turėtumėte juos taip pat pateikti. Tokiu atveju būkite atviri su savo auditorija ir paaiškinkite, kodėl nusprendėte laikytis savo pasakojimo, nors visi duomenys jo nepalaiko.
Jei visi surinkti duomenys aiškiai palaiko jūsų numatytas išvadas – puiku. Tačiau jei yra duomenų, kurie nepalaiko jūsų išvadų arba netgi palaiko argumentą prieš jūsų pagrindines išvadas, turėtumėte pateikti ir tuos duomenis. Jei taip nutinka, būkite atviri su savo auditorija ir paaiškinkite, kodėl nusprendėte laikytis savo istorijos, net jei visi duomenys jos nepalaiko.
### 3. Pristatykite tai kaip tikrą istoriją
### 3. Prieikite prie to kaip prie tikros istorijos
Tradicinė istorija vyksta 5 fazėse. Galbūt girdėjote šias fazes kaip ekspozicija, kylanti veiksmo dalis, kulminacija, mažėjanti veiksmo dalis ir išvada. Arba lengviau prisiminti – kontekstas, konfliktas, kulminacija, uždarymas, išvada. Komunikuodami savo duomenis ir pasakojimą, galite taikyti panašų požiūrį.
Tradicinė istorija vyksta 5 fazėmis. Galbūt girdėjote šias fazes išreikštas kaip ekspozicija, kylanti veiksmo dalis, kulminacija, mažėjanti veiksmo dalis ir denouement. Arba lengviau prisiminti – kontekstas, konfliktas, kulminacija, uždarymas, išvada. Komunikuodami savo duomenis ir istoriją, galite taikyti panašų požiūrį.
Galite pradėti nuo konteksto, nustatyti sceną ir užtikrinti, kad jūsų auditorija būtų tame pačiame puslapyje. Tada pristatykite konfliktą. Kodėl reikėjo rinkti šiuos duomenis? Kokias problemas siekėte išspręsti? Po to – kulminacija. Kokie yra duomenys? Ką jie reiškia? Kokius sprendimus duomenys mums siūlo? Tada pereikite prie uždarymo, kur galite dar kartą pabrėžti problemą ir siūlomus sprendimus. Galiausiai – išvada, kur galite apibendrinti pagrindines išvadas ir rekomenduoti kitus žingsnius, kuriuos komanda turėtų imtis.
Galite pradėti nuo konteksto, nustatyti sceną ir užtikrinti, kad jūsų auditorija būtų tame pačiame puslapyje. Tada pristatykite konfliktą. Kodėl reikėjo surinkti šiuos duomenis? Kokias problemas siekėte išspręsti? Po to – kulminacija. Kokie yra duomenys? Ką jie reiškia? Kokius sprendimus duomenys mums siūlo? Tada pereikite prie uždarymo, kur galite dar kartą pabrėžti problemą ir siūlomus sprendimus. Galiausiai pereikite prie išvados, kur galite apibendrinti pagrindines išvadas ir rekomenduojamus kitus žingsnius komandai.
### 4. Naudokite prasmingus žodžius ir frazes
### 4. Naudokite prasmingus žodžius ir frazes
Jei dirbtume kartu su produktu ir aš jums pasakyčiau: „Mūsų vartotojams užtrunka ilgai prisijungti prie mūsų platformos“, kiek laiko jūs įsivaizduotumėte, kad „ilgai“ reiškia? Valandą? Savaitę? Sunku žinoti. O jei tai pasakyčiau visai auditorijai? Kiekvienas auditorijos narys gali turėti skirtingą idėją, kiek laiko vartotojams užtrunka prisijungti prie mūsų platformos.
Jei dirbtume kartu su produktu, ir aš jums pasakyčiau: „Mūsų vartotojams užtrunka ilgai prisijungti prie mūsų platformos“, kiek laiko jūs įsivaizduotumėte, kad „ilgai“ reiškia? Valandą? Savaitę? Sunku žinoti. O jei tai pasakyčiau visai auditorijai? Kiekvienas auditorijos narys gali turėti skirtingą idėją, kiek laiko vartotojams užtrunka prisijungti prie mūsų platformos.
Vietoj to, ką jei pasakyčiau: „Mūsų vartotojams vidutiniškai užtrunka 3 minutes prisijungti ir pradėti naudotis mūsų platforma.“
Vietoj to, ką jei pasakyčiau: „Mūsų vartotojams vidutiniškai užtrunka 3 minutes prisijungti ir prisijungti prie mūsų platformos.“
Ši žinutė yra aiškesnė. Komunikuodami duomenis, gali būti lengva manyti, kad visi jūsų auditorijoje galvoja taip pat kaip jūs. Tačiau taip nėra visada. Aiškumas apie jūsų duomenis ir jų reikšmę yra viena iš jūsų atsakomybių kaip komunikatoriaus. Jei duomenys ar jūsų pasakojimas nėra aiškūs, auditorijai bus sunku sekti, ir mažiau tikėtina, kad jie supras jūsų pagrindines išvadas.
Toks pranešimas yra aiškesnis. Komunikuojant duomenis, gali būti lengva manyti, kad visi jūsų auditorijoje galvoja taip pat kaip jūs. Tačiau taip nėra visada. Aiškumo užtikrinimas apie jūsų duomenis ir jų reikšmę yra viena iš jūsų atsakomybių kaip komunikatoriaus. Jei duomenys ar jūsų istorija nėra aiškūs, auditorijai bus sunku sekti, ir mažiau tikėtina, kad jie supras jūsų pagrindines išvadas.
Galite aiškiau komunikuoti duomenis, naudodami prasmingus žodžius ir frazes, o ne neaiškius. Žemiau pateikiami keli pavyzdžiai.
Galite aiškiau komunikuoti duomenis, naudodami prasmingus žodžius ir frazes, o ne neaiškius. Žemiau pateikiami keli pavyzdžiai.
- Turėjome *įspūdingus* metus!
- Turėjome *įspūdingus* metus!
- Vienas žmogus gali manyti, kad įspūdingi reiškia 2% - 3% pajamų padidėjimą, o kitas – 50% - 60%.
- Vienas žmogus gali manyti, kad įspūdingi reiškia 2% - 3% pajamų padidėjimą, o kitas – 50% - 60% padidėjimą.
- Mūsų vartotojų sėkmės rodikliai padidėjo *drastiškai*.
- Mūsų vartotojų sėkmės rodikliai padidėjo *drastiškai*.
- Kiek didelis padidėjimas yra drastiškas?
- Koks padidėjimas yra drastiškas?
- Šis projektas pareikalaus *reikšmingų* pastangų.
- Šiam projektui reikės *reikšmingų* pastangų.
- Kiek pastangų yra reikšmingos?
- Kiek pastangų yra reikšmingos?
Naudoti neaiškius žodžius gali būti naudinga kaip įžanga į daugiau duomenų arba kaip pasakojimo, kurį ką tik papasakojote, santrauka. Tačiau apsvarstykite galimybę užtikrinti, kad kiekviena jūsų pristatymo dalis būtų aiški auditorijai.
Naudoti neaiškius žodžius gali būti naudinga kaip įžanga į daugiau duomenų, kurie bus pateikti, arba kaip istorijos, kurią ką tik papasakojote, santrauka. Tačiau apsvarstykite galimybę užtikrinti, kad kiekviena jūsų pristatymo dalis būtų aiški auditorijai.
### 5. Naudokite emocijas
### 5. Naudokite emocijas
Emocijos yra svarbios pasakojime. Jos dar svarbesnės, kai pasakojate istoriją su duomenimis. Komunikuodami duomenis, viskas yra sutelkta į išvadas, kurias norite, kad jūsų auditorija padarytų. Sukeldami emocijas auditorijai, padedate jiems empatizuoti ir padidinate tikimybę, kad jie imsis veiksmų. Emocijos taip pat padidina tikimybę, kad auditorija prisimins jūsų žinutę.
Emocijos yra svarbios pasakojime. Jos dar svarbesnės, kai pasakojate istoriją su duomenimis. Komunikuojant duomenis, viskas yra sutelkta į išvadas, kurias norite, kad jūsų auditorija padarytų. Sukeldami emocijas auditorijai, padedate jiems empatizuoti ir padidinate tikimybę, kad jie imsis veiksmų. Emocijos taip pat padidina tikimybę, kad auditorija prisimins jūsų pranešimą.
Galbūt tai jau patyrėte su televizijos reklamomis. Kai kurios reklamos yra labai liūdnos ir naudoja liūdną emociją, kad susietų su auditorija ir padarytų pateiktus duomenis išsiskiriančius. Arba kai kurios reklamos yra labai džiugios ir laimingos, todėl galite susieti jų duomenis su laimės jausmu.
Galbūt tai jau patyrėte su televizijos reklamomis. Kai kurios reklamos yra labai liūdnos ir naudoja liūdną emociją, kad susietų su savo auditorija ir padarytų pateiktus duomenis išsiskiriančius. Arba kai kurios reklamos yra labai džiugios ir laimingos, todėl galite susieti jų duomenis su laimingu jausmu.
Kaip naudoti emocijas komunikuojant duomenis? Žemiau pateikiami keli būdai.
Kaip naudoti emocijas komunikuojant duomenis? Žemiau pateikiami keli būdai.
@ -122,47 +122,43 @@ Kaip naudoti emocijas komunikuojant duomenis? Žemiau pateikiami keli būdai.
# Komunikacijos atvejo analizė
# Komunikacijos atvejo analizė
Emerson yra mobiliosios programėlės produktų vadovas. Emerson pastebėjo, kad klientai savaitgaliais pateikia 42% daugiau skundų ir klaidų pranešimų. Emerson taip pat pastebėjo, kad klientai, kurie pateikia skundą, kuris lieka neatsakytas per 48 valandas, yra 32% labiau linkę suteikti programėlei 1 arba 2 žvaigždučių įvertinimą programėlių parduotuvėje.
Emerson yra mobiliosios programėlės produktų vadovas. Emerson pastebėjo, kad klientai savaitgaliais pateikia 42% daugiau skundų ir klaidų pranešimų. Emerson taip pat pastebėjo, kad klientai, kurie pateikia skundą, kuris lieka neatsakytas per 48 valandas, yra 32% labiau linkę suteikti programėlei 1 arba 2 žvaigždučių įvertinimą programėlių parduotuvėje.
Atlikęs tyrimą, Emerson turi keletą sprendimų, kurie išspręs problemą. Emerson suorganizuoja 30 minučių susitikimą su 3 įmonės vadovais, kad komunikuotų duomenis ir siūlomus sprendimus.
Atlikęs tyrimą, Emerson turi keletą sprendimų, kurie išspręs problemą. Emerson organizuoja 30 minučių susitikimą su 3 įmonės vadovais, kad perduotų duomenis ir pasiūlytus sprendimus.
Šio susitikimo metu Emerson tikslas yra, kad įmonės vadovai suprastų, jog žemiau pateikti 2 sprendimai gali pagerinti programėlės įvertinimą, o tai greičiausiai padidins pajamas.
Šio susitikimo metu Emerson tikslas yra, kad įmonės vadovai suprastų, jog 2 žemiau pateikti sprendimai gali pagerinti programėlės įvertinimą, kuris greičiausiai padidins pajamas.
**Sprendimas 1.** Samdyti klientų aptarnavimo specialistus, kurie dirbtų savaitgaliais
**Sprendimas 1.** Samdyti klientų
Ar tai buvo veiksmingas būdas Emersonui bendrauti per šį susitikimą?
**Sprendimas 2.** Įsigyti naują klientų aptarnavimo bilietų sistemą, kurioje klientų aptarnavimo specialist
Susitikimo metu vienas įmonės vadovas susikoncentravo ties 10 minučių klientų skundais, kuriuos Emerson aptarė. Po susitikimo šie skundai buvo vienintelis dalykas, kurį šis vadovas prisiminė. Kitas įmonės vadovas daugiausia dėmesio skyrė Emerson aprašytam tyrimo procesui. Trečias vadovas prisiminė Emerson siūlomus sprendimus, tačiau nebuvo tikras, kaip tuos sprendimus būtų galima įgyvendinti.
Susitikime Emersonas praleidžia 5 minutes aiškindamas, kodėl žemas įvertinimas programėlių parduotuvėje yra blogai, 10 minučių aiškindamas tyrimo procesą ir kaip buvo nustatytos tendencijos, 10 minučių aptardamas kai kuriuos naujausius klientų skundus, o paskutines 5 minutes greitai peržvelgia 2 galimus sprendimus.
Ar tai buvo efektyvus būdas Emersonui komunikuoti per šį susitikimą?
Aukščiau pateiktoje situacijoje matome, kad buvo reikšmingas atotrūkis tarp to, ką Emerson norėjo, kad vadovai išsineštų iš susitikimo, ir to, ką jie iš tikrųjų išsinešė. Žemiau pateikiamas kitas požiūris, kurį Emerson galėtų apsvarstyti.
Susitikimo metu vienas įmonės vadovas susikoncentravo ties 10 minučių klientų skundų, kuriuos Emersonas aptarė. Po susitikimo šie skundai buvo vienintelis dalykas, kurį šis vadovas prisiminė. Kitas įmonės vadovas daugiausia dėmesio skyrė Emersono aprašytam tyrimo procesui. Trečias įmonės vadovas prisiminė Emersono pasiūlytus sprendimus, tačiau nebuvo tikras, kaip tuos sprendimus būtų galima įgyvendinti.
Kaip Emerson galėtų patobulinti šį požiūrį?
Aukščiau pateiktoje situacijoje matome, kad buvo didelis atotrūkis tarp to, ką Emersonas norėjo, kad vadovai išsineštų iš susitikimo, ir to, ką jie iš tikrųjų išsinešė. Žemiau pateikiamas kitas požiūris, kurį Emersonas galėtų apsvarstyti.
**Kontekstas** – Emersonas galėtų praleisti pirmas 5 minutes pristatydamas visą situaciją ir užtikrindamas, kad vadovai suprastų, kaip problemos veikia įmonei svarbius rodiklius, tokius kaip pajamos.
**Kontekstas** – Emerson galėtų skirti pirmas 5 minutes visos situacijos pristatymui ir užtikrinti, kad vadovai suprastų, kaip problemos veikia įmonei svarbius rodiklius, tokius kaip pajamos.
Tai galėtų būti išdėstyta taip: „Šiuo metu mūsų programėlės įvertinimas programėlių parduotuvėje yra 2,5. Įvertinimai programėlių parduotuvėje yra labai svarbūs optimizacijai programėlių parduotuvėje, kuri daro įtaką tam, kiek vartotojų mato mūsų programėlę paieškoje ir kaip mūsų programėlė vertinama potencialių vartotojų akimis. Ir, žinoma, vartotojų skaičius tiesiogiai susijęs su pajamomis.“
Tai galėtų būti išdėstyta taip: „Šiuo metu mūsų programėlės reitingas programėlių parduotuvėje yra 2,5. Reitingai programėlių parduotuvėje yra labai svarbūs optimizacijai, kuri daro įtaką tam, kiek vartotojų mato mūsų programėlę paieškoje ir kaip potencialūs vartotojai ją vertina. Ir, žinoma, vartotojų skaičius tiesiogiai susijęs su pajamomis.“
**Konfliktas** Emersonas galėtų pereiti prie konflikto aptarimo per kitas 5 minutes.
**Konfliktas** Emerson galėtų pereiti prie konflikto aptarimo per kitas 5 minutes.
Tai galėtų skambėti taip: „Vartotojai pateikia 42% daugiau skundų ir klaidų pranešimų savaitgaliais. Klientai, kurie pateikia skundą, bet negauna atsakymo per 48 valandas, 32% rečiau suteikia mūsų programėlei įvertinimą virš 2 programėlių parduotuvėje. Pagerinus mūsų programėlės įvertinimą programėlių parduotuvėje iki 4, mūsų matomumas padidėtų 20–30%, o tai, mano prognozėmis, padidintų pajamas 10%." Žinoma, Emersonas turėtų būti pasiruošęs pagrįsti šiuos skaičius.
Tai galėtų skambėti taip: „Vartotojai savaitgaliais pateikia 42% daugiau skundų ir pranešimų apie klaidas. Klientai, kurie pateikia skundą, bet negauna atsakymo per 48 valandas, 32% rečiau suteikia mūsų programėlei reitingą virš 2 programėlių parduotuvėje. Pagerinus mūsų programėlės reitingą iki 4, mūsų matomumas padidėtų 20–30%, o tai, mano prognozėmis, padidintų pajamas 10%." Žinoma, Emerson turėtų būti pasiruošęs pagrįsti šiuos skaičius.
**Kulminacija** Po pagrindo paruošimo Emersonas galėtų pereiti prie kulminacijos per 5 minutes.
**Kulminacija** Po pagrindo paruošimo Emerson galėtų pereiti prie kulminacijos per kitas 5 minutes.
Emersonas galėtų pristatyti siūlomus sprendimus, paaiškinti, kaip tie sprendimai spręs iškilusias problemas, kaip jie galėtų būti įgyvendinti esamuose darbo procesuose, kiek tie sprendimai kainuotų, kokia būtų jų investicijų grąža (ROI), ir galbūt net parodyti ekrano nuotraukas ar maketus, kaip tie sprendimai atrodytų įgyvendinus. Emersonas taip pat galėtų pasidalinti vartotojų, kurių skundai buvo spręsti ilgiau nei 48 valandas, atsiliepimais, ir net dabartinio įmonės klientų aptarnavimo atstovo komentarais apie esamą bilietų sistemą.
Emerson galėtų pristatyti siūlomus sprendimus, paaiškinti, kaip tie sprendimai spręs aptartas problemas, kaip jie galėtų būti įgyvendinti esamuose darbo procesuose, kiek tie sprendimai kainuotų, kokia būtų jų investicijų grąža (ROI), ir galbūt net parodyti ekrano nuotraukas ar maketus, kaip tie sprendimai atrodytų įgyvendinus. Emerson taip pat galėtų pasidalinti vartotojų, kurių skundai buvo sprendžiami ilgiau nei 48 valandas, atsiliepimais, taip pat dabartinio klientų aptarnavimo atstovo įmonėje komentarais apie esamą bilietų sistemą.
**Užbaigimas** Dabar Emersonas galėtų praleisti 5 minutes dar kartą apžvelgdamas įmonės problemas, peržiūrėti siūlomus sprendimus ir aptarti, kodėl tie sprendimai yra tinkami.
**Užbaigimas** Dabar Emerson galėtų skirti 5 minutes įmonės problemų pakartojimui, siūlomų sprendimų peržiūrai ir paaiškinimui, kodėl tie sprendimai yra tinkami.
**Išvada** Kadangi tai yra susitikimas su keliais suinteresuotais asmenimis, kuriame bus naudojama dvipusė komunikacija, Emersonas galėtų suplanuoti palikti 10 minučių klausimams, kad įsitikintų, jog viskas, kas buvo neaišku vadovams, būtų paaiškinta prieš susitikimo pabaigą.
**Išvada** Kadangi tai yra susitikimas su keliais suinteresuotais asmenimis, kur bus naudojama dvipusė komunikacija, Emerson galėtų suplanuoti palikti 10 minučių klausimams, kad būtų užtikrinta, jog vadovams būtų aišku viskas, kas galėjo būti neaišku.
Jei Emersonas pasirinktų antrąjį požiūrį, yra daug didesnė tikimybė, kad vadovai iš susitikimo išsineš tai, ką Emersonas norėjo, kad jie išsineštų – tai, kad skundų ir klaidų sprendimo procesas galėtų būti patobulintas, ir yra 2 sprendimai, kuriuos galima įgyvendinti, kad šis patobulinimas įvyktų. Šis požiūris būtų daug efektyvesnis būdas perteikti duomenis ir istoriją, kurią Emersonas nori perteikti.
Jei Emerson pasirinktų antrąjį požiūrį, yra daug didesnė tikimybė, kad vadovai iš susitikimo išsineš tai, ką Emerson norėjo perduoti – kad skundų ir klaidų sprendimo procesą galima patobulinti, ir yra 2 sprendimai, kuriuos galima įgyvendinti, kad šis patobulinimas įvyktų. Šis požiūris būtų daug efektyvesnis būdas perteikti duomenis ir istoriją, kurią Emerson nori perteikti.
# Išvada
# Išvada
### Pagrindinių punktų santrauka
### Pagrindinių punktų santrauka
- Komunikacija – tai informacijos perdavimas arba apsikeitimas ja.
- Komunikacija – tai informacijos perdavimas arba apsikeitimas ja.
- Perduodant duomenis, jūsų tikslas neturėtų būti vien tik skaičių perdavimas auditorijai. Jūsų tikslas turėtų būti perteikti istoriją, kurią informuoja jūsų duomenys.
- Perduodant duomenis, jūsų tikslas neturėtų būti vien tik skaičių perdavimas auditorijai. Jūsų tikslas turėtų būti perteikti istoriją, kurią informuoja jūsų duomenys.
- Yra 2 komunikacijos tipai: Vienpusė komunikacija (informacija perduodama be ketinimo gauti atsakymą) ir Dvipusė komunikacija (informacija perduodama abipusiai).
- Yra 2 komunikacijos tipai: Vienpusė komunikacija (informacija perduodama be ketinimo gauti atsakymą) ir Dvipusė komunikacija (informacija perduodama abipusiai).
- Yra daugybė strategijų, kurias galite naudoti pasakodami istoriją su savo duomenimis. 5 strategijos, kurias aptarėme, yra:
- Yra daugybė strategijų, kurias galite naudoti pasakojant istoriją su savo duomenimis. 5 strategijos, kurias aptarėme, yra:
- Supraskite savo auditoriją, savo terpę ir savo komunikacijos metodą
- Supraskite savo auditoriją, savo terpę ir savo komunikacijos metodą
- Pradėkite galvodami apie pabaigą
- Pradėkite galvodami apie pabaigą
- Prieikite prie to kaip prie tikros istorijos
- Prieikite prie to kaip prie tikros istorijos
@ -208,7 +204,7 @@ Jei Emersonas pasirinktų antrąjį požiūrį, yra daug didesnė tikimybė, kad
[1. Communicating Data - Communicating Data with Tableau [Book] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
[1. Communicating Data - Communicating Data with Tableau [Book] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html)
Peržiūrėkite, ką ką tik išmokote, naudodamiesi aukščiau pateiktu testu!
Peržiūrėkite, ką ką tik išmokote, naudodamiesi aukščiau pateiktu testu!
@ -219,4 +215,4 @@ Peržiūrėkite, ką ką tik išmokote, naudodamiesi aukščiau pateiktu testu!
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
| ](../../sketchnotes/17-DataScience-Cloud.png)|
| ](../../sketchnotes/17-DataScience-Cloud.png)|
|:---:|
|:---:|
| Duomenų mokslas debesyje: Įvadas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Duomenų mokslas debesyje: Įvadas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Šioje pamokoje sužinosite pagrindinius debesų kompiuterijos principus, kodėl verta naudoti debesų paslaugas savo duomenų mokslo projektams vykdyti, ir peržiūrėsime keletą pavyzdžių, kaip duomenų mokslo projektai vykdomi debesyje.
Šioje pamokoje sužinosite pagrindinius debesijos principus, kodėl gali būti naudinga naudoti debesijos paslaugas savo duomenų mokslo projektams vykdyti, ir peržiūrėsime keletą pavyzdžių, kaip duomenų mokslo projektai vykdomi debesyje.
Debesis, arba debesų kompiuterija, yra įvairių mokamų pagal poreikį kompiuterinių paslaugų teikimas, kurios yra talpinamos infrastruktūroje internete. Paslaugos apima sprendimus, tokius kaip saugyklos, duomenų bazės, tinklai, programinė įranga, analizė ir intelektualios paslaugos.
Debesija arba debesų kompiuterija – tai įvairių mokamų pagal poreikį kompiuterinių paslaugų, kurios yra talpinamos infrastruktūroje internete, teikimas. Paslaugos apima tokius sprendimus kaip saugyklos, duomenų bazės, tinklai, programinė įranga, analizė ir intelektualiosios paslaugos.
Paprastai skiriame viešąjį, privatųjį ir hibridinį debesį:
Paprastai skiriame viešąjį, privatųjį ir hibridinį debesis:
* Viešasis debesis: viešasis debesis priklauso trečiosios šalies debesų paslaugų teikėjui, kuris teikia savo kompiuterinius išteklius internetu visuomenei.
* Viešasis debesis: viešasis debesis priklauso trečiosios šalies debesijos paslaugų teikėjui, kuris savo kompiuterinius išteklius teikia viešai per internetą.
* Privatus debesis: tai kompiuteriniai ištekliai, naudojami tik vienos įmonės ar organizacijos, su paslaugomis ir infrastruktūra, palaikoma privačiame tinkle.
* Privatus debesis: tai debesijos ištekliai, naudojami tik vienos įmonės ar organizacijos, su paslaugomis ir infrastruktūra, palaikoma privačiame tinkle.
* Hibridinis debesis: hibridinis debesis yra sistema, kuri sujungia viešuosius ir privačiuosius debesis. Vartotojai renkasi vietinį duomenų centrą, tuo pačiu leidžiant duomenims ir programoms veikti viename ar daugiau viešųjų debesų.
* Hibridinis debesis: tai sistema, kuri sujungia viešuosius ir privačius debesis. Vartotojai renkasi vietinį duomenų centrą, tačiau leidžia duomenims ir programoms veikti viename ar keliuose viešuosiuose debesyse.
Dauguma debesų kompiuterijos paslaugų skirstomos į tris kategorijas: infrastruktūra kaip paslauga (IaaS), platforma kaip paslauga (PaaS) ir programinė įranga kaip paslauga (SaaS).
Dauguma debesijos paslaugų skirstomos į tris kategorijas: infrastruktūra kaip paslauga (IaaS), platforma kaip paslauga (PaaS) ir programinė įranga kaip paslauga (SaaS).
* Infrastruktūra kaip paslauga (IaaS): vartotojai nuomojasi IT infrastruktūrą, tokią kaip serveriai, virtualios mašinos (VM), saugyklos, tinklai, operacinės sistemos.
* Infrastruktūra kaip paslauga (IaaS): vartotojai nuomojasi IT infrastruktūrą, tokią kaip serveriai, virtualios mašinos (VM), saugyklos, tinklai, operacinės sistemos.
* Platforma kaip paslauga (PaaS): vartotojai nuomojasi aplinką programinės įrangos kūrimui, testavimui, pristatymui ir valdymui. Vartotojams nereikia rūpintis serverių, saugyklų, tinklų ir duomenų bazių infrastruktūros nustatymu ar valdymu.
* Platforma kaip paslauga (PaaS): vartotojai nuomojasi aplinką programų kūrimui, testavimui, pristatymui ir valdymui. Vartotojams nereikia rūpintis serverių, saugyklų, tinklų ir duomenų bazių infrastruktūros nustatymu ar valdymu.
* Programinė įranga kaip paslauga (SaaS): vartotojai gauna prieigą prie programinės įrangos internetu pagal poreikį, paprastai prenumeratos pagrindu. Vartotojams nereikia rūpintis programinės įrangos talpinimu, valdymu, infrastruktūra ar priežiūra, pvz., programinės įrangos atnaujinimais ir saugumo pataisomis.
* Programinė įranga kaip paslauga (SaaS): vartotojai gauna prieigą prie programinės įrangos per internetą pagal poreikį, dažniausiai prenumeratos pagrindu. Vartotojams nereikia rūpintis programinės įrangos talpinimu, valdymu, infrastruktūra ar priežiūra, pvz., atnaujinimais ir saugumo pataisomis.
Kai kurie didžiausi debesų paslaugų teikėjai yra Amazon Web Services, Google Cloud Platform ir Microsoft Azure.
Didžiausi debesijos paslaugų teikėjai yra Amazon Web Services, Google Cloud Platform ir Microsoft Azure.
## Kodėl verta rinktis debesį duomenų mokslui?
## Kodėl rinktis debesiją duomenų mokslui?
Kūrėjai ir IT specialistai renkasi darbą su debesimi dėl daugelio priežasčių, įskaitant šias:
Kūrėjai ir IT specialistai renkasi debesiją dėl daugelio priežasčių, įskaitant šias:
* Inovacijos: galite integruoti inovatyvias paslaugas, sukurtas debesų teikėjų, tiesiai į savo programas.
* Inovacijos: galite integruoti debesijos teikėjų sukurtas inovatyvias paslaugas tiesiai į savo programas.
* Lankstumas: mokate tik už tas paslaugas, kurių jums reikia, ir galite rinktis iš daugybės paslaugų. Paprastai mokate pagal poreikį ir pritaikote paslaugas pagal savo besikeičiančius poreikius.
* Lankstumas: mokate tik už tas paslaugas, kurių jums reikia, ir galite rinktis iš plataus paslaugų spektro. Paprastai mokate pagal naudojimą ir pritaikote paslaugas pagal savo poreikius.
* Biudžetas: nereikia investuoti į pradinį aparatūros ir programinės įrangos pirkimą, vietinių duomenų centrų nustatymą ir valdymą– mokate tik už tai, ką naudojate.
* Biudžetas: nereikia pradinių investicijų įrangai ir programinei įrangai įsigyti, vietiniams duomenų centrams įrengti ir valdyti– mokate tik už tai, ką naudojate.
* Skalavimas: jūsų ištekliai gali būti pritaikyti pagal projekto poreikius, tai reiškia, kad jūsų programos gali naudoti daugiau ar mažiau kompiuterinės galios, saugyklos ir pralaidumo, prisitaikydamos prie išorinių veiksnių bet kuriuo metu.
* Skalavimas: jūsų ištekliai gali būti pritaikyti pagal projekto poreikius, o tai reiškia, kad jūsų programos gali naudoti daugiau ar mažiau skaičiavimo galios, saugyklos ir pralaidumo, prisitaikydamos prie išorinių veiksnių bet kuriuo metu.
* Produktyvumas: galite susitelkti į savo verslą, o ne gaišti laiką užduotims, kurias gali valdyti kiti, pvz., duomenų centrų valdymui.
* Produktyvumas: galite sutelkti dėmesį į savo verslą, o ne gaišti laiką užduotims, kurias gali atlikti kiti, pvz., duomenų centrų valdymui.
* Patikimumas: debesų kompiuterija siūlo kelis būdus nuolat kurti duomenų atsargines kopijas ir galite nustatyti atkūrimo po nelaimių planus, kad jūsų verslas ir paslaugos veiktų net krizės metu.
* Patikimumas: debesija siūlo įvairius būdus nuolat kurti duomenų atsargines kopijas ir galite nustatyti atkūrimo po nelaimių planus, kad jūsų verslas ir paslaugos veiktų net krizės metu.
* Saugumas: galite pasinaudoti politikomis, technologijomis ir kontrolėmis, kurios stiprina jūsų projekto saugumą.
* Saugumas: galite pasinaudoti politikomis, technologijomis ir kontrolės priemonėmis, kurios sustiprina jūsų projekto saugumą.
Tai yra keletas dažniausiai pasitaikančių priežasčių, kodėl žmonės renkasi debesų paslaugas. Dabar, kai geriau suprantame, kas yra debesis ir kokie jo pagrindiniai privalumai, pažvelkime konkrečiau į duomenų mokslininkų ir kūrėjų, dirbančių su duomenimis, darbus ir kaip debesis gali padėti jiems spręsti įvairius iššūkius:
Tai yra keletas dažniausiai minimų priežasčių, kodėl žmonės renkasi debesijos paslaugas. Dabar, kai geriau suprantame, kas yra debesija ir kokie jos pagrindiniai privalumai, pažvelkime konkrečiau į duomenų mokslininkų ir kūrėjų, dirbančių su duomenimis, darbus ir kaip debesija gali padėti spręsti įvairius iššūkius:
* Didelių duomenų saugojimas: vietoj to, kad pirktumėte, valdytumėte ir apsaugotumėte didelius serverius, galite saugoti savo duomenis tiesiogiai debesyje, naudodami tokius sprendimus kaip Azure Cosmos DB, Azure SQL Database ir Azure Data Lake Storage.
* Didelių duomenų saugojimas: vietoj to, kad pirktumėte, valdytumėte ir apsaugotumėte didelius serverius, galite saugoti savo duomenis tiesiogiai debesyje, naudodami tokius sprendimus kaip Azure Cosmos DB, Azure SQL Database ir Azure Data Lake Storage.
* Duomenų integravimas: duomenų integravimas yra esminė duomenų mokslo dalis, leidžianti pereiti nuo duomenų rinkimo prie veiksmų atlikimo. Naudodami debesyje siūlomas duomenų integravimo paslaugas, galite rinkti, transformuoti ir integruoti duomenis iš įvairių šaltinių į vieną duomenų sandėlį, naudodami Data Factory.
* Duomenų integracija: duomenų integracija yra esminė duomenų mokslo dalis, leidžianti pereiti nuo duomenų rinkimo prie veiksmų. Naudodamiesi debesijos siūlomomis duomenų integracijos paslaugomis, galite rinkti, transformuoti ir integruoti duomenis iš įvairių šaltinių į vieną duomenų saugyklą, naudodami Data Factory.
* Duomenų apdorojimas: didelių duomenų apdorojimas reikalauja daug kompiuterinės galios, ir ne visi turi prieigą prie pakankamai galingų mašinų, todėl daugelis žmonių renkasi tiesiogiai naudoti debesies didžiulę kompiuterinę galią savo sprendimams vykdyti ir diegti.
* Duomenų apdorojimas: didelių duomenų apdorojimas reikalauja daug skaičiavimo galios, o ne visi turi prieigą prie pakankamai galingų mašinų, todėl daugelis renkasi tiesiogiai naudotis debesijos didžiule skaičiavimo galia savo sprendimams vykdyti ir diegti.
* Duomenų analizės paslaugų naudojimas: debesų paslaugos, tokios kaip Azure Synapse Analytics, Azure Stream Analytics ir Azure Databricks, padeda paversti jūsų duomenis į veiksmingas įžvalgas.
* Duomenų analizės paslaugos: debesijos paslaugos, tokios kaip Azure Synapse Analytics, Azure Stream Analytics ir Azure Databricks, padeda paversti jūsų duomenis į veiksmingas įžvalgas.
* Mašininio mokymosi ir duomenų intelekto paslaugų naudojimas: vietoj to, kad pradėtumėte nuo nulio, galite naudoti debesų teikėjo siūlomus mašininio mokymosi algoritmus, su paslaugomis, tokiomis kaip AzureML. Taip pat galite naudoti kognityvines paslaugas, tokias kaip kalbos į tekstą, tekstas į kalbą, kompiuterinė vizija ir daugiau.
* Mašininis mokymasis ir duomenų intelekto paslaugos: vietoj to, kad pradėtumėte nuo nulio, galite naudoti debesijos teikėjo siūlomus mašininio mokymosi algoritmus, pvz., AzureML. Taip pat galite naudotis kognityvinėmis paslaugomis, tokiomis kaip kalbos atpažinimas, teksto į kalbą konvertavimas, kompiuterinė rega ir kt.
## Duomenų mokslas debesyje: pavyzdžiai
## Duomenų mokslas debesyje: pavyzdžiai
Padarykime tai konkretesniu, peržiūrėdami keletą scenarijų.
Pažvelkime į keletą scenarijų, kad tai būtų aiškiau.
### Socialinių tinklų nuotaikų analizė realiu laiku
### Socialinių tinklų nuotaikų analizė realiuoju laiku
Pradėkime nuo scenarijaus, kurį dažnai nagrinėja pradedantieji mašininio mokymosi srityje: socialinių tinklų nuotaikų analizė realiu laiku.
Pradėkime nuo scenarijaus, kurį dažnai nagrinėja pradedantieji mašininio mokymosi srityje: socialinių tinklų nuotaikų analizė realiuoju laiku.
Tarkime, jūs valdote naujienų svetainę ir norite pasinaudoti tiesioginiais duomenimis, kad suprastumėte, kokiu turiniu jūsų skaitytojai galėtų būti suinteresuoti. Norėdami sužinoti daugiau apie tai, galite sukurti programą, kuri atlieka realaus laiko nuotaikų analizę iš „Twitter“ publikacijų, susijusių su jūsų skaitytojams aktualiomis temomis.
Tarkime, jūs valdote naujienų svetainę ir norite naudoti tiesioginius duomenis, kad suprastumėte, kokiu turiniu jūsų skaitytojai galėtų būti suinteresuoti. Norėdami tai sužinoti, galite sukurti programą, kuri atlieka realaus laiko nuotaikų analizę iš „Twitter“ publikacijų, susijusių su jūsų skaitytojams aktualiomis temomis.
Pagrindiniai rodikliai, kuriuos stebėsite, yra „Twitter“ žinučių apimtis tam tikromis temomis (hashtagais) ir nuotaikos, kurios nustatomos naudojant analizės įrankius, atliekančius nuotaikų analizę aplink nurodytas temas.
Pagrindiniai rodikliai, kuriuos stebėsite, yra tviterių apimtis tam tikromis temomis (žymomis) ir nuotaikos, kurios nustatomos naudojant analizės įrankius, atliekančius nuotaikų analizę pagal nurodytas temas.
Šio projekto kūrimo žingsniai yra šie:
Šio projekto kūrimo žingsniai yra šie:
* Sukurkite įvykių centrą srauto įvestims, kuris rinks duomenis iš „Twitter“.
* Sukurti įvykių centrą duomenų srautui rinkti, kuris rinks duomenis iš „Twitter“.
* Konfigūruokite ir paleiskite „Twitter“ klientų programą, kuri naudos „Twitter Streaming API“.
* Suaktyvinti ir paleisti „Twitter“ kliento programą, kuri naudos „Twitter“ srautų API.
* Sukurkite srauto analizės užduotį.
* Sukurti srautų analizės užduotį.
* Nurodykite užduoties įvestį ir užklausą.
* Nustatyti užduoties įvestį ir užklausą.
* Sukurkite išvesties saugyklą ir nurodykite užduoties išvestį.
* Sukurti išvesties saugyklą ir nurodyti užduoties išvestį.
* Paleiskite užduotį.
* Paleisti užduotį.
Norėdami peržiūrėti visą procesą, apsilankykite [dokumentacijoje](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099).
Visą procesą galite peržiūrėti [dokumentacijoje](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099).
### Mokslinių straipsnių analizė
### Mokslinių straipsnių analizė
Pažvelkime į kitą projekto pavyzdį, kurį sukūrė [Dmitry Soshnikov](http://soshnikov.com), vienas iš šios mokymo programos autorių.
Pažvelkime į kitą projektą, kurį sukūrė [Dmitrijus Sošnikovas](http://soshnikov.com), vienas iš šios mokymo programos autorių.
Dmitry sukūrė įrankį, kuris analizuoja COVID straipsnius. Peržiūrėdami šį projektą, pamatysite, kaip galite sukurti įrankį, kuris išgauna žinias iš mokslinių straipsnių, gauna įžvalgas ir padeda tyrėjams efektyviai naršyti per dideles straipsnių kolekcijas.
Dmitrijus sukūrė įrankį, kuris analizuoja COVID straipsnius. Peržiūrėję šį projektą, pamatysite, kaip galite sukurti įrankį, kuris išgauna žinias iš mokslinių straipsnių, gauna įžvalgas ir padeda tyrėjams efektyviai naršyti per dideles straipsnių kolekcijas.
Pažiūrėkime, kokie žingsniai buvo naudojami:
Štai kokie žingsniai buvo naudojami:
* Informacijos išgavimas ir išankstinis apdorojimas naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
* Informacijos išgavimas ir išankstinis apdorojimas naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
* Naudojant [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) apdorojimo paralelizavimui.
* Naudojant [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) apdorojimo procesų lygiagretinimui.
* Informacijos saugojimas ir užklausų vykdymas naudojant [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
* Informacijos saugojimas ir užklausų vykdymas naudojant [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
* Interaktyvios duomenų tyrimo ir vizualizacijos ataskaitų srities kūrimas naudojant Power BI.
* Interaktyvios duomenų tyrimo ir vizualizacijos ataskaitų srities kūrimas naudojant Power BI.
Norėdami peržiūrėti visą procesą, apsilankykite [Dmitry tinklaraštyje](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/).
Visą procesą galite peržiūrėti [Dmitrijaus tinklaraštyje](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/).
Kaip matote, debesų paslaugas galima panaudoti įvairiais būdais duomenų mokslui vykdyti.
Kaip matote, debesijos paslaugos gali būti naudojamos įvairiais būdais duomenų mokslui vykdyti.
## Pastabos
## Pastabos
@ -104,7 +104,7 @@ Kaip matote, debesų paslaugas galima panaudoti įvairiais būdais duomenų moks
Azure debesų platforma apima daugiau nei 200 produktų ir debesų paslaugų, skirtų padėti jums kurti naujus sprendimus. Duomenų mokslininkai skiria daug pastangų duomenų tyrimui, išankstiniam apdorojimui ir įvairių modelio mokymo algoritmų bandymui, siekdami sukurti tikslius modelius. Šios užduotys užima daug laiko ir dažnai neefektyviai naudoja brangius skaičiavimo išteklius.
Azure debesų platforma apima daugiau nei 200 produktų ir debesų paslaugų, skirtų padėti jums įgyvendinti naujus sprendimus. Duomenų mokslininkai skiria daug pastangų duomenų tyrimui ir išankstiniam apdorojimui, taip pat įvairių modelio mokymo algoritmų bandymui, siekiant sukurti tikslius modelius. Šios užduotys užima daug laiko ir dažnai neefektyviai naudoja brangius skaičiavimo išteklius.
[Azure ML](https://docs.microsoft.com/azure/machine-learning/overview-what-is-azure-machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) yra debesų platforma, skirta kurti ir valdyti mašininio mokymosi sprendimus Azure aplinkoje. Ji apima daugybę funkcijų ir galimybių, kurios padeda duomenų mokslininkams paruošti duomenis, mokyti modelius, publikuoti prognozavimo paslaugas ir stebėti jų naudojimą. Svarbiausia, ji padeda padidinti efektyvumą automatizuojant daugelį laiko reikalaujančių užduočių, susijusių su modelių mokymu, ir leidžia naudoti debesų skaičiavimo išteklius, kurie efektyviai skalėja, kad apdorotų didelius duomenų kiekius, mokant tik už faktinį naudojimą.
[Azure ML](https://docs.microsoft.com/azure/machine-learning/overview-what-is-azure-machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) yra debesų platforma, skirta kurti ir valdyti mašininio mokymosi sprendimus Azure. Ji apima daugybę funkcijų ir galimybių, kurios padeda duomenų mokslininkams paruošti duomenis, mokyti modelius, publikuoti prognozavimo paslaugas ir stebėti jų naudojimą. Svarbiausia, ji padeda padidinti efektyvumą automatizuojant daugelį laiko reikalaujančių užduočių, susijusių su modelių mokymu, ir leidžia naudoti debesų skaičiavimo išteklius, kurie efektyviai skalėja, kad apdorotų didelius duomenų kiekius, mokant tik už faktinį naudojimą.
Azure ML suteikia visus įrankius, kurių reikia kūrėjams ir duomenų mokslininkams jų mašininio mokymosi darbo eigoms. Tai apima:
Azure ML suteikia visus įrankius, kurių reikia kūrėjams ir duomenų mokslininkams jų mašininio mokymosi darbo eigoms. Tai apima:
- **Azure Machine Learning Studio**: tai yra internetinis portalas Azure Machine Learning, skirtas mažai kodo ir be kodo galimybėms modelių mokymui, diegimui, automatizavimui, stebėjimui ir turto valdymui. Studija integruojasi su Azure Machine Learning SDK, kad užtikrintų sklandžią patirtį.
- **Azure Machine Learning Studio**: tai yra internetinis portalas Azure Machine Learning, skirtas mažai kodo ir be kodo modelių mokymui, diegimui, automatizavimui, stebėjimui ir turto valdymui. Studija integruojasi su Azure Machine Learning SDK, kad būtų užtikrinta sklandi patirtis.
- **Jupyter Notebooks**: greitai kurkite prototipus ir testuokite ML modelius.
- **Jupyter Notebooks**: greitai kurkite ir testuokite ML modelius.
- **Azure Machine Learning Designer**: leidžia vilkti ir mesti modulius, kad sukurtumėte eksperimentus ir diegtumėte procesus mažai kodo aplinkoje.
- **Azure Machine Learning Designer**: leidžia vilkti ir mesti modulius, kad sukurtumėte eksperimentus ir diegtumėte procesus mažai kodo aplinkoje.
- **Automatizuotas mašininio mokymosi UI (AutoML)**: automatizuoja iteracines mašininio mokymosi modelio kūrimo užduotis, leidžiant kurti ML modelius su dideliu mastu, efektyvumu ir produktyvumu, išlaikant modelio kokybę.
- **Automatizuotas mašininio mokymosi UI (AutoML)**: automatizuoja iteracines mašininio mokymosi modelio kūrimo užduotis, leidžiant kurti ML modelius su dideliu mastu, efektyvumu ir produktyvumu, išlaikant modelio kokybę.
- **Duomenų žymėjimas**: padedantis ML įrankis, skirtas automatiškai žymėti duomenis.
- **Duomenų žymėjimas**: asistuojantis ML įrankis, skirtas automatiškai žymėti duomenis.
- **Mašininio mokymosi plėtinys Visual Studio Code**: suteikia pilnai funkcionalią kūrimo aplinką ML projektų kūrimui ir valdymui.
- **Mašininio mokymosi plėtinys Visual Studio Code**: suteikia pilnai funkcionalią kūrimo aplinką ML projektų kūrimui ir valdymui.
- **Mašininio mokymosi CLI**: suteikia komandas Azure ML išteklių valdymui iš komandinės eilutės.
- **Mašininio mokymosi CLI**: suteikia komandas Azure ML išteklių valdymui iš komandinės eilutės.
- **Integracija su atvirojo kodo sistemomis**, tokiomis kaip PyTorch, TensorFlow, Scikit-learn ir daug kitų, skirtų mokymui, diegimui ir viso mašininio mokymosi proceso valdymui.
- **Integracija su atvirojo kodo sistemomis**, tokiomis kaip PyTorch, TensorFlow, Scikit-learn ir daug kitų, skirtų mokymui, diegimui ir viso mašininio mokymosi proceso valdymui.
- **MLflow**: tai atvirojo kodo biblioteka, skirta valdyti jūsų mašininio mokymosi eksperimentų gyvavimo ciklą. **MLFlow Tracking** yra MLflow komponentas, kuris registruoja ir seka jūsų mokymo rezultatų metrikas ir modelio artefaktus, nepriklausomai nuo jūsų eksperimento aplinkos.
- **MLflow**: tai atvirojo kodo biblioteka, skirta valdyti jūsų mašininio mokymosi eksperimentų gyvavimo ciklą. **MLFlow Tracking** yra MLflow komponentas, kuris registruoja ir seka jūsų mokymo bėgimų metrikas ir modelio artefaktus, nepriklausomai nuo jūsų eksperimento aplinkos.
### 1.2 Širdies nepakankamumo prognozavimo projektas:
### 1.2 Širdies nepakankamumo prognozavimo projektas:
Nėra abejonių, kad projektų kūrimas ir įgyvendinimas yra geriausias būdas patikrinti savo įgūdžius ir žinias. Šioje pamokoje mes nagrinėsime du skirtingus būdus, kaip sukurti duomenų mokslų projektą, skirtą širdies nepakankamumo atakų prognozavimui Azure ML Studio, naudojant mažai kodo / be kodo ir Azure ML SDK, kaip parodyta šiame schematyje:
Nėra abejonių, kad projektų kūrimas ir įgyvendinimas yra geriausias būdas patikrinti savo įgūdžius ir žinias. Šioje pamokoje mes nagrinėsime du skirtingus būdus, kaip sukurti duomenų mokslų projektą, skirtą širdies nepakankamumo atakų prognozavimui Azure ML Studio, naudojant mažai kodo / be kodo ir Azure ML SDK, kaip parodyta šiame schemoje:
Kiekvienas būdas turi savo privalumų ir trūkumų. Mažai kodo / be kodo būdas yra lengvesnis pradėti, nes jis apima sąveiką su GUI (grafinė vartotojo sąsaja), nereikalaujant išankstinių kodavimo žinių. Šis metodas leidžia greitai išbandyti projekto gyvybingumą ir sukurti POC (Proof Of Concept). Tačiau, kai projektas auga ir reikia pasiruošti gamybai, neįmanoma kurti išteklių per GUI. Reikia programiškai automatizuoti viską– nuo išteklių kūrimo iki modelio diegimo. Čia tampa svarbu žinoti, kaip naudoti Azure ML SDK.
Kiekvienas būdas turi savo privalumų ir trūkumų. Mažai kodo / be kodo būdas yra lengvesnis pradėti, nes jis apima sąveiką su GUI (grafinė vartotojo sąsaja), nereikalaujant išankstinių kodavimo žinių. Šis metodas leidžia greitai išbandyti projekto gyvybingumą ir sukurti POC (koncepto įrodymą). Tačiau, kai projektas auga ir reikia pasiruošti gamybai, neįmanoma sukurti išteklių per GUI. Reikia programiškai automatizuoti viską, nuo išteklių kūrimo iki modelio diegimo. Čia tampa svarbu žinoti, kaip naudoti Azure ML SDK.
| Kūrimo laikas | Greitas ir lengvas | Priklauso nuo kodavimo įgūdžių |
| Kūrimo laikas | Greitas ir lengvas | Priklauso nuo kodavimo įgūdžių |
| Gamybos pasiruošimas | Ne | Taip |
| Gamybai paruoštas | Ne | Taip |
### 1.3 Širdies nepakankamumo duomenų rinkinys:
### 1.3 Širdies nepakankamumo duomenų rinkinys:
Širdies ir kraujagyslių ligos (CVDs) yra pagrindinė mirties priežastis pasaulyje, sudaranti 31% visų mirčių. Aplinkos ir elgesio rizikos veiksniai, tokie kaip tabako vartojimas, nesveika mityba ir nutukimas, fizinis neveiklumas ir žalingas alkoholio vartojimas, gali būti naudojami kaip modelių funkcijos. Gebėjimas įvertinti CVD išsivystymo tikimybę galėtų būti labai naudingas, siekiant užkirsti kelią atakoms žmonėms, kuriems yra didelė rizika.
Širdies ir kraujagyslių ligos (CVDs) yra pagrindinė mirties priežastis pasaulyje, sudaranti 31% visų mirčių. Aplinkos ir elgesio rizikos veiksniai, tokie kaip tabako vartojimas, nesveika mityba ir nutukimas, fizinis neveiklumas ir žalingas alkoholio vartojimas, gali būti naudojami kaip modelių vertinimo funkcijos. Gebėjimas įvertinti CVD išsivystymo tikimybę galėtų būti labai naudingas, siekiant užkirsti kelią atakoms žmonėms, kuriems yra didelė rizika.
Kaggle pateikė viešai prieinamą [Širdies nepakankamumo duomenų rinkinį](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data), kurį naudosime šiame projekte. Galite atsisiųsti duomenų rinkinį dabar. Tai yra lentelinis duomenų rinkinys su 13 stulpelių (12 funkcijų ir 1 tikslinė kintamoji) ir 299 eilutėmis.
Kaggle viešai paskelbė [Širdies nepakankamumo duomenų rinkinį](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data), kurį naudosime šiame projekte. Galite atsisiųsti duomenų rinkinį dabar. Tai yra lentelinis duomenų rinkinys su 13 stulpelių (12 funkcijų ir 1 tikslinė kintamoji) ir 299 eilutėmis.
| | Kintamojo pavadinimas | Tipas | Aprašymas | Pavyzdys |
| | Kintamojo pavadinimas | Tipas | Aprašymas | Pavyzdys |
| 21 | DEATH_EVENT [Tikslas] | loginis | Ar pacientas miršta stebėjimo laikotarpiu | 0 arba 1 |
| 21 | DEATH_EVENT [Tikslas] | loginis | Ar pacientas miršta stebėjimo laikotarpiu | 0 arba 1 |
Kai turėsite duomenų rinkinį, galime pradėti projektą Azure aplinkoje.
Kai turėsite duomenų rinkinį, galėsime pradėti projektą Azure.
## 2. Mažai kodo / Be kodo modelio mokymas Azure ML Studio
## 2. Mažai kodo / Be kodo modelio mokymas Azure ML Studio
### 2.1 Sukurkite Azure ML darbo sritį
### 2.1 Sukurkite Azure ML darbo sritį
Norėdami mokyti modelį Azure ML, pirmiausia turite sukurti Azure ML darbo sritį. Darbo sritis yra aukščiausio lygio išteklius Azure Machine Learning, suteikiantis centralizuotą vietą dirbti su visais artefaktais, kuriuos sukuriate naudodami Azure Machine Learning. Darbo sritis saugo visų mokymo procesų istoriją, įskaitant žurnalus, metrikas, rezultatus ir jūsų scenarijų momentinę kopiją. Šią informaciją naudojate norėdami nustatyti, kuris mokymo procesas sukuria geriausią modelį. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-workspace?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
Norėdami mokyti modelį Azure ML, pirmiausia turite sukurti Azure ML darbo sritį. Darbo sritis yra aukščiausio lygio išteklius Azure Machine Learning, suteikiantis centralizuotą vietą dirbti su visais artefaktais, kuriuos sukuriate naudodami Azure Machine Learning. Darbo sritis saugo visų mokymo bėgimų istoriją, įskaitant žurnalus, metrikas, rezultatus ir jūsų scenarijų momentinę kopiją. Šią informaciją naudojate norėdami nustatyti, kuris mokymo bėgimas sukuria geriausią modelį. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-workspace?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
Rekomenduojama naudoti naujausią naršyklę, suderinamą su jūsų operacine sistema. Palaikomos šios naršyklės:
Rekomenduojama naudoti naujausią naršyklę, suderinamą su jūsų operacine sistema. Palaikomos šios naršyklės:
@ -109,7 +109,7 @@ Rekomenduojama naudoti naujausią naršyklę, suderinamą su jūsų operacine si
Norėdami naudoti Azure Machine Learning, sukurkite darbo sritį savo Azure prenumeratoje. Tada galite naudoti šią darbo sritį duomenų, skaičiavimo išteklių, kodo, modelių ir kitų artefaktų, susijusių su jūsų mašininio mokymosi darbo krūviais, valdymui.
Norėdami naudoti Azure Machine Learning, sukurkite darbo sritį savo Azure prenumeratoje. Tada galite naudoti šią darbo sritį duomenų, skaičiavimo išteklių, kodo, modelių ir kitų artefaktų, susijusių su jūsų mašininio mokymosi darbo krūviais, valdymui.
> **_PASTABA:_** Jūsų Azure prenumerata bus apmokestinta nedidele suma už duomenų saugojimą, kol Azure Machine Learning darbo sritis egzistuoja jūsų prenumeratoje, todėl rekomenduojame ištrinti Azure Machine Learning darbo sritį, kai jos nebenaudojate.
> **_PASTABA:_** Jūsų Azure prenumerata bus apmokestinta nedidele suma už duomenų saugojimą, kol Azure Machine Learning darbo sritis egzistuoja jūsų prenumeratoje, todėl rekomenduojame ištrinti Azure Machine Learning darbo sritį, kai jos nebevartojate.
1. Prisijunkite prie [Azure portalo](https://ms.portal.azure.com/) naudodami Microsoft kredencialus, susijusius su jūsų Azure prenumerata.
1. Prisijunkite prie [Azure portalo](https://ms.portal.azure.com/) naudodami Microsoft kredencialus, susijusius su jūsų Azure prenumerata.
2. Pasirinkite **+Sukurti išteklių**
2. Pasirinkite **+Sukurti išteklių**
@ -132,30 +132,30 @@ Norėdami naudoti Azure Machine Learning, sukurkite darbo sritį savo Azure pren
- Saugojimo paskyra: Atkreipkite dėmesį į numatytąją naują saugojimo paskyrą, kuri bus sukurta jūsų darbo sričiai
- Saugojimo paskyra: Atkreipkite dėmesį į numatytąją naują saugojimo paskyrą, kuri bus sukurta jūsų darbo sričiai
- Raktų saugykla: Atkreipkite dėmesį į numatytąją naują raktų saugyklą, kuri bus sukurta jūsų darbo sričiai
- Raktų saugykla: Atkreipkite dėmesį į numatytąją naują raktų saugyklą, kuri bus sukurta jūsų darbo sričiai
- Programos įžvalgos: Atkreipkite dėmesį į numatytąją naują programos įžvalgų išteklių, kuris bus sukurtas jūsų darbo sričiai
- Programos įžvalgos: Atkreipkite dėmesį į numatytąją naują programos įžvalgų išteklių, kuris bus sukurtas jūsų darbo sričiai
- Konteinerių registras: Nėra (vienas bus automatiškai sukurtas pirmą kartą diegiant modelį į konteinerį)
- Konteinerių registras: Nėra (vienas bus automatiškai sukurtas pirmą kartą, kai diegsite modelį į konteinerį)
- Spustelėkite „Sukurti + peržiūrėti“, tada „Sukurti“
- Spustelėkite „Sukurti + peržiūrėti“, o tada „Sukurti“
3. Palaukite, kol jūsų darbo sritis bus sukurta (tai gali užtrukti kelias minutes). Tada eikite į ją portale. Ją galite rasti per „Machine Learning“ Azure paslaugą.
3. Palaukite, kol jūsų darbo sritis bus sukurta (tai gali užtrukti kelias minutes). Tada eikite į ją portale. Ją galite rasti per „Machine Learning“ Azure paslaugą.
4. Darbo srities apžvalgos puslapyje paleiskite Azure Machine Learning studiją (arba atidarykite naują naršyklės skirtuką ir eikite į https://ml.azure.com), ir prisijunkite prie Azure Machine Learning studijos naudodami savo Microsoft paskyrą. Jei paprašyta, pasirinkite savo Azure katalogą ir prenumeratą bei savo Azure Machine Learning darbo sritį.
4. Darbo srities apžvalgos puslapyje paleiskite Azure Machine Learning studiją (arba atidarykite naują naršyklės skirtuką ir eikite į https://ml.azure.com), ir prisijunkite prie Azure Machine Learning studijos naudodami savo Microsoft paskyrą. Jei paprašyta, pasirinkite savo Azure katalogą ir prenumeratą, bei savo Azure Machine Learning darbo sritį.
5. Azure Machine Learning studijoje perjunkite ☰ piktogramą viršuje kairėje, kad peržiūrėtumėte įvairius puslapius sąsajoje. Šiuos puslapius galite naudoti savo darbo srities išteklių valdymui.
5. Azure Machine Learning studijoje, perjunkite ☰ piktogramą viršuje kairėje, kad peržiūrėtumėte įvairius puslapius sąsajoje. Šiuos puslapius galite naudoti savo darbo srities išteklių valdymui.
Darbo sritį galite valdyti naudodami Azure portalą, tačiau duomenų mokslininkams ir mašininio mokymosi operacijų inžinieriams Azure Machine Learning studija suteikia labiau orientuotą vartotojo sąsają darbo srities išteklių valdymui.
Darbo sritį galite valdyti naudodami Azure portalą, tačiau duomenų mokslininkams ir mašininio mokymosi operacijų inžinieriams Azure Machine Learning Studio suteikia labiau orientuotą vartotojo sąsają darbo srities išteklių valdymui.
### 2.2 Skaičiavimo ištekliai
### 2.2 Skaičiavimo ištekliai
Skaičiavimo ištekliai yra debesų pagrindu ve
Skaičiavimo ištekliai yra
- **Prijungtas skaičiavimas**: Nuorodos į esamus Azure skaičiavimo išteklius, tokius kaip virtualios mašinos ar Azure Databricks klasteriai.
- **Prijungtas skaičiavimas**: Nuorodos į esamus Azure skaičiavimo išteklius, tokius kaip virtualios mašinos ar Azure Databricks klasteriai.
#### 2.2.1 Tinkamų skaičiavimo išteklių pasirinkimas
#### 2.2.1 Tinkamų skaičiavimo išteklių pasirinkimas
Kai kuriant skaičiavimo išteklius, svarbu atsižvelgti į keletą pagrindinių veiksnių, nes šie pasirinkimai gali būti kritiniai sprendimai.
Kai kuriant skaičiavimo išteklius reikia atsižvelgti į svarbius veiksnius, kurie gali būti kritiniai sprendimai.
**Ar jums reikia CPU ar GPU?**
**Ar jums reikia CPU ar GPU?**
@ -171,11 +171,11 @@ Pagrindinis skirtumas tarp CPU ir GPU architektūros yra tas, kad CPU yra sukurt
**Klasterio dydis**
**Klasterio dydis**
Didesni klasteriai yra brangesni, tačiau jie užtikrina geresnį atsaką. Todėl, jei turite laiko, bet ribotą biudžetą, turėtumėte pradėti nuo mažo klasterio. Priešingai, jei turite pinigų, bet mažai laiko, turėtumėte pradėti nuo didesnio klasterio.
Didesni klasteriai yra brangesni, tačiau užtikrina geresnį atsaką. Todėl, jei turite laiko, bet nepakankamai pinigų, turėtumėte pradėti nuo mažo klasterio. Priešingai, jei turite pinigų, bet mažai laiko, turėtumėte pradėti nuo didesnio klasterio.
**VM dydis**
**VM dydis**
Priklausomai nuo jūsų laiko ir biudžeto apribojimų, galite keisti RAM, disko, branduolių skaičių ir laikrodžio greitį. Visų šių parametrų didinimas bus brangesnis, tačiau užtikrins geresnį našumą.
Priklausomai nuo jūsų laiko ir biudžeto apribojimų, galite keisti RAM, disko, branduolių skaičiaus ir laikrodžio greičio dydį. Visų šių parametrų didinimas bus brangesnis, tačiau užtikrins geresnį našumą.
**Dedikuoti ar mažo prioriteto egzemplioriai?**
**Dedikuoti ar mažo prioriteto egzemplioriai?**
@ -183,7 +183,7 @@ Mažo prioriteto egzempliorius reiškia, kad jis yra pertraukiamas: iš esmės,
#### 2.2.2 Skaičiavimo klasterio kūrimas
#### 2.2.2 Skaičiavimo klasterio kūrimas
[Azure ML darbo aplinkoje](https://ml.azure.com/), kurią sukūrėme anksčiau, eikite į skaičiavimą ir pamatysite skirtingus skaičiavimo išteklius, kuriuos ką tik aptarėme (pvz., skaičiavimo egzempliorius, skaičiavimo klasterius, inferencijos klasterius ir prijungtą skaičiavimą). Šiam projektui mums reikės skaičiavimo klasterio modelio mokymui. Studijoje spustelėkite meniu „Compute“, tada skirtuką „Compute cluster“ ir spustelėkite mygtuką „+ New“, kad sukurtumėte skaičiavimo klasterį.
[Azure ML darbo erdvėje](https://ml.azure.com/), kurią sukūrėme anksčiau, eikite į skaičiavimą ir galėsite matyti skirtingus skaičiavimo išteklius, kuriuos ką tik aptarėme (pvz., skaičiavimo egzempliorius, skaičiavimo klasterius, inferencijos klasterius ir prijungtą skaičiavimą). Šiam projektui mums reikės skaičiavimo klasterio modelio mokymui. Studijoje spustelėkite meniu „Compute“, tada skirtuką „Compute cluster“ ir spustelėkite mygtuką „+ New“, kad sukurtumėte skaičiavimo klasterį.
@ -202,7 +202,7 @@ Puiku! Dabar, kai turime skaičiavimo klasterį, turime įkelti duomenis į Azur
### 2.3 Duomenų rinkinio įkėlimas
### 2.3 Duomenų rinkinio įkėlimas
1. [Azure ML darbo aplinkoje](https://ml.azure.com/), kurią sukūrėme anksčiau, spustelėkite „Datasets“ kairiajame meniu ir spustelėkite mygtuką „+ Create dataset“, kad sukurtumėte duomenų rinkinį. Pasirinkite parinktį „From local files“ ir pasirinkite anksčiau atsisiųstą Kaggle duomenų rinkinį.
1. [Azure ML darbo erdvėje](https://ml.azure.com/), kurią sukūrėme anksčiau, spustelėkite „Datasets“ kairiajame meniu ir spustelėkite mygtuką „+ Create dataset“, kad sukurtumėte duomenų rinkinį. Pasirinkite parinktį „From local files“ ir pasirinkite anksčiau atsisiųstą Kaggle duomenų rinkinį.
@ -220,7 +220,7 @@ Puiku! Dabar, kai duomenų rinkinys yra vietoje ir skaičiavimo klasteris sukurt
Tradicinis mašininio mokymosi modelių kūrimas reikalauja daug išteklių, reikšmingų žinių ir laiko, kad būtų galima sukurti ir palyginti daugybę modelių. Automatinis mašininis mokymasis (AutoML) yra procesas, automatizuojantis laiko reikalaujančias, pasikartojančias mašininio mokymosi modelių kūrimo užduotis. Jis leidžia duomenų mokslininkams, analitikams ir kūrėjams kurti ML modelius dideliu mastu, efektyvumu ir produktyvumu, išlaikant modelio kokybę. Tai sumažina laiką, reikalingą paruošti ML modelius gamybai, su dideliu paprastumu ir efektyvumu. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
Tradicinis mašininio mokymosi modelių kūrimas reikalauja daug išteklių, reikšmingų žinių ir laiko, kad būtų galima sukurti ir palyginti daugybę modelių. Automatinis mašininis mokymasis (AutoML) yra procesas, automatizuojantis laiko reikalaujančias, pasikartojančias mašininio mokymosi modelių kūrimo užduotis. Jis leidžia duomenų mokslininkams, analitikams ir kūrėjams kurti ML modelius dideliu mastu, efektyvumu ir produktyvumu, išlaikant modelio kokybę. Tai sumažina laiką, reikalingą paruošti ML modelius gamybai, su dideliu paprastumu ir efektyvumu. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
1. [Azure ML darbo aplinkoje](https://ml.azure.com/), kurią sukūrėme anksčiau, spustelėkite „Automated ML“ kairiajame meniu ir pasirinkite ką tik įkeltą duomenų rinkinį. Spustelėkite „Next“.
1. [Azure ML darbo erdvėje](https://ml.azure.com/), kurią sukūrėme anksčiau, spustelėkite „Automated ML“ kairiajame meniu ir pasirinkite ką tik įkeltą duomenų rinkinį. Spustelėkite „Next“.
@ -241,17 +241,17 @@ Tradicinis mašininio mokymosi modelių kūrimas reikalauja daug išteklių, rei
## 3. Modelio diegimas be kodo arba su minimaliu kodu ir galutinio taško naudojimas
## 3. Modelio diegimas be kodo arba su minimaliu kodu ir galutinio taško naudojimas
### 3.1 Modelio diegimas
### 3.1 Modelio diegimas
Automatinio mašininio mokymosi sąsaja leidžia geriausią modelį diegti kaip internetinę paslaugą keliais žingsniais. Diegimas yra modelio integravimas, kad jis galėtų atlikti prognozes pagal naujus duomenis ir identifikuoti galimas galimybių sritis. Šiame projekte diegimas kaip internetinė paslauga reiškia, kad medicinos programos galės naudoti modelį, kad galėtų atlikti tiesiogines pacientų širdies smūgio rizikos prognozes.
Automatinio mašininio mokymosi sąsaja leidžia geriausią modelį diegti kaip internetinę paslaugą keliais žingsniais. Diegimas yra modelio integravimas, kad jis galėtų atlikti prognozes pagal naujus duomenis ir identifikuoti potencialias galimybių sritis. Šiam projektui diegimas kaip internetinė paslauga reiškia, kad medicinos programos galės naudoti modelį, kad galėtų atlikti tiesiogines pacientų širdies smūgio rizikos prognozes.
Geriausio modelio aprašyme spustelėkite mygtuką „Deploy“.
Geriausio modelio aprašyme spustelėkite mygtuką „Deploy“.
15. Suteikite pavadinimą, aprašymą, skaičiavimo tipą (Azure Container Instance), įgalinkite autentifikaciją ir spustelėkite „Deploy“. Šis žingsnis gali užtrukti apie 20 minučių. Diegimo procesas apima kelis žingsnius, įskaitant modelio registravimą, išteklių generavimą ir jų konfigūravimą internetinei paslaugai. Po diegimo statuso pasirodo pranešimas. Periodiškai spustelėkite „Refresh“, kad patikrintumėte diegimo statusą. Kai statusas yra „Healthy“, paslauga yra įdiegta ir veikia.
15. Suteikite pavadinimą, aprašymą, skaičiavimo tipą (Azure Container Instance), įgalinkite autentifikaciją ir spustelėkite „Deploy“. Šis žingsnis gali užtrukti apie 20 minučių. Diegimo procesas apima kelis žingsnius, įskaitant modelio registravimą, išteklių generavimą ir jų konfigūravimą internetinei paslaugai. Po diegimo statuso pasirodo pranešimas. Periodiškai spustelėkite „Refresh“, kad patikrintumėte diegimo statusą. Kai statusas yra „Healthy“, modelis yra įdiegtas ir veikia.
16. Kai paslauga bus įdiegta, spustelėkite skirtuką „Endpoint“ ir spustelėkite ką tik įdiegtą galutinį tašką. Čia rasite visą informaciją apie galutinį tašką.
16. Kai modelis bus įdiegtas, spustelėkite skirtuką „Endpoint“ ir spustelėkite ką tik įdiegtą galutinį tašką. Čia galite rasti visą informaciją apie galutinį tašką.
api_key = '' # Replace this with the API key for the web service
api_key = '' # Replace this with the API key for the web service
```
```
Kintamasis `url` yra REST galutinio taško adresas, rastas skirtuke „Consume“, o kintamasis `api_key` yra pirminis raktas, taip pat rastas skirtuke „Consume“ (tik tuo atveju, jei įgalinote autentifikaciją). Štai kaip scenarijus naudoja galutinį tašką.
Kintamasis `url` yra REST galutinio taško adresas, rastas skirtuke „Consume“, o kintamasis `api_key` yra pirminis raktas, taip pat rastas skirtuke „Consume“ (tik tuo atveju, jei įgalinote autentifikaciją). Taip scenarijus gali naudoti galutinį tašką.
18. Paleidus scenarijų, turėtumėte matyti šį rezultatą:
18. Paleidus scenarijų, turėtumėte matyti šį rezultatą:
```python
```python
b'"{\\"result\\": [true]}"'
b'"{\\"result\\": [true]}"'
```
```
Tai reiškia, kad širdies nepakankamumo prognozė pagal pateiktus duomenis yra teisinga. Tai logiška, nes jei atidžiau pažvelgsite į scenarijuje automatiškai sugeneruotus duomenis, viskas yra 0 ir klaidinga pagal numatytuosius nustatymus. Galite pakeisti duomenis naudodami šį pavyzdinį įvestį:
Tai reiškia, kad širdies nepakankamumo prognozė pagal pateiktus duomenis yra teisinga. Tai logiška, nes jei atidžiau pažvelgsite į scenarijuje automatiškai sugeneruotus duomenis, viskas yra 0 ir klaidinga pagal numatytuosius nustatymus. Galite pakeisti duomenis naudodami šį pavyzdį:
```python
```python
data = {
data = {
@ -324,13 +324,13 @@ Sveikiname! Jūs ką tik panaudojote įdiegtą modelį ir jį apmokėte Azure ML
> **_PASTABA:_** Baigę projektą, nepamirškite ištrinti visų išteklių.
> **_PASTABA:_** Baigę projektą, nepamirškite ištrinti visų išteklių.
## 🚀 Iššūkis
## 🚀 Iššūkis
Atidžiai peržiūrėkite modelio paaiškinimus ir detales, kurias AutoML sugeneravo geriausiems modeliams. Pabandykite suprasti, kodėl geriausias modelis yra geresnis už kitus. Kokie algoritmai buvo palyginti? Kokie jų skirtumai? Kodėl geriausias modelis šiuo atveju veikia geriau?
Atidžiai peržiūrėkite modelio paaiškinimus ir detales, kurias AutoML sugeneravo geriausiems modeliams. Pabandykite suprasti, kodėl geriausias modelis yra geresnis nei kiti. Kokie algoritmai buvo palyginti? Kokie jų skirtumai? Kodėl geriausias modelis šiuo atveju veikia geriau?
Šioje pamokoje išmokote, kaip apmokyti, įdiegti ir naudoti modelį, kad prognozuotumėte širdies nepakankamumo riziką, naudojant mažai kodo arba be kodo debesyje. Jei dar to nepadarėte, gilinkitės į modelio paaiškinimus, kuriuos AutoML sugeneravo geriausiems modeliams, ir pabandykite suprasti, kodėl geriausias modelis yra geresnis už kitus.
Šioje pamokoje išmokote mokyti, diegti ir naudoti modelį, kad galėtumėte prognozuoti širdies nepakankamumo riziką, naudojant mažai kodo arba be kodo debesyje. Jei dar to nepadarėte, gilinkitės į modelio paaiškinimus, kuriuos AutoML sugeneravo geriausiems modeliams, ir pabandykite suprasti, kodėl geriausias modelis yra geresnis nei kiti.
Galite gilintis į mažai kodo arba be kodo AutoML, skaitydami šią [dokumentaciją](https://docs.microsoft.com/azure/machine-learning/tutorial-first-experiment-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
Galite gilintis į mažai kodo arba be kodo AutoML, skaitydami šią [dokumentaciją](https://docs.microsoft.com/azure/machine-learning/tutorial-first-experiment-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
@ -341,4 +341,4 @@ Galite gilintis į mažai kodo arba be kodo AutoML, skaitydami šią [dokumentac
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kilusius dėl šio vertimo naudojimo.
- Valdykite debesies išteklius stebėjimui, registravimui ir mašininio mokymosi eksperimentų organizavimui.
- Valdykite debesies išteklius stebėjimui, registravimui ir mašininio mokymosi eksperimentų organizavimui.
- Mokykite modelius vietoje arba naudodami debesies išteklius, įskaitant modelių mokymą su GPU.
- Mokykite modelius vietoje arba naudodami debesies išteklius, įskaitant modelių mokymą su GPU.
- Naudokite automatizuotą mašininį mokymąsi, kuris priima konfigūracijos parametrus ir mokymo duomenis. Jis automatiškai iteruoja per algoritmus ir hiperparametrų nustatymus, kad rastų geriausią modelį prognozėms vykdyti.
- Naudokite automatizuotą mašininį mokymąsi, kuris priima konfigūracijos parametrus ir mokymo duomenis. Jis automatiškai iteruoja per algoritmus ir hiperparametrų nustatymus, kad rastų geriausią modelį prognozėms vykdyti.
- Diekite interneto paslaugas, kad paverstumėte savo apmokytus modelius RESTful paslaugomis, kurias galima naudoti bet kurioje programoje.
- Diekite interneto paslaugas, kad paverstumėte savo apmokytus modelius į RESTful paslaugas, kurias galima naudoti bet kurioje programoje.
[Daugiau apie „Azure Machine Learning SDK“](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
[Daugiau apie „Azure Machine Learning SDK“](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
Ankstesnėje [pamokoje](../18-Low-Code/README.md) matėme, kaip mokyti, diegti ir naudoti modelį naudojant mažai kodo arba be kodo metodą. Naudojome širdies nepakankamumo duomenų rinkinį, kad sukurtume širdies nepakankamumo prognozavimo modelį. Šioje pamokoje darysime tą patį, bet naudodami „Azure Machine Learning SDK“.
[Ankstesnėje pamokoje](../18-Low-Code/README.md) matėme, kaip mokyti, diegti ir naudoti modelį naudojant mažo kodo/nekodo metodą. Naudojome širdies nepakankamumo duomenų rinkinį, kad sukurtume širdies nepakankamumo prognozavimo modelį. Šioje pamokoje darysime tą patį, bet naudodami „Azure Machine Learning SDK“.
### 1.2 Širdies nepakankamumo prognozavimo projektas ir duomenų rinkinio pristatymas
### 1.2 Širdies nepakankamumo prognozavimo projektas ir duomenų rinkinio pristatymas
Žr. [čia](../18-Low-Code/README.md) širdies nepakankamumo prognozavimo projektą ir duomenų rinkinio pristatymą.
Žr. [čia](../18-Low-Code/README.md) širdies nepakankamumo prognozavimo projekto ir duomenų rinkinio pristatymą.
## 2. Modelio mokymas naudojant „Azure ML SDK“
## 2. Modelio mokymas naudojant „Azure ML SDK“
@ -69,7 +69,7 @@ Ankstesnėje [pamokoje](../18-Low-Code/README.md) matėme, kaip mokyti, diegti i
Kad būtų paprasčiau, dirbsime „Jupyter Notebook“. Tai reiškia, kad jau turite darbo sritį ir skaičiavimo instanciją. Jei jau turite darbo sritį, galite pereiti tiesiai į skyrių 2.3 Užrašų knygų kūrimas.
Kad būtų paprasčiau, dirbsime „Jupyter Notebook“. Tai reiškia, kad jau turite darbo sritį ir skaičiavimo instanciją. Jei jau turite darbo sritį, galite pereiti tiesiai į skyrių 2.3 Užrašų knygų kūrimas.
Jei ne, prašome vadovautis instrukcijomis skyriuje **2.1 Sukurkite „Azure ML“ darbo sritį** ankstesnėje [pamokoje](../18-Low-Code/README.md), kad sukurtumėte darbo sritį.
Jei ne, vadovaukitės instrukcijomis skyriuje **2.1 Sukurkite „Azure ML“ darbo sritį**[ankstesnėje pamokoje](../18-Low-Code/README.md), kad sukurtumėte darbo sritį.
### 2.2 Sukurkite skaičiavimo instanciją
### 2.2 Sukurkite skaičiavimo instanciją
@ -87,15 +87,15 @@ Sveikiname, ką tik sukūrėte skaičiavimo instanciją! Šią instanciją naudo
### 2.3 Duomenų rinkinio įkėlimas
### 2.3 Duomenų rinkinio įkėlimas
Jei dar neįkėlėte duomenų rinkinio, žr. ankstesnės pamokos skyrių **2.3 Duomenų rinkinio įkėlimas** [čia](../18-Low-Code/README.md).
Jei dar neįkėlėte duomenų rinkinio, žr. [ankstesnę pamoką](../18-Low-Code/README.md) skyriuje **2.3 Duomenų rinkinio įkėlimas**.
### 2.4 Užrašų knygų kūrimas
### 2.4 Užrašų knygų kūrimas
> **_PASTABA:_** Kitame žingsnyje galite sukurti naują užrašų knygą nuo nulio arba įkelti [užrašų knygą, kurią sukūrėme](../../../../5-Data-Science-In-Cloud/19-Azure/notebook.ipynb) į „Azure ML Studio“. Norėdami ją įkelti, tiesiog spustelėkite meniu „Notebook“ ir įkelkite užrašų knygą.
> **_PASTABA:_** Kitam žingsniui galite sukurti naują užrašų knygą nuo nulio arba įkelti [užrašų knygą, kurią sukūrėme](../../../../5-Data-Science-In-Cloud/19-Azure/notebook.ipynb) į „Azure ML Studio“. Norėdami ją įkelti, tiesiog spustelėkite meniu „Notebook“ ir įkelkite užrašų knygą.
Užrašų knygos yra labai svarbi duomenų mokslo proceso dalis. Jos gali būti naudojamos duomenų tyrimui (EDA), modelio mokymui skaičiavimo klasteryje, galutinio taško diegimui ir kt.
Užrašų knygos yra labai svarbi duomenų mokslo proceso dalis. Jos gali būti naudojamos duomenų tyrimui (EDA), skaičiavimo klasterio iškvietimui modelio mokymui, inferencijos klasterio iškvietimui galutinio taško diegimui.
Norėdami sukurti užrašų knygą, mums reikia skaičiavimo mazgo, kuris teikia „Jupyter Notebook“ instanciją. Grįžkite į [Azure ML darbo sritį](https://ml.azure.com/) ir spustelėkite Skaičiavimo instancijos. Sąraše turėtumėte matyti [skaičiavimo instanciją, kurią sukūrėme anksčiau](../../../../5-Data-Science-In-Cloud/19-Azure).
Norėdami sukurti užrašų knygą, mums reikia skaičiavimo mazgo, kuris teikia „Jupyter Notebook“ instanciją. Grįžkite į [Azure ML darbo sritį](https://ml.azure.com/) ir spustelėkite Skaičiavimo instancijos. Skaičiavimo instancijų sąraše turėtumėte matyti [skaičiavimo instanciją, kurią sukūrėme anksčiau](../../../../5-Data-Science-In-Cloud/19-Azure).
1. Skiltyje Programos spustelėkite parinktį Jupyter.
1. Skiltyje Programos spustelėkite parinktį Jupyter.
2. Pažymėkite langelį „Taip, suprantu“ ir spustelėkite mygtuką Tęsti.
2. Pažymėkite langelį „Taip, suprantu“ ir spustelėkite mygtuką Tęsti.
@ -108,27 +108,28 @@ Dabar, kai turime užrašų knygą, galime pradėti mokyti modelį su „Azure M
### 2.5 Modelio mokymas
### 2.5 Modelio mokymas
Visų pirma, jei kyla abejonių, kreipkitės į [Azure ML SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). Joje rasite visą reikalingą informaciją apie modulius, kuriuos aptarsime šioje pamokoje.
Visų pirma, jei kyla abejonių, žr. [Azure ML SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). Joje pateikiama visa reikalinga informacija apie modulius, kuriuos aptarsime šioje pamokoje.
#### 2.5.1 Darbo srities, eksperimento, skaičiavimo klasterio ir duomenų rinkinio nustatymas
#### 2.5.1 Darbo srities, eksperimento, skaičiavimo klasterio ir duomenų rinkinio nustatymas
Darbo sritį reikia įkelti iš konfigūracijos failo naudojant šį kodą:
Turite įkelti `workspace` iš konfigūracijos failo naudodami šį kodą:
```python
```python
from azureml.core import Workspace
from azureml.core import Workspace
ws = Workspace.from_config()
ws = Workspace.from_config()
```
```
Tai grąžina objektą „Workspace“, kuris atspindi darbo sritį. Tada reikia sukurti eksperimentą naudojant šį kodą:
Tai grąžina objektą `Workspace`, kuris atspindi darbo sritį. Tada turite sukurti `experiment` naudodami šį kodą:
```python
```python
from azureml.core import Experiment
from azureml.core import Experiment
experiment_name = 'aml-experiment'
experiment_name = 'aml-experiment'
experiment = Experiment(ws, experiment_name)
experiment = Experiment(ws, experiment_name)
```
```
Norėdami gauti arba sukurti eksperimentą darbo srityje, prašote eksperimento pagal jo pavadinimą. Eksperimento pavadinimas turi būti 3–36 simbolių, prasidėti raide arba skaičiumi ir gali turėti tik raides, skaičius, pabraukimus ir brūkšnelius. Jei darbo srityje eksperimentas nerandamas, sukuriamas naujas eksperimentas.
Dabar reikia sukurti skaičiavimo klasterį mokymui naudojant šį kodą. Atkreipkite dėmesį, kad šis žingsnis gali užtrukti kelias minutes.
Norėdami gauti arba sukurti eksperimentą iš darbo srities, prašote eksperimento naudodami eksperimento pavadinimą. Eksperimento pavadinimas turi būti 3–36 simbolių, prasidėti raide arba skaičiumi ir gali turėti tik raides, skaičius, pabraukimus ir brūkšnelius. Jei eksperimentas nerandamas darbo srityje, sukuriamas naujas eksperimentas.
Dabar turite sukurti skaičiavimo klasterį mokymui naudodami šį kodą. Atkreipkite dėmesį, kad šis žingsnis gali užtrukti kelias minutes.
```python
```python
from azureml.core.compute import AmlCompute
from azureml.core.compute import AmlCompute
@ -147,13 +148,14 @@ cts = ws.compute_targets
compute_target = cts[aml_name]
compute_target = cts[aml_name]
```
```
Duomenų rinkinį galite gauti iš darbo srities pagal duomenų rinkinio pavadinimą šiuo būdu:
Duomenų rinkinį galite gauti iš darbo srities naudodami duomenų rinkinio pavadinimą šiuo būdu:
```python
```python
dataset = ws.datasets['heart-failure-records']
dataset = ws.datasets['heart-failure-records']
df = dataset.to_pandas_dataframe()
df = dataset.to_pandas_dataframe()
df.describe()
df.describe()
```
```
#### 2.5.2 AutoML konfigūracija ir mokymas
#### 2.5.2 AutoML konfigūracija ir mokymas
Norėdami nustatyti AutoML konfigūraciją, naudokite [AutoMLConfig klasę](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
Norėdami nustatyti AutoML konfigūraciją, naudokite [AutoMLConfig klasę](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109).
@ -161,11 +163,11 @@ Norėdami nustatyti AutoML konfigūraciją, naudokite [AutoMLConfig klasę](http
Kaip aprašyta dokumentacijoje, yra daug parametrų, su kuriais galite eksperimentuoti. Šiam projektui naudosime šiuos parametrus:
Kaip aprašyta dokumentacijoje, yra daug parametrų, su kuriais galite eksperimentuoti. Šiam projektui naudosime šiuos parametrus:
- `experiment_timeout_minutes`: Maksimalus laikas (minutėmis), kurį eksperimentas gali veikti prieš automatinį sustabdymą ir rezultatų pateikimą.
- `experiment_timeout_minutes`: Maksimalus laikas (minutėmis), kurį eksperimentas gali veikti prieš automatinį sustabdymą ir rezultatų pateikimą.
- `max_concurrent_iterations`: Maksimalus leistinas vienu metu vykdomų mokymo iteracijų skaičius.
- `max_concurrent_iterations`: Maksimalus leidžiamų lygiagrečių mokymo iteracijų skaičius eksperimente.
- `primary_metric`: Pagrindinis metrikos rodiklis, naudojamas eksperimento būsenai nustatyti.
- `primary_metric`: Pagrindinis metrikas, naudojamas eksperimento būsenai nustatyti.
- `compute_target`: „Azure Machine Learning“ skaičiavimo tikslas, kuriame vykdomas automatizuotas mašininis mokymasis.
- `compute_target`: „Azure Machine Learning“ skaičiavimo tikslas, kuriame vykdomas automatizuotas mašininio mokymosi eksperimentas.
- `task`: Užduoties tipas. Vertės gali būti „classification“, „regression“ arba „forecasting“, priklausomai nuo sprendžiamos automatizuoto ML problemos tipo.
- `task`: Užduoties tipas. Vertės gali būti „classification“, „regression“ arba „forecasting“, priklausomai nuo sprendžiamos automatizuoto ML problemos tipo.
- `training_data`: Mokymo duomenys, naudojami eksperimente. Jie turėtų apimti mokymo funkcijas ir etikečių stulpelį (pasirinktinai svorio stulpelį).
- `training_data`: Mokymo duomenys, naudojami eksperimente. Jie turėtų turėti mokymo funkcijas ir etikečių stulpelį (pasirinktinai mėginių svorių stulpelį).
- `label_column_name`: Etikečių stulpelio pavadinimas.
- `label_column_name`: Etikečių stulpelio pavadinimas.
- `path`: Pilnas kelias į „Azure Machine Learning“ projekto aplanką.
- `path`: Pilnas kelias į „Azure Machine Learning“ projekto aplanką.
- `enable_early_stopping`: Ar įjungti ankstyvą sustabdymą, jei rezultatai trumpuoju laikotarpiu negerėja.
- `enable_early_stopping`: Ar įjungti ankstyvą sustabdymą, jei rezultatai trumpuoju laikotarpiu negerėja.
Dabar, kai konfigūracija nustatyta, galite mokyti modelį naudodami šį kodą. Šis žingsnis gali užtrukti iki valandos, priklausomai nuo jūsų klasterio dydžio.
Dabar, kai konfigūracija nustatyta, galite mokyti modelį naudodami šį kodą. Šis žingsnis gali užtrukti iki valandos, priklausomai nuo jūsų klasterio dydžio.
```python
```python
remote_run = experiment.submit(automl_config)
remote_run = experiment.submit(automl_config)
```
```
Galite paleisti „RunDetails“ valdiklį, kad pamatytumėte skirtingus eksperimentus.
Galite paleisti „RunDetails“ valdiklį, kad pamatytumėte skirtingus eksperimentus.
Galite pamatyti geriausio modelio parametrus tiesiog atspausdindami pritaikytą modelį ir peržiūrėti jo savybes naudodami [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
Galite pamatyti geriausio modelio parametrus tiesiog atspausdindami `fitted_model` ir peržiūrėti geriausio modelio savybes naudodami [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
```python
```python
best_run.get_properties()
best_run.get_properties()
```
```
Dabar užregistruokite modelį naudodami [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
Dabar užregistruokite modelį naudodami [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
```python
```python
model_name = best_run.properties['model_name']
model_name = best_run.properties['model_name']
script_file_name = 'inference/score.py'
script_file_name = 'inference/score.py'
@ -234,7 +241,7 @@ model = best_run.register_model(model_name = model_name,
### 3.2 Modelio diegimas
### 3.2 Modelio diegimas
Kai geriausias modelis išsaugotas, jį galima diegti naudojant [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) klasę. „InferenceConfig“ atspindi konfigūracijos nustatymus, skirtus pritaikytai aplinkai, naudojamai diegimui. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) klasė atspindi mašininio mokymosi modelį, diegiamą kaip interneto paslaugos galutinį tašką „Azure Container Instances“. Diegta paslauga sukuriama iš modelio, scenarijaus ir susijusių failų. Rezultatas yra apkrovos balansavimo HTTP galutinio taško su REST API. Galite siųsti duomenis į šį API ir gauti modelio grąžintą prognozę.
Kai geriausias modelis išsaugotas, galime jį diegti naudodami [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) klasę. „InferenceConfig“ atspindi konfigūracijos nustatymus, skirtus pritaikytai aplinkai, naudojamai diegimui. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) klasė atspindi mašininio mokymosi modelį, diegtą kaip interneto paslaugos galutinį tašką „Azure Container Instances“. Diegta paslauga sukuriama iš modelio, scenarijaus ir susijusių failų. Rezultatas yra apkrovos balansavimo HTTP galutinio taško REST API. Galite siųsti duomenis į šią API ir gauti modelio grąžintą prognozę.
Modelis diegiamas naudojant [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
Modelis diegiamas naudojant [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą.
@ -292,19 +301,20 @@ Tai turėtų išvesti `'{"result": [false]}'`. Tai reiškia, kad paciento duomen
Sveikiname! Jūs ką tik panaudojote modelį, kuris buvo įdiegtas ir apmokytas naudojant Azure ML su Azure ML SDK!
Sveikiname! Jūs ką tik panaudojote modelį, kuris buvo įdiegtas ir apmokytas naudojant Azure ML su Azure ML SDK!
> **_NOTE:_** Baigę projektą, nepamirškite ištrinti visų resursų.
> **_NOTE:_** Baigę projektą, nepamirškite ištrinti visų resursų.
## 🚀 Iššūkis
## 🚀 Iššūkis
Yra daugybė kitų dalykų, kuriuos galite atlikti naudodami SDK, tačiau, deja, negalime visko aptarti šioje pamokoje. Geros naujienos – išmokę greitai peržiūrėti SDK dokumentaciją, galėsite daug pasiekti savarankiškai. Peržiūrėkite Azure ML SDK dokumentaciją ir suraskite `Pipeline` klasę, kuri leidžia kurti procesus. Procesas yra žingsnių rinkinys, kurį galima vykdyti kaip darbo eigą.
Yra daugybė kitų dalykų, kuriuos galite atlikti naudodami SDK, deja, visų jų negalime aptarti šioje pamokoje. Bet gera žinia ta, kad išmokę naršyti SDK dokumentaciją, galite daug pasiekti savarankiškai. Peržiūrėkite Azure ML SDK dokumentaciją ir suraskite `Pipeline` klasę, kuri leidžia kurti procesus. Procesas yra žingsnių rinkinys, kurį galima vykdyti kaip darbo eigą.
**Patarimas:** Eikite į [SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ir paieškos laukelyje įveskite tokius raktažodžius kaip „Pipeline“. Paieškos rezultatuose turėtumėte rasti `azureml.pipeline.core.Pipeline` klasę.
**Patarimas:** Eikite į [SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ir paieškos laukelyje įveskite tokius raktažodžius kaip „Pipeline“. Paieškos rezultatuose turėtumėte rasti `azureml.pipeline.core.Pipeline` klasę.
Šioje pamokoje išmokote, kaip apmokyti, įdiegti ir naudoti modelį, skirtą širdies nepakankamumo rizikai prognozuoti, naudojant Azure ML SDK debesyje. Peržiūrėkite šią [dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109), kad gautumėte daugiau informacijos apie Azure ML SDK. Pabandykite sukurti savo modelį naudodami Azure ML SDK.
Šioje pamokoje išmokote apmokyti, įdiegti ir naudoti modelį, skirtą širdies nepakankamumo rizikai prognozuoti, naudojant Azure ML SDK debesyje. Peržiūrėkite šią [dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109), kad gautumėte daugiau informacijos apie Azure ML SDK. Pabandykite sukurti savo modelį naudodami Azure ML SDK.
## Užduotis
## Užduotis
@ -313,4 +323,4 @@ Yra daugybė kitų dalykų, kuriuos galite atlikti naudodami SDK, tačiau, deja,
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Mes beveik pasiekėme šios mokymosi kelionės pabaigą!
Mes beveik pasiekėme šios mokymosi kelionės pabaigą!
Pradėjome nuo duomenų mokslo ir etikos apibrėžimų, ištyrėme įvairius duomenų analizės ir vizualizacijos įrankius bei technikas, peržiūrėjome duomenų mokslo gyvavimo ciklą ir aptarėme, kaip mastelį ir automatizaciją galima pasiekti naudojant debesų kompiuterijos paslaugas. Taigi, tikriausiai klausiate: _"Kaip tiksliai pritaikyti visus šiuos mokymus realiame pasaulyje?"_
Pradėjome nuo duomenų mokslo ir etikos apibrėžimų, ištyrėme įvairius duomenų analizės ir vizualizacijos įrankius bei technikas, peržiūrėjome duomenų mokslo gyvavimo ciklą ir aptarėme, kaip mastelį ir automatizaciją galima pasiekti naudojant debesų kompiuterijos paslaugas. Taigi, tikriausiai klausiate savęs: _"Kaip tiksliai pritaikyti visus šiuos mokymus realiame pasaulyje?"_
Šioje pamokoje nagrinėsime duomenų mokslo taikymą įvairiose pramonės srityse ir gilinsimės į konkrečius pavyzdžius, susijusius su tyrimais, skaitmeninėmis humanitarinėmis mokslų sritimis ir tvarumu. Aptarsime studentų projektų galimybes ir užbaigsime naudingais ištekliais, kurie padės tęsti mokymosi kelionę!
Šioje pamokoje nagrinėsime duomenų mokslo taikymą įvairiose pramonės srityse ir gilinsimės į konkrečius pavyzdžius, susijusius su tyrimais, skaitmeninėmis humanitarinėmis mokslų sritimis ir tvarumu. Aptarsime studentų projektų galimybes ir baigsime naudingais ištekliais, kurie padės tęsti mokymosi kelionę!
@ -31,15 +31,15 @@ Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrį
* [UPS maršrutų prognozės](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - paaiškina, kaip UPS naudoja duomenų mokslą ir mašininį mokymąsi, kad numatytų optimaliausius pristatymo maršrutus, atsižvelgiant į oro sąlygas, eismo modelius, pristatymo terminus ir kt.
* [UPS maršrutų prognozės](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - paaiškina, kaip UPS naudoja duomenų mokslą ir mašininį mokymąsi, kad numatytų optimaliausius pristatymo maršrutus, atsižvelgiant į oro sąlygas, eismo modelius, pristatymo terminus ir kt.
* [NYC taksi maršrutų vizualizacija](http://chriswhong.github.io/nyctaxi/) - duomenys, surinkti naudojant [Informacijos laisvės įstatymus](https://chriswhong.com/open-data/foil_nyc_taxi/), padėjo vizualizuoti vieną dieną NYC taksi gyvenime, padėdami suprasti, kaip jie naviguoja užimtame mieste, kiek uždirba ir kiek trunka kelionės per 24 valandas.
* [NYC taksi maršrutų vizualizacija](http://chriswhong.github.io/nyctaxi/) - duomenys, surinkti naudojant [Informacijos laisvės įstatymus](https://chriswhong.com/open-data/foil_nyc_taxi/), padėjo vizualizuoti vieną dieną NYC taksi gyvenime, padėdami suprasti, kaip jie naviguoja užimtame mieste, kiek uždirba ir kiek trunka kelionės per 24 valandų laikotarpį.
* [Uber duomenų mokslų darbo aplinka](https://eng.uber.com/dsw/) - naudoja duomenis (apie paėmimo ir išlaipinimo vietas, kelionės trukmę, pageidaujamus maršrutus ir kt.), surinktus iš milijonų Uber kelionių *kasdien*, kad sukurtų duomenų analizės įrankį, padedantį nustatyti kainas, saugumą, sukčiavimo aptikimą ir navigacijos sprendimus.
* [Uber duomenų mokslo darbo aplinka](https://eng.uber.com/dsw/) - naudoja duomenis (apie paėmimo ir išlaipinimo vietas, kelionės trukmę, pageidaujamus maršrutus ir kt.), surinktus iš milijonų Uber kelionių *kasdien*, kad sukurtų duomenų analizės įrankį, padedantį nustatyti kainas, saugumą, sukčiavimo aptikimą ir navigacijos sprendimus.
* [Sporto analitika](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - orientuojasi į _prognozavimo analitiką_ (komandų ir žaidėjų analizė - pagalvokite apie [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - ir fanų valdymą) bei _duomenų vizualizaciją_ (komandų ir fanų prietaisų skydeliai, žaidimai ir kt.) su taikymu, kaip talentų paieška, sporto lažybos ir inventoriaus/vietos valdymas.
* [Sporto analizė](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - orientuojasi į _prognozavimo analizę_ (komandų ir žaidėjų analizė - pagalvokite apie [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - ir fanų valdymą) bei _duomenų vizualizaciją_ (komandų ir fanų prietaisų skydeliai, žaidimai ir kt.) su taikymu, pvz., talentų paieška, sporto lažybos ir inventoriaus/vietos valdymas.
* [Duomenų mokslas bankininkystėje](https://data-flair.training/blogs/data-science-in-banking/) - pabrėžia duomenų mokslo vertę finansų pramonėje, taikant rizikos modeliavimą, sukčiavimo aptikimą, klientų segmentavimą, realaus laiko prognozes ir rekomendacijų sistemas. Prognozavimo analitika taip pat skatina svarbias priemones, tokias kaip [kredito balai](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit).
* [Duomenų mokslas bankininkystėje](https://data-flair.training/blogs/data-science-in-banking/) - pabrėžia duomenų mokslo vertę finansų pramonėje, taikant rizikos modeliavimą, sukčiavimo aptikimą, klientų segmentavimą, realaus laiko prognozes ir rekomendacijų sistemas. Prognozavimo analizė taip pat skatina svarbias priemones, tokias kaip [kredito reitingai](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit).
* [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, kaip medicininiai vaizdai (pvz., MRT, rentgenas, CT-skenavimas), genomika (DNR sekos nustatymas), vaistų kūrimas (rizikos vertinimas, sėkmės prognozė), prognozavimo analitika (pacientų priežiūra ir tiekimo logistika), ligų stebėjimas ir prevencija ir kt.
* [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, pvz., medicininį vaizdavimą (pvz., MRT, rentgenas, KT skenavimas), genomiką (DNR sekos nustatymas), vaistų kūrimą (rizikos vertinimas, sėkmės prognozė), prognozavimo analizę (pacientų priežiūra ir tiekimo logistika), ligų stebėjimą ir prevenciją ir kt.
 Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
 Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/)
@ -53,20 +53,20 @@ Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų moks
Nors realaus pasaulio taikymas dažnai orientuojasi į pramonės naudojimo atvejus dideliu mastu, _tyrimų_ taikymas ir projektai gali būti naudingi iš dviejų perspektyvų:
Nors realaus pasaulio taikymas dažnai orientuojasi į pramonės naudojimo atvejus dideliu mastu, _tyrimų_ taikymas ir projektai gali būti naudingi iš dviejų perspektyvų:
* _inovacijų galimybės_ - greitas pažangių koncepcijų prototipų kūrimas ir vartotojų patirties testavimas naujos kartos taikymams.
* _inovacijų galimybės_ - greitas pažangių koncepcijų prototipų kūrimas ir vartotojų patirties testavimas kitų kartų taikymams.
* _diegimo iššūkiai_ - galimų žalingų ar netikėtų duomenų mokslo technologijų pasekmių tyrimas realiame pasaulyje.
* _diegimo iššūkiai_ - galimų žalingų ar netikėtų duomenų mokslo technologijų pasekmių tyrimas realiame pasaulyje.
Studentams šie tyrimų projektai gali suteikti mokymosi ir bendradarbiavimo galimybių, kurios pagerins jūsų supratimą apie temą ir praplės jūsų sąmoningumą bei įsitraukimą su atitinkamais žmonėmis ar komandomis, dirbančiomis jus dominančiose srityse. Taigi, kaip atrodo tyrimų projektai ir kaip jie gali turėti įtakos?
Studentams šie tyrimų projektai gali suteikti mokymosi ir bendradarbiavimo galimybių, kurios pagerins jūsų supratimą apie temą ir praplės jūsų žinias bei įsitraukimą su atitinkamais žmonėmis ar komandomis, dirbančiomis dominančiose srityse. Taigi, kaip atrodo tyrimų projektai ir kaip jie gali turėti įtakos?
Pažvelkime į vieną pavyzdį - [MIT Gender Shades Study](http://gendershades.org/overview.html) iš Joy Buolamwini (MIT Media Labs) su [reikšmingu tyrimo straipsniu](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), bendraautoriu Timnit Gebru (tuomet Microsoft Research), kuris orientavosi į:
Pažvelkime į vieną pavyzdį - [MIT Gender Shades Study](http://gendershades.org/overview.html) iš Joy Buolamwini (MIT Media Labs) su [reikšmingu tyrimo straipsniu](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), kurį kartu parašė Timnit Gebru (tuomet Microsoft Research), kuris buvo orientuotas į:
* **Kas:** Tyrimo projekto tikslas buvo _įvertinti šališkumą automatizuotų veido analizės algoritmų ir duomenų rinkiniųpagrindu_ pagal lytį ir odos tipą.
* **Kas:** Tyrimo projekto tikslas buvo _įvertinti šališkumą automatizuotų veido analizės algoritmų ir duomenų rinkinių_ atžvilgiu pagal lytį ir odos tipą.
* **Kodėl:** Veido analizė naudojama tokiose srityse kaip teisėsauga, oro uostų saugumas, įdarbinimo sistemos ir kt. - kontekstuose, kur netikslūs klasifikavimai (pvz., dėl šališkumo) gali sukelti ekonominę ir socialinę žalą paveiktiems asmenims ar grupėms. Šališkumo supratimas (ir jo pašalinimas arba mažinimas) yra raktas į teisingumą naudojime.
* **Kodėl:** Veido analizė naudojama tokiose srityse kaip teisėsauga, oro uostų saugumas, įdarbinimo sistemos ir kt. - kontekstuose, kur netikslūs klasifikavimai (pvz., dėl šališkumo) gali sukelti ekonominę ir socialinę žalą paveiktiems asmenims ar grupėms. Šališkumo supratimas (ir jo pašalinimas ar mažinimas) yra raktas į teisingumą naudojime.
* **Kaip:** Tyrėjai pastebėjo, kad esami etalonai daugiausia naudojo šviesesnės odos subjektus, ir sukūrė naują duomenų rinkinį (1000+ vaizdų), kuris buvo _labiau subalansuotas_ pagal lytį ir odos tipą. Duomenų rinkinys buvo naudojamas trijų lyties klasifikavimo produktų (Microsoft, IBM ir Face++) tikslumui įvertinti.
* **Kaip:** Tyrėjai pastebėjo, kad esami etalonai daugiausia naudojo šviesesnės odos subjektus, ir sukūrė naują duomenų rinkinį (1000+ vaizdų), kuris buvo _labiau subalansuotas_ pagal lytį ir odos tipą. Duomenų rinkinys buvo naudojamas trijų lyties klasifikavimo produktų (Microsoft, IBM ir Face++) tikslumui įvertinti.
Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pastebimas skirtumas klaidų rodikliuose tarp įvairių pogrupių - su **neteisingu lyties priskyrimu**, kuris buvo didesnis moterims arba tamsesnės odos tipų asmenims, rodantis šališkumą.
Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pastebimas skirtumas klaidų rodikliuose tarp įvairių pogrupių - su **neteisingu lyties nustatymu**, kuris buvo didesnis moterims ar tamsesnės odos tipų asmenims, rodantis šališkumą.
**Pagrindiniai rezultatai:** Atkreiptas dėmesys, kad duomenų mokslui reikia daugiau _reprezentatyvių duomenų rinkinių_ (subalansuotų pogrupių) ir daugiau _įtraukiančių komandų_ (įvairių kilmės), kad būtų galima anksčiau atpažinti ir pašalinti arba sumažinti tokį šališkumą AI sprendimuose. Tokie tyrimų pastangos taip pat yra svarbios daugeliui organizacijų, apibrėžiančių principus ir praktikas _atsakingam AI_, siekiant pagerinti teisingumą jų AI produktuose ir procesuose.
**Pagrindiniai rezultatai:** Atkreiptas dėmesys, kad duomenų mokslui reikia daugiau _reprezentatyvių duomenų rinkinių_ (subalansuotų pogrupių) ir daugiau _įtraukiančių komandų_ (įvairių kilmės), kad būtų galima anksčiau atpažinti ir pašalinti ar sumažinti tokius šališkumus AI sprendimuose. Tokie tyrimų pastangos taip pat yra svarbios daugeliui organizacijų, apibrėžiant principus ir praktikas _atsakingam AI_, siekiant pagerinti teisingumą jų AI produktuose ir procesuose.
**Norite sužinoti apie atitinkamus tyrimų pastangas Microsoft?**
**Norite sužinoti apie atitinkamus tyrimų pastangas Microsoft?**
@ -80,19 +80,19 @@ Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pa
| Duomenų mokslas ir skaitmeniniai humanitariniai mokslai - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Duomenų mokslas ir skaitmeniniai humanitariniai mokslai - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
Skaitmeniniai humanitariniai mokslai [apibrėžiami](https://digitalhumanities.stanford.edu/about-dh-stanford) kaip "praktikų ir metodų rinkinys, derinantis skaičiavimo metodus su humanitariniais tyrimais". [Stanfordo projektai](https://digitalhumanities.stanford.edu/projects), tokie kaip _"istorijos perkrovimas"_ ir _"poetinis mąstymas"_, iliustruoja ryšį tarp [Skaitmeninių humanitarinių mokslų ir duomenų mokslo](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - pabrėžiant technikas, tokias kaip tinklo analizė, informacijos vizualizacija, erdvinė ir teksto analizė, kurios gali padėti mums iš naujo peržiūrėti istorinius ir literatūrinius duomenų rinkinius, kad gautume naujų įžvalgų ir perspektyvų.
Skaitmeniniai humanitariniai mokslai [apibrėžiami](https://digitalhumanities.stanford.edu/about-dh-stanford) kaip "praktikų ir metodų rinkinys, derinantis skaičiavimo metodus su humanitariniais tyrimais". [Stanfordo projektai](https://digitalhumanities.stanford.edu/projects), tokie kaip _"istorijos perkūrimas"_ ir _"poetinis mąstymas"_, iliustruoja ryšį tarp [Skaitmeninių humanitarinių mokslų ir duomenų mokslo](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - pabrėžiant technikas, tokias kaip tinklų analizė, informacijos vizualizacija, erdvinė ir tekstinė analizė, kurios gali padėti mums iš naujo peržiūrėti istorinius ir literatūrinius duomenų rinkinius, kad gautume naujų įžvalgų ir perspektyvų.
*Norite tyrinėti ir plėsti projektą šioje srityje?*
*Norite tyrinėti ir plėsti projektą šioje srityje?*
Peržiūrėkite ["Emily Dickinson ir nuotaikos metras"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - puikus pavyzdys iš [Jen Looper](https://twitter.com/jenlooper), kuris klausia, kaip galime naudoti duomenų mokslą, kad iš naujo peržiūrėtume pažįstamą poeziją ir įvertintume jos prasmę bei autoriaus indėlį naujame kontekste. Pavyzdžiui, _ar galime prognozuoti sezoną, kuriame buvo sukurtas eilėraštis, analizuodami jo toną ar nuotaiką_ - ir ką tai pasakoja apie autoriaus būseną per atitinkamą laikotarpį?
Peržiūrėkite ["Emily Dickinson ir nuotaikos metras"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - puikus pavyzdys iš [Jen Looper](https://twitter.com/jenlooper), kuris klausia, kaip galime naudoti duomenų mokslą, kad iš naujo peržiūrėtume pažįstamą poeziją ir įvertintume jos prasmę bei autorės indėlį naujuose kontekstuose. Pavyzdžiui, _ar galime prognozuoti sezoną, kuriame buvo parašytas eilėraštis, analizuodami jo toną ar nuotaiką_ - ir ką tai pasakoja apie autorės būseną per atitinkamą laikotarpį?
Norėdami atsakyti į šį klausimą, sekame duomenų mokslo gyvavimo ciklo žingsnius:
Norėdami atsakyti į šį klausimą, sekame duomenų mokslo gyvavimo ciklo žingsnius:
* [`Duomenų gavimas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - surinkti tinkamą duomenų rinkinį analizei. Galimybės apima API naudojimą (pvz., [Poetry DB API](https://poetrydb.org/index.html)) arba tinklalapių nuskaitymą (pvz., [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) naudojant įrankius, tokius kaip [Scrapy](https://scrapy.org/).
* [`Duomenų gavimas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - surinkti atitinkamą duomenų rinkinį analizei. Galimybės apima API naudojimą (pvz., [Poetry DB API](https://poetrydb.org/index.html)) arba tinklalapių nuskaitymą (pvz., [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) naudojant įrankius, tokius kaip [Scrapy](https://scrapy.org/).
* [`Duomenų valymas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - paaiškina, kaip tekstas gali būti formatuojamas, valomas ir supaprastinamas naudojant pagrindinius įrankius, tokius kaip Visual Studio Code ir Microsoft Excel.
* [`Duomenų valymas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - paaiškina, kaip tekstas gali būti formatuojamas, valomas ir supaprastinamas naudojant pagrindinius įrankius, tokius kaip Visual Studio Code ir Microsoft Excel.
* [`Duomenų analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - paaiškina, kaip galime importuoti duomenų rinkinį į "Notebooks" analizei naudojant Python paketus (pvz., pandas, numpy ir matplotlib), kad organizuotume ir vizualizuotume duomenis.
* [`Duomenų analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - paaiškina, kaip dabar galime importuoti duomenų rinkinį į "Notebooks" analizei naudojant Python paketus (pvz., pandas, numpy ir matplotlib), kad organizuotume ir vizualizuotume duomenis.
* [`Nuotaikos analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - paaiškina, kaip galime integruoti debesų paslaugas, tokias kaip Teksto analizė, naudojant mažo kodo įrankius, tokius kaip [Power Automate](https://flow.microsoft.com/en-us/) automatizuotoms duomenų apdorojimo darbo eigoms.
* [`Nuotaikos analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - paaiškina, kaip galime integruoti debesų paslaugas, tokias kaip Teksto analizė, naudojant mažo kodo įrankius, tokius kaip [Power Automate](https://flow.microsoft.com/en-us/) automatizuotoms duomenų apdorojimo darbo eigoms.
Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių nuotaikai ir padėti mums suformuoti savo perspektyvas apie autorių. Išbandykite patys - tada išplėskite užrašų knygelę, kad užduotumėte kitus klausimus arba vizualizuotumėte duomenis naujais būdais!
Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių nuotaikai ir padėti mums suformuoti savo perspektyvas apie autorę. Išbandykite patys - tada išplėskite užrašų knygelę, kad užduotumėte kitus klausimus arba vizualizuotumėte duomenis naujais būdais!
> Galite naudoti kai kuriuos įrankius iš [Skaitmeninių humanitarinių mokslų įrankių rinkinio](https://github.com/Digital-Humanities-Toolkit), kad tęstumėte šias tyrimų kryptis.
> Galite naudoti kai kuriuos įrankius iš [Skaitmeninių humanitarinių mokslų įrankių rinkinio](https://github.com/Digital-Humanities-Toolkit), kad tęstumėte šias tyrimų kryptis.
@ -102,12 +102,10 @@ Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių
| Duomenų mokslas ir tvarumas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
| Duomenų mokslas ir tvarumas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ |
[2030 m. Darbotvarkė tvariam vystymuisi](https://sdgs.un.org/2030agenda) - priimta visų Jungtinių Tautų narių 2015 m. - nustato 17 tikslų, įskaitant tuos, kurie orientuojasi į **planetos apsaugą** nuo degradacijos ir klimato kaitos poveikio. [Microsoft tvarumo](https://www.microsoft.com/en-us/sustainability) iniciatyva remia šiuos tikslus, tyrinėdama, kaip technologiniai sprendimai gali padėti kurti tvaresnę ateitį, orientuojantis į [4 tikslus](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - būti anglies neigiamais, vandens teigiamais, be atliekų ir bioįvairiais iki 2030 m.
[2030 m. darbotvarkė tvariam vystymuisi](https://sdgs.un.org/2030agenda) - priimta visų Jungtinių Tautų narių 2015 m. - identifikuoja 17 tikslų, įskaitant tuos, kurie orientuojasi į **planetos apsaugą** nuo degradacijos ir klimato kaitos poveikio. [Microsoft tvarumo](https://www.microsoft.com/en-us/sustainability) iniciatyva palaiko šiuos tikslus, tyrinėdama, kaip technologiniai sprendimai gali padėti kurti tvaresnę ateitį, orientuojantis į [4 tikslus](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - būti anglies neigiamais, vandens teigiamais, be atliekų ir bioįvairiais iki 2030 m
Šių iššūkių sprendimas masteliu ir laiku reikalauja debes
**Planetary Computer projektas šiuo metu yra peržiūros stadijoje (nuo 2021 m. rugsėjo)** - štai kaip galite pradėti prisidėti prie tvarumo sprendimų naudodami duomenų mokslą.
**Planetary Computer projektas šiuo metu yra peržiūros stadijoje (nuo 2021 m. rugsėjo)** - štai kaip galite pradėti prisidėti prie tvarumo sprendimų naudodami duomenų mokslą.
* [Prašyti prieigos](https://planetarycomputer.microsoft.com/account/request), kad galėtumėte pradėti tyrinėti ir bendrauti su kolegomis.
* [Prašyti prieigos](https://planetarycomputer.microsoft.com/account/request), kad galėtumėte pradėti tyrinėti ir bendrauti su bendraminčiais.
* [Naršyti dokumentaciją](https://planetarycomputer.microsoft.com/docs/overview/about), kad suprastumėte palaikomus duomenų rinkinius ir API.
* [Naršyti dokumentaciją](https://planetarycomputer.microsoft.com/docs/overview/about), kad suprastumėte palaikomus duomenų rinkinius ir API.
* Naršykite tokias programas kaip [Ekosistemos stebėjimas](https://analytics-lab.org/ecosystemmonitoring/), kad gautumėte idėjų programų kūrimui.
* Naršykite tokias programas kaip [Ekosistemos stebėjimas](https://analytics-lab.org/ecosystemmonitoring/), kad gautumėte idėjų programų kūrimui.
@ -115,7 +113,7 @@ Pagalvokite, kaip galite naudoti duomenų vizualizaciją, kad atskleistumėte ar
## Duomenų mokslas + studentai
## Duomenų mokslas + studentai
Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir tyrimuose, taip pat nagrinėjome duomenų mokslo taikymo pavyzdžius skaitmeninėse humanitarinėse mokslų srityse ir tvarume. Taigi, kaip galite ugdyti savo įgūdžius ir dalintis savo žiniomis kaip pradedantieji duomenų mokslo srityje?
Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir tyrimuose, taip pat nagrinėjome duomenų mokslo taikymo pavyzdžius skaitmeninėse humanitarinėse mokslų srityse ir tvarume. Taigi, kaip galite ugdyti savo įgūdžius ir dalintis savo žiniomis kaip pradedantieji duomenų mokslininkai?
Štai keletas duomenų mokslo studentų projektų pavyzdžių, kurie gali jus įkvėpti:
Štai keletas duomenų mokslo studentų projektų pavyzdžių, kurie gali jus įkvėpti:
@ -126,25 +124,25 @@ Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir tyrimuose, taip p
## 🚀 Iššūkis
## 🚀 Iššūkis
Ieškokite straipsnių, kurie rekomenduoja pradedantiesiems tinkamus duomenų mokslo projektus - pavyzdžiui, [šios 50 temų](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/) arba [šios 21 projekto idėjos](https://www.intellspot.com/data-science-project-ideas) arba [šie 16 projektų su šaltinio kodu](https://data-flair.training/blogs/data-science-project-ideas/), kuriuos galite išskaidyti ir perkurti. Nepamirškite rašyti tinklaraščio apie savo mokymosi keliones ir dalintis savo įžvalgomis su visais.
Ieškokite straipsnių, kurie rekomenduoja pradedantiesiems tinkamus duomenų mokslo projektus - pavyzdžiui, [šias 50 temų](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/), [šias 21 projekto idėją](https://www.intellspot.com/data-science-project-ideas) arba [šiuos 16 projektų su šaltinio kodu](https://data-flair.training/blogs/data-science-project-ideas/), kuriuos galite išskaidyti ir pritaikyti. Nepamirškite rašyti tinklaraščio apie savo mokymosi kelionę ir dalintis savo įžvalgomis su visais.
Norite tyrinėti daugiau pritaikymo atvejų? Štai keletas susijusių straipsnių:
Norite tyrinėti daugiau pritaikymo atvejų? Štai keletas susijusių straipsnių:
* [17 duomenų mokslo pritaikymo pavyzdžių](https://builtin.com/data-science/data-science-applications-examples) - 2021 m. liepa
* [17 duomenų mokslo taikymo pavyzdžių](https://builtin.com/data-science/data-science-applications-examples) - 2021 m. liepa
* [11 stulbinančių duomenų mokslo pritaikymo realiame pasaulyje](https://myblindbird.com/data-science-applications-real-world/) - 2021 m. gegužė
* [11 įspūdingų duomenų mokslo taikymo realiame pasaulyje](https://myblindbird.com/data-science-applications-real-world/) - 2021 m. gegužė
* [Duomenų mokslas realiame pasaulyje](https://towardsdatascience.com/data-science-in-the-real-world/home) - straipsnių kolekcija
* [Duomenų mokslas realiame pasaulyje](https://towardsdatascience.com/data-science-in-the-real-world/home) - straipsnių kolekcija
* Duomenų mokslas: [Švietime](https://data-flair.training/blogs/data-science-in-education/), [Žemės ūkyje](https://data-flair.training/blogs/data-science-in-agriculture/), [Finansuose](https://data-flair.training/blogs/data-science-in-finance/), [Filmuose](https://data-flair.training/blogs/data-science-at-movies/) ir daugiau.
* Duomenų mokslas: [Švietime](https://data-flair.training/blogs/data-science-in-education/), [Žemės ūkyje](https://data-flair.training/blogs/data-science-in-agriculture/), [Finansuose](https://data-flair.training/blogs/data-science-in-finance/), [Filmuose](https://data-flair.training/blogs/data-science-at-movies/) ir daugiau.
## Užduotis
## Užduotis
[Naršykite Planetary Computer duomenų rinkinį](assignment.md)
[Analizuokite Planetary Computer duomenų rinkinį](assignment.md)
---
---
**Atsakomybės apribojimas**:
**Atsakomybės apribojimas**:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą.
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo.