You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

10 KiB

Utangulizi wa Mzunguko wa Maisha wa Sayansi ya Takwimu

 Sketchnote na (@sketchthedocs)
Utangulizi wa Mzunguko wa Maisha wa Sayansi ya Takwimu - Sketchnote na @nitya

Jaribio la Kabla ya Somo

Hadi kufikia hatua hii, labda umebaini kuwa sayansi ya takwimu ni mchakato. Mchakato huu unaweza kugawanywa katika hatua tano:

  • Kukusanya
  • Kuchakata
  • Kuchambua
  • Kuwasiliana
  • Kudumisha

Somo hili linazingatia sehemu tatu za mzunguko wa maisha: kukusanya, kuchakata, na kudumisha.

Mchoro wa mzunguko wa maisha wa sayansi ya takwimu

Picha na Berkeley School of Information

Kukusanya

Hatua ya kwanza ya mzunguko wa maisha ni muhimu sana kwani hatua zinazofuata zinategemea hatua hii. Kimsingi, ni hatua mbili zilizojumuishwa kuwa moja: kupata data na kufafanua madhumuni na matatizo yanayohitaji kushughulikiwa.
Kufafanua malengo ya mradi kutahitaji muktadha wa kina zaidi kuhusu tatizo au swali. Kwanza, tunahitaji kutambua na kupata wale wanaohitaji tatizo lao kutatuliwa. Hawa wanaweza kuwa wadau wa biashara au wafadhili wa mradi, ambao wanaweza kusaidia kutambua nani au nini kitafaidika na mradi huu pamoja na kile wanachohitaji na kwa nini wanakihitaji. Lengo lililofafanuliwa vizuri linapaswa kuwa linaloweza kupimika na kuhesabika ili kufafanua matokeo yanayokubalika.

Maswali ambayo mtaalamu wa takwimu anaweza kuuliza:

  • Je, tatizo hili limewahi kushughulikiwa hapo awali? Nini kiligunduliwa?
  • Je, madhumuni na lengo vinaeleweka na wote wanaohusika?
  • Kuna ukosefu wa uwazi? Tunawezaje kuupunguza?
  • Ni vizuizi gani vilivyopo?
  • Matokeo ya mwisho yanaweza kuonekana vipi?
  • Kuna rasilimali kiasi gani (muda, watu, kompyuta) zinazopatikana?

Hatua inayofuata ni kutambua, kukusanya, na hatimaye kuchunguza data inayohitajika kufanikisha malengo haya yaliyofafanuliwa. Katika hatua hii ya upatikanaji, wataalamu wa takwimu wanapaswa pia kutathmini wingi na ubora wa data. Hii inahitaji uchunguzi wa data ili kuthibitisha kuwa data iliyopatikana itasaidia kufikia matokeo yanayotarajiwa.

Maswali ambayo mtaalamu wa takwimu anaweza kuuliza kuhusu data:

  • Ni data gani tayari ninayo?
  • Nani mmiliki wa data hii?
  • Kuna masuala gani ya faragha?
  • Je, nina data ya kutosha kutatua tatizo hili?
  • Je, data ni ya ubora unaokubalika kwa tatizo hili?
  • Ikiwa nitagundua taarifa za ziada kupitia data hii, je, tunapaswa kufikiria kubadilisha au kufafanua upya malengo?

Kuchakata

Hatua ya kuchakata katika mzunguko wa maisha inazingatia kugundua mifumo katika data pamoja na uundaji wa mifano. Baadhi ya mbinu zinazotumika katika hatua ya kuchakata zinahitaji mbinu za takwimu ili kufichua mifumo. Kwa kawaida, hii ingekuwa kazi ngumu kwa binadamu kufanya na seti kubwa ya data, hivyo kompyuta hutegemewa kufanya kazi nzito ili kuharakisha mchakato. Hatua hii pia ni mahali ambapo sayansi ya takwimu na ujifunzaji wa mashine (machine learning) hukutana. Kama ulivyojifunza katika somo la kwanza, ujifunzaji wa mashine ni mchakato wa kujenga mifano ili kuelewa data. Mifano ni uwakilishi wa uhusiano kati ya vigezo katika data vinavyosaidia kutabiri matokeo.

Mbinu za kawaida zinazotumika katika hatua hii zimefunikwa katika mtaala wa ML kwa Kompyuta. Fuata viungo ili kujifunza zaidi kuhusu mbinu hizi:

Kudumisha

Katika mchoro wa mzunguko wa maisha, unaweza kuwa umeona kuwa kudumisha kunakaa kati ya kukusanya na kuchakata. Kudumisha ni mchakato unaoendelea wa kusimamia, kuhifadhi, na kulinda data wakati wote wa mchakato wa mradi na inapaswa kuzingatiwa katika kipindi chote cha mradi.

Kuhifadhi Data

Mambo ya kuzingatia kuhusu jinsi na wapi data inahifadhiwa yanaweza kuathiri gharama ya uhifadhi wake pamoja na utendaji wa jinsi data inavyoweza kupatikana haraka. Maamuzi kama haya hayatafanywa na mtaalamu wa takwimu peke yake, lakini wanaweza kujikuta wakifanya chaguo kuhusu jinsi ya kufanya kazi na data kulingana na jinsi inavyohifadhiwa.

Hapa kuna vipengele vya mifumo ya kisasa ya uhifadhi wa data vinavyoweza kuathiri chaguo hizi:

Kwenye eneo (on-premise) dhidi ya nje ya eneo (off-premise) dhidi ya wingu la umma au la kibinafsi

Kwenye eneo inahusu kuhifadhi na kusimamia data kwenye vifaa vyako mwenyewe, kama vile kumiliki seva yenye diski ngumu zinazohifadhi data, wakati nje ya eneo hutegemea vifaa ambavyo huvimiliki, kama kituo cha data. Wingu la umma ni chaguo maarufu kwa kuhifadhi data linalohitaji maarifa kidogo kuhusu jinsi au wapi data inahifadhiwa, ambapo umma inahusu miundombinu ya msingi inayoshirikiwa na wote wanaotumia wingu. Mashirika mengine yana sera kali za usalama zinazohitaji kuwa na ufikiaji kamili wa vifaa ambapo data inahifadhiwa na hutegemea wingu la kibinafsi linalotoa huduma zake za wingu. Utajifunza zaidi kuhusu data katika wingu katika masomo yajayo.

Data baridi dhidi ya data moto

Unapofundisha mifano yako, unaweza kuhitaji data zaidi ya mafunzo. Ikiwa unaridhika na mfano wako, data zaidi itafika ili mfano utimize lengo lake. Kwa hali yoyote, gharama ya kuhifadhi na kufikia data itaongezeka kadri unavyokusanya zaidi. Kutenganisha data inayotumika mara chache, inayojulikana kama data baridi, kutoka kwa data inayofikiwa mara kwa mara, inayojulikana kama data moto, inaweza kuwa chaguo la bei nafuu la uhifadhi wa data kupitia vifaa au huduma za programu. Ikiwa data baridi inahitaji kufikiwa, inaweza kuchukua muda mrefu kidogo kuipata ikilinganishwa na data moto.

Kusimamia Data

Unapofanya kazi na data, unaweza kugundua kuwa baadhi ya data inahitaji kusafishwa kwa kutumia baadhi ya mbinu zilizofunikwa katika somo linalozingatia maandalizi ya data ili kujenga mifano sahihi. Wakati data mpya inapofika, itahitaji baadhi ya matumizi sawa ili kudumisha uthabiti wa ubora. Baadhi ya miradi itahusisha matumizi ya zana ya kiotomatiki kwa kusafisha, kujumlisha, na kubana kabla ya data kuhamishwa kwenye eneo lake la mwisho. Azure Data Factory ni mfano wa moja ya zana hizi.

Kulinda Data

Moja ya malengo makuu ya kulinda data ni kuhakikisha kuwa wale wanaofanya kazi nayo wanadhibiti kile kinachokusanywa na muktadha ambao kinatumika. Kuweka data salama kunahusisha kupunguza ufikiaji kwa wale tu wanaohitaji, kufuata sheria na kanuni za ndani, pamoja na kudumisha viwango vya maadili, kama ilivyofunikwa katika somo la maadili.

Hapa kuna baadhi ya mambo ambayo timu inaweza kufanya kwa kuzingatia usalama:

  • Kuhakikisha kuwa data yote imefichwa (encrypted)
  • Kuwapa wateja taarifa kuhusu jinsi data yao inavyotumika
  • Kuondoa ufikiaji wa data kwa wale waliomaliza mradi
  • Kuruhusu wanachama fulani wa mradi pekee kubadilisha data

🚀 Changamoto

Kuna matoleo mengi ya Mzunguko wa Maisha wa Sayansi ya Takwimu, ambapo kila hatua inaweza kuwa na majina tofauti na idadi ya hatua lakini itajumuisha michakato sawa iliyotajwa ndani ya somo hili.

Chunguza Mzunguko wa Maisha wa Mchakato wa Timu ya Sayansi ya Takwimu na Mchakato wa Kawaida wa Viwanda kwa Uchimbaji wa Takwimu. Taja mambo matatu yanayofanana na tofauti kati ya miwili.

Mchakato wa Timu ya Sayansi ya Takwimu (TDSP) Mchakato wa Kawaida wa Viwanda kwa Uchimbaji wa Takwimu (CRISP-DM)
Mzunguko wa Maisha wa Timu ya Sayansi ya Takwimu Picha ya Mchakato wa Sayansi ya Takwimu
Picha na Microsoft Picha na Data Science Process Alliance

Jaribio la Baada ya Somo

Mapitio na Kujisomea

Kutumia Mzunguko wa Maisha wa Sayansi ya Takwimu kunahusisha majukumu na kazi nyingi, ambapo baadhi ya watu wanaweza kuzingatia sehemu fulani za kila hatua. Mchakato wa Timu ya Sayansi ya Takwimu hutoa rasilimali chache zinazofafanua aina za majukumu na kazi ambazo mtu anaweza kuwa nazo katika mradi.

Kazi

Kutathmini Seti ya Data


Kanusho:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI Co-op Translator. Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia tafsiri ya kitaalamu ya binadamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.