You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

80 lines
7.6 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "a76ab694b1534fa57981311975660bfe",
"translation_date": "2025-09-06T12:28:43+00:00",
"source_file": "1-Introduction/01-defining-data-science/README.md",
"language_code": "sw"
}
-->
## Aina za Data
Kama tulivyotaja tayari, data ipo kila mahali. Tunachohitaji ni kuikusanya kwa njia sahihi! Ni muhimu kutofautisha kati ya **data iliyopangiliwa** na **data isiyopangiliwa**. Ya kwanza mara nyingi huwakilishwa kwa muundo uliopangiliwa vizuri, mara nyingi kama jedwali au idadi ya majedwali, wakati ya pili ni mkusanyiko wa mafaili tu. Wakati mwingine tunaweza pia kuzungumzia **data nusu iliyopangiliwa**, ambayo ina aina fulani ya muundo unaoweza kutofautiana sana.
| Iliyopangiliwa | Nusu iliyopangiliwa | Isiyopangiliwa |
| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- |
| Orodha ya watu na namba zao za simu | Kurasa za Wikipedia zenye viungo | Maandishi ya Encyclopedia Britannica |
| Joto katika vyumba vyote vya jengo kila dakika kwa miaka 20 iliyopita | Mkusanyiko wa makala za kisayansi katika muundo wa JSON zenye waandishi, tarehe ya kuchapishwa, na muhtasari | Faili za nyaraka za kampuni |
| Data ya umri na jinsia ya watu wote wanaoingia kwenye jengo | Kurasa za mtandao | Video ghafi kutoka kamera ya ulinzi |
## Chanzo cha Kupata Data
Kuna vyanzo vingi vya data, na itakuwa vigumu kuviorodhesha vyote! Hata hivyo, hebu tutaje baadhi ya maeneo ya kawaida ambapo unaweza kupata data:
* **Iliyopangiliwa**
- **Internet of Things** (IoT), ikijumuisha data kutoka kwa sensa mbalimbali, kama vile sensa za joto au shinikizo, hutoa data nyingi muhimu. Kwa mfano, ikiwa jengo la ofisi lina vifaa vya sensa za IoT, tunaweza kudhibiti kiotomatiki joto na taa ili kupunguza gharama.
- **Utafiti** tunaowauliza watumiaji kujaza baada ya kununua bidhaa au kutembelea tovuti.
- **Uchambuzi wa tabia** unaweza, kwa mfano, kutusaidia kuelewa jinsi mtumiaji anavyotumia tovuti kwa kina, na sababu ya kawaida ya kuondoka kwenye tovuti.
* **Isiyopangiliwa**
- **Maandishi** yanaweza kuwa chanzo kikubwa cha maarifa, kama vile alama ya jumla ya **hisia**, au uchimbaji wa maneno muhimu na maana ya kisemantiki.
- **Picha** au **Video**. Video kutoka kamera ya ulinzi inaweza kutumika kukadiria msongamano wa magari barabarani na kuwajulisha watu kuhusu foleni zinazoweza kutokea.
- **Magogo ya seva za wavuti** yanaweza kutumika kuelewa ni kurasa zipi za tovuti yetu zinatembelewa mara nyingi zaidi, na kwa muda gani.
* **Nusu iliyopangiliwa**
- **Mitandao ya Kijamii** inaweza kuwa vyanzo bora vya data kuhusu tabia za watumiaji na ufanisi wao wa kusambaza taarifa.
- Tunapokuwa na mkusanyiko wa picha kutoka sherehe, tunaweza kujaribu kuchambua data ya **Dinamiki ya Kundi** kwa kujenga grafu ya watu wanaopiga picha pamoja.
Kwa kujua vyanzo mbalimbali vya data, unaweza kufikiria hali tofauti ambapo mbinu za sayansi ya data zinaweza kutumika kuelewa hali vizuri zaidi na kuboresha michakato ya biashara.
## Unachoweza Kufanya na Data
Katika Sayansi ya Data, tunazingatia hatua zifuatazo za safari ya data:
Bila shaka, kulingana na data halisi, baadhi ya hatua zinaweza kukosekana (kwa mfano, tunapokuwa tayari na data kwenye hifadhidata, au tunapokuwa hatuhitaji mafunzo ya modeli), au baadhi ya hatua zinaweza kurudiwa mara kadhaa (kama vile usindikaji wa data).
## Udigitalishaji na Mabadiliko ya Kidijitali
Katika muongo uliopita, biashara nyingi zimeanza kuelewa umuhimu wa data katika kufanya maamuzi ya kibiashara. Ili kutumia kanuni za sayansi ya data katika kuendesha biashara, kwanza unahitaji kukusanya data fulani, yaani, kutafsiri michakato ya biashara katika mfumo wa kidijitali. Hii inajulikana kama **udigitalishaji**. Kutumia mbinu za sayansi ya data kwa data hii ili kuongoza maamuzi kunaweza kusababisha ongezeko kubwa la tija (au hata mabadiliko ya biashara), yanayoitwa **mabadiliko ya kidijitali**.
Hebu tuchukue mfano. Tuseme tuna kozi ya sayansi ya data (kama hii) ambayo tunawasilisha mtandaoni kwa wanafunzi, na tunataka kutumia sayansi ya data kuiboresha. Tunawezaje kufanya hivyo?
Tunaweza kuanza kwa kujiuliza "Ni nini kinaweza kudigitalishwa?" Njia rahisi zaidi itakuwa kupima muda unaochukuliwa na kila mwanafunzi kumaliza kila moduli, na kupima maarifa yaliyopatikana kwa kutoa mtihani wa maswali ya chaguo nyingi mwishoni mwa kila moduli. Kwa kuchukua wastani wa muda wa kukamilisha kwa wanafunzi wote, tunaweza kugundua ni moduli zipi zinazosababisha changamoto zaidi kwa wanafunzi, na kufanya kazi ya kuzirahisisha.
Unaweza kusema kwamba mbinu hii si bora, kwa sababu moduli zinaweza kuwa na urefu tofauti. Inawezekana ni haki zaidi kugawanya muda kwa urefu wa moduli (kwa idadi ya herufi), na kulinganisha thamani hizo badala yake.
Tunapoanza kuchambua matokeo ya mitihani ya chaguo nyingi, tunaweza kujaribu kubaini ni dhana zipi ambazo wanafunzi wanapata ugumu wa kuelewa, na kutumia taarifa hiyo kuboresha maudhui. Ili kufanya hivyo, tunahitaji kubuni mitihani kwa njia ambayo kila swali linaendana na dhana fulani au kipande cha maarifa.
Ikiwa tunataka kufanya uchambuzi wa kina zaidi, tunaweza kuchora muda unaotumika kwa kila moduli dhidi ya kundi la umri wa wanafunzi. Tunaweza kugundua kwamba kwa baadhi ya makundi ya umri, inachukua muda mrefu kupita kiasi kukamilisha moduli, au kwamba wanafunzi wanajiondoa kabla ya kuikamilisha. Hii inaweza kutusaidia kutoa mapendekezo ya umri kwa moduli, na kupunguza kutoridhika kwa watu kutokana na matarajio yasiyo sahihi.
## 🚀 Changamoto
Katika changamoto hii, tutajaribu kutafuta dhana zinazohusiana na uwanja wa Sayansi ya Takwimu kwa kuangalia maandishi. Tutachukua makala ya Wikipedia kuhusu Sayansi ya Takwimu, kupakua na kuchakata maandishi, kisha kujenga wingu la maneno kama hili:
![Wingu la Maneno kwa Sayansi ya Takwimu](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.sw.png)
Tembelea [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') kusoma kupitia msimbo. Unaweza pia kuendesha msimbo, na kuona jinsi unavyofanya mabadiliko ya data kwa wakati halisi.
> Ikiwa hujui jinsi ya kuendesha msimbo katika Jupyter Notebook, angalia [makala hii](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
## [Jaribio la baada ya somo](https://ff-quizzes.netlify.app/en/ds/quiz/1)
## Majukumu
* **Kazi ya 1**: Badilisha msimbo hapo juu ili kutafuta dhana zinazohusiana na nyanja za **Big Data** na **Machine Learning**
* **Kazi ya 2**: [Fikiria Kuhusu Matukio ya Sayansi ya Takwimu](assignment.md)
## Shukrani
Somo hili limeandikwa kwa ♥️ na [Dmitry Soshnikov](http://soshnikov.com)
---
**Kanusho**:
Hati hii imetafsiriwa kwa kutumia huduma ya tafsiri ya AI [Co-op Translator](https://github.com/Azure/co-op-translator). Ingawa tunajitahidi kwa usahihi, tafadhali fahamu kuwa tafsiri za kiotomatiki zinaweza kuwa na makosa au kutokuwa sahihi. Hati ya asili katika lugha yake ya awali inapaswa kuzingatiwa kama chanzo cha mamlaka. Kwa taarifa muhimu, inashauriwa kutumia huduma ya tafsiri ya binadamu ya kitaalamu. Hatutawajibika kwa maelewano mabaya au tafsiri zisizo sahihi zinazotokana na matumizi ya tafsiri hii.