12 KiB

Raw Permalink Blame History

Paggamit ng Data: Relational Databases


Paggamit ng Data: Relational Databases - Sketchnote ni @nitya

Malamang nakagamit ka na ng spreadsheet dati upang mag-imbak ng impormasyon. Mayroon kang hanay ng mga row at column, kung saan ang mga row ay naglalaman ng impormasyon (o data), at ang mga column ay naglalarawan ng impormasyon (minsan tinatawag na metadata). Ang relational database ay nakabatay sa prinsipyong ito ng mga column at row sa mga talahanayan, na nagbibigay-daan sa iyo na magkaroon ng impormasyon na nakakalat sa iba't ibang talahanayan. Pinapayagan ka nitong magtrabaho sa mas kumplikadong data, maiwasan ang pag-uulit, at magkaroon ng kakayahang umangkop sa paraan ng paggalugad sa data. Tuklasin natin ang mga konsepto ng relational database.

Pre-lecture quiz

Nagsisimula ito sa mga talahanayan

Ang relational database ay may pangunahing elemento na tinatawag na mga talahanayan. Katulad ng spreadsheet, ang talahanayan ay koleksyon ng mga column at row. Ang row ay naglalaman ng data o impormasyon na nais nating gamitin, tulad ng pangalan ng lungsod o dami ng ulan. Ang mga column naman ay naglalarawan sa data na kanilang iniimbak.

Simulan natin ang ating paggalugad sa pamamagitan ng paggawa ng talahanayan upang mag-imbak ng impormasyon tungkol sa mga lungsod. Maaaring magsimula tayo sa kanilang pangalan at bansa. Maaari mong iimbak ito sa isang talahanayan tulad ng sumusunod:

Lungsod	Bansa
Tokyo	Japan
Atlanta	United States
Auckland	New Zealand

Pansinin ang mga pangalan ng column na lungsod, bansa, at populasyon na naglalarawan sa data na iniimbak, at bawat row ay may impormasyon tungkol sa isang lungsod.

Mga limitasyon ng isang talahanayan

Malamang, ang talahanayan sa itaas ay mukhang pamilyar sa iyo. Subukan nating magdagdag ng karagdagang data sa ating lumalaking database - taunang dami ng ulan (sa millimeters). Magtuon tayo sa mga taon 2018, 2019, at 2020. Kung idaragdag natin ito para sa Tokyo, maaaring ganito ang hitsura:

Lungsod	Bansa	Taon	Dami
Tokyo	Japan	2020	1690
Tokyo	Japan	2019	1874
Tokyo	Japan	2018	1445

Ano ang napapansin mo sa ating talahanayan? Mapapansin mo na inuulit natin ang pangalan at bansa ng lungsod nang paulit-ulit. Maaari itong kumonsumo ng maraming storage, at hindi talaga kinakailangan na magkaroon ng maraming kopya. Pagkatapos ng lahat, ang Tokyo ay may iisang pangalan lamang na interesado tayo.

OK, subukan natin ang ibang paraan. Magdagdag tayo ng mga bagong column para sa bawat taon:

Lungsod	Bansa	2018	2019	2020
Tokyo	Japan	1445	1874	1690
Atlanta	United States	1779	1111	1683
Auckland	New Zealand	1386	942	1176

Bagama't naiwasan nito ang pag-uulit ng row, nagdulot ito ng ilang iba pang hamon. Kailangan nating baguhin ang istruktura ng ating talahanayan tuwing may bagong taon. Bukod dito, habang lumalaki ang ating data, ang pagkakaroon ng mga taon bilang mga column ay magpapahirap sa pagkuha at pagkalkula ng mga halaga.

Ito ang dahilan kung bakit kailangan natin ng maraming talahanayan at mga relasyon. Sa pamamagitan ng paghahati ng ating data, maiiwasan natin ang pag-uulit at magkakaroon ng mas maraming kakayahang umangkop sa kung paano natin ginagamit ang ating data.

Ang mga konsepto ng relasyon

Balikan natin ang ating data at tukuyin kung paano natin ito hahatiin. Alam natin na nais nating iimbak ang pangalan at bansa ng ating mga lungsod, kaya't ito ay pinakamahusay na ilagay sa isang talahanayan.

Lungsod	Bansa
Tokyo	Japan
Atlanta	United States
Auckland	New Zealand

Ngunit bago tayo lumikha ng susunod na talahanayan, kailangan nating alamin kung paano ire-refer ang bawat lungsod. Kailangan natin ng isang uri ng identifier, ID o (sa teknikal na termino ng database) isang primary key. Ang primary key ay isang halaga na ginagamit upang tukuyin ang isang partikular na row sa isang talahanayan. Bagama't maaari itong batay sa isang halaga mismo (maaari nating gamitin ang pangalan ng lungsod, halimbawa), halos palaging dapat itong isang numero o iba pang identifier. Ayaw nating magbago ang id dahil masisira nito ang relasyon. Sa karamihan ng mga kaso, ang primary key o id ay isang auto-generated na numero.

✅ Ang primary key ay madalas na pinaikli bilang PK

lungsod

city_id	Lungsod	Bansa
1	Tokyo	Japan
2	Atlanta	United States
3	Auckland	New Zealand

✅ Mapapansin mo na ginagamit namin ang mga terminong "id" at "primary key" nang palitan sa araling ito. Ang mga konsepto dito ay nalalapat sa DataFrames, na iyong matutuklasan sa susunod. Ang DataFrames ay hindi gumagamit ng terminolohiya ng "primary key", gayunpaman mapapansin mo na kumikilos sila nang halos pareho.

Kapag nagawa na ang ating talahanayan ng lungsod, iimbak natin ang dami ng ulan. Sa halip na ulitin ang buong impormasyon tungkol sa lungsod, maaari nating gamitin ang id. Dapat din nating tiyakin na ang bagong talahanayan ay may column na id, dahil ang lahat ng talahanayan ay dapat magkaroon ng id o primary key.

ulan

rainfall_id	city_id	Taon	Dami
1	1	2018	1445
2	1	2019	1874
3	1	2020	1690
4	2	2018	1779
5	2	2019	1111
6	2	2020	1683
7	3	2018	1386
8	3	2019	942
9	3	2020	1176

Pansinin ang column na city_id sa loob ng bagong talahanayan na ulan. Ang column na ito ay naglalaman ng mga halaga na tumutukoy sa mga ID sa talahanayan ng lungsod. Sa teknikal na termino ng relational data, ito ay tinatawag na foreign key; ito ay isang primary key mula sa ibang talahanayan. Maaari mo itong isipin bilang isang reference o pointer. Ang city_id 1 ay tumutukoy sa Tokyo.

[!NOTE] Ang foreign key ay madalas na pinaikli bilang FK

Pagkuha ng data

Kapag ang ating data ay nahati sa dalawang talahanayan, maaaring magtaka ka kung paano natin ito kukunin. Kung gumagamit tayo ng relational database tulad ng MySQL, SQL Server, o Oracle, maaari tayong gumamit ng isang wika na tinatawag na Structured Query Language o SQL. Ang SQL (minsan binibigkas na sequel) ay isang pamantayang wika na ginagamit upang kunin at baguhin ang data sa isang relational database.

Upang kunin ang data, ginagamit mo ang utos na SELECT. Sa pinakasimple nito, piliin mo ang mga column na nais mong makita mula sa talahanayan kung saan sila nakapaloob. Kung nais mong ipakita lamang ang mga pangalan ng lungsod, maaari mong gamitin ang sumusunod:

SELECT city
FROM cities;

-- Output:
-- Tokyo
-- Atlanta
-- Auckland

Ang SELECT ay kung saan mo ililista ang mga column, at ang FROM ay kung saan mo ililista ang mga talahanayan.

[NOTE] Ang syntax ng SQL ay case-insensitive, ibig sabihin ang select at SELECT ay pareho. Gayunpaman, depende sa uri ng database na iyong ginagamit, ang mga column at talahanayan ay maaaring case-sensitive. Bilang resulta, pinakamahusay na kasanayan na palaging ituring ang lahat sa programming na parang case-sensitive. Kapag nagsusulat ng mga SQL query, karaniwang convention na ilagay ang mga keyword sa lahat ng uppercase na letra.

Ang query sa itaas ay magpapakita ng lahat ng lungsod. Isipin natin na nais lamang nating ipakita ang mga lungsod sa New Zealand. Kailangan natin ng isang uri ng filter. Ang SQL keyword para dito ay WHERE, o "kung saan ang isang bagay ay totoo".

SELECT city
FROM cities
WHERE country = 'New Zealand';

-- Output:
-- Auckland

Pagsasama ng data

Hanggang ngayon, kumuha tayo ng data mula sa isang talahanayan. Ngayon nais nating pagsamahin ang data mula sa parehong lungsod at ulan. Ginagawa ito sa pamamagitan ng pagsasama sa kanila. Epektibo kang lilikha ng isang seam sa pagitan ng dalawang talahanayan, at itutugma ang mga halaga mula sa isang column mula sa bawat talahanayan.

Sa ating halimbawa, itutugma natin ang column na city_id sa ulan sa column na city_id sa lungsod. Ito ay magtutugma sa halaga ng ulan sa kani-kanilang lungsod. Ang uri ng pagsasama na gagawin natin ay tinatawag na inner join, ibig sabihin kung may mga row na hindi tumutugma sa anumang bagay mula sa ibang talahanayan, hindi sila ipapakita. Sa ating kaso, bawat lungsod ay may ulan, kaya't lahat ay ipapakita.

Kunin natin ang ulan para sa 2019 para sa lahat ng ating lungsod.

Gagawin natin ito nang hakbang-hakbang. Ang unang hakbang ay pagsamahin ang data sa pamamagitan ng pagtukoy sa mga column para sa seam - city_id tulad ng binanggit kanina.

SELECT cities.city
    rainfall.amount
FROM cities
    INNER JOIN rainfall ON cities.city_id = rainfall.city_id

Ipinakita natin ang dalawang column na nais natin, at ang katotohanan na nais nating pagsamahin ang mga talahanayan sa pamamagitan ng city_id. Ngayon maaari nating idagdag ang WHERE statement upang i-filter lamang ang taon 2019.

SELECT cities.city
    rainfall.amount
FROM cities
    INNER JOIN rainfall ON cities.city_id = rainfall.city_id
WHERE rainfall.year = 2019

-- Output

-- city     | amount
-- -------- | ------
-- Tokyo    | 1874
-- Atlanta  | 1111
-- Auckland |  942

Buod

Ang relational databases ay nakasentro sa paghahati ng impormasyon sa pagitan ng maraming talahanayan na pagkatapos ay pinagsasama-sama para sa pagpapakita at pagsusuri. Nagbibigay ito ng mataas na antas ng kakayahang umangkop upang magsagawa ng mga kalkulasyon at iba pang manipulasyon ng data. Nakita mo ang mga pangunahing konsepto ng relational database, at kung paano magsagawa ng pagsasama sa pagitan ng dalawang talahanayan.

🚀 Hamon

Maraming relational databases ang magagamit sa internet. Maaari mong tuklasin ang data gamit ang mga kasanayan na natutunan mo sa itaas.

Post-Lecture Quiz

Post-lecture quiz

Review & Self Study

Maraming mga mapagkukunan ang magagamit sa Microsoft Learn upang ipagpatuloy ang iyong paggalugad sa mga konsepto ng SQL at relational database.

Paglalarawan ng mga konsepto ng relational data
Simulan ang Pagtatanong gamit ang Transact-SQL (Ang Transact-SQL ay isang bersyon ng SQL)
SQL content sa Microsoft Learn

Takdang-Aralin

Assignment Title

Paunawa:
Ang dokumentong ito ay isinalin gamit ang AI translation service na Co-op Translator. Bagama't sinisikap naming maging tumpak, pakitandaan na ang mga awtomatikong pagsasalin ay maaaring maglaman ng mga pagkakamali o hindi pagkakatugma. Ang orihinal na dokumento sa kanyang katutubong wika ang dapat ituring na opisyal na pinagmulan. Para sa mahalagang impormasyon, inirerekomenda ang propesyonal na pagsasalin ng tao. Hindi kami mananagot sa anumang hindi pagkakaunawaan o maling interpretasyon na maaaring magmula sa paggamit ng pagsasaling ito.

12 KiB Raw Permalink Blame History