diff --git a/translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png b/translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png new file mode 100644 index 00000000..281a1f10 Binary files /dev/null and b/translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png differ diff --git a/translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.lt.png b/translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.lt.png new file mode 100644 index 00000000..6958eef8 Binary files /dev/null and b/translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.lt.png differ diff --git a/translated_images/01-Definitions.1b14ddc9525dc0d9416a2f500f30e8652d21622f4e184100d405bd874ecbc17d.lt.png b/translated_images/01-Definitions.1b14ddc9525dc0d9416a2f500f30e8652d21622f4e184100d405bd874ecbc17d.lt.png new file mode 100644 index 00000000..742fdea8 Binary files /dev/null and b/translated_images/01-Definitions.1b14ddc9525dc0d9416a2f500f30e8652d21622f4e184100d405bd874ecbc17d.lt.png differ diff --git a/translated_images/02-Ethics.728d166895302ab09c726c2a8385abbf7c3e36752f0ee933bba7ea8f78f5cdca.lt.png b/translated_images/02-Ethics.728d166895302ab09c726c2a8385abbf7c3e36752f0ee933bba7ea8f78f5cdca.lt.png new file mode 100644 index 00000000..e6d1b523 Binary files /dev/null and b/translated_images/02-Ethics.728d166895302ab09c726c2a8385abbf7c3e36752f0ee933bba7ea8f78f5cdca.lt.png differ diff --git a/translated_images/03-DefiningData.f800817186949e078a81e7d5fdf9bb83834e561316bf790d4645c970ed4ff9ae.lt.png b/translated_images/03-DefiningData.f800817186949e078a81e7d5fdf9bb83834e561316bf790d4645c970ed4ff9ae.lt.png new file mode 100644 index 00000000..19a04dda Binary files /dev/null and b/translated_images/03-DefiningData.f800817186949e078a81e7d5fdf9bb83834e561316bf790d4645c970ed4ff9ae.lt.png differ diff --git a/translated_images/04-Statistics-Probability.cfc569d84a9f186748b69af7fdac3fa560329ccfc0e28994bfa65450ed78bdde.lt.png b/translated_images/04-Statistics-Probability.cfc569d84a9f186748b69af7fdac3fa560329ccfc0e28994bfa65450ed78bdde.lt.png new file mode 100644 index 00000000..a73152c2 Binary files /dev/null and b/translated_images/04-Statistics-Probability.cfc569d84a9f186748b69af7fdac3fa560329ccfc0e28994bfa65450ed78bdde.lt.png differ diff --git a/translated_images/05-RelationalData.af50f5a3e50f7456f1d895326b489d3b3f608a09abc28933d5dc6ba6ac191565.lt.png b/translated_images/05-RelationalData.af50f5a3e50f7456f1d895326b489d3b3f608a09abc28933d5dc6ba6ac191565.lt.png new file mode 100644 index 00000000..fef891ae Binary files /dev/null and b/translated_images/05-RelationalData.af50f5a3e50f7456f1d895326b489d3b3f608a09abc28933d5dc6ba6ac191565.lt.png differ diff --git a/translated_images/06-NoSQL.42a91ea0cd5769fe43e3c21554eb6d308b1fdf1435a6ae7c47b1a9dedab2da84.lt.png b/translated_images/06-NoSQL.42a91ea0cd5769fe43e3c21554eb6d308b1fdf1435a6ae7c47b1a9dedab2da84.lt.png new file mode 100644 index 00000000..1d0751da Binary files /dev/null and b/translated_images/06-NoSQL.42a91ea0cd5769fe43e3c21554eb6d308b1fdf1435a6ae7c47b1a9dedab2da84.lt.png differ diff --git a/translated_images/07-WorkWithPython.8bf4a5013718bef90cb3887355e158974494de38d2ad420b6cdce2fcd982cd89.lt.png b/translated_images/07-WorkWithPython.8bf4a5013718bef90cb3887355e158974494de38d2ad420b6cdce2fcd982cd89.lt.png new file mode 100644 index 00000000..46e1688f Binary files /dev/null and b/translated_images/07-WorkWithPython.8bf4a5013718bef90cb3887355e158974494de38d2ad420b6cdce2fcd982cd89.lt.png differ diff --git a/translated_images/08-DataPreparation.e3b185c37958e96435267555edc6e54f2eb0f2d18745cfd550d3f9ba34877072.lt.png b/translated_images/08-DataPreparation.e3b185c37958e96435267555edc6e54f2eb0f2d18745cfd550d3f9ba34877072.lt.png new file mode 100644 index 00000000..c86736d3 Binary files /dev/null and b/translated_images/08-DataPreparation.e3b185c37958e96435267555edc6e54f2eb0f2d18745cfd550d3f9ba34877072.lt.png differ diff --git a/translated_images/09-Visualizing-Quantities.5c846edd805a5238789865f960b1e2615b6889c715852f02a20a722484d97fbb.lt.png b/translated_images/09-Visualizing-Quantities.5c846edd805a5238789865f960b1e2615b6889c715852f02a20a722484d97fbb.lt.png new file mode 100644 index 00000000..bc88afd8 Binary files /dev/null and b/translated_images/09-Visualizing-Quantities.5c846edd805a5238789865f960b1e2615b6889c715852f02a20a722484d97fbb.lt.png differ diff --git a/translated_images/10-Visualizing-Distributions.8097fd8abd7221a1da63a156aaca497d844697e6a0ef0bbf8795e0f6a0bf7309.lt.png b/translated_images/10-Visualizing-Distributions.8097fd8abd7221a1da63a156aaca497d844697e6a0ef0bbf8795e0f6a0bf7309.lt.png new file mode 100644 index 00000000..57a69600 Binary files /dev/null and b/translated_images/10-Visualizing-Distributions.8097fd8abd7221a1da63a156aaca497d844697e6a0ef0bbf8795e0f6a0bf7309.lt.png differ diff --git a/translated_images/11-Visualizing-Proportions.3e82f24af94d206e51faf9aff1b454a52c8e69887296ac549d6286450cc64d1f.lt.png b/translated_images/11-Visualizing-Proportions.3e82f24af94d206e51faf9aff1b454a52c8e69887296ac549d6286450cc64d1f.lt.png new file mode 100644 index 00000000..269dfb8c Binary files /dev/null and b/translated_images/11-Visualizing-Proportions.3e82f24af94d206e51faf9aff1b454a52c8e69887296ac549d6286450cc64d1f.lt.png differ diff --git a/translated_images/12-Visualizing-Relationships.4466f9bd260f03dd29dc04933456ade8466d7ed2a37a98b78ed47f061488d57a.lt.png b/translated_images/12-Visualizing-Relationships.4466f9bd260f03dd29dc04933456ade8466d7ed2a37a98b78ed47f061488d57a.lt.png new file mode 100644 index 00000000..8e38a8c1 Binary files /dev/null and b/translated_images/12-Visualizing-Relationships.4466f9bd260f03dd29dc04933456ade8466d7ed2a37a98b78ed47f061488d57a.lt.png differ diff --git a/translated_images/13-MeaningfulViz.4db6f1997e519908c85e4b9b3b54609b2e9e90a27be9423a9b956ab9a7329c80.lt.png b/translated_images/13-MeaningfulViz.4db6f1997e519908c85e4b9b3b54609b2e9e90a27be9423a9b956ab9a7329c80.lt.png new file mode 100644 index 00000000..cc99fb41 Binary files /dev/null and b/translated_images/13-MeaningfulViz.4db6f1997e519908c85e4b9b3b54609b2e9e90a27be9423a9b956ab9a7329c80.lt.png differ diff --git a/translated_images/14-DataScience-Lifecycle.2c9f277e4d69fbaadc814c2b295be5e2df8f006b80543a974d109324f0897b7b.lt.png b/translated_images/14-DataScience-Lifecycle.2c9f277e4d69fbaadc814c2b295be5e2df8f006b80543a974d109324f0897b7b.lt.png new file mode 100644 index 00000000..59da0094 Binary files /dev/null and b/translated_images/14-DataScience-Lifecycle.2c9f277e4d69fbaadc814c2b295be5e2df8f006b80543a974d109324f0897b7b.lt.png differ diff --git a/translated_images/15-Analyzing.b501f3dbdc958f6fab0a507e307381c29e76707c3c41e174977e380a8b4063a9.lt.png b/translated_images/15-Analyzing.b501f3dbdc958f6fab0a507e307381c29e76707c3c41e174977e380a8b4063a9.lt.png new file mode 100644 index 00000000..59c51142 Binary files /dev/null and b/translated_images/15-Analyzing.b501f3dbdc958f6fab0a507e307381c29e76707c3c41e174977e380a8b4063a9.lt.png differ diff --git a/translated_images/16-Communicating.f1d29cd7984442a4804d0df8b7e8438b1abc7c1fcf5b3471e89eaf2e9ba087d9.lt.png b/translated_images/16-Communicating.f1d29cd7984442a4804d0df8b7e8438b1abc7c1fcf5b3471e89eaf2e9ba087d9.lt.png new file mode 100644 index 00000000..b0d8d8ec Binary files /dev/null and b/translated_images/16-Communicating.f1d29cd7984442a4804d0df8b7e8438b1abc7c1fcf5b3471e89eaf2e9ba087d9.lt.png differ diff --git a/translated_images/17-DataScience-Cloud.0df76ac874805c141082935ca07e8eca7d3790b83df25d641a807495e4f19de2.lt.png b/translated_images/17-DataScience-Cloud.0df76ac874805c141082935ca07e8eca7d3790b83df25d641a807495e4f19de2.lt.png new file mode 100644 index 00000000..f9d444a0 Binary files /dev/null and b/translated_images/17-DataScience-Cloud.0df76ac874805c141082935ca07e8eca7d3790b83df25d641a807495e4f19de2.lt.png differ diff --git a/translated_images/18-DataScience-Cloud.3a7292e8182b74ebfe5b246c0193c42592164aef625fe66e44194c19b2971f1a.lt.png b/translated_images/18-DataScience-Cloud.3a7292e8182b74ebfe5b246c0193c42592164aef625fe66e44194c19b2971f1a.lt.png new file mode 100644 index 00000000..bccf5ae4 Binary files /dev/null and b/translated_images/18-DataScience-Cloud.3a7292e8182b74ebfe5b246c0193c42592164aef625fe66e44194c19b2971f1a.lt.png differ diff --git a/translated_images/19-DataScience-Cloud.177b38fb86301fc6f06dea5b25a58f8abe1aa762d3a815d811c83ee22d8a8d6a.lt.png b/translated_images/19-DataScience-Cloud.177b38fb86301fc6f06dea5b25a58f8abe1aa762d3a815d811c83ee22d8a8d6a.lt.png new file mode 100644 index 00000000..889daa4f Binary files /dev/null and b/translated_images/19-DataScience-Cloud.177b38fb86301fc6f06dea5b25a58f8abe1aa762d3a815d811c83ee22d8a8d6a.lt.png differ diff --git a/translated_images/20-DataScience-Humanities.1d1a155f4d12a6679eb4f2be1074a456957f00affe8137c9cb22dedd6e7337e7.lt.png b/translated_images/20-DataScience-Humanities.1d1a155f4d12a6679eb4f2be1074a456957f00affe8137c9cb22dedd6e7337e7.lt.png new file mode 100644 index 00000000..3016e17f Binary files /dev/null and b/translated_images/20-DataScience-Humanities.1d1a155f4d12a6679eb4f2be1074a456957f00affe8137c9cb22dedd6e7337e7.lt.png differ diff --git a/translated_images/20-DataScience-RealWorld.976976229ee113426d617ef7a1a8cb8f80f7b7bca6860a167b1ca155b891415b.lt.png b/translated_images/20-DataScience-RealWorld.976976229ee113426d617ef7a1a8cb8f80f7b7bca6860a167b1ca155b891415b.lt.png new file mode 100644 index 00000000..584984f7 Binary files /dev/null and b/translated_images/20-DataScience-RealWorld.976976229ee113426d617ef7a1a8cb8f80f7b7bca6860a167b1ca155b891415b.lt.png differ diff --git a/translated_images/20-DataScience-Research.da434814c51b4ef8cd15a8efa161d066eff282b59286a2ab33b834434df96db9.lt.png b/translated_images/20-DataScience-Research.da434814c51b4ef8cd15a8efa161d066eff282b59286a2ab33b834434df96db9.lt.png new file mode 100644 index 00000000..3c2694ee Binary files /dev/null and b/translated_images/20-DataScience-Research.da434814c51b4ef8cd15a8efa161d066eff282b59286a2ab33b834434df96db9.lt.png differ diff --git a/translated_images/20-DataScience-Sustainability.d4097bc684431da6b8f4b5f60896b6db7ca915f2366774416b2cd9939609a0c4.lt.png b/translated_images/20-DataScience-Sustainability.d4097bc684431da6b8f4b5f60896b6db7ca915f2366774416b2cd9939609a0c4.lt.png new file mode 100644 index 00000000..0094de80 Binary files /dev/null and b/translated_images/20-DataScience-Sustainability.d4097bc684431da6b8f4b5f60896b6db7ca915f2366774416b2cd9939609a0c4.lt.png differ diff --git a/translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.lt.png b/translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.lt.png new file mode 100644 index 00000000..9876f25c Binary files /dev/null and b/translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.lt.png differ diff --git a/translated_images/2D.b3342157139dd804f8fb5adc58721f77e59273fc980175b4ef735ec18686713c.lt.png b/translated_images/2D.b3342157139dd804f8fb5adc58721f77e59273fc980175b4ef735ec18686713c.lt.png new file mode 100644 index 00000000..3a85f737 Binary files /dev/null and b/translated_images/2D.b3342157139dd804f8fb5adc58721f77e59273fc980175b4ef735ec18686713c.lt.png differ diff --git a/translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.lt.png b/translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.lt.png new file mode 100644 index 00000000..ac777c30 Binary files /dev/null and b/translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.lt.png differ diff --git a/translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.lt.png b/translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.lt.png new file mode 100644 index 00000000..f3c88464 Binary files /dev/null and b/translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.lt.png differ diff --git a/translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.lt.png b/translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.lt.png new file mode 100644 index 00000000..f3c88464 Binary files /dev/null and b/translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.lt.png differ diff --git a/translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.lt.png b/translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.lt.png new file mode 100644 index 00000000..5240c9fe Binary files /dev/null and b/translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.lt.png differ diff --git a/translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.lt.png b/translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.lt.png new file mode 100644 index 00000000..21909ee7 Binary files /dev/null and b/translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.lt.png differ diff --git a/translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.lt.png b/translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.lt.png new file mode 100644 index 00000000..17a548f6 Binary files /dev/null and b/translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.lt.png differ diff --git a/translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.lt.png b/translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.lt.png new file mode 100644 index 00000000..b4d00e30 Binary files /dev/null and b/translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.lt.png differ diff --git a/translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.lt.png b/translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.lt.png new file mode 100644 index 00000000..29fe775b Binary files /dev/null and b/translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.lt.png differ diff --git a/translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.lt.png b/translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.lt.png new file mode 100644 index 00000000..1d224feb Binary files /dev/null and b/translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.lt.png differ diff --git a/translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.lt.png b/translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.lt.png new file mode 100644 index 00000000..1ac35eeb Binary files /dev/null and b/translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.lt.png differ diff --git a/translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.lt.png b/translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.lt.png new file mode 100644 index 00000000..48d741d1 Binary files /dev/null and b/translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.lt.png differ diff --git a/translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.lt.png b/translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.lt.png new file mode 100644 index 00000000..04df7172 Binary files /dev/null and b/translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.lt.png differ diff --git a/translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.lt.png b/translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.lt.png new file mode 100644 index 00000000..6fcc0ee4 Binary files /dev/null and b/translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.lt.png differ diff --git a/translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.lt.png b/translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.lt.png new file mode 100644 index 00000000..d640f4df Binary files /dev/null and b/translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.lt.png differ diff --git a/translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.lt.jpg b/translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.lt.jpg new file mode 100644 index 00000000..af98fdc9 Binary files /dev/null and b/translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.lt.jpg differ diff --git a/translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.lt.jpg b/translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.lt.jpg new file mode 100644 index 00000000..af98fdc9 Binary files /dev/null and b/translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.lt.jpg differ diff --git a/translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.lt.jpg b/translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.lt.jpg new file mode 100644 index 00000000..82b32651 Binary files /dev/null and b/translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.lt.jpg differ diff --git a/translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.lt.jpg b/translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.lt.jpg new file mode 100644 index 00000000..82b32651 Binary files /dev/null and b/translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.lt.jpg differ diff --git a/translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.lt.jpg b/translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.lt.jpg new file mode 100644 index 00000000..353c99c3 Binary files /dev/null and b/translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.lt.jpg differ diff --git a/translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.lt.jpg b/translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.lt.jpg new file mode 100644 index 00000000..eac8db81 Binary files /dev/null and b/translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.lt.jpg differ diff --git a/translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.lt.jpg b/translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.lt.jpg new file mode 100644 index 00000000..032326e9 Binary files /dev/null and b/translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.lt.jpg differ diff --git a/translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.lt.png b/translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.lt.png new file mode 100644 index 00000000..bf35df46 Binary files /dev/null and b/translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.lt.png differ diff --git a/translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.lt.png b/translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.lt.png new file mode 100644 index 00000000..7e534dd5 Binary files /dev/null and b/translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.lt.png differ diff --git a/translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.lt.png b/translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.lt.png new file mode 100644 index 00000000..fd2f68d8 Binary files /dev/null and b/translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.lt.png differ diff --git a/translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.lt.png b/translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.lt.png new file mode 100644 index 00000000..55ef58eb Binary files /dev/null and b/translated_images/boxplot_explanation.4039b7de08780fd493ef798b41f7291d753f1f84de8955645f00c586e65f16a3.lt.png differ diff --git a/translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.lt.png b/translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.lt.png new file mode 100644 index 00000000..5a3bf662 Binary files /dev/null and b/translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.lt.png differ diff --git a/translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.lt.png b/translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.lt.png new file mode 100644 index 00000000..5a3bf662 Binary files /dev/null and b/translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.lt.png differ diff --git a/translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.lt.png b/translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.lt.png new file mode 100644 index 00000000..bcb81251 Binary files /dev/null and b/translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.lt.png differ diff --git a/translated_images/category-counts.abee8188c4c9b6f0b4e13e2920039c9fa5cc151031a5c28e5a5ff6fb8c072ab4.lt.png b/translated_images/category-counts.abee8188c4c9b6f0b4e13e2920039c9fa5cc151031a5c28e5a5ff6fb8c072ab4.lt.png new file mode 100644 index 00000000..6132710f Binary files /dev/null and b/translated_images/category-counts.abee8188c4c9b6f0b4e13e2920039c9fa5cc151031a5c28e5a5ff6fb8c072ab4.lt.png differ diff --git a/translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.lt.png b/translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.lt.png new file mode 100644 index 00000000..a70750f2 Binary files /dev/null and b/translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.lt.png differ diff --git a/translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.lt.png b/translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.lt.png new file mode 100644 index 00000000..ebacb9fc Binary files /dev/null and b/translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.lt.png differ diff --git a/translated_images/category-length.b0d9a0208a7b37136bed52d3abd90190543fbca94bde6f51652313cc6d017187.lt.png b/translated_images/category-length.b0d9a0208a7b37136bed52d3abd90190543fbca94bde6f51652313cc6d017187.lt.png new file mode 100644 index 00000000..bea2b83a Binary files /dev/null and b/translated_images/category-length.b0d9a0208a7b37136bed52d3abd90190543fbca94bde6f51652313cc6d017187.lt.png differ diff --git a/translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.lt.jpg b/translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.lt.jpg new file mode 100644 index 00000000..30a2ba6e Binary files /dev/null and b/translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.lt.jpg differ diff --git a/translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.lt.png b/translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.lt.png new file mode 100644 index 00000000..6c8a6035 Binary files /dev/null and b/translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.lt.png differ diff --git a/translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.lt.png b/translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.lt.png new file mode 100644 index 00000000..f0c1db26 Binary files /dev/null and b/translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.lt.png differ diff --git a/translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.lt.png b/translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.lt.png new file mode 100644 index 00000000..98a3a57e Binary files /dev/null and b/translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.lt.png differ diff --git a/translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.lt.png b/translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.lt.png new file mode 100644 index 00000000..2ca7d2ce Binary files /dev/null and b/translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.lt.png differ diff --git a/translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.lt.jpg b/translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.lt.jpg new file mode 100644 index 00000000..59186b72 Binary files /dev/null and b/translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.lt.jpg differ diff --git a/translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.lt.png b/translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.lt.png new file mode 100644 index 00000000..017d4dc1 Binary files /dev/null and b/translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.lt.png differ diff --git a/translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.lt.png b/translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.lt.png new file mode 100644 index 00000000..73a20095 Binary files /dev/null and b/translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.lt.png differ diff --git a/translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.lt.png b/translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.lt.png new file mode 100644 index 00000000..2bf07d27 Binary files /dev/null and b/translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.lt.png differ diff --git a/translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.lt.png b/translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.lt.png new file mode 100644 index 00000000..1dc9f6e1 Binary files /dev/null and b/translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.lt.png differ diff --git a/translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.lt.png b/translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.lt.png new file mode 100644 index 00000000..0f73dbc2 Binary files /dev/null and b/translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.lt.png differ diff --git a/translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.lt.png b/translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.lt.png new file mode 100644 index 00000000..687250a9 Binary files /dev/null and b/translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.lt.png differ diff --git a/translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.lt.png b/translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.lt.png new file mode 100644 index 00000000..c25d751e Binary files /dev/null and b/translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.lt.png differ diff --git a/translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.lt.png b/translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.lt.png new file mode 100644 index 00000000..a1570475 Binary files /dev/null and b/translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.lt.png differ diff --git a/translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.lt.jpg b/translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.lt.jpg new file mode 100644 index 00000000..54145b36 Binary files /dev/null and b/translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.lt.jpg differ diff --git a/translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.lt.png b/translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.lt.png new file mode 100644 index 00000000..7efefdff Binary files /dev/null and b/translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.lt.png differ diff --git a/translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.lt.jpg b/translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.lt.jpg new file mode 100644 index 00000000..8ccf135b Binary files /dev/null and b/translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.lt.jpg differ diff --git a/translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.lt.jpg b/translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.lt.jpg new file mode 100644 index 00000000..d623ac16 Binary files /dev/null and b/translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.lt.jpg differ diff --git a/translated_images/dataframe-1.caf409f0c688e84c85b793998b945f3cb66554e13dbb490d4a52f37909a41eb4.lt.png b/translated_images/dataframe-1.caf409f0c688e84c85b793998b945f3cb66554e13dbb490d4a52f37909a41eb4.lt.png new file mode 100644 index 00000000..5c436f8b Binary files /dev/null and b/translated_images/dataframe-1.caf409f0c688e84c85b793998b945f3cb66554e13dbb490d4a52f37909a41eb4.lt.png differ diff --git a/translated_images/datascienceinthecloud.59ffb059a670fb0a68fee3f0f2906239b25240a57c3990b8c0809c9c7703eabd.lt.jpg b/translated_images/datascienceinthecloud.59ffb059a670fb0a68fee3f0f2906239b25240a57c3990b8c0809c9c7703eabd.lt.jpg new file mode 100644 index 00000000..29ffb1ef Binary files /dev/null and b/translated_images/datascienceinthecloud.59ffb059a670fb0a68fee3f0f2906239b25240a57c3990b8c0809c9c7703eabd.lt.jpg differ diff --git a/translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.lt.png b/translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.lt.png new file mode 100644 index 00000000..6d34d8f1 Binary files /dev/null and b/translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.lt.png differ diff --git a/translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.lt.png b/translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.lt.png new file mode 100644 index 00000000..45ad241a Binary files /dev/null and b/translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.lt.png differ diff --git a/translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.lt.png b/translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.lt.png new file mode 100644 index 00000000..9fcba0fa Binary files /dev/null and b/translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.lt.png differ diff --git a/translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.lt.png b/translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.lt.png new file mode 100644 index 00000000..82be93a2 Binary files /dev/null and b/translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.lt.png differ diff --git a/translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.lt.png b/translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.lt.png new file mode 100644 index 00000000..98f17f6b Binary files /dev/null and b/translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.lt.png differ diff --git a/translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.lt.png b/translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.lt.png new file mode 100644 index 00000000..b9172ddf Binary files /dev/null and b/translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.lt.png differ diff --git a/translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.lt.png b/translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.lt.png new file mode 100644 index 00000000..ce3a3d40 Binary files /dev/null and b/translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.lt.png differ diff --git a/translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.lt.png b/translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.lt.png new file mode 100644 index 00000000..2c6a722a Binary files /dev/null and b/translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.lt.png differ diff --git a/translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.lt.png b/translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.lt.png new file mode 100644 index 00000000..e4c452db Binary files /dev/null and b/translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.lt.png differ diff --git a/translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.lt.png b/translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.lt.png new file mode 100644 index 00000000..1a70964f Binary files /dev/null and b/translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.lt.png differ diff --git a/translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.lt.png b/translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.lt.png new file mode 100644 index 00000000..c5179ea1 Binary files /dev/null and b/translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.lt.png differ diff --git a/translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.lt.png b/translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.lt.png new file mode 100644 index 00000000..4c574f69 Binary files /dev/null and b/translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.lt.png differ diff --git a/translated_images/dist1.0010100b00231819be7540ba60a4909cbda8a1a83c1cc1ceb4d4e8a5bcb325f4.lt.png b/translated_images/dist1.0010100b00231819be7540ba60a4909cbda8a1a83c1cc1ceb4d4e8a5bcb325f4.lt.png new file mode 100644 index 00000000..ccc99767 Binary files /dev/null and b/translated_images/dist1.0010100b00231819be7540ba60a4909cbda8a1a83c1cc1ceb4d4e8a5bcb325f4.lt.png differ diff --git a/translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.lt.png b/translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.lt.png new file mode 100644 index 00000000..907ffdf3 Binary files /dev/null and b/translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.lt.png differ diff --git a/translated_images/dist2.c398bfd5320401b924305d2cc20a6c0f6670455e61abaf827a359d07b4248969.lt.png b/translated_images/dist2.c398bfd5320401b924305d2cc20a6c0f6670455e61abaf827a359d07b4248969.lt.png new file mode 100644 index 00000000..f2d0f317 Binary files /dev/null and b/translated_images/dist2.c398bfd5320401b924305d2cc20a6c0f6670455e61abaf827a359d07b4248969.lt.png differ diff --git a/translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.lt.png b/translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.lt.png new file mode 100644 index 00000000..57296f0a Binary files /dev/null and b/translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.lt.png differ diff --git a/translated_images/dist3.ad4d9658559690f561d0ac76bfee5843cce918f9c83805be66e0790ac824ef07.lt.png b/translated_images/dist3.ad4d9658559690f561d0ac76bfee5843cce918f9c83805be66e0790ac824ef07.lt.png new file mode 100644 index 00000000..e48b0151 Binary files /dev/null and b/translated_images/dist3.ad4d9658559690f561d0ac76bfee5843cce918f9c83805be66e0790ac824ef07.lt.png differ diff --git a/translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.lt.png b/translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.lt.png new file mode 100644 index 00000000..d4fa0d95 Binary files /dev/null and b/translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.lt.png differ diff --git a/translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.lt.png b/translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.lt.png new file mode 100644 index 00000000..80f0f090 Binary files /dev/null and b/translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.lt.png differ diff --git a/translated_images/document-db.ddeec48c6dc9e5fd1c905a6de302537f57a2e74c82753baeaa27e992512282b9.lt.png b/translated_images/document-db.ddeec48c6dc9e5fd1c905a6de302537f57a2e74c82753baeaa27e992512282b9.lt.png new file mode 100644 index 00000000..b6f13f9c Binary files /dev/null and b/translated_images/document-db.ddeec48c6dc9e5fd1c905a6de302537f57a2e74c82753baeaa27e992512282b9.lt.png differ diff --git a/translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.lt.png b/translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.lt.png new file mode 100644 index 00000000..dbc83543 Binary files /dev/null and b/translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.lt.png differ diff --git a/translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.lt.png b/translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.lt.png new file mode 100644 index 00000000..47f90901 Binary files /dev/null and b/translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.lt.png differ diff --git a/translated_images/donut.f016d7be7f08c8f8c49e9217b2ee05e952ecd1bd8c6f5c49466080f4991ad790.lt.png b/translated_images/donut.f016d7be7f08c8f8c49e9217b2ee05e952ecd1bd8c6f5c49466080f4991ad790.lt.png new file mode 100644 index 00000000..e109b4c9 Binary files /dev/null and b/translated_images/donut.f016d7be7f08c8f8c49e9217b2ee05e952ecd1bd8c6f5c49466080f4991ad790.lt.png differ diff --git a/translated_images/ds-for-beginners.d01930c9193ef5228caf620d5462a4189dc1a551e34d121eb777e0463889d7a5.lt.png b/translated_images/ds-for-beginners.d01930c9193ef5228caf620d5462a4189dc1a551e34d121eb777e0463889d7a5.lt.png new file mode 100644 index 00000000..36e330b1 Binary files /dev/null and b/translated_images/ds-for-beginners.d01930c9193ef5228caf620d5462a4189dc1a551e34d121eb777e0463889d7a5.lt.png differ diff --git a/translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png b/translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png new file mode 100644 index 00000000..223e3286 Binary files /dev/null and b/translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png differ diff --git a/translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.lt.png b/translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.lt.png new file mode 100644 index 00000000..94c5f56b Binary files /dev/null and b/translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.lt.png differ diff --git a/translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.lt.png b/translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.lt.png new file mode 100644 index 00000000..92227948 Binary files /dev/null and b/translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.lt.png differ diff --git a/translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.lt.png b/translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.lt.png new file mode 100644 index 00000000..9773f440 Binary files /dev/null and b/translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.lt.png differ diff --git a/translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.lt.png b/translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.lt.png new file mode 100644 index 00000000..325f25df Binary files /dev/null and b/translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.lt.png differ diff --git a/translated_images/favicon.37b561214b36d454f9fd1f725d77f310fe256eb88f2a0ae08b9cb18aeb30650c.lt.png b/translated_images/favicon.37b561214b36d454f9fd1f725d77f310fe256eb88f2a0ae08b9cb18aeb30650c.lt.png new file mode 100644 index 00000000..26e0ae43 Binary files /dev/null and b/translated_images/favicon.37b561214b36d454f9fd1f725d77f310fe256eb88f2a0ae08b9cb18aeb30650c.lt.png differ diff --git a/translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.lt.png b/translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.lt.png new file mode 100644 index 00000000..dcef57ff Binary files /dev/null and b/translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.lt.png differ diff --git a/translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.lt.png b/translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.lt.png new file mode 100644 index 00000000..19b49a21 Binary files /dev/null and b/translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.lt.png differ diff --git a/translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.lt.png b/translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.lt.png new file mode 100644 index 00000000..bd4bd582 Binary files /dev/null and b/translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.lt.png differ diff --git a/translated_images/full-data-bar.a0b37da71a6cd23610c83d1e737c4f0aff0524724ed527b9bed12c0bac5f2f07.lt.png b/translated_images/full-data-bar.a0b37da71a6cd23610c83d1e737c4f0aff0524724ed527b9bed12c0bac5f2f07.lt.png new file mode 100644 index 00000000..1ea29bd8 Binary files /dev/null and b/translated_images/full-data-bar.a0b37da71a6cd23610c83d1e737c4f0aff0524724ed527b9bed12c0bac5f2f07.lt.png differ diff --git a/translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.lt.png b/translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.lt.png new file mode 100644 index 00000000..b8291095 Binary files /dev/null and b/translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.lt.png differ diff --git a/translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.lt.png b/translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.lt.png new file mode 100644 index 00000000..6ac7d2a5 Binary files /dev/null and b/translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.lt.png differ diff --git a/translated_images/height-boxplot.ccb66b2848b5f51cd28e3acf89512ac7101ad36d0c07fc7b93762c9dcf368d7d.lt.png b/translated_images/height-boxplot.ccb66b2848b5f51cd28e3acf89512ac7101ad36d0c07fc7b93762c9dcf368d7d.lt.png new file mode 100644 index 00000000..09dcc959 Binary files /dev/null and b/translated_images/height-boxplot.ccb66b2848b5f51cd28e3acf89512ac7101ad36d0c07fc7b93762c9dcf368d7d.lt.png differ diff --git a/translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.lt.png b/translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.lt.png new file mode 100644 index 00000000..c19f0d43 Binary files /dev/null and b/translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.lt.png differ diff --git a/translated_images/histogram-conservation.13b3542e7784e41585a3763ba6dfbfaa2a372bcd9edae90675ad18f7b13fa7e3.lt.png b/translated_images/histogram-conservation.13b3542e7784e41585a3763ba6dfbfaa2a372bcd9edae90675ad18f7b13fa7e3.lt.png new file mode 100644 index 00000000..d31d6451 Binary files /dev/null and b/translated_images/histogram-conservation.13b3542e7784e41585a3763ba6dfbfaa2a372bcd9edae90675ad18f7b13fa7e3.lt.png differ diff --git a/translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.lt.png b/translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.lt.png new file mode 100644 index 00000000..63c0a010 Binary files /dev/null and b/translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.lt.png differ diff --git a/translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.lt.png b/translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.lt.png new file mode 100644 index 00000000..fb72f266 Binary files /dev/null and b/translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.lt.png differ diff --git a/translated_images/labeled-wingspan.900ffedd7e3ec6de17070dac63c1cf624cb083fb5b6a157bbb1d60f327f331aa.lt.png b/translated_images/labeled-wingspan.900ffedd7e3ec6de17070dac63c1cf624cb083fb5b6a157bbb1d60f327f331aa.lt.png new file mode 100644 index 00000000..249a087e Binary files /dev/null and b/translated_images/labeled-wingspan.900ffedd7e3ec6de17070dac63c1cf624cb083fb5b6a157bbb1d60f327f331aa.lt.png differ diff --git a/translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.lt.png b/translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.lt.png new file mode 100644 index 00000000..f5dea21b Binary files /dev/null and b/translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.lt.png differ diff --git a/translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.lt.png b/translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.lt.png new file mode 100644 index 00000000..3a1e3bf1 Binary files /dev/null and b/translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.lt.png differ diff --git a/translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.lt.png b/translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.lt.png new file mode 100644 index 00000000..917df1f9 Binary files /dev/null and b/translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.lt.png differ diff --git a/translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.lt.png b/translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.lt.png new file mode 100644 index 00000000..476f64b8 Binary files /dev/null and b/translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.lt.png differ diff --git a/translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.lt.png b/translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.lt.png new file mode 100644 index 00000000..b543cc10 Binary files /dev/null and b/translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.lt.png differ diff --git a/translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.lt.png b/translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.lt.png new file mode 100644 index 00000000..01755151 Binary files /dev/null and b/translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.lt.png differ diff --git a/translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.lt.png b/translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.lt.png new file mode 100644 index 00000000..2b7963e8 Binary files /dev/null and b/translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.lt.png differ diff --git a/translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.lt.png b/translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.lt.png new file mode 100644 index 00000000..4223a9bd Binary files /dev/null and b/translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.lt.png differ diff --git a/translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.lt.png b/translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.lt.png new file mode 100644 index 00000000..96713a66 Binary files /dev/null and b/translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.lt.png differ diff --git a/translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.lt.png b/translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.lt.png new file mode 100644 index 00000000..b51de881 Binary files /dev/null and b/translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.lt.png differ diff --git a/translated_images/max-wingspan-labels.46f0cc3c48edd4e00e6ab6d8797e2717a33b4b94d97af3539c5442a1299d03c1.lt.png b/translated_images/max-wingspan-labels.46f0cc3c48edd4e00e6ab6d8797e2717a33b4b94d97af3539c5442a1299d03c1.lt.png new file mode 100644 index 00000000..0c37ab05 Binary files /dev/null and b/translated_images/max-wingspan-labels.46f0cc3c48edd4e00e6ab6d8797e2717a33b4b94d97af3539c5442a1299d03c1.lt.png differ diff --git a/translated_images/max-wingspan.0b8d0858436414aa1c53556bfd07e7d4267120782d236abe10e0473252de0760.lt.png b/translated_images/max-wingspan.0b8d0858436414aa1c53556bfd07e7d4267120782d236abe10e0473252de0760.lt.png new file mode 100644 index 00000000..72f5a3e4 Binary files /dev/null and b/translated_images/max-wingspan.0b8d0858436414aa1c53556bfd07e7d4267120782d236abe10e0473252de0760.lt.png differ diff --git a/translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.lt.png b/translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.lt.png new file mode 100644 index 00000000..f82e3cf4 Binary files /dev/null and b/translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.lt.png differ diff --git a/translated_images/new-container.650e10c7a20a5f83824264bfaa0f818d8c203f98136f4647385bd0c369b5035b.lt.png b/translated_images/new-container.650e10c7a20a5f83824264bfaa0f818d8c203f98136f4647385bd0c369b5035b.lt.png new file mode 100644 index 00000000..9858471f Binary files /dev/null and b/translated_images/new-container.650e10c7a20a5f83824264bfaa0f818d8c203f98136f4647385bd0c369b5035b.lt.png differ diff --git a/translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.lt.png b/translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.lt.png new file mode 100644 index 00000000..3e9ab8ac Binary files /dev/null and b/translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.lt.png differ diff --git a/translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.lt.png b/translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.lt.png new file mode 100644 index 00000000..8a356280 Binary files /dev/null and b/translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.lt.png differ diff --git a/translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.lt.png b/translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.lt.png new file mode 100644 index 00000000..4e0a9d53 Binary files /dev/null and b/translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.lt.png differ diff --git a/translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.lt.png b/translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.lt.png new file mode 100644 index 00000000..00145d0b Binary files /dev/null and b/translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.lt.png differ diff --git a/translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.lt.png b/translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.lt.png new file mode 100644 index 00000000..cc6d3e17 Binary files /dev/null and b/translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.lt.png differ diff --git a/translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.lt.png b/translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.lt.png new file mode 100644 index 00000000..527784e1 Binary files /dev/null and b/translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.lt.png differ diff --git a/translated_images/pie1.8f6a8bfac96de60e38ced1a1ac39fd9caafa95142b3bbcb65d540bcad678806f.lt.png b/translated_images/pie1.8f6a8bfac96de60e38ced1a1ac39fd9caafa95142b3bbcb65d540bcad678806f.lt.png new file mode 100644 index 00000000..2e049267 Binary files /dev/null and b/translated_images/pie1.8f6a8bfac96de60e38ced1a1ac39fd9caafa95142b3bbcb65d540bcad678806f.lt.png differ diff --git a/translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.lt.png b/translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.lt.png new file mode 100644 index 00000000..207b0c2c Binary files /dev/null and b/translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.lt.png differ diff --git a/translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.lt.png b/translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.lt.png new file mode 100644 index 00000000..276636a0 Binary files /dev/null and b/translated_images/probability-density.a8aad29f17a14afb519b407c7b6edeb9f3f9aa5f69c9e6d9445f604e5f8a2bf7.lt.png differ diff --git a/translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png b/translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png new file mode 100644 index 00000000..ce8b34e0 Binary files /dev/null and b/translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png differ diff --git a/translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.lt.png b/translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.lt.png new file mode 100644 index 00000000..ce8b34e0 Binary files /dev/null and b/translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.lt.png differ diff --git a/translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.lt.png b/translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.lt.png new file mode 100644 index 00000000..e439a363 Binary files /dev/null and b/translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.lt.png differ diff --git a/translated_images/scatter.520a43eceb46dbcb96899da0f580f3f3615cf9dba38c9c84e52ebc6b4b48e3ff.lt.png b/translated_images/scatter.520a43eceb46dbcb96899da0f580f3f3615cf9dba38c9c84e52ebc6b4b48e3ff.lt.png new file mode 100644 index 00000000..4b96709c Binary files /dev/null and b/translated_images/scatter.520a43eceb46dbcb96899da0f580f3f3615cf9dba38c9c84e52ebc6b4b48e3ff.lt.png differ diff --git a/translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.lt.png b/translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.lt.png new file mode 100644 index 00000000..da6a578b Binary files /dev/null and b/translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.lt.png differ diff --git a/translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.lt.png b/translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.lt.png new file mode 100644 index 00000000..ca93179a Binary files /dev/null and b/translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.lt.png differ diff --git a/translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.lt.png b/translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.lt.png new file mode 100644 index 00000000..cfc20d3d Binary files /dev/null and b/translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.lt.png differ diff --git a/translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.lt.png b/translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.lt.png new file mode 100644 index 00000000..dbc8eb5a Binary files /dev/null and b/translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.lt.png differ diff --git a/translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.lt.png b/translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.lt.png new file mode 100644 index 00000000..4fa47953 Binary files /dev/null and b/translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.lt.png differ diff --git a/translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.lt.png b/translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.lt.png new file mode 100644 index 00000000..478d04dd Binary files /dev/null and b/translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.lt.png differ diff --git a/translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.lt.png b/translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.lt.png new file mode 100644 index 00000000..83214ec5 Binary files /dev/null and b/translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.lt.png differ diff --git a/translated_images/scatterplot-wingspan.bdab448702939bb32a0d3522a9fcd8aa36d5f428aca5e8655a677eb6d0597111.lt.png b/translated_images/scatterplot-wingspan.bdab448702939bb32a0d3522a9fcd8aa36d5f428aca5e8655a677eb6d0597111.lt.png new file mode 100644 index 00000000..420674b6 Binary files /dev/null and b/translated_images/scatterplot-wingspan.bdab448702939bb32a0d3522a9fcd8aa36d5f428aca5e8655a677eb6d0597111.lt.png differ diff --git a/translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.lt.png b/translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.lt.png new file mode 100644 index 00000000..d565bd9e Binary files /dev/null and b/translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.lt.png differ diff --git a/translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.lt.png b/translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.lt.png new file mode 100644 index 00000000..d1421805 Binary files /dev/null and b/translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.lt.png differ diff --git a/translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.lt.png b/translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.lt.png new file mode 100644 index 00000000..a41a7369 Binary files /dev/null and b/translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.lt.png differ diff --git a/translated_images/superimposed.8b5bd0e8825d9c5c06e2b15d61e3f7ebdd36678f2bdfa1e74c57e24e4486885a.lt.png b/translated_images/superimposed.8b5bd0e8825d9c5c06e2b15d61e3f7ebdd36678f2bdfa1e74c57e24e4486885a.lt.png new file mode 100644 index 00000000..462346a6 Binary files /dev/null and b/translated_images/superimposed.8b5bd0e8825d9c5c06e2b15d61e3f7ebdd36678f2bdfa1e74c57e24e4486885a.lt.png differ diff --git a/translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.lt.png b/translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.lt.png new file mode 100644 index 00000000..aa6b1803 Binary files /dev/null and b/translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.lt.png differ diff --git a/translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.lt.png b/translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.lt.png new file mode 100644 index 00000000..bd4ac9d5 Binary files /dev/null and b/translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.lt.png differ diff --git a/translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.lt.png b/translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.lt.png new file mode 100644 index 00000000..db271f2e Binary files /dev/null and b/translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.lt.png differ diff --git a/translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.lt.png b/translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.lt.png new file mode 100644 index 00000000..dc0d4d90 Binary files /dev/null and b/translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.lt.png differ diff --git a/translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.lt.png b/translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.lt.png new file mode 100644 index 00000000..a60f3d35 Binary files /dev/null and b/translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.lt.png differ diff --git a/translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.lt.png b/translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.lt.png new file mode 100644 index 00000000..a60f3d35 Binary files /dev/null and b/translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.lt.png differ diff --git a/translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.lt.png b/translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.lt.png new file mode 100644 index 00000000..e541f04f Binary files /dev/null and b/translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.lt.png differ diff --git a/translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.lt.png b/translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.lt.png new file mode 100644 index 00000000..e573b7a7 Binary files /dev/null and b/translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.lt.png differ diff --git a/translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.lt.png b/translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.lt.png new file mode 100644 index 00000000..3871f126 Binary files /dev/null and b/translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.lt.png differ diff --git a/translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.lt.png b/translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.lt.png new file mode 100644 index 00000000..9f233247 Binary files /dev/null and b/translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.lt.png differ diff --git a/translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.lt.png b/translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.lt.png new file mode 100644 index 00000000..944da833 Binary files /dev/null and b/translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.lt.png differ diff --git a/translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.lt.png b/translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.lt.png new file mode 100644 index 00000000..c3128ec7 Binary files /dev/null and b/translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.lt.png differ diff --git a/translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.lt.png b/translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.lt.png new file mode 100644 index 00000000..ea90e026 Binary files /dev/null and b/translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.lt.png differ diff --git a/translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.lt.png b/translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.lt.png new file mode 100644 index 00000000..4ff1357e Binary files /dev/null and b/translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.lt.png differ diff --git a/translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.lt.png b/translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.lt.png new file mode 100644 index 00000000..1c8709a7 Binary files /dev/null and b/translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.lt.png differ diff --git a/translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.lt.png b/translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.lt.png new file mode 100644 index 00000000..2e537f76 Binary files /dev/null and b/translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.lt.png differ diff --git a/translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.lt.png b/translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.lt.png new file mode 100644 index 00000000..8de04dd5 Binary files /dev/null and b/translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.lt.png differ diff --git a/translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.lt.png b/translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.lt.png new file mode 100644 index 00000000..8266e0ea Binary files /dev/null and b/translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.lt.png differ diff --git a/translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.lt.png b/translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.lt.png new file mode 100644 index 00000000..583bfda2 Binary files /dev/null and b/translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.lt.png differ diff --git a/translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.lt.png b/translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.lt.png new file mode 100644 index 00000000..2f7274ef Binary files /dev/null and b/translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.lt.png differ diff --git a/translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.lt.png b/translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.lt.png new file mode 100644 index 00000000..381a5f1e Binary files /dev/null and b/translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.lt.png differ diff --git a/translations/lt/1-Introduction/01-defining-data-science/README.md b/translations/lt/1-Introduction/01-defining-data-science/README.md new file mode 100644 index 00000000..b5c33221 --- /dev/null +++ b/translations/lt/1-Introduction/01-defining-data-science/README.md @@ -0,0 +1,80 @@ + +## Duomenų tipai + +Kaip jau minėjome, duomenys yra visur. Tereikia juos tinkamai užfiksuoti! Naudinga atskirti **struktūrizuotus** ir **nestruktūrizuotus** duomenis. Pirmieji paprastai pateikiami gerai struktūrizuota forma, dažnai kaip lentelė ar lentelių rinkinys, o antrieji yra tiesiog failų rinkinys. Kartais taip pat galime kalbėti apie **pusiau struktūrizuotus** duomenis, kurie turi tam tikrą struktūrą, tačiau ji gali labai skirtis. + +| Struktūrizuoti | Pusiau struktūrizuoti | Nestruktūrizuoti | +| ---------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------- | --------------------------------------- | +| Žmonių sąrašas su jų telefono numeriais | Vikipedijos puslapiai su nuorodomis | Enciklopedijos „Britannica“ tekstas | +| Pastato kambarių temperatūra kas minutę per pastaruosius 20 metų | Mokslinių straipsnių rinkinys JSON formatu su autoriais, publikavimo data ir santrauka | Failų saugykla su įmonės dokumentais | +| Duomenys apie amžių ir lytį visų žmonių, įeinančių į pastatą | Interneto puslapiai | Neapdorotas vaizdo įrašas iš stebėjimo kameros | + +## Iš kur gauti duomenų + +Yra daugybė galimų duomenų šaltinių, ir visų jų išvardyti neįmanoma! Tačiau paminėkime keletą tipinių vietų, kur galite rasti duomenų: + +* **Struktūrizuoti** + - **Daiktų internetas** (IoT), įskaitant duomenis iš įvairių jutiklių, tokių kaip temperatūros ar slėgio jutikliai, suteikia daug naudingos informacijos. Pavyzdžiui, jei biuro pastatas aprūpintas IoT jutikliais, galime automatiškai valdyti šildymą ir apšvietimą, kad sumažintume išlaidas. + - **Apklausos**, kurias prašome vartotojų užpildyti po pirkimo ar apsilankymo svetainėje. + - **Elgsenos analizė** gali padėti suprasti, kaip giliai vartotojas naršo svetainėje ir kokia yra tipinė priežastis, kodėl jis ją palieka. +* **Nestruktūrizuoti** + - **Tekstai** gali būti turtingas įžvalgų šaltinis, pavyzdžiui, bendras **nuotaikos įvertinimas** arba raktinių žodžių ir semantinės prasmės išgavimas. + - **Vaizdai** ar **vaizdo įrašai**. Vaizdo įrašas iš stebėjimo kameros gali būti naudojamas eismo intensyvumui kelyje įvertinti ir informuoti žmones apie galimus kamščius. + - Interneto serverio **žurnalai** gali padėti suprasti, kurie mūsų svetainės puslapiai lankomi dažniausiai ir kiek laiko juose praleidžiama. +* **Pusiau struktūrizuoti** + - **Socialinių tinklų** grafai gali būti puikūs duomenų šaltiniai apie vartotojų asmenybes ir potencialų efektyvumą skleidžiant informaciją. + - Kai turime daugybę nuotraukų iš vakarėlio, galime bandyti išgauti **grupės dinamikos** duomenis, sudarydami žmonių, kurie fotografavosi kartu, grafą. + +Žinodami įvairius galimus duomenų šaltinius, galite pagalvoti apie skirtingus scenarijus, kur duomenų mokslo metodai gali būti pritaikyti situacijai geriau suprasti ir verslo procesams tobulinti. + +## Ką galima daryti su duomenimis + +Duomenų moksle mes koncentruojamės į šiuos duomenų kelionės etapus: + +Žinoma, priklausomai nuo konkrečių duomenų, kai kurie etapai gali būti praleisti (pvz., kai jau turime duomenis duomenų bazėje arba kai nereikia modelio mokymo), o kai kurie etapai gali būti kartojami kelis kartus (pvz., duomenų apdorojimas). + +## Skaitmenizacija ir skaitmeninė transformacija + +Per pastarąjį dešimtmetį daugelis įmonių pradėjo suprasti duomenų svarbą priimant verslo sprendimus. Norint pritaikyti duomenų mokslo principus verslo valdymui, pirmiausia reikia surinkti tam tikrus duomenis, t. y. verslo procesus paversti skaitmenine forma. Tai vadinama **skaitmenizacija**. Duomenų mokslo metodų taikymas šiems duomenims sprendimams priimti gali reikšmingai padidinti produktyvumą (ar net pakeisti verslo kryptį), ir tai vadinama **skaitmenine transformacija**. + +Pavyzdžiui, tarkime, turime duomenų mokslo kursą (kaip šis), kurį pristatome internetu studentams, ir norime jį patobulinti naudodami duomenų mokslą. Kaip tai galime padaryti? + +Galime pradėti klausdami: „Ką galima skaitmenizuoti?“ Paprasčiausias būdas būtų matuoti, kiek laiko kiekvienas studentas užtrunka baigdamas kiekvieną modulį, ir įvertinti įgytas žinias, pateikiant daugybinio pasirinkimo testą kiekvieno modulio pabaigoje. Apskaičiuodami vidutinį užbaigimo laiką visiems studentams, galime nustatyti, kurie moduliai studentams kelia daugiausia sunkumų, ir dirbti juos supaprastinant. +Galite teigti, kad toks požiūris nėra idealus, nes moduliai gali būti skirtingo ilgio. Tikriausiai būtų teisingiau laiką padalyti iš modulio ilgio (simbolių skaičiumi) ir palyginti šias reikšmes vietoj to. +Kai pradedame analizuoti daugybinio pasirinkimo testų rezultatus, galime pabandyti nustatyti, su kokiomis sąvokomis studentams sunkiausia susidoroti, ir naudoti šią informaciją turiniui tobulinti. Tam reikia sukurti testus taip, kad kiekvienas klausimas būtų susietas su tam tikra sąvoka ar žinių dalimi. + +Jei norime eiti dar sudėtingesniu keliu, galime sudaryti grafiką, kuriame būtų pavaizduotas laikas, praleistas kiekviename modulyje, palyginti su studentų amžiaus kategorija. Galime pastebėti, kad kai kurioms amžiaus grupėms užtrunka neproporcingai ilgai užbaigti modulį arba kad studentai meta mokymąsi jo nebaigę. Tai gali padėti pateikti amžiaus rekomendacijas moduliui ir sumažinti žmonių nusivylimą dėl neteisingų lūkesčių. + +## 🚀 Iššūkis + +Šiame iššūkyje bandysime rasti sąvokas, susijusias su duomenų mokslo sritimi, analizuodami tekstus. Paimsime Vikipedijos straipsnį apie duomenų mokslą, atsisiųsime ir apdorosime tekstą, o tada sukursime žodžių debesį, panašų į šį: + +![Žodžių debesis apie duomenų mokslą](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.lt.png) + +Apsilankykite [`notebook.ipynb`](../../../../../../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore'), kad peržiūrėtumėte kodą. Taip pat galite paleisti kodą ir pamatyti, kaip jis realiuoju laiku atlieka visus duomenų transformavimus. + +> Jei nežinote, kaip paleisti kodą Jupyter užrašinėje, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/1) + +## Užduotys + +* **Užduotis 1**: Pakeiskite aukščiau pateiktą kodą, kad rastumėte susijusias sąvokas **Didžiųjų duomenų** ir **Mašininio mokymosi** srityse. +* **Užduotis 2**: [Pagalvokite apie duomenų mokslo scenarijus](assignment.md) + +## Kreditas + +Šią pamoką su ♥️ parengė [Dmitry Soshnikov](http://soshnikov.com) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/01-defining-data-science/assignment.md b/translations/lt/1-Introduction/01-defining-data-science/assignment.md new file mode 100644 index 00000000..774df6d7 --- /dev/null +++ b/translations/lt/1-Introduction/01-defining-data-science/assignment.md @@ -0,0 +1,46 @@ + +# Užduotis: Duomenų mokslo scenarijai + +Šioje pirmoje užduotyje prašome pagalvoti apie realaus gyvenimo procesą ar problemą skirtingose problemų srityse ir kaip galite ją patobulinti naudodami duomenų mokslo procesą. Pagalvokite apie šiuos klausimus: + +1. Kokius duomenis galite surinkti? +1. Kaip juos surinktumėte? +1. Kaip saugotumėte duomenis? Koks tikėtinas duomenų kiekis? +1. Kokias įžvalgas galėtumėte gauti iš šių duomenų? Kokius sprendimus galėtume priimti remdamiesi šiais duomenimis? + +Pabandykite pagalvoti apie 3 skirtingas problemas/procesus ir aprašykite kiekvieną iš aukščiau pateiktų punktų kiekvienai problemų sričiai. + +Štai keletas problemų sričių ir klausimų, kurie gali padėti pradėti mąstyti: + +1. Kaip galite naudoti duomenis, kad pagerintumėte vaikų mokymosi procesą mokyklose? +1. Kaip galite naudoti duomenis, kad kontroliuotumėte vakcinaciją pandemijos metu? +1. Kaip galite naudoti duomenis, kad užtikrintumėte savo produktyvumą darbe? + +## Instrukcijos + +Užpildykite šią lentelę (jei reikia, pakeiskite siūlomas problemų sritis savo idėjomis): + +| Problemų sritis | Problema | Kokius duomenis rinkti | Kaip saugoti duomenis | Kokias įžvalgas/sprendimus galime priimti | +|------------------|----------|------------------------|-----------------------|------------------------------------------| +| Švietimas | | | | | +| Vakcinacija | | | | | +| Produktyvumas | | | | | + +## Vertinimo kriterijai + +Pavyzdingas | Tinkamas | Reikia patobulinimų +--- | --- | -- | +Gebėta nustatyti pagrįstus duomenų šaltinius, duomenų saugojimo būdus ir galimas įžvalgas/sprendimus visoms problemų sritims | Kai kurie sprendimo aspektai nėra detalizuoti, duomenų saugojimas neaptartas, aprašytos bent 2 problemų sritys | Aprašytos tik dalys duomenų sprendimo, apsvarstyta tik viena problemų sritis. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/01-defining-data-science/solution/assignment.md b/translations/lt/1-Introduction/01-defining-data-science/solution/assignment.md new file mode 100644 index 00000000..18322651 --- /dev/null +++ b/translations/lt/1-Introduction/01-defining-data-science/solution/assignment.md @@ -0,0 +1,48 @@ + +# Užduotis: Duomenų mokslo scenarijai + +Šioje pirmoje užduotyje prašome pagalvoti apie realaus gyvenimo procesą ar problemą skirtingose srityse ir kaip ją būtų galima pagerinti naudojant duomenų mokslo procesą. Pagalvokite apie šiuos klausimus: + +1. Kokius duomenis galite surinkti? +1. Kaip juos surinktumėte? +1. Kaip saugotumėte duomenis? Koks tikėtinas duomenų kiekis? +1. Kokias įžvalgas galėtumėte gauti iš šių duomenų? Kokius sprendimus būtų galima priimti remiantis šiais duomenimis? + +Pabandykite apgalvoti 3 skirtingas problemas/procesus ir aprašykite kiekvieną iš aukščiau pateiktų punktų kiekvienai sričiai. + +Štai keletas sričių ir problemų, kurios gali padėti pradėti mąstyti: + +1. Kaip galite naudoti duomenis, kad pagerintumėte vaikų mokymosi procesą mokyklose? +1. Kaip galite naudoti duomenis, kad kontroliuotumėte vakcinaciją pandemijos metu? +1. Kaip galite naudoti duomenis, kad užtikrintumėte savo produktyvumą darbe? + +## Instrukcijos + +Užpildykite šią lentelę (jei reikia, pakeiskite siūlomas sritis savo idėjomis): + +| Sritis | Problema | Kokius duomenis rinkti | Kaip saugoti duomenis | Kokias įžvalgas/sprendimus galime priimti | +|--------|----------|------------------------|-----------------------|------------------------------------------| +| Švietimas | Universitete dažnai pastebimas mažas paskaitų lankomumas, ir turime hipotezę, kad studentai, kurie dažniau lankosi paskaitose, geriau laiko egzaminus. Norime paskatinti lankomumą ir patikrinti šią hipotezę. | Galime stebėti lankomumą naudodami saugumo kamerų nuotraukas klasėje arba sekdami studentų mobiliųjų telefonų „Bluetooth“/„Wi-Fi“ adresus klasėje. Egzaminų duomenys jau yra universiteto duomenų bazėje. | Jei stebime saugumo kamerų nuotraukas – turime saugoti kelias (5-10) nuotraukas paskaitos metu (nestruktūrizuoti duomenys), o tada naudoti AI, kad atpažintume studentų veidus (konvertuoti duomenis į struktūrizuotą formą). | Galime apskaičiuoti vidutinį kiekvieno studento lankomumą ir patikrinti, ar yra kokia nors koreliacija su egzaminų pažymiais. Daugiau apie koreliaciją kalbėsime [tikimybių ir statistikos](../../04-stats-and-probability/README.md) skyriuje. Norėdami paskatinti studentų lankomumą, galime skelbti savaitinius lankomumo reitingus universiteto portale ir rengti prizų traukimus tarp geriausiai lankančiųjų. | +| Vakcinacija | | | | | +| Produktyvumas | | | | | + +> *Pateikiame tik vieną atsakymą kaip pavyzdį, kad suprastumėte, ko tikimasi šioje užduotyje.* + +## Vertinimo kriterijai + +Pavyzdingas | Tinkamas | Reikia patobulinimų +--- | --- | -- | +Gebėjo nustatyti pagrįstus duomenų šaltinius, duomenų saugojimo būdus ir galimus sprendimus/įžvalgas visoms sritims | Kai kurie sprendimo aspektai nėra detalizuoti, duomenų saugojimas neaptartas, aprašytos bent 2 sritys | Aprašytos tik dalys duomenų sprendimo, apsvarstyta tik viena sritis. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/02-ethics/README.md b/translations/lt/1-Introduction/02-ethics/README.md new file mode 100644 index 00000000..bc2cb4d0 --- /dev/null +++ b/translations/lt/1-Introduction/02-ethics/README.md @@ -0,0 +1,242 @@ + +# Duomenų etikos įvadas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/02-Ethics.png)| +|:---:| +| Duomenų mokslo etika - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +--- + +Mes visi esame duomenų piliečiai, gyvenantys duomenų pasaulyje. + +Rinkos tendencijos rodo, kad iki 2022 m. 1 iš 3 didelių organizacijų pirks ir parduos savo duomenis per internetines [turgavietes ir mainų platformas](https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-in-data-and-analytics-for-2020/). Kaip **programėlių kūrėjai**, mes pastebėsime, kad duomenimis pagrįstų įžvalgų ir algoritmais pagrįstos automatizacijos integravimas į kasdienes vartotojų patirtis taps lengvesnis ir pigesnis. Tačiau, kai dirbtinis intelektas tampa visur paplitęs, turėsime suprasti ir galimą žalą, kurią gali sukelti tokių algoritmų [ginklavimas](https://www.youtube.com/watch?v=TQHs8SA1qpk) dideliu mastu. + +Tendencijos taip pat rodo, kad iki 2025 m. sukursime ir suvartosime daugiau nei [180 zettabaitų](https://www.statista.com/statistics/871513/worldwide-data-created/) duomenų. Kaip **duomenų mokslininkai**, mes turėsime precedento neturintį prieigą prie asmeninių duomenų. Tai reiškia, kad galėsime kurti vartotojų elgsenos profilius ir daryti įtaką sprendimų priėmimui taip, kad sukurtume [laisvo pasirinkimo iliuziją](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice), tuo pačiu galimai nukreipdami vartotojus link mums pageidaujamų rezultatų. Tai taip pat kelia platesnius klausimus apie duomenų privatumą ir vartotojų apsaugą. + +Duomenų etika dabar yra _būtinos gairės_ duomenų mokslui ir inžinerijai, padedančios sumažinti galimą žalą ir netyčines pasekmes, kylančias iš mūsų veiksmų, pagrįstų duomenimis. [Gartner Hype Cycle for AI](https://www.gartner.com/smarterwithgartner/2-megatrends-dominate-the-gartner-hype-cycle-for-artificial-intelligence-2020/) identifikuoja skaitmeninės etikos, atsakingo DI ir DI valdymo tendencijas kaip pagrindinius veiksnius, skatinančius didesnes megatendencijas, susijusias su DI _demokratizacija_ ir _industrializacija_. + +![Gartner's Hype Cycle for AI - 2020](https://images-cdn.newscred.com/Zz1mOWJhNzlkNDA2ZTMxMWViYjRiOGFiM2IyMjQ1YmMwZQ==) + +Šioje pamokoje mes nagrinėsime įdomią duomenų etikos sritį – nuo pagrindinių sąvokų ir iššūkių iki atvejų analizių ir taikomų DI koncepcijų, tokių kaip valdymas, kurios padeda sukurti etikos kultūrą komandose ir organizacijose, dirbančiose su duomenimis ir DI. + +## [Prieš paskaitą vykdomas testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/2) 🎯 + +## Pagrindinės sąvokos + +Pradėkime nuo pagrindinių terminų supratimo. + +Žodis „etika“ kilęs iš [graikiško žodžio „ethikos“](https://en.wikipedia.org/wiki/Ethics) (ir jo šaknies „ethos“), reiškiančio _charakterį arba moralinę prigimtį_. + +**Etika** – tai bendros vertybės ir moraliniai principai, kurie reguliuoja mūsų elgesį visuomenėje. Etika grindžiama ne įstatymais, o plačiai priimtomis normomis, kas yra „teisinga prieš neteisinga“. Tačiau etiniai svarstymai gali turėti įtakos įmonių valdymo iniciatyvoms ir vyriausybės reglamentams, kurie sukuria daugiau paskatų laikytis taisyklių. + +**Duomenų etika** yra [nauja etikos šaka](https://royalsocietypublishing.org/doi/full/10.1098/rsta.2016.0360#sec-1), kuri „tiria ir vertina moralines problemas, susijusias su _duomenimis, algoritmais ir atitinkama praktika_“. Čia **„duomenys“** apima veiksmus, susijusius su duomenų generavimu, įrašymu, tvarkymu, apdorojimu, platinimu, dalijimusi ir naudojimu, **„algoritmai“** apima DI, agentus, mašininį mokymąsi ir robotus, o **„praktika“** apima tokias temas kaip atsakingos inovacijos, programavimas, įsilaužimai ir etikos kodeksai. + +**Taikomoji etika** yra [moralinių svarstymų praktinis taikymas](https://en.wikipedia.org/wiki/Applied_ethics). Tai procesas, kai aktyviai tiriamos etinės problemos realių veiksmų, produktų ir procesų kontekste, ir imamasi korekcinių veiksmų, kad jie išliktų suderinti su mūsų apibrėžtomis etinėmis vertybėmis. + +**Etikos kultūra** yra apie [_taikomosios etikos įgyvendinimą_](https://hbr.org/2019/05/how-to-design-an-ethical-organization), siekiant užtikrinti, kad mūsų etikos principai ir praktika būtų nuosekliai ir masteliškai taikomi visoje organizacijoje. Sėkmingos etikos kultūros apibrėžia organizacijos mastu taikomus etikos principus, suteikia prasmingas paskatas laikytis taisyklių ir stiprina etikos normas, skatindamos ir amplifikuodamos pageidaujamą elgesį kiekviename organizacijos lygmenyje. + +## Etikos sąvokos + +Šioje dalyje aptarsime tokias sąvokas kaip **bendros vertybės** (principai) ir **etikos iššūkiai** (problemos) duomenų etikoje – ir nagrinėsime **atvejų analizes**, kurios padės suprasti šias sąvokas realiame kontekste. + +### 1. Etikos principai + +Kiekviena duomenų etikos strategija prasideda nuo _etinių principų_ apibrėžimo – „bendrų vertybių“, kurios apibūdina priimtiną elgesį ir vadovauja atitinkamiems veiksmams mūsų duomenų ir DI projektuose. Juos galima apibrėžti individualiu ar komandos lygmeniu. Tačiau dauguma didelių organizacijų šiuos principus apibrėžia _etinio DI_ misijos pareiškime arba sistemoje, kuri yra nustatyta korporaciniu lygmeniu ir nuosekliai taikoma visose komandose. + +**Pavyzdys:** „Microsoft“ [atsakingo DI](https://www.microsoft.com/en-us/ai/responsible-ai) misijos pareiškimas skamba taip: _„Mes esame įsipareigoję skatinti DI, vadovaujantis etikos principais, kurie pirmiausia rūpinasi žmonėmis“_ – identifikuojant 6 etikos principus žemiau pateiktoje sistemoje: + +![Atsakingas DI „Microsoft“](https://docs.microsoft.com/en-gb/azure/cognitive-services/personalizer/media/ethics-and-responsible-use/ai-values-future-computed.png) + +Trumpai aptarkime šiuos principus. _Skaidrumas_ ir _atsakomybė_ yra pagrindinės vertybės, ant kurių statomi kiti principai – todėl pradėkime nuo jų: + +* [**Atsakomybė**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) užtikrina, kad specialistai būtų _atsakingi_ už savo duomenų ir DI veiksmus bei atitiktį šiems etikos principams. +* [**Skaidrumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) užtikrina, kad duomenų ir DI veiksmai būtų _suprantami_ vartotojams, paaiškinant, kas ir kodėl buvo nuspręsta. +* [**Teisingumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) – siekia užtikrinti, kad DI elgtųsi _teisingai su visais žmonėmis_, sprendžiant bet kokias sistemines ar implicitines šališkumo problemas duomenyse ir sistemose. +* [**Patikimumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) – užtikrina, kad DI elgtųsi _nuosekliai_ su apibrėžtomis vertybėmis, sumažinant galimą žalą ar netyčines pasekmes. +* [**Privatumas ir saugumas**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) – tai duomenų kilmės supratimas ir _duomenų privatumo bei susijusių apsaugų_ teikimas vartotojams. +* [**Įtrauktis**](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1:primaryr6) – tai DI sprendimų kūrimas su intencija, pritaikant juos, kad jie atitiktų _platų žmonių poreikių ir gebėjimų spektrą_. + +> 🚨 Pagalvokite, kokia galėtų būti jūsų duomenų etikos misijos pareiškimas. Išnagrinėkite kitų organizacijų etinio DI sistemas – čia pateikiami pavyzdžiai iš [IBM](https://www.ibm.com/cloud/learn/ai-ethics), [Google](https://ai.google/principles) ir [Facebook](https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/). Kokias bendras vertybes jie turi? Kaip šie principai susiję su DI produktu ar pramone, kurioje jie veikia? + +### 2. Etikos iššūkiai + +Kai turime apibrėžtus etikos principus, kitas žingsnis yra įvertinti mūsų duomenų ir DI veiksmus, siekiant nustatyti, ar jie atitinka šias bendras vertybes. Pagalvokite apie savo veiksmus dviejose kategorijose: _duomenų rinkimas_ ir _algoritmų kūrimas_. + +Renkant duomenis, veiksmai greičiausiai apims **asmeninius duomenis** arba asmeniškai identifikuojamą informaciją (PII), susijusią su atpažįstamais gyvais asmenimis. Tai apima [įvairius neasmeninių duomenų elementus](https://ec.europa.eu/info/law/law-topic/data-protection/reform/what-personal-data_en), kurie _kartu_ gali identifikuoti asmenį. Etikos iššūkiai gali būti susiję su _duomenų privatumu_, _duomenų nuosavybe_ ir susijusiomis temomis, tokiomis kaip _informuotas sutikimas_ ir _intelektinės nuosavybės teisės_ vartotojams. + +Kuriant algoritmus, veiksmai apims **duomenų rinkinių** rinkimą ir tvarkymą, o tada jų naudojimą **duomenų modeliams** mokyti ir diegti, siekiant prognozuoti rezultatus arba automatizuoti sprendimus realiame kontekste. Etikos iššūkiai gali kilti dėl _rinkinio šališkumo_, _duomenų kokybės_ problemų, _neteisingumo_ ir _klaidingo atvaizdavimo_ algoritmuose – įskaitant kai kurias sistemines problemas. + +Abiem atvejais etikos iššūkiai pabrėžia sritis, kuriose mūsų veiksmai gali prieštarauti mūsų bendroms vertybėms. Norėdami aptikti, sumažinti, sušvelninti ar pašalinti šias problemas, turime užduoti moralinius „taip/ne“ klausimus, susijusius su mūsų veiksmais, ir prireikus imtis korekcinių veiksmų. Pažvelkime į kai kuriuos etikos iššūkius ir moralinius klausimus, kuriuos jie kelia: + +#### 2.1 Duomenų nuosavybė + +Duomenų rinkimas dažnai apima asmeninius duomenis, kurie gali identifikuoti duomenų subjektus. [Duomenų nuosavybė](https://permission.io/blog/data-ownership) yra apie _kontrolę_ ir [_vartotojų teises_](https://permission.io/blog/data-ownership), susijusias su duomenų kūrimu, apdorojimu ir platinimu. + +Moraliniai klausimai, kuriuos turime užduoti: + * Kas valdo duomenis? (vartotojas ar organizacija) + * Kokias teises turi duomenų subjektai? (pvz., prieiga, ištrynimas, perkeliamumas) + * Kokias teises turi organizacijos? (pvz., taisyti kenksmingas vartotojų apžvalgas) + +#### 2.2 Informuotas sutikimas + +[Informuotas sutikimas](https://legaldictionary.net/informed-consent/) apibrėžia veiksmą, kai vartotojai sutinka su veiksmu (pvz., duomenų rinkimu), turėdami _pilną supratimą_ apie svarbius faktus, įskaitant tikslą, galimą riziką ir alternatyvas. + +Klausimai, kuriuos reikia nagrinėti: + * Ar vartotojas (duomenų subjektas) davė leidimą rinkti ir naudoti duomenis? + * Ar vartotojas suprato tikslą, dėl kurio buvo renkami duomenys? + * Ar vartotojas suprato galimą riziką, susijusią su jų dalyvavimu? + +#### 2.3 Intelektinė nuosavybė + +[Intelektinė nuosavybė](https://en.wikipedia.org/wiki/Intellectual_property) reiškia nematerialius kūrinius, atsiradusius dėl žmogaus iniciatyvos, kurie gali _turėti ekonominę vertę_ asmenims ar verslui. + +Klausimai, kuriuos reikia nagrinėti: + * Ar surinkti duomenys turėjo ekonominę vertę vartotojui ar verslui? + * Ar **vartotojas** turi intelektinę nuosavybę čia? + * Ar **organizacija** turi intelektinę nuosavybę čia? + * Jei šios teisės egzistuoja, kaip mes jas saugome? + +#### 2.4 Duomenų privatumas + +[Duomenų privatumas](https://www.northeastern.edu/graduate/blog/what-is-data-privacy/) arba informacijos privatumas reiškia vartotojų privatumo išsaugojimą ir jų tapatybės apsaugą, susijusią su asmeniškai identifikuojama informacija. + +Klausimai, kuriuos reikia nagrinėti: + * Ar vartotojų (asmeniniai) duomenys yra apsaugoti nuo įsilaužimų ir nutekėjimų? + * Ar vartotojų duomenys yra prieinami tik įgaliotiems vartotojams ir kontekstams? + * Ar vartotojų anonimiškumas išsaugomas, kai duomenys yra dalijami ar platinami? + * Ar vartotojas gali būti deanonimizuotas iš anonimizuotų duomenų rinkinių? + +#### 2.5 Teisė būti pamirštam + +[Teisė būti pamirštam](https://en.wikipedia.org/wiki/Right_to_be_forgotten) arba [teisė į ištrynimą](https://www.gdpreu.org/right-to-be-forgotten/) suteikia papildomą asmeninių duomenų apsaugą vartotojams. Konkrečiai, ji suteikia vartotojams teisę prašyti asmeninių duomenų ištrynimo ar pašalinimo iš interneto paieškų ir kitų vietų, _tam tikromis aplinkybėmis_ – leidžiant jiems pradėti iš naujo internete, nes jų praeities veiksmai nebūtų laikomi prieš juos. + +Klausimai, kuriuos reikia nagrinėti: + * Ar sistema leidžia duomenų subjektams prašyti ištrynimo? + * Ar vartotojo sutikimo atšaukimas turėtų automatiškai sukelti ištrynimą? + * Ar duomenys buvo surinkti be sutikimo ar neteisėtomis priemonėmis? + * Ar mes laikomės vyriausybės reglamentų dėl duomenų privatumo? + +#### 2.6 Duomenų rinkinio šališkumas + +Duomenų rinkinys arba [rinkimo š +[Algoritmų sąžiningumas](https://towardsdatascience.com/what-is-algorithm-fairness-3182e161cf9f) tikrina, ar algoritmų kūrimas sistemingai nediskriminuoja tam tikrų duomenų subjektų grupių, sukeldamas [galimą žalą](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml) _paskirstymo_ (kai ištekliai atimami arba nesuteikiami tai grupei) ir _paslaugų kokybės_ (kai dirbtinis intelektas nėra toks tikslus kai kurioms grupėms kaip kitoms) srityse. + +Klausimai, kuriuos verta apsvarstyti: + * Ar įvertinome modelio tikslumą įvairioms grupėms ir sąlygoms? + * Ar išanalizavome sistemą dėl galimos žalos (pvz., stereotipizavimo)? + * Ar galime peržiūrėti duomenis arba iš naujo apmokyti modelius, kad sumažintume nustatytą žalą? + +Susipažinkite su tokiais šaltiniais kaip [AI sąžiningumo kontroliniai sąrašai](https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4t6dA), kad sužinotumėte daugiau. + +#### 2.9 Netinkamas duomenų pateikimas + +[Netinkamas duomenų pateikimas](https://www.sciencedirect.com/topics/computer-science/misrepresentation) kelia klausimą, ar mes pateikiame įžvalgas iš sąžiningai pateiktų duomenų taip, kad klaidintume ir palaikytume norimą naratyvą. + +Klausimai, kuriuos verta apsvarstyti: + * Ar pateikiame neišsamius ar netikslius duomenis? + * Ar vizualizuojame duomenis taip, kad sukeltume klaidingas išvadas? + * Ar naudojame selektyvius statistinius metodus rezultatams manipuliuoti? + * Ar yra alternatyvių paaiškinimų, kurie galėtų pateikti kitokią išvadą? + +#### 2.10 Laisvo pasirinkimo iliuzija + +[Laisvo pasirinkimo iliuzija](https://www.datasciencecentral.com/profiles/blogs/the-illusion-of-choice) atsiranda, kai sistemos „pasirinkimo architektūros“ naudoja sprendimų priėmimo algoritmus, kad paskatintų žmones priimti pageidaujamą rezultatą, tuo pačiu suteikdamos jiems pasirinkimo ir kontrolės iliuziją. Šie [tamsieji modeliai](https://www.darkpatterns.org/) gali sukelti socialinę ir ekonominę žalą vartotojams. Kadangi vartotojų sprendimai daro įtaką elgsenos profiliams, šie veiksmai gali sustiprinti arba pratęsti šios žalos poveikį. + +Klausimai, kuriuos verta apsvarstyti: + * Ar vartotojas suprato, kokias pasekmes turi jo pasirinkimas? + * Ar vartotojas buvo informuotas apie (alternatyvius) pasirinkimus ir jų privalumus bei trūkumus? + * Ar vartotojas gali vėliau atšaukti automatizuotą ar įtakotą pasirinkimą? + +### 3. Atvejų analizės + +Norint suprasti šiuos etikos iššūkius realiame pasaulyje, verta peržiūrėti atvejų analizes, kurios parodo galimą žalą ir pasekmes asmenims bei visuomenei, kai tokie etikos pažeidimai yra ignoruojami. + +Štai keletas pavyzdžių: + +| Etikos iššūkis | Atvejo analizė | +|--- |--- | +| **Informuotas sutikimas** | 1972 m. - [Tuskegee sifilio tyrimas](https://en.wikipedia.org/wiki/Tuskegee_Syphilis_Study) - Afroamerikiečiai vyrai, dalyvavę tyrime, buvo pažadėti nemokama medicininė priežiūra, _bet buvo apgauti_ tyrėjų, kurie neinformavo jų apie diagnozę ar gydymo galimybes. Daugelis dalyvių mirė, o jų partneriai ar vaikai buvo paveikti; tyrimas truko 40 metų. | +| **Duomenų privatumas** | 2007 m. - [Netflix duomenų prizas](https://www.wired.com/2007/12/why-anonymous-data-sometimes-isnt/) pateikė tyrėjams _10 mln. anonimizuotų filmų įvertinimų iš 50 tūkst. klientų_, siekiant pagerinti rekomendacijų algoritmus. Tačiau tyrėjai sugebėjo susieti anonimizuotus duomenis su asmeniškai identifikuojamais duomenimis iš _išorinių duomenų rinkinių_ (pvz., IMDb komentarų), efektyviai „deanonimizuodami“ kai kuriuos Netflix abonentus.| +| **Duomenų rinkimo šališkumas** | 2013 m. - Bostono miestas [sukūrė Street Bump](https://www.boston.gov/transportation/street-bump), programėlę, leidžiančią piliečiams pranešti apie duobes, suteikiant miestui geresnius duomenis apie kelių būklę. Tačiau [žmonės iš mažesnių pajamų grupių turėjo mažiau prieigos prie automobilių ir telefonų](https://hbr.org/2013/04/the-hidden-biases-in-big-data), todėl jų kelių problemos tapo nematomos šioje programėlėje. Kūrėjai bendradarbiavo su akademikais, kad spręstų _teisingos prieigos ir skaitmeninės atskirties_ klausimus. | +| **Algoritmų sąžiningumas** | 2018 m. - MIT [Gender Shades tyrimas](http://gendershades.org/overview.html) įvertino AI produktų tikslumą pagal lytį, atskleisdamas tikslumo spragas moterims ir spalvotiems žmonėms. [2019 m. Apple kortelė](https://www.wired.com/story/the-apple-card-didnt-see-genderand-thats-the-problem/) atrodė, kad siūlo mažiau kredito moterims nei vyrams. Abu atvejai parodė algoritminio šališkumo problemas, sukeliančias socialinę ir ekonominę žalą.| +| **Netinkamas duomenų pateikimas** | 2020 m. - [Džordžijos sveikatos departamentas paskelbė COVID-19 diagramas](https://www.vox.com/covid-19-coronavirus-us-response-trump/2020/5/18/21262265/georgia-covid-19-cases-declining-reopening), kurios atrodė klaidinančios piliečius apie patvirtintų atvejų tendencijas, pateikdamos nechronologinę x ašies tvarką. Tai iliustruoja netinkamą pateikimą naudojant vizualizacijos triukus. | +| **Laisvo pasirinkimo iliuzija** | 2020 m. - Mokymosi programėlė [ABCmouse sumokėjo 10 mln. dolerių, kad išspręstų FTC skundą](https://www.washingtonpost.com/business/2020/09/04/abcmouse-10-million-ftc-settlement/), kai tėvai buvo priversti mokėti už prenumeratas, kurių negalėjo atšaukti. Tai iliustruoja tamsiuosius modelius pasirinkimo architektūrose, kur vartotojai buvo paskatinti priimti potencialiai žalingus sprendimus. | +| **Duomenų privatumas ir vartotojų teisės** | 2021 m. - Facebook [duomenų nutekėjimas](https://www.npr.org/2021/04/09/986005820/after-data-breach-exposes-530-million-facebook-says-it-will-not-notify-users) atskleidė 530 mln. vartotojų duomenis, dėl ko buvo skirta 5 mlrd. dolerių bauda FTC. Tačiau Facebook atsisakė informuoti vartotojus apie nutekėjimą, pažeisdama vartotojų teises į duomenų skaidrumą ir prieigą. | + +Norite sužinoti daugiau atvejų analizių? Peržiūrėkite šiuos šaltinius: +* [Ethics Unwrapped](https://ethicsunwrapped.utexas.edu/case-studies) - etikos dilemos įvairiose pramonės šakose. +* [Duomenų mokslo etikos kursas](https://www.coursera.org/learn/data-science-ethics#syllabus) - svarbiausių atvejų analizės. +* [Kur viskas nepavyko](https://deon.drivendata.org/examples/) - Deon kontrolinis sąrašas su pavyzdžiais. + +> 🚨 Pagalvokite apie matytas atvejų analizes – ar esate patyrę ar buvote paveikti panašaus etikos iššūkio savo gyvenime? Ar galite sugalvoti bent vieną kitą atvejo analizę, kuri iliustruotų vieną iš šiame skyriuje aptartų etikos iššūkių? + +## Taikomoji etika + +Mes aptarėme etikos sąvokas, iššūkius ir atvejų analizes realiame pasaulyje. Bet kaip pradėti _taikyti_ etikos principus ir praktikas savo projektuose? Ir kaip _įgyvendinti_ šias praktikas geresniam valdymui? Pažvelkime į keletą realių sprendimų: + +### 1. Profesiniai kodeksai + +Profesiniai kodeksai siūlo vieną iš būdų organizacijoms „skatinti“ narius palaikyti jų etikos principus ir misiją. Kodeksai yra _moralinės gairės_ profesiniam elgesiui, padedančios darbuotojams ar nariams priimti sprendimus, atitinkančius jų organizacijos principus. Jie yra veiksmingi tiek, kiek nariai savanoriškai jų laikosi; tačiau daugelis organizacijų siūlo papildomas paskatas ir bausmes, kad motyvuotų narius laikytis kodekso. + +Pavyzdžiai: + * [Oksfordo Miuncheno](http://www.code-of-ethics.org/code-of-conduct/) etikos kodeksas + * [Duomenų mokslo asociacijos](http://datascienceassn.org/code-of-conduct.html) elgesio kodeksas (sukurtas 2013 m.) + * [ACM etikos ir profesinio elgesio kodeksas](https://www.acm.org/code-of-ethics) (nuo 1993 m.) + +> 🚨 Ar priklausote profesinei inžinerijos ar duomenų mokslo organizacijai? Peržiūrėkite jų svetainę, kad pamatytumėte, ar jie apibrėžia profesinį etikos kodeksą. Ką tai sako apie jų etikos principus? Kaip jie „skatina“ narius laikytis kodekso? + +### 2. Etikos kontroliniai sąrašai + +Nors profesiniai kodeksai apibrėžia reikalaujamą _etišką elgesį_ specialistams, jie [turi žinomų apribojimų](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md) vykdymo užtikrinime, ypač didelio masto projektuose. Vietoj to, daugelis duomenų mokslo ekspertų [rekomenduoja kontrolinius sąrašus](https://resources.oreilly.com/examples/0636920203964/blob/master/of_oaths_and_checklists.md), kurie gali **susieti principus su praktikomis** labiau apibrėžtais ir veiksmais pagrįstais būdais. + +Kontroliniai sąrašai paverčia klausimus „taip/ne“ užduotimis, kurias galima įgyvendinti, leidžiant jas stebėti kaip standartinių produktų išleidimo darbo eigų dalį. + +Pavyzdžiai: + * [Deon](https://deon.drivendata.org/) - bendros paskirties duomenų etikos kontrolinis sąrašas, sukurtas remiantis [pramonės rekomendacijomis](https://deon.drivendata.org/#checklist-citations) su komandinės eilutės įrankiu lengvam integravimui. + * [Privatumo audito kontrolinis sąrašas](https://cyber.harvard.edu/ecommerce/privacyaudit.html) - pateikia bendras gaires informacijos tvarkymo praktikoms iš teisinės ir socialinės perspektyvos. + * [AI sąžiningumo kontrolinis sąrašas](https://www.microsoft.com/en-us/research/project/ai-fairness-checklist/) - sukurtas AI specialistų, siekiant palaikyti sąžiningumo patikrinimų integravimą į AI kūrimo ciklus. + * [22 klausimai apie etiką duomenyse ir AI](https://medium.com/the-organization/22-questions-for-ethics-in-data-and-ai-efb68fd19429) - atviresnė sistema, skirta pradinei etikos klausimų analizei dizaino, įgyvendinimo ir organizaciniuose kontekstuose. + +### 3. Etikos reguliavimas + +Etika yra apie bendrų vertybių apibrėžimą ir teisingų veiksmų atlikimą _savanoriškai_. **Atitiktis** yra apie _įstatymų laikymąsi_, jei jie yra apibrėžti. **Valdymas** apima visas organizacijų veiklos formas, skirtas etikos principų įgyvendinimui ir nustatytų įstatymų laikymuisi. + +Šiandien valdymas organizacijose vyksta dviem formomis. Pirma, tai yra apie **etiško AI** principų apibrėžimą ir praktikų įgyvendinimą, siekiant užtikrinti jų taikymą visuose organizacijos AI projektuose. Antra, tai yra apie visų vyriausybės nustatytų **duomenų apsaugos reguliavimų** laikymąsi regionuose, kuriuose organizacija veikia. + +Duomenų apsaugos ir privatumo reguliavimo pavyzdžiai: + + * `1974`, [JAV Privatumo aktas](https://www.justice.gov/opcl/privacy-act-1974) - reguliuoja _federalinės vyriausybės_ asmeninės informacijos rinkimą, naudojimą ir atskleidimą. + * `1996`, [JAV Sveikatos draudimo perkeliamumo ir atskaitomybės aktas (HIPAA)](https://www.cdc.gov/phlp/publications/topic/hipaa.html) - saugo asmens sveikatos duomenis. + * `1998`, [JAV Vaikų internetinio privatumo apsaugos aktas (COPPA)](https://www.ftc.gov/enforcement/rules/rulemaking-regulatory-reform-proceedings/childrens-online-privacy-protection-rule) - saugo vaikų iki 13 metų duomenų privatumą. + * `2018`, [Bendrasis duomenų apsaugos reglamentas (GDPR)](https://gdpr-info.eu/) - suteikia vartotojų teises, duomenų apsaugą ir privatumą. + * `2018`, [Kalifornijos vartotojų privatumo aktas (CCPA)](https://www.oag.ca.gov/privacy/ccpa) suteikia vartotojams daugiau _teisių_ į jų (asmeninius) duomenis. + * `2021`, Kinijos [Asmeninės informacijos apsaugos įstatymas](https://www.reuters.com/world/china/china-passes-new-personal-data-privacy-law-take-effect-nov-1-2021-08-20/) ką tik priimtas, sukuriantis vieną iš stipriausių internetinių duomenų privatumo reguliavimų pasaulyje. + +> 🚨 Europos Sąjungos apibrėžtas GDPR (Bendrasis duomenų apsaugos reglamentas) išlieka vienu iš įtakingiausių duomenų privatumo reguliavimų šiandien. Ar žinojote, kad jis taip pat apibrėžia [8 vartotojų teises](https://www.freeprivacypolicy.com/blog/8-user-rights-gdpr), skirtas apsaugoti piliečių skaitmeninį privatumą ir asmens duomenis? Sužinokite, kokios jos yra ir kodėl jos svarbios. + +### 4. Etikos kultūra + +Atkreipkite dėmesį, kad vis dar egzistuoja nematomas atotrūkis tarp _atitikties_ (pakankamo veikimo pagal „įstatymo raidę“) ir [sisteminių problemų](https://www.coursera.org/learn/data-science-ethics/home/week/4) sprendimo (pvz., informacijos asimetrijos ir paskirstymo neteisingumo), kurios gali paspartinti AI ginklavimą. + +Pastarasis reikalauja [bendradarbiavimo metodų etikos kultūrų kūrimui](https://towardsdatascience.com/why-ai-ethics-requires-a-culture-driven-approach-26f451afa29f), kurie užtikrina emocinius ryšius ir nuoseklias bendras vertybes _visose organizacijose_ pramonėje. Tai reikalauja daugiau [formalizuotų duomenų etikos kultūrų](https://www.codeforamerica.org/news/formalizing-an-ethical-data-culture/) organizacijose – leidžiant _bet kam_ [traukti Andon virvę](https://en.wikipedia.org/wiki/Andon_(manufacturing)) +* [Atsakingo dirbtinio intelekto principai](https://docs.microsoft.com/en-us/learn/modules/responsible-ai-principles/) - nemokamas mokymosi kelias iš Microsoft Learn. +* [Etika ir duomenų mokslas](https://resources.oreilly.com/examples/0636920203964) - O'Reilly elektroninė knyga (M. Loukides, H. Mason ir kt.) +* [Duomenų mokslo etika](https://www.coursera.org/learn/data-science-ethics#syllabus) - internetinis kursas iš Mičigano universiteto. +* [Etika atskleista](https://ethicsunwrapped.utexas.edu/case-studies) - atvejų analizės iš Teksaso universiteto. + +# Užduotis + +[Parašykite duomenų etikos atvejo analizę](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/02-ethics/assignment.md b/translations/lt/1-Introduction/02-ethics/assignment.md new file mode 100644 index 00000000..27019b86 --- /dev/null +++ b/translations/lt/1-Introduction/02-ethics/assignment.md @@ -0,0 +1,33 @@ + +## Parašykite duomenų etikos atvejo analizę + +## Instrukcijos + +Jūs susipažinote su įvairiais [Duomenų etikos iššūkiais](README.md#2-ethics-challenges) ir matėte keletą [Atvejo analizių](README.md#3-case-studies), kurios atspindi duomenų etikos iššūkius realiame pasaulyje. + +Šioje užduotyje turėsite parašyti savo atvejo analizę, atspindinčią duomenų etikos iššūkį, su kuriuo susidūrėte asmeniškai arba kuris yra susijęs su jums žinomu realaus pasaulio kontekstu. Tiesiog vadovaukitės šiais žingsniais: + +1. `Pasirinkite duomenų etikos iššūkį`. Peržiūrėkite [pamokos pavyzdžius](README.md#2-ethics-challenges) arba ieškokite internetinių pavyzdžių, tokių kaip [Deon kontrolinis sąrašas](https://deon.drivendata.org/examples/), kad gautumėte įkvėpimo. + +2. `Aprašykite realaus pasaulio pavyzdį`. Pagalvokite apie situaciją, apie kurią girdėjote (antraštės, mokslinis tyrimas ir pan.) arba patyrėte (vietinė bendruomenė), kurioje įvyko šis konkretus iššūkis. Apmąstykite duomenų etikos klausimus, susijusius su šiuo iššūkiu, ir aptarkite galimą žalą ar netikėtas pasekmes, kurios kyla dėl šios problemos. Papildomi taškai: pagalvokite apie galimus sprendimus ar procesus, kurie galėtų būti taikomi siekiant pašalinti arba sumažinti neigiamą šio iššūkio poveikį. + +3. `Pateikite susijusių šaltinių sąrašą`. Pasidalinkite vienu ar keliais šaltiniais (nuorodos į straipsnį, asmeninį tinklaraščio įrašą ar vaizdą, internetinį mokslinį darbą ir pan.), kad įrodytumėte, jog tai buvo realaus pasaulio įvykis. Papildomi taškai: pasidalinkite šaltiniais, kurie taip pat parodo galimą žalą ir pasekmes dėl šio incidento arba pabrėžia teigiamus žingsnius, atliktus siekiant užkirsti kelią jo pasikartojimui. + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | -- | +Identifikuotas vienas ar daugiau duomenų etikos iššūkių.

Atvejo analizė aiškiai aprašo realaus pasaulio įvykį, atspindintį šį iššūkį, ir pabrėžia nepageidaujamas pasekmes ar žalą, kurią jis sukėlė.

Pateiktas bent vienas susietas šaltinis, įrodantis, kad tai įvyko. | Identifikuotas vienas duomenų etikos iššūkis.

Bent viena susijusi žala ar pasekmė aptarta trumpai.

Tačiau aptarimas yra ribotas arba trūksta įrodymų apie realaus pasaulio įvykį. | Identifikuotas duomenų iššūkis.

Tačiau aprašymas ar šaltiniai nepakankamai atspindi iššūkį arba neįrodo jo realaus pasaulio įvykio. | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/1-Introduction/03-defining-data/README.md b/translations/lt/1-Introduction/03-defining-data/README.md new file mode 100644 index 00000000..93422bf5 --- /dev/null +++ b/translations/lt/1-Introduction/03-defining-data/README.md @@ -0,0 +1,84 @@ + +# Duomenų Apibrėžimas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/03-DefiningData.png)| +|:---:| +|Duomenų apibrėžimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Duomenys – tai faktai, informacija, stebėjimai ir matavimai, naudojami atradimams daryti ir pagrįstiems sprendimams priimti. Duomenų taškas yra vienas duomenų vienetas duomenų rinkinyje, kuris yra duomenų taškų kolekcija. Duomenų rinkiniai gali būti įvairių formatų ir struktūrų, dažniausiai priklausomai nuo jų šaltinio arba vietos, iš kur jie gauti. Pavyzdžiui, įmonės mėnesinės pajamos gali būti pateiktos skaičiuoklėje, o išmaniojo laikrodžio valandinis širdies ritmo duomenys gali būti [JSON](https://stackoverflow.com/a/383699) formatu. Duomenų mokslininkai dažnai dirba su skirtingų tipų duomenimis viename duomenų rinkinyje. + +Ši pamoka skirta duomenų identifikavimui ir klasifikavimui pagal jų savybes ir šaltinius. + +## [Prieš paskaitą: Klausimynas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/4) +## Kaip apibūdinami duomenys + +### Pirminiai duomenys +Pirminiai duomenys yra duomenys, kurie gaunami iš šaltinio pradinėje būsenoje ir dar nėra analizuoti ar organizuoti. Kad būtų galima suprasti, kas vyksta su duomenų rinkiniu, jis turi būti organizuotas į formatą, kurį suprastų tiek žmonės, tiek technologijos, naudojamos tolesnei analizei. Duomenų rinkinio struktūra apibūdina, kaip jis organizuotas, ir gali būti klasifikuojama kaip struktūrizuota, nestruktūrizuota arba pusiau struktūrizuota. Šios struktūros tipai skirsis priklausomai nuo šaltinio, tačiau galiausiai atitiks vieną iš šių trijų kategorijų. + +### Kiekybiniai duomenys +Kiekybiniai duomenys yra skaitiniai stebėjimai duomenų rinkinyje, kuriuos paprastai galima analizuoti, matuoti ir naudoti matematiškai. Kai kurie kiekybinių duomenų pavyzdžiai: šalies gyventojų skaičius, žmogaus ūgis ar įmonės ketvirčio pajamos. Atlikus papildomą analizę, kiekybiniai duomenys galėtų būti naudojami sezoninėms oro kokybės indekso (AQI) tendencijoms nustatyti arba spūsties tikimybei darbo dienos piko metu įvertinti. + +### Kokybiniai duomenys +Kokybiniai duomenys, dar vadinami kategoriniais duomenimis, yra duomenys, kurių negalima objektyviai išmatuoti, kaip kiekybinių duomenų stebėjimų. Tai dažniausiai įvairių formatų subjektyvūs duomenys, kurie atspindi kažko kokybę, pavyzdžiui, produkto ar proceso. Kartais kokybiniai duomenys yra skaitiniai, tačiau paprastai nenaudojami matematiškai, pavyzdžiui, telefono numeriai ar laiko žymos. Kai kurie kokybinių duomenų pavyzdžiai: vaizdo įrašų komentarai, automobilio markė ir modelis arba artimiausių draugų mėgstamiausia spalva. Kokybiniai duomenys galėtų būti naudojami norint suprasti, kurie produktai vartotojams patinka labiausiai, arba populiariems raktažodžiams darbo paraiškų gyvenimo aprašymuose nustatyti. + +### Struktūrizuoti duomenys +Struktūrizuoti duomenys yra duomenys, organizuoti eilutėmis ir stulpeliais, kur kiekviena eilutė turi tą patį stulpelių rinkinį. Stulpeliai atspindi tam tikro tipo reikšmę ir bus identifikuojami pavadinimu, apibūdinančiu, ką ta reikšmė reiškia, o eilutėse pateikiamos faktinės reikšmės. Stulpeliai dažnai turi specifinį taisyklių ar apribojimų rinkinį, kad užtikrintų, jog reikšmės tiksliai atspindi stulpelį. Pavyzdžiui, įsivaizduokite klientų skaičiuoklę, kur kiekviena eilutė privalo turėti telefono numerį, o telefono numeriai niekada neturi turėti raidžių. Gali būti taikomos taisyklės, kad telefono numerio stulpelis niekada nebūtų tuščias ir turėtų tik skaičius. + +Struktūrizuotų duomenų privalumas yra tas, kad jie gali būti organizuoti taip, kad būtų susiję su kitais struktūrizuotais duomenimis. Tačiau dėl to, kad duomenys sukurti būti organizuoti konkrečiu būdu, jų bendros struktūros keitimas gali pareikalauti daug pastangų. Pavyzdžiui, pridėjus el. pašto stulpelį klientų skaičiuoklėje, kuris negali būti tuščias, reikės nuspręsti, kaip pridėti šias reikšmes prie esamų klientų eilučių duomenų rinkinyje. + +Struktūrizuotų duomenų pavyzdžiai: skaičiuoklės, reliacinės duomenų bazės, telefono numeriai, banko išrašai. + +### Nestruktūrizuoti duomenys +Nestruktūrizuoti duomenys paprastai negali būti suskirstyti į eilutes ar stulpelius ir neturi formato ar taisyklių rinkinio, kurio reikėtų laikytis. Kadangi nestruktūrizuoti duomenys turi mažiau apribojimų savo struktūrai, juos lengviau papildyti nauja informacija, palyginti su struktūrizuotu duomenų rinkiniu. Jei jutiklis, fiksuojantis barometrinį slėgį kas 2 minutes, gauna atnaujinimą, leidžiantį jam matuoti ir registruoti temperatūrą, nereikia keisti esamų duomenų, jei jie yra nestruktūrizuoti. Tačiau tai gali apsunkinti šių duomenų analizę ar tyrimą. Pavyzdžiui, mokslininkas, norintis rasti vidutinę praėjusio mėnesio temperatūrą iš jutiklio duomenų, gali pastebėti, kad jutiklis kai kuriuose įrašuose užfiksavo „e“, nurodydamas, kad jis buvo sugedęs, o tai reiškia, kad duomenys yra neišsamūs. + +Nestruktūrizuotų duomenų pavyzdžiai: tekstiniai failai, tekstinės žinutės, vaizdo failai. + +### Pusiau struktūrizuoti +Pusiau struktūrizuoti duomenys turi savybių, dėl kurių jie yra struktūrizuotų ir nestruktūrizuotų duomenų derinys. Jie paprastai neatitinka eilučių ir stulpelių formato, tačiau yra organizuoti taip, kad laikomi struktūrizuotais ir gali laikytis fiksuoto formato ar taisyklių rinkinio. Struktūra skirsis priklausomai nuo šaltinio, pavyzdžiui, nuo gerai apibrėžtos hierarchijos iki lankstesnės, leidžiančios lengvai integruoti naują informaciją. Metaduomenys yra indikatoriai, padedantys nuspręsti, kaip duomenys organizuojami ir saugomi, ir turės įvairius pavadinimus, priklausomai nuo duomenų tipo. Kai kurie įprasti metaduomenų pavadinimai yra žymos, elementai, subjektai ir atributai. Pavyzdžiui, tipinis el. laiškas turės temą, turinį ir gavėjų rinkinį ir gali būti organizuotas pagal tai, kas ar kada jį išsiuntė. + +Pusiau struktūrizuotų duomenų pavyzdžiai: HTML, CSV failai, JavaScript Object Notation (JSON). + +## Duomenų šaltiniai + +Duomenų šaltinis yra pradinė vieta, kurioje duomenys buvo sugeneruoti arba „gyvena“, ir skirsis priklausomai nuo to, kaip ir kada jie buvo surinkti. Duomenys, sugeneruoti jų naudotojų, vadinami pirminiais duomenimis, o antriniai duomenys gaunami iš šaltinio, kuris surinko duomenis bendram naudojimui. Pavyzdžiui, mokslininkų grupė, renkantys stebėjimus atogrąžų miške, būtų laikomi pirminiais, o jei jie nuspręstų pasidalinti jais su kitais mokslininkais, tai būtų laikoma antriniais tiems, kurie juos naudoja. + +Duomenų bazės yra dažnas šaltinis ir remiasi duomenų bazių valdymo sistema, kuri talpina ir prižiūri duomenis, kur naudotojai naudoja užklausas duomenims tyrinėti. Failai kaip duomenų šaltiniai gali būti garso, vaizdo ir vaizdo failai, taip pat skaičiuoklės, tokios kaip Excel. Interneto šaltiniai yra dažna vieta duomenims talpinti, kur galima rasti tiek duomenų bazių, tiek failų. Programų programavimo sąsajos, dar vadinamos API, leidžia programuotojams kurti būdus dalintis duomenimis su išoriniais naudotojais per internetą, o interneto duomenų nuskaitymas išgauna duomenis iš tinklalapio. [Pamokos apie darbą su duomenimis](../../../../../../../../../2-Working-With-Data) yra skirtos įvairių duomenų šaltinių naudojimui. + +## Išvada + +Šioje pamokoje sužinojome: + +- Kas yra duomenys +- Kaip apibūdinami duomenys +- Kaip duomenys klasifikuojami ir kategorizuojami +- Kur galima rasti duomenis + +## 🚀 Iššūkis + +Kaggle yra puikus atvirų duomenų rinkinių šaltinis. Naudokite [duomenų rinkinių paieškos įrankį](https://www.kaggle.com/datasets), kad rastumėte įdomių duomenų rinkinių ir klasifikuotumėte 3–5 rinkinius pagal šiuos kriterijus: + +- Ar duomenys yra kiekybiniai ar kokybiniai? +- Ar duomenys yra struktūrizuoti, nestruktūrizuoti ar pusiau struktūrizuoti? + +## [Po paskaitos: Klausimynas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/5) + +## Peržiūra ir savarankiškas mokymasis + +- Šis Microsoft Learn modulis, pavadintas [Klasifikuokite savo duomenis](https://docs.microsoft.com/en-us/learn/modules/choose-storage-approach-in-azure/2-classify-data), pateikia išsamų struktūrizuotų, pusiau struktūrizuotų ir nestruktūrizuotų duomenų suskirstymą. + +## Užduotis + +[Klasifikuoti duomenų rinkinius](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/03-defining-data/assignment.md b/translations/lt/1-Introduction/03-defining-data/assignment.md new file mode 100644 index 00000000..e457134a --- /dev/null +++ b/translations/lt/1-Introduction/03-defining-data/assignment.md @@ -0,0 +1,79 @@ + +# Duomenų rinkinių klasifikavimas + +## Instrukcijos + +Sekite šio užduoties nurodymus, kad identifikuotumėte ir klasifikuotumėte duomenis pagal vieną iš šių duomenų tipų: + +**Struktūros tipai**: Struktūrizuoti, Pusiau struktūrizuoti arba Nestruktūrizuoti + +**Vertės tipai**: Kokybiniai arba Kiekybiniai + +**Šaltinio tipai**: Pirminiai arba Antriniai + +1. Įmonė buvo įsigyta ir dabar turi patronuojančią įmonę. Duomenų mokslininkai gavo klientų telefono numerių skaičiuoklę iš patronuojančios įmonės. + +Struktūros tipas: + +Vertės tipas: + +Šaltinio tipas: + +--- + +2. Išmanusis laikrodis renka širdies ritmo duomenis iš savo naudotojo, o neapdoroti duomenys yra JSON formatu. + +Struktūros tipas: + +Vertės tipas: + +Šaltinio tipas: + +--- + +3. Darbo vietos apklausa apie darbuotojų moralę, saugoma CSV faile. + +Struktūros tipas: + +Vertės tipas: + +Šaltinio tipas: + +--- + +4. Astrofizikai pasiekia galaktikų duomenų bazę, kuri buvo surinkta kosminio zondo. Duomenys apima planetų skaičių kiekvienoje galaktikoje. + +Struktūros tipas: + +Vertės tipas: + +Šaltinio tipas: + +--- + +5. Asmeninių finansų programėlė naudoja API, kad prisijungtų prie naudotojo finansinių sąskaitų ir apskaičiuotų jų grynąją vertę. Naudotojas gali matyti visas savo operacijas eilučių ir stulpelių formatu, kuris atrodo panašus į skaičiuoklę. + +Struktūros tipas: + +Vertės tipas: + +Šaltinio tipas: + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | -- | +Teisingai identifikuoja visus struktūros, vertės ir šaltinio tipus | Teisingai identifikuoja 3 visus struktūros, vertės ir šaltinio tipus | Teisingai identifikuoja 2 ar mažiau visus struktūros, vertės ir šaltinio tipus | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/04-stats-and-probability/README.md b/translations/lt/1-Introduction/04-stats-and-probability/README.md new file mode 100644 index 00000000..a3d1ab31 --- /dev/null +++ b/translations/lt/1-Introduction/04-stats-and-probability/README.md @@ -0,0 +1,276 @@ + +# Trumpas statistikos ir tikimybių teorijos įvadas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/04-Statistics-Probability.png)| +|:---:| +| Statistika ir tikimybių teorija - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Statistika ir tikimybių teorija yra dvi glaudžiai susijusios matematikos sritys, kurios yra itin svarbios duomenų mokslui. Nors galima dirbti su duomenimis neturint gilių matematikos žinių, vis tiek verta susipažinti bent su pagrindinėmis sąvokomis. Čia pateiksime trumpą įvadą, kuris padės jums pradėti. + +[![Intro Video](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.lt.png)](https://youtu.be/Z5Zy85g4Yjw) + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/6) + +## Tikimybė ir atsitiktiniai kintamieji + +**Tikimybė** yra skaičius tarp 0 ir 1, kuris parodo, kaip tikėtinas yra tam tikras **įvykis**. Ji apibrėžiama kaip teigiamų rezultatų (kurie veda į įvykį) skaičius, padalintas iš visų galimų rezultatų skaičiaus, jei visi rezultatai yra vienodai tikėtini. Pavyzdžiui, metant kauliuką, tikimybė gauti lyginį skaičių yra 3/6 = 0.5. + +Kalbėdami apie įvykius, naudojame **atsitiktinius kintamuosius**. Pavyzdžiui, atsitiktinis kintamasis, kuris atspindi skaičių, gautą metant kauliuką, gali turėti reikšmes nuo 1 iki 6. Skaičių rinkinys nuo 1 iki 6 vadinamas **imties erdve**. Galime kalbėti apie tikimybę, kad atsitiktinis kintamasis įgaus tam tikrą reikšmę, pavyzdžiui, P(X=3)=1/6. + +Ankstesniame pavyzdyje atsitiktinis kintamasis vadinamas **diskrečiu**, nes jo imties erdvė yra skaičiuojama, t. y. yra atskiri skaičiai, kuriuos galima išvardyti. Yra atvejų, kai imties erdvė yra realių skaičių intervalas arba visas realių skaičių rinkinys. Tokie kintamieji vadinami **tęstiniais**. Geras pavyzdys yra autobuso atvykimo laikas. + +## Tikimybių pasiskirstymas + +Diskrečių atsitiktinių kintamųjų atveju lengva aprašyti kiekvieno įvykio tikimybę funkcija P(X). Kiekvienai reikšmei *s* iš imties erdvės *S* ji pateiks skaičių nuo 0 iki 1, taip, kad visų P(X=s) reikšmių suma visiems įvykiams būtų lygi 1. + +Labiausiai žinomas diskretus pasiskirstymas yra **vienodas pasiskirstymas**, kai imties erdvėje yra N elementų, kurių kiekvieno tikimybė yra 1/N. + +Tęstinių kintamųjų pasiskirstymą aprašyti yra sudėtingiau, kai reikšmės imamos iš tam tikro intervalo [a,b] arba viso realių skaičių rinkinio ℝ. Pavyzdžiui, autobuso atvykimo laikas. Iš tiesų, tikimybė, kad autobusas atvyks tiksliai tam tikru laiku *t*, yra lygi 0! + +> Dabar žinote, kad įvykiai, kurių tikimybė yra 0, vis tiek įvyksta, ir gana dažnai! Bent jau kiekvieną kartą, kai atvyksta autobusas! + +Galime kalbėti tik apie tikimybę, kad kintamasis pateks į tam tikrą reikšmių intervalą, pvz., P(t1≤X2). Tokiu atveju tikimybių pasiskirstymas aprašomas **tikimybių tankio funkcija** p(x), tokia, kad + +![P(t_1\le X1, x2, ..., xn. Galime apibrėžti **vidurkį** (arba **aritmetinį vidurkį**) tradiciniu būdu kaip (x1+x2+xn)/n. Didinant imties dydį (t. y. imant ribą su n→∞), gausime pasiskirstymo vidurkį (dar vadinamą **lūkesčiu**). Lūkesčius žymėsime **E**(x). + +> Galima parodyti, kad bet kuriam diskrečiam pasiskirstymui su reikšmėmis {x1, x2, ..., xN} ir atitinkamomis tikimybėmis p1, p2, ..., pN, lūkesčiai bus lygūs E(X)=x1p1+x2p2+...+xNpN. + +Norėdami nustatyti, kaip plačiai paskirstytos reikšmės, galime apskaičiuoti dispersiją σ2 = ∑(xi - μ)2/n, kur μ yra sekos vidurkis. Reikšmė σ vadinama **standartiniu nuokrypiu**, o σ2 vadinama **dispersija**. + +## Moda, mediana ir kvartiliai + +Kartais vidurkis nepakankamai gerai atspindi „tipinę“ duomenų reikšmę. Pavyzdžiui, kai yra keletas ekstremalių reikšmių, kurios visiškai neatitinka diapazono, jos gali paveikti vidurkį. Kitas geras rodiklis yra **mediana**, reikšmė, tokia, kad pusė duomenų taškų yra mažesni už ją, o kita pusė - didesni. + +Norėdami geriau suprasti duomenų pasiskirstymą, naudinga kalbėti apie **kvartilius**: + +* Pirmasis kvartilis, arba Q1, yra reikšmė, tokia, kad 25% duomenų yra mažesni už ją +* Trečiasis kvartilis, arba Q3, yra reikšmė, tokia, kad 75% duomenų yra mažesni už ją + +Grafiškai galime pavaizduoti medianos ir kvartilių santykį diagramoje, vadinamoje **dėžės diagrama**: + + + +Čia taip pat apskaičiuojame **tarpkvartilinį diapazoną** IQR=Q3-Q1 ir vadinamuosius **išskirtinius taškus** - reikšmes, kurios yra už ribų [Q1-1.5*IQR,Q3+1.5*IQR]. + +Mažos galimų reikšmių skaičiaus baigtiniame pasiskirstyme geras „tipinis“ rodiklis yra dažniausiai pasikartojanti reikšmė, vadinama **moda**. Ji dažnai taikoma kategoriniams duomenims, tokiems kaip spalvos. Įsivaizduokite situaciją, kai turime dvi žmonių grupes - vieni stipriai mėgsta raudoną spalvą, o kiti - mėlyną. Jei spalvas koduotume skaičiais, vidutinė mėgstamos spalvos reikšmė būtų kažkur oranžinės-žalios spektro ribose, kas neatspindėtų nei vienos grupės tikrosios preferencijos. Tačiau moda būtų viena iš spalvų arba abi spalvos, jei žmonių, balsuojančių už jas, skaičius būtų vienodas (tokiu atveju imtis vadinama **daugiamodine**). + +## Realūs duomenys + +Analizuojant realaus pasaulio duomenis, jie dažnai nėra tikri atsitiktiniai kintamieji, ta prasme, kad neatliekame eksperimentų su nežinomu rezultatu. Pavyzdžiui, apsvarstykime beisbolo žaidėjų komandą ir jų kūno duomenis, tokius kaip ūgis, svoris ir amžius. Šie skaičiai nėra visiškai atsitiktiniai, tačiau vis tiek galime taikyti tuos pačius matematinius konceptus. Pavyzdžiui, žmonių svorių seka gali būti laikoma reikšmių seka, paimta iš tam tikro atsitiktinio kintamojo. Žemiau pateikiama faktinių beisbolo žaidėjų svorių seka iš [Major League Baseball](http://mlb.mlb.com/index.jsp), paimta iš [šio duomenų rinkinio](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) (patogumui pateikiamos tik pirmos 20 reikšmių): + +``` +[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0] +``` + +> **Note**: Norėdami pamatyti, kaip dirbti su šiuo duomenų rinkiniu, peržiūrėkite [pridedamą užrašų knygelę](notebook.ipynb). Pamokoje yra keletas užduočių, kurias galite atlikti pridėdami kodą į tą užrašų knygelę. Jei nesate tikri, kaip dirbti su duomenimis, nesijaudinkite - vėliau grįšime prie darbo su duomenimis naudojant Python. Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + +Štai dėžės diagrama, rodanti vidurkį, medianą ir kvartilius mūsų duomenims: + +![Weight Box Plot](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.lt.png) + +Kadangi mūsų duomenyse yra informacija apie skirtingus žaidėjų **vaidmenis**, galime sudaryti dėžės diagramą pagal vaidmenį - tai leis mums suprasti, kaip parametrų reikšmės skiriasi tarp vaidmenų. Šį kartą apsvarstysime ūgį: + +![Box plot by role](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.lt.png) + +Ši diagrama rodo, kad, vidutiniškai, pirmosios bazės žaidėjų ūgis yra didesnis nei antrosios bazės žaidėjų ūgis. Vėliau šioje pamokoje išmoksime, kaip formaliau patikrinti šią hipotezę ir kaip parodyti, kad mūsų duomenys yra statistiškai reikšmingi tai įrodyti. + +> Dirbdami su realaus pasaulio duomenimis, darome prielaidą, kad visi duomenų taškai yra imtys, paimtos iš tam tikro tikimybių pasiskirstymo. Ši prielaida leidžia taikyti mašininio mokymosi metodus ir kurti veikiančius prognozavimo modelius. + +Norėdami pamatyti, koks yra mūsų duomenų pasiskirstymas, galime sudaryti grafiką, vadinamą **histograma**. X ašis turėtų turėti skirtingų svorio intervalų skaičių (vadinamų **dėžėmis**), o vertikali ašis rodytų, kiek kartų mūsų atsitiktinio kintamojo imtis pateko į tam tikrą intervalą. + +![Histogram of real world data](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.lt.png) + +Iš šios histogramos matote, kad visos reikšmės yra sutelktos aplink tam tikrą vidutinį svorį, o kuo toliau nuo to svorio - tuo mažiau svorių su ta reikšme yra aptinkama. T. y., labai mažai tikėtina, kad beisbolo žaidėjo svoris labai skirsis nuo vidutinio svorio. Svorio dispersija rodo, kiek svoriai gali skirtis nuo vidurkio. + +> Jei paimtume kitų žmonių, ne iš beisbolo lygos, svorius, pasiskirstymas greičiausiai būtų kitoks. Tačiau pasiskirstymo forma išliktų ta pati, tik vidurkis ir dispersija pasikeistų. Taigi, jei treniruosime savo modelį su beisbolo žaidėjais, jis greičiausiai pateiks neteisingus rezultatus, kai bus taikomas universiteto studentams, nes pagrindinis pasiskirstymas yra kitoks. + +## Normalusis pasiskirstymas + +Svorio pasiskirstymas, kurį matėme aukščiau, yra labai tipiškas, ir daugelis realaus pasaulio matavimų seka tokio tipo pasiskirstymą, tačiau su skirtingu vidurkiu ir dispersija. Šis pasiskirstymas vadinamas **normaliuoju pasiskirstymu**, ir jis vaidina labai svarbų vaidmenį statistikoje. + +Naudoti normalųjį pasiskirstymą yra teisingas būdas generuoti potencialių beisbolo žaidėjų atsitiktinius svorius. Kai žinome vidutinį svorį `mean` ir standartinį nuokrypį `std`, galime sugeneruoti 1000 svorio imčių šiuo būdu: +```python +samples = np.random.normal(mean,std,1000) +``` + +Jei sudarysime sugeneruotų imčių histogramą, pamatysime vaizdą, labai panašų į aukščiau pateiktą. O jei padidinsime imčių skaičių ir dėžių skaičių, galime sugeneruoti normalaus pasiskirstymo vaizdą, kuris bus artimesnis idealiam: + +![Normal Distribution with mean=0 and std.dev=1](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.lt.png) + +*Normalusis pasiskirstymas su vidurkiu=0 ir standartiniu nuokrypiu=1* + +## Pasitikėjimo intervalai + +Kalbėdami apie beisbolo žaidėjų svorius, darome prielaidą, kad yra tam tikras **atsitiktinis kintamasis W**, kuris atitinka idealų visų beisbolo žaidėjų svorių tikimybių pasiskirstymą (vadinamą **populiacija**). Mūsų svorių seka atitinka visų beisbolo žaidėjų pogrupį, kurį vadiname **imčiu**. Įdomus klausimas yra, ar galime žinoti W pasiskirstymo parametrus, t. y. populiacijos vidurkį ir dispersiją? + +Lengviausias atsakymas būtų apskaičiuoti mūsų imties vidurkį ir dispersiją. Tačiau gali nutikti taip, kad mūsų atsitiktinė imtis netiksliai atspindi visą populiaciją. Todėl prasminga kalbėti apie **pasitikėjimo intervalą**. +> **Pasitikėjimo intervalas** yra tikrosios populiacijos vidurkio įvertinimas, remiantis mūsų imtimi, kuris yra tikslus tam tikra tikimybe (arba **pasitikėjimo lygiu**). +Tarkime, turime imtį X1, ..., Xn iš mūsų skirstinio. Kiekvieną kartą imdami imtį iš skirstinio, gausime skirtingą vidurkio reikšmę μ. Todėl μ galima laikyti atsitiktiniu dydžiu. **Pasitikėjimo intervalas** su pasitikėjimu p yra reikšmių pora (Lp, Rp), tokia, kad **P**(Lp≤μ≤Rp) = p, t. y. tikimybė, kad išmatuotas vidurkis pateks į intervalą, yra lygi p. + +Išsamiai aptarti, kaip skaičiuojami šie pasitikėjimo intervalai, peržengia mūsų trumpo įvado ribas. Daugiau informacijos galite rasti [Vikipedijoje](https://en.wikipedia.org/wiki/Confidence_interval). Trumpai tariant, mes apibrėžiame apskaičiuoto imties vidurkio skirstinį, palyginti su tikruoju populiacijos vidurkiu, kuris vadinamas **studento skirstiniu**. + +> **Įdomus faktas**: Studento skirstinys pavadintas matematiko William Sealy Gosset vardu, kuris savo darbą paskelbė pseudonimu „Student“. Jis dirbo Guinness alaus darykloje, ir, pasak vienos versijos, jo darbdavys nenorėjo, kad visuomenė sužinotų, jog jie naudoja statistinius testus žaliavų kokybei nustatyti. + +Jei norime įvertinti populiacijos vidurkį μ su pasitikėjimu p, turime paimti *(1-p)/2-tąjį procentilį* iš Studento skirstinio A, kurį galima rasti lentelėse arba apskaičiuoti naudojant statistinės programinės įrangos (pvz., Python, R ir kt.) funkcijas. Tada intervalas μ būtų X±A*D/√n, kur X yra gautas imties vidurkis, o D – standartinis nuokrypis. + +> **Pastaba**: Taip pat praleidžiame svarbios sąvokos – [laisvės laipsnių](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) – aptarimą, kuri yra svarbi Studento skirstinio kontekste. Norėdami giliau suprasti šią sąvoką, galite kreiptis į išsamesnes statistikos knygas. + +Pavyzdys, kaip apskaičiuoti pasitikėjimo intervalą svoriams ir ūgiams, pateiktas [pridedamuose užrašų knygelėse](notebook.ipynb). + +| p | Svorio vidurkis | +|------|-----------------| +| 0.85 | 201.73±0.94 | +| 0.90 | 201.73±1.08 | +| 0.95 | 201.73±1.28 | + +Atkreipkite dėmesį, kad kuo didesnė pasitikėjimo tikimybė, tuo platesnis pasitikėjimo intervalas. + +## Hipotezių tikrinimas + +Mūsų beisbolo žaidėjų duomenų rinkinyje yra skirtingi žaidėjų vaidmenys, kurie gali būti apibendrinti taip (pažiūrėkite į [pridedamą užrašų knygelę](notebook.ipynb), kad pamatytumėte, kaip ši lentelė apskaičiuojama): + +| Vaidmuo | Ūgis | Svoris | Kiekis | +|--------------------|-----------|-----------|--------| +| Gaudytojas | 72.723684 | 204.328947 | 76 | +| Smūgiuotojas | 74.222222 | 220.888889 | 18 | +| Pirmasis bazininkas| 74.000000 | 213.109091 | 55 | +| Lauko žaidėjas | 73.010309 | 199.113402 | 194 | +| Atsarginis metikas | 74.374603 | 203.517460 | 315 | +| Antrasis bazininkas| 71.362069 | 184.344828 | 58 | +| Trumpasis žaidėjas | 71.903846 | 182.923077 | 52 | +| Pagrindinis metikas| 74.719457 | 205.163636 | 221 | +| Trečiasis bazininkas| 73.044444 | 200.955556 | 45 | + +Galime pastebėti, kad pirmųjų bazininkų vidutinis ūgis yra didesnis nei antrųjų bazininkų. Todėl galime būti linkę daryti išvadą, kad **pirmieji bazininkai yra aukštesni nei antrieji bazininkai**. + +> Šis teiginys vadinamas **hipoteze**, nes mes nežinome, ar tai iš tikrųjų tiesa. + +Tačiau ne visada akivaizdu, ar galime padaryti tokią išvadą. Iš aukščiau pateiktos diskusijos žinome, kad kiekvienas vidurkis turi susijusį pasitikėjimo intervalą, todėl šis skirtumas gali būti tik statistinė paklaida. Mums reikia formalesnio būdo hipotezei patikrinti. + +Apskaičiuokime pasitikėjimo intervalus atskirai pirmųjų ir antrųjų bazininkų ūgiams: + +| Pasitikėjimas | Pirmieji bazininkai | Antrieji bazininkai | +|---------------|---------------------|---------------------| +| 0.85 | 73.62..74.38 | 71.04..71.69 | +| 0.90 | 73.56..74.44 | 70.99..71.73 | +| 0.95 | 73.47..74.53 | 70.92..71.81 | + +Matome, kad nė vienu pasitikėjimo lygiu intervalai nesutampa. Tai įrodo mūsų hipotezę, kad pirmieji bazininkai yra aukštesni nei antrieji bazininkai. + +Formaliau, problema, kurią sprendžiame, yra nustatyti, ar **du skirstiniai yra vienodi**, ar bent jau turi tuos pačius parametrus. Priklausomai nuo skirstinio, tam reikia naudoti skirtingus testus. Jei žinome, kad mūsų skirstiniai yra normalūs, galime taikyti **[Studento t-testą](https://en.wikipedia.org/wiki/Student%27s_t-test)**. + +Studento t-teste apskaičiuojame vadinamąją **t-reikšmę**, kuri nurodo vidurkių skirtumą, atsižvelgiant į dispersiją. Įrodyta, kad t-reikšmė atitinka **studento skirstinį**, kuris leidžia mums gauti ribinę reikšmę tam tikram pasitikėjimo lygiui **p** (tai galima apskaičiuoti arba rasti skaitmeninėse lentelėse). Tada lyginame t-reikšmę su šia riba, kad patvirtintume arba paneigtume hipotezę. + +Python kalboje galime naudoti **SciPy** biblioteką, kurioje yra funkcija `ttest_ind` (be daugelio kitų naudingų statistinių funkcijų!). Ji apskaičiuoja t-reikšmę už mus ir taip pat atlieka atvirkštinį pasitikėjimo p-reikšmės nustatymą, kad galėtume tiesiog pažvelgti į pasitikėjimą ir padaryti išvadą. + +Pavyzdžiui, mūsų pirmųjų ir antrųjų bazininkų ūgių palyginimas duoda šiuos rezultatus: +```python +from scipy.stats import ttest_ind + +tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False) +print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}") +``` +``` +T-value = 7.65 +P-value: 9.137321189738925e-12 +``` +Mūsų atveju p-reikšmė yra labai maža, o tai reiškia, kad yra stiprūs įrodymai, patvirtinantys, jog pirmieji bazininkai yra aukštesni. + +Taip pat yra kitų hipotezių tipų, kuriuos galime norėti patikrinti, pavyzdžiui: +* Įrodyti, kad tam tikra imtis atitinka tam tikrą skirstinį. Mūsų atveju mes darėme prielaidą, kad ūgiai yra normaliai pasiskirstę, tačiau tai reikia formaliai statistiškai patvirtinti. +* Įrodyti, kad imties vidurkis atitinka tam tikrą iš anksto nustatytą reikšmę. +* Palyginti kelių imčių vidurkius (pvz., koks yra laimės lygio skirtumas tarp skirtingų amžiaus grupių). + +## Didelių skaičių dėsnis ir centrinė ribinė teorema + +Viena iš priežasčių, kodėl normalusis skirstinys yra toks svarbus, yra vadinamoji **centrinė ribinė teorema**. Tarkime, turime didelę nepriklausomų N reikšmių X1, ..., XN imtį, paimtą iš bet kokio skirstinio su vidurkiu μ ir dispersija σ2. Tada, kai N yra pakankamai didelis (kitaip tariant, kai N→∞), vidurkis ΣiXi bus normaliai pasiskirstęs, su vidurkiu μ ir dispersija σ2/N. + +> Kitas būdas interpretuoti centrinę ribinę teoremą yra sakyti, kad nepriklausomai nuo skirstinio, kai apskaičiuojate bet kokių atsitiktinių dydžių sumos vidurkį, gaunate normalųjį skirstinį. + +Iš centrinės ribinės teoremos taip pat seka, kad kai N→∞, tikimybė, jog imties vidurkis bus lygus μ, tampa 1. Tai vadinama **didelių skaičių dėsniu**. + +## Kovariacija ir koreliacija + +Viena iš duomenų mokslo užduočių yra rasti ryšius tarp duomenų. Sakome, kad dvi sekos **koreliuoja**, kai jos elgiasi panašiai tuo pačiu metu, t. y. jos arba kyla/krenta kartu, arba viena seka kyla, kai kita krenta, ir atvirkščiai. Kitaip tariant, tarp dviejų sekų atrodo esąs tam tikras ryšys. + +> Koreliacija nebūtinai reiškia priežastinį ryšį tarp dviejų sekų; kartais abu kintamieji gali priklausyti nuo kokios nors išorinės priežasties arba gali būti grynas atsitiktinumas, kad dvi sekos koreliuoja. Tačiau stipri matematinė koreliacija yra geras rodiklis, kad du kintamieji yra kažkaip susiję. + +Matematiškai pagrindinė sąvoka, rodanti ryšį tarp dviejų atsitiktinių dydžių, yra **kovariacija**, kuri apskaičiuojama taip: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]. Mes apskaičiuojame abiejų kintamųjų nuokrypį nuo jų vidurkių ir tada šių nuokrypių sandaugą. Jei abu kintamieji nukrypsta kartu, sandauga visada bus teigiama, o tai sudarys teigiamą kovariaciją. Jei abu kintamieji nukrypsta nesinchroniškai (t. y. vienas nukrenta žemiau vidurkio, kai kitas pakyla aukščiau vidurkio), visada gausime neigiamas reikšmes, kurios sudarys neigiamą kovariaciją. Jei nuokrypiai nėra priklausomi, jie sudarys apytiksliai nulį. + +Kovariacijos absoliuti reikšmė nepasako daug apie tai, kokia stipri yra koreliacija, nes ji priklauso nuo faktinių reikšmių dydžio. Norėdami ją normalizuoti, galime padalyti kovariaciją iš abiejų kintamųjų standartinio nuokrypio ir gauti **koreliaciją**. Gerai tai, kad koreliacija visada yra intervale [-1,1], kur 1 reiškia stiprią teigiamą koreliaciją tarp reikšmių, -1 – stiprią neigiamą koreliaciją, o 0 – jokios koreliacijos (kintamieji yra nepriklausomi). + +**Pavyzdys**: Galime apskaičiuoti koreliaciją tarp beisbolo žaidėjų svorių ir ūgių iš aukščiau paminėto duomenų rinkinio: +```python +print(np.corrcoef(weights,heights)) +``` +Rezultate gauname **koreliacijos matricą**, panašią į šią: +``` +array([[1. , 0.52959196], + [0.52959196, 1. ]]) +``` + +> Koreliacijos matrica C gali būti apskaičiuota bet kokiam įvesties sekų S1, ..., Sn skaičiui. Cij reikšmė yra koreliacija tarp Si ir Sj, o įstrižainės elementai visada yra 1 (tai taip pat yra Si savikoreliacija). + +Mūsų atveju reikšmė 0.53 rodo, kad yra tam tikra koreliacija tarp žmogaus svorio ir ūgio. Taip pat galime sudaryti sklaidos diagramą, kurioje viena reikšmė vaizduojama prieš kitą, kad vizualiai pamatytume ryšį: + +![Ryšys tarp svorio ir ūgio](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.lt.png) + +> Daugiau koreliacijos ir kovariacijos pavyzdžių galite rasti [pridedamoje užrašų knygelėje](notebook.ipynb). + +## Išvada + +Šioje dalyje išmokome: + +* pagrindines duomenų statistines savybes, tokias kaip vidurkis, dispersija, moda ir kvartiliai +* skirtingus atsitiktinių dydžių skirstinius, įskaitant normalųjį skirstinį +* kaip rasti koreliaciją tarp skirtingų savybių +* kaip naudoti matematikos ir statistikos metodus hipotezėms įrodyti +* kaip apskaičiuoti atsitiktinio dydžio pasitikėjimo intervalus, remiantis duomenų imtimi + +Nors tai tikrai nėra išsamus tikimybių ir statistikos temų sąrašas, jis turėtų būti pakankamas, kad suteiktų jums gerą pradžią šiame kurse. + +## 🚀 Iššūkis + +Naudokite užrašų knygelėje pateiktą pavyzdinį kodą, kad patikrintumėte kitas hipotezes: +1. Pirmieji bazininkai yra vyresni nei antrieji bazininkai +2. Pirmieji bazininkai yra aukštesni nei tretieji bazininkai +3. Trumpieji žaidėjai yra aukštesni nei antrieji bazininkai + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/7) + +## Peržiūra ir savarankiškas mokymasis + +Tikimybė ir statistika yra tokia plati tema, kad ji nusipelno atskiro kurso. Jei norite giliau pasinerti į teoriją, galite toliau skaityti šias knygas: + +1. [Carlos Fernandez-Granda](https://cims.nyu.edu/~cfgranda/) iš Niujorko universiteto turi puikius paskaitų užrašus [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (prieinami internete) +1. [Peter ir Andrew Bruce. Practical Statistics for Data Scientists.](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[pavyzdinis kodas R](https://github.com/andrewgbruce/statistics-for-data-scientists)]. +1. [James D. Miller. Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[pavyzdinis kodas R](https://github.com/PacktPublishing/Statistics-for-Data-Science)] + +## Užduotis + +[Mažas diabeto tyrimas](assignment.md) + +## Kreditas + +Šią pamoką su ♥️ parengė [Dmitry Soshnikov](http://soshnikov.com) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/04-stats-and-probability/assignment.md b/translations/lt/1-Introduction/04-stats-and-probability/assignment.md new file mode 100644 index 00000000..3b77ef0d --- /dev/null +++ b/translations/lt/1-Introduction/04-stats-and-probability/assignment.md @@ -0,0 +1,40 @@ + +# Mažas diabeto tyrimas + +Šioje užduotyje dirbsime su mažu diabeto pacientų duomenų rinkiniu, paimtu iš [čia](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). + +| | AMŽIUS | LYTIS | KMI | KRAUJOSPŪDIS | S1 | S2 | S3 | S4 | S5 | S6 | Y | +|---|--------|-------|-----|-------------|----|----|----|----|----|----|----| +| 0 | 59 | 2 | 32.1| 101. | 157| 93.2| 38.0| 4. | 4.8598 | 87 | 151 | +| 1 | 48 | 1 | 21.6| 87.0 | 183| 103.2| 70. | 3. | 3.8918 | 69 | 75 | +| 2 | 72 | 2 | 30.5| 93.0 | 156| 93.6| 41.0| 4.0| 4. | 85 | 141 | +| ... | ... | ... | ... | ... | ...| ... | ... | ...| ... | ...| ... | + +## Instrukcijos + +* Atidarykite [užduoties užrašų knygelę](assignment.ipynb) jupyter užrašų knygelės aplinkoje +* Atlikite visas užrašų knygelėje nurodytas užduotis, būtent: + * [ ] Apskaičiuokite visų reikšmių vidurkius ir dispersijas + * [ ] Nubraižykite dėžutinius grafikus (boxplots) KMI, kraujospūdžiui ir Y, atsižvelgiant į lytį + * [ ] Kokia yra amžiaus, lyties, KMI ir Y kintamųjų pasiskirstymo forma? + * [ ] Patikrinkite koreliaciją tarp skirtingų kintamųjų ir ligos progresavimo (Y) + * [ ] Patikrinkite hipotezę, kad diabeto progresavimo laipsnis skiriasi tarp vyrų ir moterų + +## Vertinimo kriterijai + +Pavyzdingai | Pakankamai | Reikia patobulinimų +--- | --- | --- | +Visos reikalaujamos užduotys yra atliktos, grafiškai iliustruotos ir paaiškintos | Dauguma užduočių yra atliktos, tačiau trūksta paaiškinimų arba išvadų iš grafikų ir/arba gautų reikšmių | Atliktos tik pagrindinės užduotys, tokios kaip vidurkių/dispersijų skaičiavimas ir pagrindiniai grafikai, tačiau iš duomenų nėra padaryta jokių išvadų + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/1-Introduction/README.md b/translations/lt/1-Introduction/README.md new file mode 100644 index 00000000..cc1a06fe --- /dev/null +++ b/translations/lt/1-Introduction/README.md @@ -0,0 +1,31 @@ + +# Įvadas į Duomenų Mokslą + +![duomenys veiksme](../../../translated_images/data.48e22bb7617d8d92188afbc4c48effb920ba79f5cebdc0652cd9f34bbbd90c18.lt.jpg) +> Nuotrauka: Stephen DawsonUnsplash + +Šiose pamokose sužinosite, kaip apibrėžiamas Duomenų Mokslas, ir susipažinsite su etiniais aspektais, kuriuos privalo apsvarstyti duomenų mokslininkas. Taip pat sužinosite, kas yra duomenys, ir šiek tiek apie statistiką bei tikimybes – pagrindines Duomenų Mokslo akademines sritis. + +### Temos + +1. [Duomenų Mokslo Apibrėžimas](01-defining-data-science/README.md) +2. [Duomenų Mokslo Etika](02-ethics/README.md) +3. [Duomenų Apibrėžimas](03-defining-data/README.md) +4. [Įvadas į Statistiką ir Tikimybes](04-stats-and-probability/README.md) + +### Autoriai + +Šios pamokos buvo parašytos su ❤️ [Nitya Narasimhan](https://twitter.com/nitya) ir [Dmitry Soshnikov](https://twitter.com/shwars). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojame kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/05-relational-databases/README.md b/translations/lt/2-Working-With-Data/05-relational-databases/README.md new file mode 100644 index 00000000..ec8c2b7e --- /dev/null +++ b/translations/lt/2-Working-With-Data/05-relational-databases/README.md @@ -0,0 +1,195 @@ + +# Darbas su duomenimis: Reliacinės duomenų bazės + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/05-RelationalData.png)| +|:---:| +| Darbas su duomenimis: Reliacinės duomenų bazės - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Tikėtina, kad anksčiau esate naudoję skaičiuoklę informacijai saugoti. Turėjote eilučių ir stulpelių rinkinį, kur eilutės turėjo informaciją (arba duomenis), o stulpeliai apibūdino informaciją (kartais vadinamą metaduomenimis). Reliacinė duomenų bazė yra sukurta remiantis šiuo pagrindiniu principu – lentelėmis su stulpeliais ir eilutėmis, leidžiančiomis informaciją paskirstyti per kelias lenteles. Tai suteikia galimybę dirbti su sudėtingesniais duomenimis, išvengti dubliavimo ir turėti lankstumo analizuojant duomenis. Pažvelkime į reliacinės duomenų bazės koncepcijas. + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/8) + +## Viskas prasideda nuo lentelių + +Reliacinės duomenų bazės pagrindas yra lentelės. Kaip ir skaičiuoklėje, lentelė yra stulpelių ir eilučių rinkinys. Eilutėse yra duomenys arba informacija, su kuria norime dirbti, pavyzdžiui, miesto pavadinimas ar kritulių kiekis. Stulpeliai apibūdina saugomus duomenis. + +Pradėkime tyrinėjimą sukurdami lentelę, kurioje saugosime informaciją apie miestus. Galime pradėti nuo jų pavadinimo ir šalies. Tai galėtume saugoti lentelėje taip: + +| Miestas | Šalis | +| -------- | ------------- | +| Tokijas | Japonija | +| Atlanta | Jungtinės Valstijos | +| Oklendas | Naujoji Zelandija | + +Atkreipkite dėmesį, kad stulpelių pavadinimai **miestas**, **šalis** ir **populiacija** apibūdina saugomus duomenis, o kiekviena eilutė pateikia informaciją apie vieną miestą. + +## Vienos lentelės metodo trūkumai + +Tikėtina, kad aukščiau pateikta lentelė jums atrodo gana pažįstama. Pradėkime pridėti papildomų duomenų į mūsų augančią duomenų bazę – metinį kritulių kiekį (milimetrais). Susitelkime į 2018, 2019 ir 2020 metus. Jei pridėtume duomenis apie Tokiją, tai galėtų atrodyti taip: + +| Miestas | Šalis | Metai | Kiekis | +| -------- | ------- | ----- | ------ | +| Tokijas | Japonija| 2020 | 1690 | +| Tokijas | Japonija| 2019 | 1874 | +| Tokijas | Japonija| 2018 | 1445 | + +Ką pastebite apie mūsų lentelę? Galbūt pastebėjote, kad mes kartojame miesto pavadinimą ir šalį vėl ir vėl. Tai gali užimti nemažai vietos ir iš esmės yra nereikalinga. Juk Tokijas turi tik vieną pavadinimą, kuris mus domina. + +Gerai, pabandykime ką nors kita. Pridėkime naujus stulpelius kiekvieniems metams: + +| Miestas | Šalis | 2018 | 2019 | 2020 | +| -------- | ------------- | ---- | ---- | ---- | +| Tokijas | Japonija | 1445 | 1874 | 1690 | +| Atlanta | Jungtinės Valstijos | 1779 | 1111 | 1683 | +| Oklendas | Naujoji Zelandija | 1386 | 942 | 1176 | + +Nors tai išvengia eilučių dubliavimo, atsiranda keletas kitų iššūkių. Kiekvieną kartą atsiradus naujiems metams, turėtume keisti lentelės struktūrą. Be to, augant duomenims, metų naudojimas kaip stulpelių apsunkins reikšmių gavimą ir skaičiavimą. + +Štai kodėl mums reikia kelių lentelių ir ryšių. Padalindami duomenis galime išvengti dubliavimo ir turėti daugiau lankstumo dirbant su duomenimis. + +## Ryšių koncepcijos + +Grįžkime prie savo duomenų ir nuspręskime, kaip juos padalinti. Žinome, kad norime saugoti miestų pavadinimus ir šalis, todėl tai greičiausiai geriausiai veiks vienoje lentelėje. + +| Miestas | Šalis | +| -------- | ------------- | +| Tokijas | Japonija | +| Atlanta | Jungtinės Valstijos | +| Oklendas | Naujoji Zelandija | + +Tačiau prieš kurdami kitą lentelę, turime nuspręsti, kaip nurodyti kiekvieną miestą. Mums reikia kažkokio identifikatoriaus, ID arba (techniniais duomenų bazės terminais) pirminio rakto. Pirminis raktas yra reikšmė, naudojama konkrečiai eilutei lentelėje identifikuoti. Nors tai galėtų būti pagrįsta pačia reikšme (pavyzdžiui, galėtume naudoti miesto pavadinimą), beveik visada tai turėtų būti skaičius arba kitas identifikatorius. Nenorime, kad ID kada nors pasikeistų, nes tai sugadintų ryšį. Daugeliu atvejų pirminis raktas arba ID bus automatiškai sugeneruotas skaičius. + +> ✅ Pirminis raktas dažnai trumpinamas kaip PK + +### miestai + +| city_id | Miestas | Šalis | +| ------- | -------- | ------------- | +| 1 | Tokijas | Japonija | +| 2 | Atlanta | Jungtinės Valstijos | +| 3 | Oklendas | Naujoji Zelandija | + +> ✅ Pastebėsite, kad šios pamokos metu terminus "id" ir "pirminis raktas" naudojame pakaitomis. Šios koncepcijos taikomos ir "DataFrames", kuriuos tyrinėsite vėliau. "DataFrames" nenaudoja termino "pirminis raktas", tačiau pastebėsite, kad jie elgiasi labai panašiai. + +Sukūrę miestų lentelę, saugokime kritulių duomenis. Užuot dubliavę visą informaciją apie miestą, galime naudoti ID. Taip pat turėtume užtikrinti, kad naujai sukurtoje lentelėje būtų *id* stulpelis, nes visos lentelės turėtų turėti ID arba pirminį raktą. + +### krituliai + +| rainfall_id | city_id | Metai | Kiekis | +| ----------- | ------- | ----- | ------ | +| 1 | 1 | 2018 | 1445 | +| 2 | 1 | 2019 | 1874 | +| 3 | 1 | 2020 | 1690 | +| 4 | 2 | 2018 | 1779 | +| 5 | 2 | 2019 | 1111 | +| 6 | 2 | 2020 | 1683 | +| 7 | 3 | 2018 | 1386 | +| 8 | 3 | 2019 | 942 | +| 9 | 3 | 2020 | 1176 | + +Atkreipkite dėmesį į **city_id** stulpelį naujai sukurtoje **krituliai** lentelėje. Šis stulpelis turi reikšmes, kurios nurodo ID **miestai** lentelėje. Techniniais reliacinių duomenų terminais tai vadinama **užsienio raktu**; tai yra pirminis raktas iš kitos lentelės. Galite tiesiog galvoti apie tai kaip apie nuorodą arba rodyklę. **city_id** 1 nurodo Tokiją. + +> [!NOTE] Užsienio raktas dažnai trumpinamas kaip FK + +## Duomenų gavimas + +Padalinę duomenis į dvi lenteles, galbūt svarstote, kaip juos gauti. Jei naudojame reliacinę duomenų bazę, tokią kaip MySQL, SQL Server ar Oracle, galime naudoti kalbą, vadinamą struktūrizuota užklausų kalba (SQL). SQL (kartais tariama "siquel") yra standartinė kalba, naudojama duomenims reliacinėje duomenų bazėje gauti ir keisti. + +Norėdami gauti duomenis, naudojate komandą `SELECT`. Iš esmės jūs **pasirenkate** stulpelius, kuriuos norite matyti, **iš** lentelės, kurioje jie yra. Jei norėtumėte parodyti tik miestų pavadinimus, galėtumėte naudoti šią užklausą: + +```sql +SELECT city +FROM cities; + +-- Output: +-- Tokyo +-- Atlanta +-- Auckland +``` + +`SELECT` nurodote stulpelius, o `FROM` nurodote lenteles. + +> [NOTE] SQL sintaksė nėra jautri raidžių dydžiui, tai reiškia, kad `select` ir `SELECT` reiškia tą patį. Tačiau, priklausomai nuo naudojamos duomenų bazės tipo, stulpeliai ir lentelės gali būti jautrūs raidžių dydžiui. Todėl geriausia praktika yra visada elgtis taip, lyg viskas programavime būtų jautru raidžių dydžiui. Rašant SQL užklausas įprasta raktinius žodžius rašyti didžiosiomis raidėmis. + +Aukščiau pateikta užklausa parodys visus miestus. Įsivaizduokime, kad norime parodyti tik Naujosios Zelandijos miestus. Mums reikia kažkokio filtro. SQL raktinis žodis tam yra `WHERE`, arba "kur kažkas yra tiesa". + +```sql +SELECT city +FROM cities +WHERE country = 'New Zealand'; + +-- Output: +-- Auckland +``` + +## Duomenų sujungimas + +Iki šiol gavome duomenis iš vienos lentelės. Dabar norime sujungti duomenis iš **miestai** ir **krituliai**. Tai atliekama *sujungiant* juos. Iš esmės sukursite siūlę tarp dviejų lentelių ir suderinsite reikšmes iš stulpelio kiekvienoje lentelėje. + +Mūsų pavyzdyje suderinsime **city_id** stulpelį **krituliai** su **city_id** stulpeliu **miestai**. Tai suderins kritulių reikšmę su atitinkamu miestu. Sujungimo tipas, kurį atliksime, vadinamas *vidiniu* sujungimu, tai reiškia, kad jei kokios nors eilutės nesutampa su niekuo iš kitos lentelės, jos nebus rodomos. Mūsų atveju kiekvienas miestas turi kritulių duomenis, todėl viskas bus parodyta. + +Pažiūrėkime kritulių duomenis 2019 metams visiems mūsų miestams. + +Tai atliksime etapais. Pirmas žingsnis yra sujungti duomenis, nurodant stulpelius siūlei – **city_id**, kaip buvo pabrėžta anksčiau. + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +``` + +Pabrėžėme du stulpelius, kurių norime, ir faktą, kad norime sujungti lenteles pagal **city_id**. Dabar galime pridėti `WHERE` sakinį, kad filtruotume tik 2019 metus. + +```sql +SELECT cities.city + rainfall.amount +FROM cities + INNER JOIN rainfall ON cities.city_id = rainfall.city_id +WHERE rainfall.year = 2019 + +-- Output + +-- city | amount +-- -------- | ------ +-- Tokyo | 1874 +-- Atlanta | 1111 +-- Auckland | 942 +``` + +## Santrauka + +Reliacinės duomenų bazės yra orientuotos į informacijos padalijimą tarp kelių lentelių, kurios vėliau sujungiamos rodymui ir analizei. Tai suteikia didelį lankstumą atliekant skaičiavimus ir kitaip manipuliuojant duomenimis. Jūs susipažinote su pagrindinėmis reliacinės duomenų bazės koncepcijomis ir kaip atlikti sujungimą tarp dviejų lentelių. + +## 🚀 Iššūkis + +Internete yra daugybė reliacinių duomenų bazių. Galite tyrinėti duomenis naudodamiesi aukščiau išmoktais įgūdžiais. + +## Testas po paskaitos + +## [Testas po paskaitos](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/9) + +## Apžvalga ir savarankiškas mokymasis + +Yra keletas išteklių [Microsoft Learn](https://docs.microsoft.com/learn?WT.mc_id=academic-77958-bethanycheum), skirtų tęsti SQL ir reliacinių duomenų bazių koncepcijų tyrinėjimą: + +- [Reliacinių duomenų koncepcijų aprašymas](https://docs.microsoft.com//learn/modules/describe-concepts-of-relational-data?WT.mc_id=academic-77958-bethanycheum) +- [Pradėkite užklausų rašymą su Transact-SQL](https://docs.microsoft.com//learn/paths/get-started-querying-with-transact-sql?WT.mc_id=academic-77958-bethanycheum) (Transact-SQL yra SQL versija) +- [SQL turinys Microsoft Learn](https://docs.microsoft.com/learn/browse/?products=azure-sql-database%2Csql-server&expanded=azure&WT.mc_id=academic-77958-bethanycheum) + +## Užduotis + +[Užduoties pavadinimas](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/05-relational-databases/assignment.md b/translations/lt/2-Working-With-Data/05-relational-databases/assignment.md new file mode 100644 index 00000000..9d0b696f --- /dev/null +++ b/translations/lt/2-Working-With-Data/05-relational-databases/assignment.md @@ -0,0 +1,73 @@ + +# Oro uostų duomenų rodymas + +Jums buvo pateikta [duomenų bazė](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db), sukurta naudojant [SQLite](https://sqlite.org/index.html), kurioje yra informacija apie oro uostus. Žemiau pateikta schemos struktūra. Naudosite [SQLite plėtinį](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) programoje [Visual Studio Code](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum), kad galėtumėte peržiūrėti informaciją apie įvairių miestų oro uostus. + +## Instrukcijos + +Norėdami pradėti užduotį, turėsite atlikti kelis veiksmus. Reikės įdiegti keletą įrankių ir atsisiųsti pavyzdinę duomenų bazę. + +### Sistemos paruošimas + +Galite naudoti Visual Studio Code ir SQLite plėtinį, kad galėtumėte dirbti su duomenų baze. + +1. Eikite į [code.visualstudio.com](https://code.visualstudio.com?WT.mc_id=academic-77958-bethanycheum) ir vykdykite instrukcijas, kad įdiegtumėte Visual Studio Code +1. Įdiekite [SQLite plėtinį](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum), kaip nurodyta Marketplace puslapyje + +### Atsisiųskite ir atidarykite duomenų bazę + +Toliau atsisiųskite ir atidarykite duomenų bazę. + +1. Atsisiųskite [duomenų bazės failą iš GitHub](https://raw.githubusercontent.com/Microsoft/Data-Science-For-Beginners/main/2-Working-With-Data/05-relational-databases/airports.db) ir išsaugokite jį kataloge +1. Atidarykite Visual Studio Code +1. Atidarykite duomenų bazę SQLite plėtinyje, paspausdami **Ctl-Shift-P** (arba **Cmd-Shift-P** Mac kompiuteryje) ir įvesdami `SQLite: Open database` +1. Pasirinkite **Choose database from file** ir atidarykite **airports.db** failą, kurį atsisiuntėte anksčiau +1. Atidarę duomenų bazę (ekrane nebus matomas atnaujinimas), sukurkite naują užklausų langą, paspausdami **Ctl-Shift-P** (arba **Cmd-Shift-P** Mac kompiuteryje) ir įvesdami `SQLite: New query` + +Kai langas atidarytas, jį galima naudoti SQL užklausoms vykdyti prieš duomenų bazę. Užklausas galite vykdyti naudodami komandą **Ctl-Shift-Q** (arba **Cmd-Shift-Q** Mac kompiuteryje). + +> [!NOTE] Daugiau informacijos apie SQLite plėtinį galite rasti [dokumentacijoje](https://marketplace.visualstudio.com/items?itemName=alexcvzz.vscode-sqlite&WT.mc_id=academic-77958-bethanycheum) + +## Duomenų bazės schema + +Duomenų bazės schema – tai jos lentelių dizainas ir struktūra. **airports** duomenų bazėje yra dvi lentelės: `cities`, kurioje pateikiamas Jungtinės Karalystės ir Airijos miestų sąrašas, ir `airports`, kurioje pateikiamas visų oro uostų sąrašas. Kadangi kai kuriuose miestuose gali būti keli oro uostai, buvo sukurtos dvi lentelės informacijai saugoti. Šioje užduotyje naudosite sujungimus (joins), kad galėtumėte peržiūrėti informaciją apie skirtingus miestus. + +| Miestai | +| ----------------- | +| id (PK, sveikasis skaičius) | +| city (tekstas) | +| country (tekstas) | + +| Oro uostai | +| --------------------------------- | +| id (PK, sveikasis skaičius) | +| name (tekstas) | +| code (tekstas) | +| city_id (FK į id lentelėje **Cities**) | + +## Užduotis + +Sukurkite užklausas, kurios pateiktų šią informaciją: + +1. visų miestų pavadinimus iš `Cities` lentelės +1. visus Airijos miestus iš `Cities` lentelės +1. visų oro uostų pavadinimus su jų miestu ir šalimi +1. visus oro uostus Londone, Jungtinėje Karalystėje + +## Vertinimo kriterijai + +| Puikiai | Pakankamai | Reikia tobulinti | +| -------- | ---------- | ---------------- | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/06-non-relational/README.md b/translations/lt/2-Working-With-Data/06-non-relational/README.md new file mode 100644 index 00000000..5d20c2a8 --- /dev/null +++ b/translations/lt/2-Working-With-Data/06-non-relational/README.md @@ -0,0 +1,158 @@ + +# Darbas su duomenimis: Nerelaciniai duomenys + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/06-NoSQL.png)| +|:---:| +|Darbas su NoSQL duomenimis - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/10) + +Duomenys nėra apriboti relacinėmis duomenų bazėmis. Ši pamoka skirta nerelaciniams duomenims ir apims pagrindus apie skaičiuokles ir NoSQL. + +## Skaičiuoklės + +Skaičiuoklės yra populiarus būdas saugoti ir analizuoti duomenis, nes jų naudojimas reikalauja mažiau pastangų pradiniam nustatymui. Šioje pamokoje sužinosite pagrindinius skaičiuoklės komponentus, taip pat formules ir funkcijas. Pavyzdžiai bus iliustruoti naudojant Microsoft Excel, tačiau dauguma dalių ir temų turės panašius pavadinimus ir veiksmus, palyginti su kitomis skaičiuoklių programomis. + +![Tuščias Microsoft Excel darbaknygės langas su dviem darbalapiais](../../../../translated_images/parts-of-spreadsheet.120711c82aa18a45c3e62a491a15bba0a31ab0e9db407ec022702fed8ffd89bf.lt.png) + +Skaičiuoklė yra failas, kurį galima pasiekti kompiuterio, įrenginio ar debesų failų sistemoje. Programinė įranga gali būti naršyklės pagrindu arba programa, kurią reikia įdiegti kompiuteryje ar atsisiųsti kaip programėlę. Excel failai taip pat apibrėžiami kaip **darbaknygės**, ir ši terminologija bus naudojama visoje pamokoje. + +Darbaknygė turi vieną ar daugiau **darbalapių**, kurių kiekvienas pažymėtas skirtukais. Darbalapyje yra stačiakampiai, vadinami **langeliais**, kuriuose yra faktiniai duomenys. Langelis yra eilutės ir stulpelio sankirta, kur stulpeliai pažymėti abėcėliniais simboliais, o eilutės pažymėtos skaitmenimis. Kai kurios skaičiuoklės pirmose eilutėse turi antraštes, kurios apibūdina duomenis langelyje. + +Naudodami šiuos pagrindinius Excel darbaknygės elementus, pasitelksime pavyzdį iš [Microsoft Templates](https://templates.office.com/), susijusį su inventoriaus valdymu, kad aptartume papildomas skaičiuoklės dalis. + +### Inventoriaus valdymas + +Skaičiuoklės failas, pavadintas "InventoryExample", yra suformatuota skaičiuoklė, kurioje yra inventoriaus elementai ir trys darbalapiai, pažymėti "Inventory List", "Inventory Pick List" ir "Bin Lookup". 4-oji eilutė darbalapyje "Inventory List" yra antraštė, apibūdinanti kiekvieno langelio reikšmę stulpelyje. + +![Paryškinta formulė iš inventoriaus sąrašo pavyzdžio Microsoft Excel](../../../../translated_images/formula-excel.ad1068c220892f5ead570d12f2394897961d31a5043a1dd4e6fc5d7690c7a14e.lt.png) + +Yra atvejų, kai langelio reikšmė priklauso nuo kitų langelių reikšmių, kad būtų sugeneruota jo reikšmė. Inventoriaus sąrašo skaičiuoklė seka kiekvieno inventoriaus elemento kainą, tačiau ką daryti, jei reikia žinoti viso inventoriaus vertę? [**Formulės**](https://support.microsoft.com/en-us/office/overview-of-formulas-34519a4e-1e8d-4f4b-84d4-d642c4f63263) atlieka veiksmus su langelių duomenimis ir naudojamos inventoriaus vertės apskaičiavimui šiame pavyzdyje. Ši skaičiuoklė naudojo formulę stulpelyje "Inventory Value", kad apskaičiuotų kiekvieno elemento vertę, padauginant kiekį iš antraštės "QTY" ir kainą iš antraštės "COST". Dukart spustelėjus arba paryškinus langelį, bus rodoma formulė. Pastebėsite, kad formulės prasideda lygybės ženklu, po kurio seka skaičiavimas ar operacija. + +![Paryškinta funkcija iš inventoriaus sąrašo pavyzdžio Microsoft Excel](../../../../translated_images/function-excel.be2ae4feddc10ca089f3d4363040d93b7fd046c8d4f83ba975ec46483ee99895.lt.png) + +Galime naudoti kitą formulę, kad sudėtume visas inventoriaus vertės reikšmes ir gautume bendrą vertę. Tai galėtų būti apskaičiuota sudedant kiekvieną langelį, tačiau tai gali būti varginantis darbas. Excel turi [**funkcijas**](https://support.microsoft.com/en-us/office/sum-function-043e1c7d-7726-4e80-8f32-07b23e057f89), arba iš anksto apibrėžtas formules, skirtas skaičiavimams su langelių reikšmėmis. Funkcijoms reikalingi argumentai, kurie yra būtinos reikšmės skaičiavimams atlikti. Kai funkcijoms reikia daugiau nei vieno argumento, jie turi būti išvardyti tam tikra tvarka, kitaip funkcija gali neteisingai apskaičiuoti reikšmę. Šiame pavyzdyje naudojama funkcija SUM, kuri naudoja inventoriaus vertės reikšmes kaip argumentą, kad sugeneruotų bendrą vertę, nurodytą 3-oje eilutėje, B stulpelyje (taip pat vadinama B3). + +## NoSQL + +NoSQL yra bendras terminas, apibūdinantis skirtingus būdus saugoti nerelacinius duomenis, ir gali būti interpretuojamas kaip "ne SQL", "nerelacinis" arba "ne tik SQL". Šios duomenų bazės sistemos gali būti suskirstytos į 4 tipus. + +![Grafinis vaizdas, rodantis raktų-reikšmių duomenų saugyklą su 4 unikalių skaitinių raktų, susietų su 4 skirtingomis reikšmėmis](../../../../translated_images/kv-db.e8f2b75686bbdfcba0c827b9272c10ae0821611ea0fe98429b9d13194383afa6.lt.png) +> Šaltinis iš [Michał Białecki Blog](https://www.michalbialecki.com/2018/03/18/azure-cosmos-db-key-value-database-cloud/) + +[Raktų-reikšmių](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#keyvalue-data-stores) duomenų bazės susieja unikalius raktus, kurie yra unikalūs identifikatoriai, susieti su reikšme. Šios poros saugomos naudojant [maišos lentelę](https://www.hackerearth.com/practice/data-structures/hash-tables/basics-of-hash-tables/tutorial/) su tinkama maišos funkcija. + +![Grafinis vaizdas, rodantis grafo duomenų saugyklą, kurioje pavaizduoti žmonių, jų interesų ir vietų ryšiai](../../../../translated_images/graph-db.d13629152f79a9dac895b20fa7d841d4d4d6f6008b1382227c3bbd200fd4cfa1.lt.png) +> Šaltinis iš [Microsoft](https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction#graph-database-by-example) + +[Grafų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#graph-data-stores) duomenų bazės aprašo ryšius tarp duomenų ir yra vaizduojamos kaip mazgų ir briaunų rinkinys. Mazgas atspindi objektą, egzistuojantį realiame pasaulyje, pvz., studentą ar banko išrašą. Briaunos atspindi ryšį tarp dviejų objektų. Kiekvienas mazgas ir briauna turi savybes, kurios suteikia papildomos informacijos apie mazgus ir briaunas. + +![Grafinis vaizdas, rodantis stulpelinę duomenų saugyklą su klientų duomenų baze, kurioje yra dvi stulpelių šeimos, pavadintos Identity ir Contact Info](../../../../translated_images/columnar-db.ffcfe73c3e9063a8c8f93f8ace85e1200863584b1e324eb5159d8ca10f62ec04.lt.png) + +[Stulpelinės](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#columnar-data-stores) duomenų saugyklos organizuoja duomenis į stulpelius ir eilutes, panašiai kaip relacinė duomenų struktūra, tačiau kiekvienas stulpelis yra padalintas į grupes, vadinamas stulpelių šeimomis, kur visi duomenys po vienu stulpeliu yra susiję ir gali būti gauti bei pakeisti kaip vienetas. + +### Dokumentų duomenų saugyklos su Azure Cosmos DB + +[Dokumentų](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data#document-data-stores) duomenų saugyklos remiasi raktų-reikšmių duomenų saugyklos koncepcija ir sudarytos iš laukų ir objektų rinkinių. Šiame skyriuje bus nagrinėjamos dokumentų duomenų bazės naudojant Cosmos DB emuliatorių. + +Cosmos DB duomenų bazė atitinka "ne tik SQL" apibrėžimą, kur Cosmos DB dokumentų duomenų bazė naudoja SQL duomenų užklausoms. [Ankstesnė pamoka](../05-relational-databases/README.md) apie SQL apima kalbos pagrindus, ir kai kurias užklausas galėsime pritaikyti dokumentų duomenų bazėje čia. Naudosime Cosmos DB emuliatorių, kuris leidžia sukurti ir tyrinėti dokumentų duomenų bazę vietoje kompiuteryje. Daugiau apie emuliatorių skaitykite [čia](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21). + +Dokumentas yra laukų ir objektų reikšmių rinkinys, kur laukai apibūdina, ką objektų reikšmės atspindi. Žemiau pateiktas dokumento pavyzdys. + +```json +{ + "firstname": "Eva", + "age": 44, + "id": "8c74a315-aebf-4a16-bb38-2430a9896ce5", + "_rid": "bHwDAPQz8s0BAAAAAAAAAA==", + "_self": "dbs/bHwDAA==/colls/bHwDAPQz8s0=/docs/bHwDAPQz8s0BAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f95-010a691e01d7\"", + "_attachments": "attachments/", + "_ts": 1630544034 +} +``` + +Šiame dokumente svarbūs laukai yra: `firstname`, `id` ir `age`. Likę laukai su pabraukimais buvo sugeneruoti Cosmos DB. + +#### Duomenų tyrinėjimas su Cosmos DB emuliatoriumi + +Emuliatorių galite atsisiųsti ir įdiegti [Windows sistemai čia](https://aka.ms/cosmosdb-emulator). Žiūrėkite šią [dokumentaciją](https://docs.microsoft.com/en-us/azure/cosmos-db/local-emulator?tabs=ssl-netstd21#run-on-linux-macos) dėl galimybių paleisti emuliatorių macOS ir Linux sistemose. + +Emuliatorius atidaro naršyklės langą, kur Explorer vaizdas leidžia tyrinėti dokumentus. + +![Cosmos DB emuliatoriaus Explorer vaizdas](../../../../translated_images/cosmosdb-emulator-explorer.a1c80b1347206fe2f30f88fc123821636587d04fc5a56a9eb350c7da6b31f361.lt.png) + +Jei sekate pamoką, spustelėkite "Start with Sample", kad sugeneruotumėte pavyzdinę duomenų bazę, pavadintą SampleDB. Jei išplėsite SampleDB spustelėdami rodyklę, rasite konteinerį, pavadintą `Persons`. Konteineris talpina elementų rinkinį, kurie yra dokumentai konteineryje. Galite tyrinėti keturis atskirus dokumentus po `Items`. + +![Pavyzdinių duomenų tyrinėjimas Cosmos DB emuliatoriuje](../../../../translated_images/cosmosdb-emulator-persons.bf640586a7077c8985dfd3071946465c8e074c722c7c202d6d714de99a93b90a.lt.png) + +#### Dokumentų duomenų užklausos su Cosmos DB emuliatoriumi + +Taip pat galime užklausti pavyzdinius duomenis spustelėdami naujos SQL užklausos mygtuką (antras mygtukas iš kairės). + +`SELECT * FROM c` grąžina visus dokumentus konteineryje. Pridėkime sąlygą "where" ir suraskime visus jaunesnius nei 40 metų. + +`SELECT * FROM c where c.age < 40` + +![SQL užklausos vykdymas pavyzdiniuose duomenyse Cosmos DB emuliatoriuje, siekiant rasti dokumentus, kurių amžiaus lauko reikšmė mažesnė nei 40](../../../../translated_images/cosmosdb-emulator-persons-query.6905ebb497e3cd047cd96e55a0a03f69ce1b91b2b3d8c147e617b746b22b7e33.lt.png) + +Užklausa grąžina du dokumentus, pastebėkite, kad kiekvieno dokumento amžiaus reikšmė yra mažesnė nei 40. + +#### JSON ir dokumentai + +Jei esate susipažinę su JavaScript Object Notation (JSON), pastebėsite, kad dokumentai atrodo panašūs į JSON. Šiame kataloge yra `PersonsData.json` failas su daugiau duomenų, kuriuos galite įkelti į konteinerį `Persons` emuliatoriuje per mygtuką `Upload Item`. + +Daugeliu atvejų API, kurios grąžina JSON duomenis, gali būti tiesiogiai perduotos ir saugomos dokumentų duomenų bazėse. Žemiau pateiktas kitas dokumentas, kuris atspindi "Microsoft" Twitter paskyros tviterius, gautus naudojant Twitter API, o vėliau įkeltus į Cosmos DB. + +```json +{ + "created_at": "2021-08-31T19:03:01.000Z", + "id": "1432780985872142341", + "text": "Blank slate. Like this tweet if you’ve ever painted in Microsoft Paint before. https://t.co/cFeEs8eOPK", + "_rid": "dhAmAIUsA4oHAAAAAAAAAA==", + "_self": "dbs/dhAmAA==/colls/dhAmAIUsA4o=/docs/dhAmAIUsA4oHAAAAAAAAAA==/", + "_etag": "\"00000000-0000-0000-9f84-a0958ad901d7\"", + "_attachments": "attachments/", + "_ts": 1630537000 +``` + +Šiame dokumente svarbūs laukai yra: `created_at`, `id` ir `text`. + +## 🚀 Iššūkis + +Kataloge yra `TwitterData.json` failas, kurį galite įkelti į SampleDB duomenų bazę. Rekomenduojama pridėti jį į atskirą konteinerį. Tai galima padaryti: + +1. Spustelėjus naujo konteinerio mygtuką viršutiniame dešiniajame kampe +1. Pasirinkus esamą duomenų bazę (SampleDB) ir sukuriant konteinerio ID +1. Nustatant skaidymo raktą į `/id` +1. Spustelėjus OK (galite ignoruoti likusią informaciją šiame vaizde, nes tai yra mažas duomenų rinkinys, veikiantis vietoje jūsų kompiuteryje) +1. Atidarius naują konteinerį ir įkėlus Twitter duomenų failą per mygtuką `Upload Item` + +Pabandykite vykdyti kelias užklausas, kad rastumėte dokumentus, kurių tekstų lauke yra "Microsoft". Užuomina: pabandykite naudoti [LIKE raktažodį](https://docs.microsoft.com/en-us/azure/cosmos-db/sql/sql-query-keywords#using-like-with-the--wildcard-character). + +## [Po paskaitos: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/11) + +## Apžvalga ir savarankiškas mokymasis + +- Yra papildomų formatavimo ir funkcijų, pridėtų prie šios skaičiuoklės, kurių ši pamoka neapima. Microsoft turi [didelę dokumentacijos ir vaizdo įrašų biblioteką](https://support.microsoft.com/excel) apie Excel, jei norite sužinoti daugiau. + +- Ši architektūrinė dokumentacija detalizuoja skirtingų nerelacinių duomenų tipų charakteristikas: [Nerelaciniai duomenys ir NoSQL](https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/non-relational-data). + +- Cosmos DB yra debesų pagrindu veikianti nerelacinė duomenų bazė, kuri taip pat gali saugoti skirtingus NoSQL tipus, paminėtus šioje pamokoje. Sužinokite daugiau apie šiuos tipus šiame [Cosmos DB Microsoft Learn modulyje](https://docs.microsoft.com/en-us/learn/paths/work-with-nosql-data-in-azure-cosmos-db/). + +## Užduotis + +[Soda Profits](assignment.md) + +--- + +**Atsakomybės atsisakymas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/06-non-relational/assignment.md b/translations/lt/2-Working-With-Data/06-non-relational/assignment.md new file mode 100644 index 00000000..bc7f821c --- /dev/null +++ b/translations/lt/2-Working-With-Data/06-non-relational/assignment.md @@ -0,0 +1,33 @@ + +# Soda Pelnai + +## Instrukcijos + +[Coca Cola Co skaičiuoklėje](../../../../2-Working-With-Data/06-non-relational/CocaColaCo.xlsx) trūksta kai kurių skaičiavimų. Jūsų užduotis yra: + +1. Apskaičiuoti bendrąjį pelną 2015, 2016, 2017 ir 2018 finansiniais metais + - Bendrasis pelnas = Grynosios veiklos pajamos - Parduotų prekių savikaina +1. Apskaičiuoti visų bendrųjų pelnų vidurkį. Pabandykite tai padaryti naudodami funkciją. + - Vidurkis = Bendrųjų pelnų suma padalinta iš finansinių metų skaičiaus (10) + - Dokumentacija apie [AVERAGE funkciją](https://support.microsoft.com/en-us/office/average-function-047bac88-d466-426c-a32b-8f33eb960cf6) +1. Tai yra Excel failas, tačiau jis turėtų būti redaguojamas bet kurioje skaičiuoklės platformoje + +[Duomenų šaltinio kreditas Yiyi Wang](https://www.kaggle.com/yiyiwang0826/cocacola-excel) + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | --- | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/07-python/README.md b/translations/lt/2-Working-With-Data/07-python/README.md new file mode 100644 index 00000000..9e31f9d4 --- /dev/null +++ b/translations/lt/2-Working-With-Data/07-python/README.md @@ -0,0 +1,292 @@ + +# Darbas su duomenimis: Python ir Pandas biblioteka + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/07-WorkWithPython.png) | +| :-------------------------------------------------------------------------------------------------------: | +| Darbas su Python - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +[![Intro Video](../../../../translated_images/video-ds-python.245247dc811db8e4d5ac420246de8a118c63fd28f6a56578d08b630ae549f260.lt.png)](https://youtu.be/dZjWOGbsN4Y) + +Nors duomenų bazės siūlo labai efektyvius būdus saugoti duomenis ir užklausas vykdyti naudojant užklausų kalbas, lankstiausias būdas apdoroti duomenis yra rašyti savo programą, kuri manipuliuoja duomenimis. Daugeliu atvejų duomenų bazės užklausa būtų efektyvesnis sprendimas. Tačiau kai kuriais atvejais, kai reikalingas sudėtingesnis duomenų apdorojimas, tai negali būti lengvai atlikta naudojant SQL. +Duomenų apdorojimas gali būti programuojamas bet kuria programavimo kalba, tačiau yra tam tikrų kalbų, kurios yra aukštesnio lygio dirbant su duomenimis. Duomenų mokslininkai dažniausiai renkasi vieną iš šių kalbų: + +* **[Python](https://www.python.org/)** – universali programavimo kalba, dažnai laikoma viena geriausių pasirinkimų pradedantiesiems dėl jos paprastumo. Python turi daugybę papildomų bibliotekų, kurios gali padėti išspręsti daugelį praktinių problemų, pvz., išgauti duomenis iš ZIP archyvo ar konvertuoti paveikslėlį į pilkąjį toną. Be duomenų mokslo, Python taip pat dažnai naudojama interneto svetainių kūrimui. +* **[R](https://www.r-project.org/)** – tradicinė įrankių dėžė, sukurta statistinių duomenų apdorojimui. Ji taip pat turi didelį bibliotekų rinkinį (CRAN), todėl yra geras pasirinkimas duomenų apdorojimui. Tačiau R nėra universali programavimo kalba ir retai naudojama už duomenų mokslo ribų. +* **[Julia](https://julialang.org/)** – kita kalba, sukurta specialiai duomenų mokslui. Ji siekia geresnio našumo nei Python, todėl yra puikus įrankis moksliniams eksperimentams. + +Šioje pamokoje mes sutelksime dėmesį į Python naudojimą paprastam duomenų apdorojimui. Mes prielaida, kad turite pagrindines žinias apie šią kalbą. Jei norite giliau susipažinti su Python, galite pasinaudoti vienu iš šių šaltinių: + +* [Learn Python in a Fun Way with Turtle Graphics and Fractals](https://github.com/shwars/pycourse) – greitas Python programavimo kursas GitHub platformoje +* [Take your First Steps with Python](https://docs.microsoft.com/en-us/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) Mokymosi kelias [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum) + +Duomenys gali būti įvairių formų. Šioje pamokoje mes apsvarstysime tris duomenų formas – **lentelinius duomenis**, **tekstą** ir **vaizdus**. + +Mes sutelksime dėmesį į keletą duomenų apdorojimo pavyzdžių, o ne pateiksime visą susijusių bibliotekų apžvalgą. Tai leis jums suprasti pagrindinę idėją, kas yra įmanoma, ir paliks jus su žiniomis, kur rasti sprendimus savo problemoms, kai jų prireiks. + +> **Naudingiausias patarimas**. Kai reikia atlikti tam tikrą operaciją su duomenimis, kurios nežinote, kaip atlikti, pabandykite ieškoti informacijos internete. [Stackoverflow](https://stackoverflow.com/) dažnai turi daug naudingų Python kodo pavyzdžių daugeliui tipinių užduočių. + + + +## [Prieš pamokos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/12) + +## Lenteliniai duomenys ir DataFrame + +Jūs jau susipažinote su lenteliniais duomenimis, kai kalbėjome apie reliacines duomenų bazes. Kai turite daug duomenų, kurie yra saugomi skirtingose susietose lentelėse, tikrai verta naudoti SQL darbui su jais. Tačiau yra daug atvejų, kai turime vieną duomenų lentelę ir norime gauti tam tikrą **supratimą** ar **įžvalgas** apie šiuos duomenis, pvz., pasiskirstymą, vertybių koreliaciją ir pan. Duomenų moksle dažnai reikia atlikti tam tikras pradinio duomenų transformacijas, po kurių seka vizualizacija. Abi šios užduotys gali būti lengvai atliktos naudojant Python. + +Yra dvi naudingiausios Python bibliotekos, kurios gali padėti dirbti su lenteliniais duomenimis: +* **[Pandas](https://pandas.pydata.org/)** leidžia manipuliuoti vadinamaisiais **DataFrame**, kurie yra analogiški reliacinėms lentelėms. Galite turėti pavadintas stulpelius ir atlikti įvairias operacijas su eilutėmis, stulpeliais ir DataFrame apskritai. +* **[Numpy](https://numpy.org/)** yra biblioteka, skirta dirbti su **tensoriais**, t. y. daugiamačiais **masyvais**. Masyvas turi vienodo tipo vertybes ir yra paprastesnis nei DataFrame, tačiau siūlo daugiau matematinių operacijų ir sukuria mažiau papildomų išteklių. + +Taip pat yra keletas kitų bibliotekų, kurias verta žinoti: +* **[Matplotlib](https://matplotlib.org/)** – biblioteka, naudojama duomenų vizualizacijai ir grafų braižymui +* **[SciPy](https://www.scipy.org/)** – biblioteka su papildomomis mokslinėmis funkcijomis. Jau susidūrėme su šia biblioteka, kai kalbėjome apie tikimybes ir statistiką + +Štai kodo fragmentas, kurį paprastai naudotumėte šių bibliotekų importavimui Python programos pradžioje: +```python +import numpy as np +import pandas as pd +import matplotlib.pyplot as plt +from scipy import ... # you need to specify exact sub-packages that you need +``` + +Pandas yra pagrįsta keliais pagrindiniais konceptais. + +### Series + +**Series** yra vertybių seka, panaši į sąrašą arba numpy masyvą. Pagrindinis skirtumas yra tas, kad Series taip pat turi **indeksą**, ir kai atliekame operacijas su Series (pvz., sudedame jas), indeksas yra įtraukiamas į skaičiavimus. Indeksas gali būti toks paprastas kaip eilutės numeris (tai yra numatytasis indeksas, kai kuriame Series iš sąrašo ar masyvo), arba jis gali turėti sudėtingą struktūrą, pvz., datos intervalą. + +> **Pastaba**: Įvadinis Pandas kodas pateiktas pridedamame užrašų knygelėje [`notebook.ipynb`](notebook.ipynb). Čia pateikiame tik keletą pavyzdžių, tačiau tikrai kviečiame peržiūrėti visą užrašų knygelę. + +Pavyzdžiui, norime analizuoti mūsų ledų parduotuvės pardavimus. Sukurkime pardavimų skaičių seriją (kiekvieną dieną parduotų prekių skaičius) tam tikram laikotarpiui: + +```python +start_date = "Jan 1, 2020" +end_date = "Mar 31, 2020" +idx = pd.date_range(start_date,end_date) +print(f"Length of index is {len(idx)}") +items_sold = pd.Series(np.random.randint(25,50,size=len(idx)),index=idx) +items_sold.plot() +``` +![Laiko serijos grafikas](../../../../translated_images/timeseries-1.80de678ab1cf727e50e00bcf24009fa2b0a8b90ebc43e34b99a345227d28e467.lt.png) + +Dabar tarkime, kad kiekvieną savaitę organizuojame vakarėlį draugams ir pasiimame papildomus 10 ledų pakuočių vakarėliui. Galime sukurti kitą seriją, indeksuotą savaitėmis, kad tai parodytume: +```python +additional_items = pd.Series(10,index=pd.date_range(start_date,end_date,freq="W")) +``` +Kai sudedame dvi serijas, gauname bendrą skaičių: +```python +total_items = items_sold.add(additional_items,fill_value=0) +total_items.plot() +``` +![Laiko serijos grafikas](../../../../translated_images/timeseries-2.aae51d575c55181ceda81ade8c546a2fc2024f9136934386d57b8a189d7570ff.lt.png) + +> **Pastaba**: mes nenaudojame paprastos sintaksės `total_items+additional_items`. Jei tai darytume, gautume daug `NaN` (*Not a Number*) reikšmių rezultato serijoje. Taip yra todėl, kad kai kurių indeksų taškų serijoje `additional_items` trūksta reikšmių, o sudėjus `NaN` su bet kuo gaunamas `NaN`. Todėl reikia nurodyti `fill_value` parametrą sudėties metu. + +Su laiko serijomis taip pat galime **perdaryti** seriją su skirtingais laiko intervalais. Pavyzdžiui, jei norime apskaičiuoti vidutinį pardavimų kiekį mėnesiais, galime naudoti šį kodą: +```python +monthly = total_items.resample("1M").mean() +ax = monthly.plot(kind='bar') +``` +![Mėnesio laiko serijos vidurkiai](../../../../translated_images/timeseries-3.f3147cbc8c624881008564bc0b5d9fcc15e7374d339da91766bd0e1c6bd9e3af.lt.png) + +### DataFrame + +DataFrame iš esmės yra serijų kolekcija su tuo pačiu indeksu. Galime sujungti kelias serijas į vieną DataFrame: +```python +a = pd.Series(range(1,10)) +b = pd.Series(["I","like","to","play","games","and","will","not","change"],index=range(0,9)) +df = pd.DataFrame([a,b]) +``` +Tai sukurs horizontalią lentelę, panašią į šią: +| | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | +| --- | --- | ---- | --- | --- | ------ | --- | ------ | ---- | ---- | +| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | +| 1 | I | like | to | use | Python | and | Pandas | very | much | + +Taip pat galime naudoti Series kaip stulpelius ir nurodyti stulpelių pavadinimus naudodami žodyną: +```python +df = pd.DataFrame({ 'A' : a, 'B' : b }) +``` +Tai suteiks mums lentelę, panašią į šią: + +| | A | B | +| --- | --- | ------ | +| 0 | 1 | I | +| 1 | 2 | like | +| 2 | 3 | to | +| 3 | 4 | use | +| 4 | 5 | Python | +| 5 | 6 | and | +| 6 | 7 | Pandas | +| 7 | 8 | very | +| 8 | 9 | much | + +**Pastaba**: taip pat galime gauti šį lentelės išdėstymą transponuodami ankstesnę lentelę, pvz., rašydami +```python +df = pd.DataFrame([a,b]).T..rename(columns={ 0 : 'A', 1 : 'B' }) +``` +Čia `.T` reiškia DataFrame transponavimo operaciją, t. y. eilučių ir stulpelių keitimą vietomis, o `rename` operacija leidžia pervadinti stulpelius, kad atitiktų ankstesnį pavyzdį. + +Štai keletas svarbiausių operacijų, kurias galime atlikti su DataFrame: + +**Stulpelių pasirinkimas**. Galime pasirinkti atskirus stulpelius rašydami `df['A']` – ši operacija grąžina Series. Taip pat galime pasirinkti stulpelių pogrupį į kitą DataFrame rašydami `df[['B','A']]` – tai grąžina kitą DataFrame. + +**Filtravimas** tik tam tikrų eilučių pagal kriterijus. Pavyzdžiui, norėdami palikti tik eilutes, kuriose stulpelis `A` yra didesnis nei 5, galime rašyti `df[df['A']>5]`. + +> **Pastaba**: Filtravimas veikia taip. Išraiška `df['A']<5` grąžina loginę seriją, kuri nurodo, ar išraiška yra `True` ar `False` kiekvienam pradiniam serijos `df['A']` elementui. Kai loginė serija naudojama kaip indeksas, ji grąžina eilučių pogrupį DataFrame. Todėl negalima naudoti bet kokios Python loginės išraiškos, pvz., rašyti `df[df['A']>5 and df['A']<7]` būtų neteisinga. Vietoj to, turėtumėte naudoti specialią `&` operaciją loginėms serijoms, rašydami `df[(df['A']>5) & (df['A']<7)]` (*skliaustai čia yra svarbūs*). + +**Naujų skaičiuojamų stulpelių kūrimas**. Galime lengvai sukurti naujus skaičiuojamus stulpelius savo DataFrame naudodami intuityvią išraišką, pvz.: +```python +df['DivA'] = df['A']-df['A'].mean() +``` +Šis pavyzdys apskaičiuoja A nukrypimą nuo jo vidutinės vertės. Kas iš tikrųjų vyksta, tai mes apskaičiuojame seriją ir tada priskiriame šią seriją kairiajai pusei, sukurdami naują stulpelį. Todėl negalime naudoti jokių operacijų, kurios nesuderinamos su serijomis, pvz., žemiau pateiktas kodas yra neteisingas: +```python +# Wrong code -> df['ADescr'] = "Low" if df['A'] < 5 else "Hi" +df['LenB'] = len(df['B']) # <- Wrong result +``` +Pastarasis pavyzdys, nors sintaksiškai teisingas, duoda neteisingą rezultatą, nes priskiria serijos `B` ilgį visoms stulpelio reikšmėms, o ne atskirų elementų ilgį, kaip buvo numatyta. + +Jei reikia apskaičiuoti sudėtingas išraiškas, galime naudoti `apply` funkciją. Paskutinis pavyzdys gali būti parašytas taip: +```python +df['LenB'] = df['B'].apply(lambda x : len(x)) +# or +df['LenB'] = df['B'].apply(len) +``` + +Po aukščiau pateiktų operacijų turėsime tokį DataFrame: + +| | A | B | DivA | LenB | +| --- | --- | ------ | ---- | ---- | +| 0 | 1 | I | -4.0 | 1 | +| 1 | 2 | like | -3.0 | 4 | +| 2 | 3 | to | -2.0 | 2 | +| 3 | 4 | use | -1.0 | 3 | +| 4 | 5 | Python | 0.0 | 6 | +| 5 | 6 | and | 1.0 | 3 | +| 6 | 7 | Pandas | 2.0 | 6 | +| 7 | 8 | very | 3.0 | 4 | +| 8 | 9 | much | 4.0 | 4 | + +**Eilučių pasirinkimas pagal numerius** gali būti atliekamas naudojant `iloc` konstrukciją. Pavyzdžiui, norėdami pasirinkti pirmas 5 eilutes iš DataFrame: +```python +df.iloc[:5] +``` + +**Grupavimas** dažnai naudojamas norint gauti rezultatą, panašų į *pivot lenteles* Excel programoje. Tarkime, kad norime apskaičiuoti vidutinę stulpelio `A` vertę kiekvienam `LenB` skaičiui. Tada galime grupuoti savo DataFrame pagal `LenB` ir iškviesti `mean`: +```python +df.groupby(by='LenB').mean() +``` +Jei reikia apskaičiuoti vidurkį ir elementų skaičių grupėje, galime naudoti sudėtingesnę `aggregate` funkciją: +```python +df.groupby(by='LenB') \ + .aggregate({ 'DivA' : len, 'A' : lambda x: x.mean() }) \ + .rename(columns={ 'DivA' : 'Count', 'A' : 'Mean'}) +``` +Tai suteikia mums tokią lentelę: + +| LenB | Count | Mean | +| ---- | ----- | -------- | +| 1 | 1 | 1.000000 | +| 2 | 1 | 3.000000 | +| 3 | 2 | 5.000000 | +| 4 | 3 | 6.333333 | +| 6 | 2 | 6.000000 | + +### Duomenų gavimas +Mes matėme, kaip lengva sukurti Series ir DataFrames iš Python objektų. Tačiau duomenys dažniausiai pateikiami kaip tekstinis failas arba Excel lentelė. Laimei, Pandas suteikia paprastą būdą įkelti duomenis iš disko. Pavyzdžiui, CSV failo skaitymas yra toks paprastas: +```python +df = pd.read_csv('file.csv') +``` +Daugiau pavyzdžių, kaip įkelti duomenis, įskaitant jų gavimą iš išorinių svetainių, pamatysime skyriuje „Iššūkis“. + +### Spausdinimas ir Vizualizacija + +Duomenų mokslininkas dažnai turi tyrinėti duomenis, todėl svarbu mokėti juos vizualizuoti. Kai DataFrame yra didelis, dažnai norime tik įsitikinti, kad viską darome teisingai, išspausdindami pirmas kelias eilutes. Tai galima padaryti iškviečiant `df.head()`. Jei tai vykdote iš Jupyter Notebook, jis išspausdins DataFrame gražia lentelės forma. + +Mes taip pat matėme, kaip naudoti `plot` funkciją tam tikrų stulpelių vizualizavimui. Nors `plot` yra labai naudinga daugeliui užduočių ir palaiko daugybę skirtingų grafiko tipų per `kind=` parametrą, visada galite naudoti žaliąją `matplotlib` biblioteką, kad nupieštumėte kažką sudėtingesnio. Duomenų vizualizaciją detaliai aptarsime atskirose kurso pamokose. + +Ši apžvalga apima svarbiausias Pandas sąvokas, tačiau biblioteka yra labai turtinga, ir nėra ribų, ką su ja galite padaryti! Dabar pritaikykime šias žinias konkrečiai problemai spręsti. + +## 🚀 Iššūkis 1: COVID plitimo analizė + +Pirmoji problema, į kurią sutelksime dėmesį, yra COVID-19 epidemijos plitimo modeliavimas. Tam naudosime duomenis apie užsikrėtusių asmenų skaičių skirtingose šalyse, kuriuos pateikia [Sistemų mokslo ir inžinerijos centras](https://systems.jhu.edu/) (CSSE) iš [Johns Hopkins universiteto](https://jhu.edu/). Duomenų rinkinys yra pasiekiamas [šiame GitHub saugykloje](https://github.com/CSSEGISandData/COVID-19). + +Kadangi norime parodyti, kaip dirbti su duomenimis, kviečiame atidaryti [`notebook-covidspread.ipynb`](notebook-covidspread.ipynb) ir perskaityti jį nuo pradžios iki pabaigos. Taip pat galite vykdyti ląsteles ir atlikti kai kuriuos iššūkius, kuriuos palikome jums pabaigoje. + +![COVID plitimas](../../../../translated_images/covidspread.f3d131c4f1d260ab0344d79bac0abe7924598dd754859b165955772e1bd5e8a2.lt.png) + +> Jei nežinote, kaip vykdyti kodą Jupyter Notebook, peržiūrėkite [šį straipsnį](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). + +## Darbas su nestruktūrizuotais duomenimis + +Nors duomenys dažnai pateikiami lentelės forma, kai kuriais atvejais turime dirbti su mažiau struktūrizuotais duomenimis, pavyzdžiui, tekstu ar vaizdais. Tokiu atveju, norėdami taikyti aukščiau matytas duomenų apdorojimo technikas, turime kažkaip **išgauti** struktūrizuotus duomenis. Štai keletas pavyzdžių: + +* Raktažodžių išgavimas iš teksto ir jų pasikartojimo dažnio analizė +* Neuroninių tinklų naudojimas informacijai apie objektus paveikslėlyje išgauti +* Informacijos apie žmonių emocijas vaizdo kameros sraute gavimas + +## 🚀 Iššūkis 2: COVID mokslinių straipsnių analizė + +Šiame iššūkyje tęsime COVID pandemijos temą ir sutelksime dėmesį į mokslinių straipsnių šia tema apdorojimą. Yra [CORD-19 duomenų rinkinys](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge), kuriame yra daugiau nei 7000 (rašymo metu) straipsnių apie COVID, pateikiamų su metaduomenimis ir santraukomis (apie pusę jų taip pat pateikiamas visas tekstas). + +Pilnas šio duomenų rinkinio analizės pavyzdys naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health/?WT.mc_id=academic-77958-bethanycheum) kognityvinę paslaugą aprašytas [šiame tinklaraščio įraše](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/). Aptarsime supaprastintą šios analizės versiją. + +> **NOTE**: Mes nepateikiame šio duomenų rinkinio kopijos kaip šios saugyklos dalies. Pirmiausia gali tekti atsisiųsti [`metadata.csv`](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv) failą iš [šio Kaggle duomenų rinkinio](https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge). Gali reikėti registracijos Kaggle. Taip pat galite atsisiųsti duomenų rinkinį be registracijos [iš čia](https://ai2-semanticscholar-cord-19.s3-us-west-2.amazonaws.com/historical_releases.html), tačiau jis apims visus pilnus tekstus be metaduomenų failo. + +Atidarykite [`notebook-papers.ipynb`](notebook-papers.ipynb) ir perskaitykite jį nuo pradžios iki pabaigos. Taip pat galite vykdyti ląsteles ir atlikti kai kuriuos iššūkius, kuriuos palikome jums pabaigoje. + +![COVID medicininis gydymas](../../../../translated_images/covidtreat.b2ba59f57ca45fbcda36e0ddca3f8cfdddeeed6ca879ea7f866d93fa6ec65791.lt.png) + +## Vaizdų duomenų apdorojimas + +Pastaruoju metu buvo sukurti labai galingi AI modeliai, leidžiantys suprasti vaizdus. Yra daug užduočių, kurias galima išspręsti naudojant iš anksto apmokytus neuroninius tinklus arba debesų paslaugas. Keletas pavyzdžių: + +* **Vaizdų klasifikacija**, kuri gali padėti kategorizuoti vaizdą į vieną iš iš anksto apibrėžtų klasių. Galite lengvai apmokyti savo vaizdų klasifikatorius naudodami tokias paslaugas kaip [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) +* **Objektų atpažinimas**, skirtas aptikti skirtingus objektus vaizde. Tokios paslaugos kaip [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum) gali aptikti daugybę bendrų objektų, o jūs galite apmokyti [Custom Vision](https://azure.microsoft.com/services/cognitive-services/custom-vision-service/?WT.mc_id=academic-77958-bethanycheum) modelį aptikti specifinius jus dominančius objektus. +* **Veidų atpažinimas**, įskaitant amžiaus, lyties ir emocijų nustatymą. Tai galima atlikti naudojant [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum). + +Visos šios debesų paslaugos gali būti iškviečiamos naudojant [Python SDKs](https://docs.microsoft.com/samples/azure-samples/cognitive-services-python-sdk-samples/cognitive-services-python-sdk-samples/?WT.mc_id=academic-77958-bethanycheum), todėl jas lengva įtraukti į jūsų duomenų tyrinėjimo darbo eigą. + +Štai keletas pavyzdžių, kaip tyrinėti duomenis iš vaizdų šaltinių: +* Tinklaraščio įraše [Kaip išmokti duomenų mokslą be programavimo](https://soshnikov.com/azure/how-to-learn-data-science-without-coding/) mes tyrinėjame Instagram nuotraukas, bandydami suprasti, kas skatina žmones labiau pamėgti nuotrauką. Pirmiausia iš paveikslėlių išgauname kuo daugiau informacijos naudodami [computer vision](https://azure.microsoft.com/services/cognitive-services/computer-vision/?WT.mc_id=academic-77958-bethanycheum), o tada naudojame [Azure Machine Learning AutoML](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml/?WT.mc_id=academic-77958-bethanycheum), kad sukurtume interpretuojamą modelį. +* [Veidų tyrimų dirbtuvėse](https://github.com/CloudAdvocacy/FaceStudies) mes naudojame [Face API](https://azure.microsoft.com/services/cognitive-services/face/?WT.mc_id=academic-77958-bethanycheum), kad išgautume emocijas žmonių nuotraukose iš renginių, bandydami suprasti, kas daro žmones laimingus. + +## Išvada + +Nesvarbu, ar jau turite struktūrizuotus, ar nestruktūrizuotus duomenis, naudodami Python galite atlikti visus su duomenų apdorojimu ir supratimu susijusius veiksmus. Tai turbūt lankstiausias duomenų apdorojimo būdas, ir būtent todėl dauguma duomenų mokslininkų naudoja Python kaip pagrindinį įrankį. Mokytis Python išsamiai yra gera idėja, jei rimtai žiūrite į savo duomenų mokslo kelionę! + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/13) + +## Apžvalga ir savarankiškas mokymasis + +**Knygos** +* [Wes McKinney. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython](https://www.amazon.com/gp/product/1491957662) + +**Internetiniai ištekliai** +* Oficialus [10 minučių Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html) vadovas +* [Pandas vizualizacijos dokumentacija](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html) + +**Python mokymasis** +* [Išmokite Python smagiai su Turtle Graphics ir Fractals](https://github.com/shwars/pycourse) +* [Pradėkite savo pirmuosius žingsnius su Python](https://docs.microsoft.com/learn/paths/python-first-steps/?WT.mc_id=academic-77958-bethanycheum) mokymosi kelias [Microsoft Learn](http://learn.microsoft.com/?WT.mc_id=academic-77958-bethanycheum) + +## Užduotis + +[Atlikite detalesnį duomenų tyrimą aukščiau pateiktiems iššūkiams](assignment.md) + +## Kreditas + +Ši pamoka buvo sukurta su ♥️ [Dmitry Soshnikov](http://soshnikov.com) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors stengiamės užtikrinti tikslumą, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/07-python/assignment.md b/translations/lt/2-Working-With-Data/07-python/assignment.md new file mode 100644 index 00000000..2a6c93ec --- /dev/null +++ b/translations/lt/2-Working-With-Data/07-python/assignment.md @@ -0,0 +1,37 @@ + +# Užduotis duomenų apdorojimui su Python + +Šioje užduotyje prašysime jūsų išplėtoti kodą, kurį pradėjome kurti mūsų iššūkiuose. Užduotis susideda iš dviejų dalių: + +## COVID-19 plitimo modeliavimas + + - [ ] Nubraižykite *R* grafikus 5-6 skirtingoms šalims viename grafike, kad būtų galima palyginti, arba naudokite kelis grafikus šalia vienas kito. + - [ ] Išanalizuokite, kaip mirčių ir pasveikimų skaičius koreliuoja su užsikrėtusiųjų skaičiumi. + - [ ] Išsiaiškinkite, kiek laiko trunka tipinė liga, vizualiai koreliuodami užsikrėtimo ir mirčių rodiklius bei ieškodami tam tikrų anomalijų. Jums gali tekti analizuoti skirtingas šalis, kad tai nustatytumėte. + - [ ] Apskaičiuokite mirtingumo rodiklį ir kaip jis keičiasi laikui bėgant. *Galbūt norėsite atsižvelgti į ligos trukmę dienomis, kad galėtumėte perkelti vieną laiko seką prieš atlikdami skaičiavimus.* + +## COVID-19 mokslinių straipsnių analizė + +- [ ] Sukurkite skirtingų vaistų ko-pasirodymo matricą ir pažiūrėkite, kurie vaistai dažnai minimi kartu (t. y. paminėti viename santraukoje). Galite modifikuoti kodą, skirtą ko-pasirodymo matricai kurti vaistams ir diagnozėms. +- [ ] Vizualizuokite šią matricą naudodami šilumos žemėlapį. +- [ ] Papildoma užduotis: vizualizuokite vaistų ko-pasirodymą naudodami [chord diagramą](https://en.wikipedia.org/wiki/Chord_diagram). [Ši biblioteka](https://pypi.org/project/chord/) gali padėti jums nubrėžti chord diagramą. +- [ ] Kita papildoma užduotis: ištraukite skirtingų vaistų dozes (pvz., **400mg** iš *vartokite 400mg chloroquine kasdien*) naudodami reguliarias išraiškas ir sukurkite duomenų rėmelį, kuriame būtų parodytos skirtingos vaistų dozės. **Pastaba**: apsvarstykite skaitines reikšmes, kurios yra arti vaisto pavadinimo tekste. + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia patobulinimų +--- | --- | -- | +Visos užduotys atliktos, grafiškai iliustruotos ir paaiškintos, įskaitant bent vieną iš dviejų papildomų užduočių | Atlikta daugiau nei 5 užduotys, papildomos užduotys neatliktos arba rezultatai nėra aiškūs | Atlikta mažiau nei 5 (bet daugiau nei 3) užduotys, vizualizacijos nepadeda pademonstruoti esmės + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/08-data-preparation/README.md b/translations/lt/2-Working-With-Data/08-data-preparation/README.md new file mode 100644 index 00000000..c4d43493 --- /dev/null +++ b/translations/lt/2-Working-With-Data/08-data-preparation/README.md @@ -0,0 +1,346 @@ + +# Darbas su duomenimis: Duomenų paruošimas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/08-DataPreparation.png)| +|:---:| +|Duomenų paruošimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [Prieš paskaitą: Klausimynas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/14) + +Priklausomai nuo šaltinio, neapdoroti duomenys gali turėti tam tikrų neatitikimų, kurie sukels sunkumų analizuojant ir modeliuojant. Kitaip tariant, šie duomenys gali būti laikomi „nešvariais“ ir juos reikės išvalyti. Šioje pamokoje dėmesys skiriamas duomenų valymo ir transformavimo technikoms, siekiant spręsti problemas, susijusias su trūkstamais, netiksliais ar neišsamiais duomenimis. Pamokoje aptariamos temos bus naudojamos su Python ir Pandas biblioteka ir bus [pademonstruotos užrašų knygelėje](notebook.ipynb) šiame kataloge. + +## Kodėl svarbu valyti duomenis + +- **Naudojimo ir pakartotinio naudojimo paprastumas**: Kai duomenys yra tinkamai organizuoti ir normalizuoti, juos lengviau ieškoti, naudoti ir dalintis su kitais. + +- **Nuoseklumas**: Duomenų mokslas dažnai reikalauja dirbti su daugiau nei vienu duomenų rinkiniu, kur duomenų rinkiniai iš skirtingų šaltinių turi būti sujungti. Užtikrinus, kad kiekvienas atskiras duomenų rinkinys būtų standartizuotas, galima užtikrinti, kad sujungti duomenys išliks naudingi. + +- **Modelio tikslumas**: Išvalyti duomenys pagerina modelių, kurie jais remiasi, tikslumą. + +## Dažni valymo tikslai ir strategijos + +- **Duomenų rinkinio tyrimas**: Duomenų tyrimas, kuris aptariamas [vėlesnėje pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/4-Data-Science-Lifecycle/15-analyzing), gali padėti atrasti duomenis, kuriuos reikia išvalyti. Vizualiai stebint reikšmes duomenų rinkinyje galima susidaryti lūkesčius, kaip atrodys likusi dalis, arba gauti idėjų apie problemas, kurias galima išspręsti. Tyrimas gali apimti pagrindinius užklausų vykdymus, vizualizacijas ir pavyzdžių analizę. + +- **Formatavimas**: Priklausomai nuo šaltinio, duomenys gali būti pateikti nenuosekliai. Tai gali sukelti problemų ieškant ir atvaizduojant reikšmes, kai jos matomos duomenų rinkinyje, bet nėra tinkamai pateiktos vizualizacijose ar užklausų rezultatuose. Dažnos formatavimo problemos apima tarpus, datas ir duomenų tipus. Formatavimo problemų sprendimas paprastai priklauso nuo žmonių, kurie naudoja duomenis. Pavyzdžiui, standartai, kaip pateikiamos datos ir skaičiai, gali skirtis priklausomai nuo šalies. + +- **Dubliavimas**: Duomenys, kurie pasikartoja, gali sukelti netikslius rezultatus ir dažniausiai turėtų būti pašalinti. Tai dažnai pasitaiko, kai sujungiami du ar daugiau duomenų rinkinių. Tačiau yra atvejų, kai dubliuoti duomenys sujungtuose rinkiniuose gali turėti papildomos informacijos ir juos gali reikėti išsaugoti. + +- **Trūkstami duomenys**: Trūkstami duomenys gali sukelti netikslumus, taip pat silpnus ar šališkus rezultatus. Kartais tai galima išspręsti „pakartotinai įkeliant“ duomenis, užpildant trūkstamas reikšmes skaičiavimais ir kodu, pavyzdžiui, Python, arba tiesiog pašalinant reikšmę ir atitinkamus duomenis. Yra daugybė priežasčių, kodėl duomenys gali būti trūkstami, o veiksmai, kurių imamasi siekiant išspręsti šias problemas, gali priklausyti nuo to, kaip ir kodėl jie dingo. + +## Duomenų rėmelio informacijos tyrimas +> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte jaustis patogiai ieškodami bendros informacijos apie pandas DataFrame saugomus duomenis. + +Kai duomenys įkeliami į pandas, jie greičiausiai bus DataFrame formatu (žr. ankstesnę [pamoką](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/07-python#dataframe) dėl išsamesnės apžvalgos). Tačiau jei jūsų DataFrame turi 60 000 eilučių ir 400 stulpelių, nuo ko pradėti suprasti, su kuo dirbate? Laimei, [pandas](https://pandas.pydata.org/) suteikia patogius įrankius greitai peržiūrėti bendrą informaciją apie DataFrame, taip pat pirmąsias ir paskutines eilutes. + +Norėdami ištirti šią funkciją, importuosime Python scikit-learn biblioteką ir naudosime ikonišką duomenų rinkinį: **Iris duomenų rinkinį**. + +```python +import pandas as pd +from sklearn.datasets import load_iris + +iris = load_iris() +iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names']) +``` +| |sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)| +|----------------------------------------|-----------------|----------------|-----------------|----------------| +|0 |5.1 |3.5 |1.4 |0.2 | +|1 |4.9 |3.0 |1.4 |0.2 | +|2 |4.7 |3.2 |1.3 |0.2 | +|3 |4.6 |3.1 |1.5 |0.2 | +|4 |5.0 |3.6 |1.4 |0.2 | + +- **DataFrame.info**: Pradžiai, `info()` metodas naudojamas norint atspausdinti santrauką apie `DataFrame` turinį. Pažiūrėkime į šį duomenų rinkinį: +```python +iris_df.info() +``` +``` +RangeIndex: 150 entries, 0 to 149 +Data columns (total 4 columns): + # Column Non-Null Count Dtype +--- ------ -------------- ----- + 0 sepal length (cm) 150 non-null float64 + 1 sepal width (cm) 150 non-null float64 + 2 petal length (cm) 150 non-null float64 + 3 petal width (cm) 150 non-null float64 +dtypes: float64(4) +memory usage: 4.8 KB +``` +Iš to sužinome, kad *Iris* duomenų rinkinys turi 150 įrašų keturiuose stulpeliuose be jokių tuščių įrašų. Visi duomenys saugomi kaip 64 bitų slankiojo kablelio skaičiai. + +- **DataFrame.head()**: Toliau, norėdami patikrinti faktinį `DataFrame` turinį, naudojame `head()` metodą. Pažiūrėkime, kaip atrodo pirmosios kelios mūsų `iris_df` eilutės: +```python +iris_df.head() +``` +``` + sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) +0 5.1 3.5 1.4 0.2 +1 4.9 3.0 1.4 0.2 +2 4.7 3.2 1.3 0.2 +3 4.6 3.1 1.5 0.2 +4 5.0 3.6 1.4 0.2 +``` +- **DataFrame.tail()**: Priešingai, norėdami patikrinti paskutines kelias `DataFrame` eilutes, naudojame `tail()` metodą: +```python +iris_df.tail() +``` +``` + sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) +145 6.7 3.0 5.2 2.3 +146 6.3 2.5 5.0 1.9 +147 6.5 3.0 5.2 2.0 +148 6.2 3.4 5.4 2.3 +149 5.9 3.0 5.1 1.8 +``` +> **Išvada:** Net ir žiūrėdami tik į metaduomenis apie informaciją `DataFrame` arba pirmąsias ir paskutines kelias reikšmes, galite iš karto susidaryti idėją apie duomenų dydį, formą ir turinį. + +## Darbas su trūkstamais duomenimis +> **Mokymosi tikslas:** Šios dalies pabaigoje turėtumėte žinoti, kaip pakeisti arba pašalinti null reikšmes iš DataFrame. + +Dažniausiai duomenų rinkiniai, kuriuos norite naudoti (arba privalote naudoti), turi trūkstamų reikšmių. Kaip tvarkomi trūkstami duomenys, turi subtilių kompromisų, kurie gali paveikti jūsų galutinę analizę ir realaus pasaulio rezultatus. + +Pandas tvarko trūkstamas reikšmes dviem būdais. Pirmasis, kurį jau matėte ankstesnėse dalyse: `NaN`, arba Not a Number. Tai yra speciali reikšmė, kuri yra IEEE slankiojo kablelio specifikacijos dalis ir naudojama tik trūkstamoms slankiojo kablelio reikšmėms nurodyti. + +Kitiems nei slankiojo kablelio trūkstamiems duomenims pandas naudoja Python `None` objektą. Nors gali atrodyti painu, kad susidursite su dviem skirtingomis reikšmėmis, kurios iš esmės reiškia tą patį, yra pagrįstų programinių priežasčių šiam dizaino pasirinkimui, o praktikoje tai leidžia pandas pateikti gerą kompromisą daugumai atvejų. Nepaisant to, tiek `None`, tiek `NaN` turi apribojimų, kuriuos reikia žinoti, kaip jie gali būti naudojami. + +Daugiau apie `NaN` ir `None` galite sužinoti iš [užrašų knygelės](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb)! + +- **Null reikšmių aptikimas**: Pandas `isnull()` ir `notnull()` metodai yra pagrindiniai metodai null duomenims aptikti. Abu grąžina Boole'o kaukes jūsų duomenims. Naudosime `numpy` `NaN` reikšmėms: +```python +import numpy as np + +example1 = pd.Series([0, np.nan, '', None]) +example1.isnull() +``` +``` +0 False +1 True +2 False +3 True +dtype: bool +``` +Atidžiai pažiūrėkite į išvestį. Ar kas nors jus nustebino? Nors `0` yra aritmetinis null, jis vis tiek yra tinkamas sveikasis skaičius ir pandas jį taip traktuoja. `''` yra šiek tiek subtilesnis. Nors jį naudojome 1 skyriuje kaip tuščios eilutės reikšmę, jis vis tiek yra eilutės objektas ir pandas nelaiko jo null reikšme. + +Dabar apverskime tai ir naudokime šiuos metodus taip, kaip dažniausiai juos naudosite praktikoje. Boole'o kaukes galite naudoti tiesiogiai kaip ``Series`` arba ``DataFrame`` indeksą, kuris gali būti naudingas dirbant su atskirai trūkstamomis (arba esančiomis) reikšmėmis. + +> **Išvada**: Tiek `isnull()`, tiek `notnull()` metodai duoda panašius rezultatus, kai juos naudojate `DataFrame`: jie rodo rezultatus ir tų rezultatų indeksą, kas jums labai padės dirbant su duomenimis. + +- **Null reikšmių pašalinimas**: Be trūkstamų reikšmių identifikavimo, pandas suteikia patogų būdą pašalinti null reikšmes iš `Series` ir `DataFrame`. (Ypač dideliuose duomenų rinkiniuose dažnai patartina tiesiog pašalinti trūkstamas [NA] reikšmes iš analizės, o ne tvarkyti jas kitais būdais.) Norėdami tai pamatyti veiksmuose, grįžkime prie `example1`: +```python +example1 = example1.dropna() +example1 +``` +``` +0 0 +2 +dtype: object +``` +Atkreipkite dėmesį, kad tai turėtų atrodyti kaip jūsų išvestis iš `example3[example3.notnull()]`. Skirtumas tas, kad vietoj to, kad būtų indeksuojamos kaukės reikšmės, `dropna` pašalino tas trūkstamas reikšmes iš `Series` `example1`. + +Kadangi `DataFrame` turi dvi dimensijas, jie suteikia daugiau galimybių duomenims pašalinti. + +```python +example2 = pd.DataFrame([[1, np.nan, 7], + [2, 5, 8], + [np.nan, 6, 9]]) +example2 +``` +| | 0 | 1 | 2 | +|------|---|---|---| +|0 |1.0|NaN|7 | +|1 |2.0|5.0|8 | +|2 |NaN|6.0|9 | + +(Ar pastebėjote, kad pandas pakeitė du stulpelius į slankiojo kablelio tipus, kad atitiktų `NaN`?) + +Negalite pašalinti vienos reikšmės iš `DataFrame`, todėl turite pašalinti visas eilutes arba stulpelius. Priklausomai nuo to, ką darote, galite norėti daryti vieną ar kitą, todėl pandas suteikia galimybes abiem. Kadangi duomenų moksle stulpeliai paprastai atspindi kintamuosius, o eilutės - stebėjimus, dažniau pašalinsite duomenų eilutes; numatytasis `dropna()` nustatymas yra pašalinti visas eilutes, kuriose yra bet kokių null reikšmių: + +```python +example2.dropna() +``` +``` + 0 1 2 +1 2.0 5.0 8 +``` +Jei reikia, galite pašalinti NA reikšmes iš stulpelių. Naudokite `axis=1`, kad tai padarytumėte: +```python +example2.dropna(axis='columns') +``` +``` + 2 +0 7 +1 8 +2 9 +``` +Atkreipkite dėmesį, kad tai gali pašalinti daug duomenų, kuriuos galbūt norėtumėte išsaugoti, ypač mažesniuose duomenų rinkiniuose. O kas, jei norite pašalinti tik tas eilutes ar stulpelius, kuriuose yra kelios arba net visos null reikšmės? Šiuos nustatymus galite nurodyti `dropna` naudodami `how` ir `thresh` parametrus. + +Pagal numatytuosius nustatymus `how='any'` (jei norite patikrinti patys arba pamatyti, kokius kitus parametrus turi metodas, paleiskite `example4.dropna?` kodo langelyje). Galėtumėte alternatyviai nurodyti `how='all'`, kad pašalintumėte tik tas eilutes ar stulpelius, kuriuose yra visos null reikšmės. Išplėskime mūsų pavyzdinį `DataFrame`, kad pamatytume tai veiksmuose. + +```python +example2[3] = np.nan +example2 +``` +| |0 |1 |2 |3 | +|------|---|---|---|---| +|0 |1.0|NaN|7 |NaN| +|1 |2.0|5.0|8 |NaN| +|2 |NaN|6.0|9 |NaN| + +`Thresh` parametras suteikia jums smulkesnę kontrolę: nustatote *ne-null* reikšmių skaičių, kurį eilutė arba stulpelis turi turėti, kad būtų išsaugotas: +```python +example2.dropna(axis='rows', thresh=3) +``` +``` + 0 1 2 3 +1 2.0 5.0 8 NaN +``` +Čia pirmoji ir paskutinė eilutės buvo pašalintos, nes jose yra tik dvi ne-null reikšmės. + +- **Null reikšmių užpildymas**: Priklausomai nuo jūsų duomenų rinkinio, kartais gali būti prasmingiau užpildyti null reikšmes galiojančiomis, o ne jas pašalinti. Galėtumėte naudoti `isnull`, kad tai padarytumėte vietoje, tačiau tai gali būti varginantis darbas, ypač jei turite daug reikšmių, kurias reikia užpildyti. Kadangi tai yra tokia dažna užduotis duomenų moksle, pandas suteikia `fillna`, kuris grąžina `Series` arba `DataFrame` kopiją su trūkstamomis reikšmėmis, pakeistomis jūsų pasirinkta reikšme. Sukurkime dar vieną pavyzdinį `Series`, kad pamatytume, kaip tai veikia praktikoje. +```python +example3 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde')) +example3 +``` +``` +a 1.0 +b NaN +c 2.0 +d NaN +e 3.0 +dtype: float64 +``` +Galite užpildyti visas null reikšmes viena reikšme, pavyzdžiui, `0`: +```python +example3.fillna(0) +``` +``` +a 1.0 +b 0.0 +c 2.0 +d 0.0 +e 3.0 +dtype: float64 +``` +Galite **užpildyti pirmyn** null reikšmes, naudodami paskutinę galiojančią reikšmę null reikšmei užpildyti: +```python +example3.fillna(method='ffill') +``` +``` +a 1.0 +b 1.0 +c 2.0 +d 2.0 +e 3.0 +dtype: float64 +``` +Taip pat galite **užpildyti atgal**, kad užpildytumėte null reikšmę naudodami kitą galiojančią reikšmę: +```python +example3.fillna(method='bfill') +``` +``` +a 1.0 +b 2.0 +c 2.0 +d 3.0 +e 3.0 +dtype: float64 +``` +Kaip galite spėti, tai veikia taip pat su `DataFrame`, tačiau taip pat galite nurodyti `axis`, pagal kurį užpildyti null reikšmes. Naudojant anksčiau naudotą `example2`: +```python +example2.fillna(method='ffill', axis=1) +``` +``` + 0 1 2 3 +0 1.0 1.0 7.0 7.0 +1 2.0 5.0 8.0 8.0 +2 NaN 6.0 9.0 9.0 +``` +Atkreipkite dėmesį, kad kai ankstesnė reikšmė nėra prieinama užpildymui pirmyn, null reikšmė lieka. +> **Svarbiausia:** Yra daugybė būdų, kaip spręsti trūkstamų reikšmių problemą jūsų duomenų rinkiniuose. Konkreti strategija, kurią pasirinksite (pašalinti, pakeisti ar net kaip pakeisti), turėtų būti diktuojama konkrečių duomenų ypatumų. Kuo daugiau dirbsite su duomenų rinkiniais, tuo geriau suprasite, kaip tvarkyti trūkstamas reikšmes. + +## Dublikatų duomenų pašalinimas + +> **Mokymosi tikslas:** Šios poskyrio pabaigoje turėtumėte jaustis užtikrintai identifikuodami ir pašalindami pasikartojančias reikšmes iš `DataFrame`. + +Be trūkstamų duomenų, realiuose duomenų rinkiniuose dažnai susidursite su pasikartojančiais duomenimis. Laimei, `pandas` suteikia paprastą būdą aptikti ir pašalinti pasikartojančias įrašus. + +- **Dublikatų identifikavimas: `duplicated`**: Pasikartojančias reikšmes galite lengvai aptikti naudodami `duplicated` metodą `pandas`, kuris grąžina loginę kaukę, nurodančią, ar įrašas `DataFrame` yra ankstesnio įrašo dublikatas. Sukurkime dar vieną pavyzdinį `DataFrame`, kad pamatytume, kaip tai veikia. +```python +example4 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'], + 'numbers': [1, 2, 1, 3, 3]}) +example4 +``` +| |letters|numbers| +|------|-------|-------| +|0 |A |1 | +|1 |B |2 | +|2 |A |1 | +|3 |B |3 | +|4 |B |3 | + +```python +example4.duplicated() +``` +``` +0 False +1 False +2 True +3 False +4 True +dtype: bool +``` +- **Dublikatų pašalinimas: `drop_duplicates`:** paprasčiausiai grąžina duomenų kopiją, kurioje visos `duplicated` reikšmės yra `False`: +```python +example4.drop_duplicates() +``` +``` + letters numbers +0 A 1 +1 B 2 +3 B 3 +``` +Tiek `duplicated`, tiek `drop_duplicates` pagal numatytuosius nustatymus atsižvelgia į visas stulpelius, tačiau galite nurodyti, kad jie analizuotų tik tam tikrą `DataFrame` stulpelių dalį: +```python +example4.drop_duplicates(['letters']) +``` +``` +letters numbers +0 A 1 +1 B 2 +``` + +> **Svarbiausia:** Pasikartojančių duomenų pašalinimas yra būtina beveik kiekvieno duomenų mokslo projekto dalis. Pasikartojantys duomenys gali pakeisti jūsų analizės rezultatus ir pateikti netikslius rezultatus! + + +## 🚀 Iššūkis + +Visos aptartos medžiagos pateikiamos kaip [Jupyter Notebook](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/2-Working-With-Data/08-data-preparation/notebook.ipynb). Be to, po kiekvieno skyriaus yra pratimai – išbandykite juos! + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/15) + + + +## Apžvalga ir savarankiškas mokymasis + +Yra daugybė būdų, kaip atrasti ir pasiruošti duomenų analizavimui bei modeliavimui, o duomenų valymas yra svarbus žingsnis, reikalaujantis praktinio darbo. Išbandykite šiuos Kaggle iššūkius, kad susipažintumėte su technikomis, kurios nebuvo aptartos šioje pamokoje. + +- [Duomenų valymo iššūkis: Datų analizė](https://www.kaggle.com/rtatman/data-cleaning-challenge-parsing-dates/) + +- [Duomenų valymo iššūkis: Duomenų mastelio keitimas ir normalizavimas](https://www.kaggle.com/rtatman/data-cleaning-challenge-scale-and-normalize-data) + + +## Užduotis + +[Duomenų vertinimas iš formos](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/08-data-preparation/assignment.md b/translations/lt/2-Working-With-Data/08-data-preparation/assignment.md new file mode 100644 index 00000000..09daa41d --- /dev/null +++ b/translations/lt/2-Working-With-Data/08-data-preparation/assignment.md @@ -0,0 +1,28 @@ + +# Duomenų iš formos vertinimas + +Klientas testavo [nedidelę formą](../../../../2-Working-With-Data/08-data-preparation/index.html), skirtą surinkti pagrindinius duomenis apie savo klientų bazę. Jie pateikė jums savo surinktus duomenis, kad juos patikrintumėte. Galite atidaryti `index.html` puslapį naršyklėje, kad peržiūrėtumėte formą. + +Jums buvo pateiktas [CSV įrašų duomenų rinkinys](../../../../data/form.csv), kuriame yra formos įrašai bei keletas pagrindinių vizualizacijų. Klientas pastebėjo, kad kai kurios vizualizacijos atrodo neteisingos, tačiau jie nėra tikri, kaip tai išspręsti. Galite tai išnagrinėti [užduoties užrašinėje](assignment.ipynb). + +## Instrukcijos + +Naudokite šioje pamokoje aptartas technikas, kad pateiktumėte rekomendacijas, kaip formą patobulinti, jog ji rinktų tikslią ir nuoseklią informaciją. + +## Vertinimo kriterijai + +Pavyzdingai | Pakankamai | Reikia patobulinimų +--- | --- | --- + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/2-Working-With-Data/README.md b/translations/lt/2-Working-With-Data/README.md new file mode 100644 index 00000000..3a12b1fd --- /dev/null +++ b/translations/lt/2-Working-With-Data/README.md @@ -0,0 +1,31 @@ + +# Darbas su duomenimis + +![data love](../../../translated_images/data-love.a22ef29e6742c852505ada062920956d3d7604870b281a8ca7c7ac6f37381d5a.lt.jpg) +> Nuotrauka Alexander SinnUnsplash + +Šiose pamokose sužinosite, kaip galima valdyti, manipuliuoti ir naudoti duomenis programose. Susipažinsite su reliacinėmis ir nereliacinėmis duomenų bazėmis bei kaip jose galima saugoti duomenis. Išmoksite pagrindus, kaip naudotis Python valdant duomenis, ir atrasite daugybę būdų, kaip Python gali būti naudojamas duomenims valdyti ir analizuoti. + +### Temos + +1. [Reliacinės duomenų bazės](05-relational-databases/README.md) +2. [Nereliacinės duomenų bazės](06-non-relational/README.md) +3. [Darbas su Python](07-python/README.md) +4. [Duomenų paruošimas](08-data-preparation/README.md) + +### Autorystė + +Šios pamokos buvo parašytos su ❤️ [Christopher Harrison](https://twitter.com/geektrainer), [Dmitry Soshnikov](https://twitter.com/shwars) ir [Jasmine Greenaway](https://twitter.com/paladique). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/09-visualization-quantities/README.md b/translations/lt/3-Data-Visualization/09-visualization-quantities/README.md new file mode 100644 index 00000000..bba8fa21 --- /dev/null +++ b/translations/lt/3-Data-Visualization/09-visualization-quantities/README.md @@ -0,0 +1,217 @@ + +# Vizualizuojame kiekius + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/09-Visualizing-Quantities.png)| +|:---:| +| Vizualizuojame kiekius - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Šioje pamokoje sužinosite, kaip naudoti vieną iš daugelio Python bibliotekų, kad sukurtumėte įdomias vizualizacijas, susijusias su kiekių koncepcija. Naudodami išvalytą duomenų rinkinį apie Minesotos paukščius, galite sužinoti daug įdomių faktų apie vietinę laukinę gamtą. +## [Prieš paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16) + +## Stebėkite sparnų ilgį su Matplotlib + +Puiki biblioteka, skirta kurti tiek paprastus, tiek sudėtingus įvairių tipų grafikus ir diagramas, yra [Matplotlib](https://matplotlib.org/stable/index.html). Bendrai kalbant, duomenų vaizdavimo procesas naudojant šias bibliotekas apima duomenų rėmelio dalių identifikavimą, kurias norite analizuoti, reikalingų transformacijų atlikimą, x ir y ašių reikšmių priskyrimą, grafiko tipo pasirinkimą ir jo rodymą. Matplotlib siūlo daugybę vizualizacijų, tačiau šioje pamokoje sutelksime dėmesį į tas, kurios labiausiai tinka kiekių vizualizavimui: linijinius grafikus, sklaidos diagramas ir stulpelines diagramas. + +> ✅ Pasirinkite geriausią grafiką, atitinkantį jūsų duomenų struktūrą ir pasakojimą, kurį norite perteikti. +> - Norint analizuoti tendencijas laikui bėgant: linijinis grafikas +> - Norint palyginti reikšmes: stulpeliai, kolonos, pyragas, sklaidos diagrama +> - Norint parodyti, kaip dalys susijusios su visuma: pyragas +> - Norint parodyti duomenų pasiskirstymą: sklaidos diagrama, stulpeliai +> - Norint parodyti tendencijas: linijinis grafikas, kolonos +> - Norint parodyti ryšius tarp reikšmių: linijinis grafikas, sklaidos diagrama, burbulų diagrama + +Jei turite duomenų rinkinį ir norite sužinoti, kiek tam tikro elemento yra įtraukta, viena iš pirmųjų užduočių bus patikrinti jo reikšmes. + +✅ Puikūs „cheat sheet“ dokumentai Matplotlib yra prieinami [čia](https://matplotlib.org/cheatsheets/cheatsheets.pdf). + +## Sukurkite linijinį grafiką apie paukščių sparnų ilgius + +Atidarykite `notebook.ipynb` failą, esantį šios pamokos aplanko šaknyje, ir pridėkite langelį. + +> Pastaba: duomenys saugomi šio repo šaknyje `/data` aplanke. + +```python +import pandas as pd +import matplotlib.pyplot as plt +birds = pd.read_csv('../../data/birds.csv') +birds.head() +``` +Šie duomenys yra tekstų ir skaičių mišinys: + +| | Pavadinimas | MokslinisPavadinimas | Kategorija | Būrys | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasė | MaxKūnoMasė | MinSparnųIlgis | MaxSparnųIlgis | +| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: | +| 0 | Juodapilvis švilpikas | Dendrocygna autumnalis | Antys/Giesmininkai/Vandenspaukščiai | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 | +| 1 | Rausvas švilpikas | Dendrocygna bicolor | Antys/Giesmininkai/Vandenspaukščiai | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 | +| 2 | Sniego žąsis | Anser caerulescens | Antys/Giesmininkai/Vandenspaukščiai | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 | +| 3 | Roso žąsis | Anser rossii | Antys/Giesmininkai/Vandenspaukščiai | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 | +| 4 | Didžioji baltakaktė žąsis | Anser albifrons | Antys/Giesmininkai/Vandenspaukščiai | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 | + +Pradėkime vaizduoti kai kuriuos skaitinius duomenis naudodami paprastą linijinį grafiką. Tarkime, norite pamatyti šių įdomių paukščių maksimalų sparnų ilgį. + +```python +wingspan = birds['MaxWingspan'] +wingspan.plot() +``` +![Max Sparnų Ilgis](../../../../translated_images/max-wingspan-02.e79fd847b2640b89e21e340a3a9f4c5d4b224c4fcd65f54385e84f1c9ed26d52.lt.png) + +Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis – tai gana įspūdingas sparnų ilgis! 2300 centimetrų sparnų ilgis prilygsta 23 metrams – ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime. + +Nors galėtumėte greitai surūšiuoti Excel programoje, kad rastumėte tuos išskirtinius atvejus, kurie greičiausiai yra klaidos, tęskite vizualizacijos procesą dirbdami tiesiai iš grafiko. + +Pridėkite x ašies etiketes, kad parodytumėte, kokie paukščiai yra nagrinėjami: + +``` +plt.title('Max Wingspan in Centimeters') +plt.ylabel('Wingspan (CM)') +plt.xlabel('Birds') +plt.xticks(rotation=45) +x = birds['Name'] +y = birds['MaxWingspan'] + +plt.plot(x, y) + +plt.show() +``` +![sparnų ilgis su etiketėmis](../../../../translated_images/max-wingspan-labels-02.aa90e826ca49a9d1dde78075e9755c1849ef56a4e9ec60f7e9f3806daf9283e2.lt.png) + +Net ir pasukus etiketes 45 laipsniais, jų per daug, kad būtų galima perskaityti. Išbandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes grafike. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms: + +```python +plt.title('Max Wingspan in Centimeters') +plt.ylabel('Wingspan (CM)') +plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False) + +for i in range(len(birds)): + x = birds['Name'][i] + y = birds['MaxWingspan'][i] + plt.plot(x, y, 'bo') + if birds['MaxWingspan'][i] > 500: + plt.text(x, y * (1 - 0.05), birds['Name'][i], fontsize=12) + +plt.show() +``` +Kas čia vyksta? Naudojote `tick_params`, kad paslėptumėte apatines etiketes, ir tada sukūrėte ciklą per savo paukščių duomenų rinkinį. Vaizduodami grafiką su mažais apvaliais mėlynais taškais, naudodami `bo`, patikrinote, ar yra paukščių, kurių maksimalus sparnų ilgis viršija 500, ir jei taip, šalia taško parodėte jų etiketę. Etiketes šiek tiek paslinkote y ašyje (`y * (1 - 0.05)`) ir kaip etiketę naudojote paukščio pavadinimą. + +Ką atradote? + +![išskirtiniai atvejai](../../../../translated_images/labeled-wingspan-02.6110e2d2401cd5238ccc24dfb6d04a6c19436101f6cec151e3992e719f9f1e1f.lt.png) +## Filtruokite savo duomenis + +Tiek Plikasis erelis, tiek Prerijų sakalas, nors greičiausiai labai dideli paukščiai, atrodo neteisingai pažymėti, su papildomu `0` pridėtu prie jų maksimalaus sparnų ilgio. Mažai tikėtina, kad sutiksite Plikąjį erelį su 25 metrų sparnų ilgiu, bet jei taip, praneškite mums! Sukurkime naują duomenų rėmelį be šių dviejų išskirtinių atvejų: + +```python +plt.title('Max Wingspan in Centimeters') +plt.ylabel('Wingspan (CM)') +plt.xlabel('Birds') +plt.tick_params(axis='both',which='both',labelbottom=False,bottom=False) +for i in range(len(birds)): + x = birds['Name'][i] + y = birds['MaxWingspan'][i] + if birds['Name'][i] not in ['Bald eagle', 'Prairie falcon']: + plt.plot(x, y, 'bo') +plt.show() +``` + +Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni. + +![sklaidos diagrama sparnų ilgiams](../../../../translated_images/scatterplot-wingspan-02.1c33790094ce36a75f5fb45b25ed2cf27f0356ea609e43c11e97a2cedd7011a4.lt.png) + +Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų ilgio atžvilgiu, sužinokime daugiau apie šiuos paukščius. + +Nors linijiniai ir sklaidos grafikai gali parodyti informaciją apie duomenų reikšmes ir jų pasiskirstymą, norime pagalvoti apie reikšmes, esančias šiame duomenų rinkinyje. Galėtumėte sukurti vizualizacijas, kad atsakytumėte į šiuos klausimus apie kiekius: + +> Kiek paukščių kategorijų yra ir kokie jų skaičiai? +> Kiek paukščių yra išnykę, nykstantys, reti ar paplitę? +> Kiek yra įvairių genčių ir būrių pagal Linėjaus terminologiją? +## Tyrinėkite stulpelines diagramas + +Stulpelinės diagramos yra praktiškos, kai reikia parodyti duomenų grupes. Išnagrinėkime paukščių kategorijas, esančias šiame duomenų rinkinyje, kad pamatytume, kuri yra dažniausia pagal skaičių. + +Notebook faile sukurkite paprastą stulpelinę diagramą. + +✅ Pastaba, galite arba filtruoti du išskirtinius paukščius, kuriuos identifikavome ankstesniame skyriuje, redaguoti jų sparnų ilgio klaidą arba palikti juos šiems pratimams, kurie nepriklauso nuo sparnų ilgio reikšmių. + +Jei norite sukurti stulpelinę diagramą, galite pasirinkti duomenis, į kuriuos norite sutelkti dėmesį. Stulpelinės diagramos gali būti sukurtos iš neapdorotų duomenų: + +```python +birds.plot(x='Category', + kind='bar', + stacked=True, + title='Birds of Minnesota') + +``` +![visi duomenys kaip stulpelinė diagrama](../../../../translated_images/full-data-bar-02.aaa3fda71c63ed564b917841a1886c177dd9a26424142e510c0c0498fd6ca160.lt.png) + +Tačiau ši stulpelinė diagrama yra neįskaitoma, nes yra per daug nesugrupuotų duomenų. Jums reikia pasirinkti tik tuos duomenis, kuriuos norite vaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją. + +Filtruokite savo duomenis, kad įtrauktumėte tik paukščių kategoriją. + +✅ Atkreipkite dėmesį, kad naudojate Pandas duomenų valdymui, o Matplotlib – diagramų kūrimui. + +Kadangi yra daug kategorijų, galite parodyti šią diagramą vertikaliai ir pakoreguoti jos aukštį, kad atitiktų visus duomenis: + +```python +category_count = birds.value_counts(birds['Category'].values, sort=True) +plt.rcParams['figure.figsize'] = [6, 12] +category_count.plot.barh() +``` +![kategorija ir ilgis](../../../../translated_images/category-counts-02.0b9a0a4de42275ae5096d0f8da590d8bf520d9e7e40aad5cc4fc8d276480cc32.lt.png) + +Ši stulpelinė diagrama aiškiai parodo paukščių skaičių kiekvienoje kategorijoje. Akimirksniu matote, kad didžiausias paukščių skaičius šiame regione yra Antys/Giesmininkai/Vandenspaukščiai kategorijoje. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina! + +✅ Išbandykite kitus skaičiavimus šiame duomenų rinkinyje. Ar kas nors jus nustebina? + +## Duomenų palyginimas + +Galite išbandyti skirtingus grupuotų duomenų palyginimus, sukurdami naujas ašis. Išbandykite paukščio MaxIlgio palyginimą pagal jo kategoriją: + +```python +maxlength = birds['MaxLength'] +plt.barh(y=birds['Category'], width=maxlength) +plt.rcParams['figure.figsize'] = [6, 12] +plt.show() +``` +![duomenų palyginimas](../../../../translated_images/category-length-02.7304bf519375c9807d8165cc7ec60dd2a60f7b365b23098538e287d89adb7d76.lt.png) + +Čia niekas nestebina: kolibriai turi mažiausią MaxIlgį, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka! + +Galite sukurti įdomesnes stulpelinių diagramų vizualizacijas, uždėdami duomenis vieną ant kito. Uždėkime Minimalų ir Maksimalų Ilgį ant tam tikros paukščių kategorijos: + +```python +minLength = birds['MinLength'] +maxLength = birds['MaxLength'] +category = birds['Category'] + +plt.barh(category, maxLength) +plt.barh(category, minLength) + +plt.show() +``` +Šiame grafike galite matyti kiekvienos paukščių kategorijos Minimalų ir Maksimalų Ilgio diapazoną. Galite drąsiai teigti, kad, remiantis šiais duomenimis, kuo didesnis paukštis, tuo platesnis jo ilgio diapazonas. Įdomu! + +![uždėti reikšmės](../../../../translated_images/superimposed-02.f03058536baeb2ed7864f01102538464d4c2fd7ade881ddd7d5ba74dc5d2fdae.lt.png) + +## 🚀 Iššūkis + +Šis paukščių duomenų rinkinys siūlo daugybę informacijos apie įvairius paukščių tipus tam tikroje ekosistemoje. Paieškokite internete ir pažiūrėkite, ar galite rasti kitų paukščių duomenų rinkinių. Praktikuokite diagramų ir grafikų kūrimą apie šiuos paukščius, kad atrastumėte faktus, kurių nežinojote. +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17) + +## Apžvalga ir savarankiškas mokymasis + +Pirma pamoka suteikė jums informacijos apie tai, kaip naudoti Matplotlib kiekių vizualizavimui. Atlikite tyrimus apie kitus būdus dirbti su duomenų rinkiniais vizualizacijai. [Plotly](https://github.com/plotly/plotly.py) yra viena iš jų, kurios neaptarsime šiose pamokose, todėl pažiūrėkite, ką ji gali pasiūlyti. +## Užduotis + +[Linijos, Sklaidos ir Stulpeliai](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/09-visualization-quantities/assignment.md b/translations/lt/3-Data-Visualization/09-visualization-quantities/assignment.md new file mode 100644 index 00000000..300637bc --- /dev/null +++ b/translations/lt/3-Data-Visualization/09-visualization-quantities/assignment.md @@ -0,0 +1,25 @@ + +# Linijos, sklaidos diagramos ir stulpelinės diagramos + +## Instrukcijos + +Šioje pamokoje dirbote su linijų diagramomis, sklaidos diagramomis ir stulpelinėmis diagramomis, kad parodytumėte įdomius faktus apie šį duomenų rinkinį. Šioje užduotyje gilinkitės į duomenų rinkinį, kad atrastumėte faktą apie tam tikrą paukščių rūšį. Pavyzdžiui, sukurkite užrašų knygelę, kurioje vizualizuojami visi įdomūs duomenys, kuriuos galite atskleisti apie sniegines žąsis. Naudokite tris aukščiau paminėtas diagramas, kad papasakotumėte istoriją savo užrašų knygelėje. + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | -- | +Pateikta užrašų knygelė su geromis anotacijomis, stipria istorija ir patraukliomis diagramomis | Užrašų knygelėje trūksta vieno iš šių elementų | Užrašų knygelėje trūksta dviejų iš šių elementų + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/10-visualization-distributions/README.md b/translations/lt/3-Data-Visualization/10-visualization-distributions/README.md new file mode 100644 index 00000000..a52a8a3c --- /dev/null +++ b/translations/lt/3-Data-Visualization/10-visualization-distributions/README.md @@ -0,0 +1,217 @@ + +# Vizualizuojame pasiskirstymus + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/10-Visualizing-Distributions.png)| +|:---:| +| Vizualizuojame pasiskirstymus - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Ankstesnėje pamokoje sužinojote keletą įdomių faktų apie Minesotos paukščių duomenų rinkinį. Vizualizuodami išskirtis radote klaidingus duomenis ir apžvelgėte paukščių kategorijų skirtumus pagal jų maksimalų ilgį. + +## [Klausimynas prieš pamoką](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18) +## Tyrinėkite paukščių duomenų rinkinį + +Kitas būdas gilintis į duomenis yra pažvelgti į jų pasiskirstymą, arba kaip duomenys yra organizuoti pagal ašį. Pavyzdžiui, galbūt norėtumėte sužinoti bendrą pasiskirstymą šiame duomenų rinkinyje pagal maksimalų sparnų ilgį ar maksimalų kūno masę Minesotos paukščiams. + +Atraskime keletą faktų apie duomenų pasiskirstymą šiame duomenų rinkinyje. _notebook.ipynb_ faile, esančiame šios pamokos aplanko šaknyje, importuokite Pandas, Matplotlib ir savo duomenis: + +```python +import pandas as pd +import matplotlib.pyplot as plt +birds = pd.read_csv('../../data/birds.csv') +birds.head() +``` + +| | Pavadinimas | MokslinisPavadinimas | Kategorija | Eilė | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasa | MaxKūnoMasa | MinSparnųIlgis | MaxSparnųIlgis | +| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: | +| 0 | Juodapilvis švilpikas | Dendrocygna autumnalis | Antys/Giesmininkai | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 | +| 1 | Rudasis švilpikas | Dendrocygna bicolor | Antys/Giesmininkai | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 | +| 2 | Sniego žąsis | Anser caerulescens | Antys/Giesmininkai | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 | +| 3 | Roso žąsis | Anser rossii | Antys/Giesmininkai | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 | +| 4 | Didžioji baltakaktė žąsis | Anser albifrons | Antys/Giesmininkai | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 | + +Apskritai, greitai pažvelgti į duomenų pasiskirstymą galite naudodami sklaidos diagramą, kaip tai darėme ankstesnėje pamokoje: + +```python +birds.plot(kind='scatter',x='MaxLength',y='Order',figsize=(12,8)) + +plt.title('Max Length per Order') +plt.ylabel('Order') +plt.xlabel('Max Length') + +plt.show() +``` +![maksimalus ilgis pagal eilę](../../../../translated_images/scatter-wb.9d98b0ed7f0388af979441853361a11df5f518f5307938a503ca7913e986111b.lt.png) + +Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal jų eilę apžvalgą, tačiau tai nėra optimalus būdas parodyti tikruosius pasiskirstymus. Šią užduotį paprastai atlieka histograma. + +## Darbas su histogramomis + +Matplotlib siūlo puikius būdus vizualizuoti duomenų pasiskirstymą naudojant histogramas. Šio tipo diagrama yra panaši į stulpelinę diagramą, kur pasiskirstymas matomas per stulpelių kilimą ir kritimą. Norint sukurti histogramą, jums reikia skaitinių duomenų. Norėdami sukurti histogramą, galite nubrėžti diagramą, apibrėždami tipą kaip 'hist' histogramai. Ši diagrama rodo MaxBodyMass pasiskirstymą visame duomenų rinkinyje. Padalindama jai pateiktą duomenų masyvą į mažesnius intervalus, ji gali parodyti duomenų reikšmių pasiskirstymą: + +```python +birds['MaxBodyMass'].plot(kind = 'hist', bins = 10, figsize = (12,12)) +plt.show() +``` +![pasiskirstymas visame duomenų rinkinyje](../../../../translated_images/dist1-wb.0d0cac82e2974fbbec635826fefead401af795f82e2279e2e2678bf2c117d827.lt.png) + +Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis pakeisdami `bins` parametrą į didesnį skaičių, pvz., 30: + +```python +birds['MaxBodyMass'].plot(kind = 'hist', bins = 30, figsize = (12,12)) +plt.show() +``` +![pasiskirstymas visame duomenų rinkinyje su didesniu bins parametru](../../../../translated_images/dist2-wb.2c0a7a3499b2fbf561e9f93b69f265dfc538dc78f6de15088ba84a88152e26ba.lt.png) + +Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą galima sukurti užtikrinant, kad pasirinksite tik duomenis tam tikrame intervale: + +Filtruokite savo duomenis, kad gautumėte tik tuos paukščius, kurių kūno masė yra mažesnė nei 60, ir parodykite 40 `bins`: + +```python +filteredBirds = birds[(birds['MaxBodyMass'] > 1) & (birds['MaxBodyMass'] < 60)] +filteredBirds['MaxBodyMass'].plot(kind = 'hist',bins = 40,figsize = (12,12)) +plt.show() +``` +![filtruota histograma](../../../../translated_images/dist3-wb.64b88db7f9780200bd486a2c2a3252548dd439672dbd3f778193db7f654b100c.lt.png) + +✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus. + +Histograma siūlo keletą gražių spalvų ir žymėjimo patobulinimų, kuriuos verta išbandyti: + +Sukurkite 2D histogramą, kad palygintumėte dviejų pasiskirstymų santykį. Palyginkime `MaxBodyMass` ir `MaxLength`. Matplotlib siūlo įmontuotą būdą parodyti susikirtimą naudojant ryškesnes spalvas: + +```python +x = filteredBirds['MaxBodyMass'] +y = filteredBirds['MaxLength'] + +fig, ax = plt.subplots(tight_layout=True) +hist = ax.hist2d(x, y) +``` +Atrodo, kad yra tikėtinas ryšys tarp šių dviejų elementų pagal numatomą ašį, su vienu ypač stipriu susikirtimo tašku: + +![2D diagrama](../../../../translated_images/2D-wb.ae22fdd33936507a41e3af22e11e4903b04a9be973b23a4e05214efaccfd66c8.lt.png) + +Histogramos gerai veikia pagal numatytuosius nustatymus su skaitiniais duomenimis. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis? +## Tyrinėkite duomenų rinkinį pagal tekstinius duomenis + +Šis duomenų rinkinys taip pat apima gerą informaciją apie paukščių kategoriją, jų gentį, rūšį, šeimą ir apsaugos statusą. Pažvelkime į šią apsaugos informaciją. Koks yra paukščių pasiskirstymas pagal jų apsaugos statusą? + +> ✅ Duomenų rinkinyje naudojami keli akronimai, apibūdinantys apsaugos statusą. Šie akronimai yra iš [IUCN Raudonojo sąrašo kategorijų](https://www.iucnredlist.org/), organizacijos, kataloguojančios rūšių statusą. +> +> - CR: Kritiškai nykstantis +> - EN: Nykstantis +> - EX: Išnykęs +> - LC: Mažiausiai susirūpinimą keliantis +> - NT: Netoli nykimo +> - VU: Pažeidžiamas + +Tai yra tekstinės reikšmės, todėl jums reikės atlikti transformaciją, kad sukurtumėte histogramą. Naudodami filteredBirds duomenų rėmelį, parodykite jo apsaugos statusą kartu su minimaliu sparnų ilgiu. Ką pastebite? + +```python +x1 = filteredBirds.loc[filteredBirds.ConservationStatus=='EX', 'MinWingspan'] +x2 = filteredBirds.loc[filteredBirds.ConservationStatus=='CR', 'MinWingspan'] +x3 = filteredBirds.loc[filteredBirds.ConservationStatus=='EN', 'MinWingspan'] +x4 = filteredBirds.loc[filteredBirds.ConservationStatus=='NT', 'MinWingspan'] +x5 = filteredBirds.loc[filteredBirds.ConservationStatus=='VU', 'MinWingspan'] +x6 = filteredBirds.loc[filteredBirds.ConservationStatus=='LC', 'MinWingspan'] + +kwargs = dict(alpha=0.5, bins=20) + +plt.hist(x1, **kwargs, color='red', label='Extinct') +plt.hist(x2, **kwargs, color='orange', label='Critically Endangered') +plt.hist(x3, **kwargs, color='yellow', label='Endangered') +plt.hist(x4, **kwargs, color='green', label='Near Threatened') +plt.hist(x5, **kwargs, color='blue', label='Vulnerable') +plt.hist(x6, **kwargs, color='gray', label='Least Concern') + +plt.gca().set(title='Conservation Status', ylabel='Min Wingspan') +plt.legend(); +``` + +![sparnų ilgis ir apsaugos statusas](../../../../translated_images/histogram-conservation-wb.3c40450eb072c14de7a1a3ec5c0fcba4995531024760741b392911b567fd8b70.lt.png) + +Atrodo, kad nėra gero ryšio tarp minimalaus sparnų ilgio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors ryšį? + +## Tankio diagramos + +Galbūt pastebėjote, kad histogramos, kurias iki šiol apžvelgėme, yra „žingsninės“ ir nesudaro sklandžios arkos. Norėdami parodyti sklandesnę tankio diagramą, galite išbandyti tankio diagramą. + +Norėdami dirbti su tankio diagramomis, susipažinkite su nauja diagramos biblioteka, [Seaborn](https://seaborn.pydata.org/generated/seaborn.kdeplot.html). + +Įkeldami Seaborn, išbandykite pagrindinę tankio diagramą: + +```python +import seaborn as sns +import matplotlib.pyplot as plt +sns.kdeplot(filteredBirds['MinWingspan']) +plt.show() +``` +![Tankio diagrama](../../../../translated_images/density1.8801043bd4af2567b0f706332b5853c7614e5e4b81b457acc27eb4e092a65cbd.lt.png) + +Galite matyti, kaip diagrama atspindi ankstesnę minimalaus sparnų ilgio diagramą; ji tiesiog šiek tiek sklandesnė. Pasak Seaborn dokumentacijos, „Lyginant su histograma, KDE gali sukurti diagramą, kuri yra mažiau perkrauta ir lengviau interpretuojama, ypač kai piešiamos kelios pasiskirstymo kreivės. Tačiau ji gali sukelti iškraipymus, jei pagrindinis pasiskirstymas yra ribotas arba nesklandus. Kaip ir histograma, atvaizdavimo kokybė taip pat priklauso nuo gerų išlyginimo parametrų pasirinkimo.“ [šaltinis](https://seaborn.pydata.org/generated/seaborn.kdeplot.html) Kitaip tariant, išskirtys, kaip visada, gali blogai paveikti jūsų diagramas. + +Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą: + +```python +sns.kdeplot(filteredBirds['MaxBodyMass']) +plt.show() +``` +![sklandi kūno masės linija](../../../../translated_images/density2.8e7647257060ff544a1aaded57e8dd1887586bfe340139e9b77ac1e5287f7977.lt.png) + +Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `bw_adjust` parametrą: + +```python +sns.kdeplot(filteredBirds['MaxBodyMass'], bw_adjust=.2) +plt.show() +``` +![mažiau sklandi kūno masės linija](../../../../translated_images/density3.84ae27da82f31e6b83ad977646f029a1d21186574d7581facd70123b3eb257ee.lt.png) + +✅ Perskaitykite apie parametrus, galimus šio tipo diagramoms, ir eksperimentuokite! + +Šio tipo diagrama siūlo gražiai paaiškinančias vizualizacijas. Pavyzdžiui, su keliomis kodo eilutėmis galite parodyti maksimalios kūno masės tankį pagal paukščių eilę: + +```python +sns.kdeplot( + data=filteredBirds, x="MaxBodyMass", hue="Order", + fill=True, common_norm=False, palette="crest", + alpha=.5, linewidth=0, +) +``` + +![kūno masė pagal eilę](../../../../translated_images/density4.e9d6c033f15c500fd33df94cb592b9f5cf1ed2a3d213c448a3f9e97ba39573ce.lt.png) + +Taip pat galite žemėlapyje parodyti kelių kintamųjų tankį vienoje diagramoje. Palyginkite paukščio MaxLength ir MinLength pagal jų apsaugos statusą: + +```python +sns.kdeplot(data=filteredBirds, x="MinLength", y="MaxLength", hue="ConservationStatus") +``` + +![kelios tankio kreivės, persidengiančios](../../../../translated_images/multi.56548caa9eae8d0fd9012a8586295538c7f4f426e2abc714ba070e2e4b1fc2c1.lt.png) + +Galbūt verta ištirti, ar „Pažeidžiamų“ paukščių grupė pagal jų ilgius yra reikšminga. + +## 🚀 Iššūkis + +Histogramos yra sudėtingesnis diagramų tipas nei paprastos sklaidos diagramos, stulpelinės diagramos ar linijinės diagramos. Ieškokite internete gerų histogramų naudojimo pavyzdžių. Kaip jos naudojamos, ką jos demonstruoja ir kokiose srityse ar tyrimų srityse jos dažniausiai naudojamos? + +## [Klausimynas po pamokos](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19) + +## Apžvalga ir savarankiškas mokymasis + +Šioje pamokoje naudojote Matplotlib ir pradėjote dirbti su Seaborn, kad sukurtumėte sudėtingesnes diagramas. Atlikite tyrimą apie `kdeplot` Seaborn bibliotekoje, „nuolatinės tikimybės tankio kreivę vienoje ar keliose dimensijose“. Perskaitykite [dokumentaciją](https://seaborn.pydata.org/generated/seaborn.kdeplot.html), kad suprastumėte, kaip ji veikia. + +## Užduotis + +[Praktikuokite savo įgūdžius](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/10-visualization-distributions/assignment.md b/translations/lt/3-Data-Visualization/10-visualization-distributions/assignment.md new file mode 100644 index 00000000..061e6e3f --- /dev/null +++ b/translations/lt/3-Data-Visualization/10-visualization-distributions/assignment.md @@ -0,0 +1,25 @@ + +# Pradėkite taikyti savo įgūdžius + +## Instrukcijos + +Iki šiol dirbote su Minesotos paukščių duomenų rinkiniu, siekdami sužinoti apie paukščių kiekius ir populiacijos tankį. Praktikuokite šių metodų taikymą, išbandydami kitą duomenų rinkinį, galbūt gautą iš [Kaggle](https://www.kaggle.com/). Sukurkite užrašinę, kuri pasakotų istoriją apie šį duomenų rinkinį, ir būtinai naudokite histogramas, kai apie jį diskutuojate. + +## Vertinimo kriterijai + +Pavyzdingas | Tinkamas | Reikia patobulinimų +--- | --- | -- | +Pateikta užrašinė su anotacijomis apie šį duomenų rinkinį, įskaitant jo šaltinį, ir naudojama bent 5 histogramų, siekiant atskleisti faktus apie duomenis. | Pateikta užrašinė su neišsamiais paaiškinimais arba klaidomis. | Pateikta užrašinė be paaiškinimų ir su klaidomis. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/11-visualization-proportions/README.md b/translations/lt/3-Data-Visualization/11-visualization-proportions/README.md new file mode 100644 index 00000000..91de7077 --- /dev/null +++ b/translations/lt/3-Data-Visualization/11-visualization-proportions/README.md @@ -0,0 +1,204 @@ + +# Vizualizuojame proporcijas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/11-Visualizing-Proportions.png)| +|:---:| +|Proporcijų vizualizavimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Šioje pamokoje naudosite kitą, gamta orientuotą duomenų rinkinį, kad vizualizuotumėte proporcijas, pavyzdžiui, kiek skirtingų grybų rūšių yra tam tikrame duomenų rinkinyje apie grybus. Panagrinėkime šiuos įdomius grybus naudodami duomenų rinkinį, gautą iš Audubon, kuriame pateikiama informacija apie 23 rūšis lakštelinių grybų iš Agaricus ir Lepiota šeimų. Eksperimentuosite su tokiomis „skaniomis“ vizualizacijomis kaip: + +- Pyrago diagramos 🥧 +- Spurgos diagramos 🍩 +- Vaflių diagramos 🧇 + +> 💡 Labai įdomus projektas, vadinamas [Charticulator](https://charticulator.com), sukurtas „Microsoft Research“, siūlo nemokamą „drag and drop“ sąsają duomenų vizualizacijoms. Viename iš jų mokymų taip pat naudojamas šis grybų duomenų rinkinys! Taigi galite tyrinėti duomenis ir tuo pačiu metu mokytis naudotis biblioteka: [Charticulator tutorial](https://charticulator.com/tutorials/tutorial4.html). + +## [Prieš paskaitą - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/20) + +## Susipažinkite su savo grybais 🍄 + +Grybai yra labai įdomūs. Importuokime duomenų rinkinį, kad juos išnagrinėtume: + +```python +import pandas as pd +import matplotlib.pyplot as plt +mushrooms = pd.read_csv('../../data/mushrooms.csv') +mushrooms.head() +``` +Atspausdinama lentelė su puikiais duomenimis analizei: + + +| klasė | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių prisitvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | kotelio šaknis | paviršius virš žiedo | paviršius po žiedu | spalva virš žiedo | spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų spalva | populiacija | buveinė | +| --------- | --------------- | ------------------- | --------------- | ------- | ------- | ------------------------- | ---------------- | --------------- | ---------------- | ------------- | ------------- | -------------------- | ------------------ | ---------------- | ---------------- | --------- | ---------- | ------------- | ----------- | ------------ | ---------- | ------- | +| Nuodingas | Išgaubta | Lygi | Ruda | Mėlynės | Aštrus | Laisvas | Tankūs | Siauri | Juoda | Platėjantis | Lygus | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Kabantis | Juoda | Išsibarstę | Miestas | +| Valgomas | Išgaubta | Lygi | Geltona | Mėlynės | Migdolų | Laisvas | Tankūs | Platus | Juoda | Platėjantis | Klubas | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Kabantis | Ruda | Gausus | Žolynai | +| Valgomas | Varpelio | Lygi | Balta | Mėlynės | Anyžinis| Laisvas | Tankūs | Platus | Ruda | Platėjantis | Klubas | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Kabantis | Ruda | Gausus | Pievos | +| Nuodingas | Išgaubta | Žvynuota | Balta | Mėlynės | Aštrus | Laisvas | Tankūs | Siauri | Ruda | Platėjantis | Lygus | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Kabantis | Juoda | Išsibarstę | Miestas | + +Iškart pastebite, kad visi duomenys yra tekstiniai. Turėsite konvertuoti šiuos duomenis, kad galėtumėte juos naudoti diagramoje. Dauguma duomenų iš tiesų pateikiami kaip objektai: + +```python +print(mushrooms.select_dtypes(["object"]).columns) +``` + +Rezultatas yra: + +```output +Index(['class', 'cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor', + 'gill-attachment', 'gill-spacing', 'gill-size', 'gill-color', + 'stalk-shape', 'stalk-root', 'stalk-surface-above-ring', + 'stalk-surface-below-ring', 'stalk-color-above-ring', + 'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number', + 'ring-type', 'spore-print-color', 'population', 'habitat'], + dtype='object') +``` +Paimkite šiuos duomenis ir konvertuokite „klasės“ stulpelį į kategoriją: + +```python +cols = mushrooms.select_dtypes(["object"]).columns +mushrooms[cols] = mushrooms[cols].astype('category') +``` + +```python +edibleclass=mushrooms.groupby(['class']).count() +edibleclass +``` + +Dabar, jei atspausdinsite grybų duomenis, pamatysite, kad jie buvo suskirstyti į kategorijas pagal nuodingų/valgomų klases: + + +| | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių prisitvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | ... | paviršius po žiedu | spalva virš žiedo | spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų spalva | populiacija | buveinė | +| --------- | --------------- | ------------------- | --------------- | ------- | ------ | ------------------------- | ---------------- | --------------- | ---------------- | ------------- | --- | ------------------ | ---------------- | ---------------- | --------- | ---------- | ------------- | ----------- | ------------ | ---------- | ------- | +| klasė | | | | | | | | | | | | | | | | | | | | | | +| Valgomas | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | ... | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | 4208 | +| Nuodingas | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | ... | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | 3916 | + +Jei laikysitės šioje lentelėje pateiktos tvarkos kurdami savo klasių kategorijų etiketes, galite sukurti pyrago diagramą: + +## Pyragas! + +```python +labels=['Edible','Poisonous'] +plt.pie(edibleclass['population'],labels=labels,autopct='%.1f %%') +plt.title('Edible?') +plt.show() +``` +Štai ir pyrago diagrama, rodanti šių duomenų proporcijas pagal šias dvi grybų klases. Labai svarbu teisingai nustatyti etikečių tvarką, ypač čia, todėl būtinai patikrinkite, ar etikečių masyvas sudarytas teisingai! + +![pyrago diagrama](../../../../translated_images/pie1-wb.e201f2fcc335413143ce37650fb7f5f0bb21358e7823a327ed8644dfb84be9db.lt.png) + +## Spurgos! + +Šiek tiek vizualiai įdomesnė pyrago diagrama yra spurgos diagrama, kuri yra pyrago diagrama su skyle viduryje. Pažvelkime į mūsų duomenis naudodami šį metodą. + +Pažvelkite į įvairias buveines, kuriose auga grybai: + +```python +habitat=mushrooms.groupby(['habitat']).count() +habitat +``` +Čia grupuojate savo duomenis pagal buveinę. Yra 7 išvardytos buveinės, todėl naudokite jas kaip etiketes savo spurgos diagramai: + +```python +labels=['Grasses','Leaves','Meadows','Paths','Urban','Waste','Wood'] + +plt.pie(habitat['class'], labels=labels, + autopct='%1.1f%%', pctdistance=0.85) + +center_circle = plt.Circle((0, 0), 0.40, fc='white') +fig = plt.gcf() + +fig.gca().add_artist(center_circle) + +plt.title('Mushroom Habitats') + +plt.show() +``` + +![spurgos diagrama](../../../../translated_images/donut-wb.be3c12a22712302b5d10c40014d5389d4a1ae4412fe1655b3cf4af57b64f799a.lt.png) + +Šis kodas nupiešia diagramą ir centrinį apskritimą, tada prideda tą centrinį apskritimą į diagramą. Redaguokite centrinio apskritimo plotį, pakeisdami „0.40“ į kitą reikšmę. + +Spurgų diagramas galima įvairiai koreguoti, kad būtų pakeistos etiketės. Ypač etiketės gali būti paryškintos, kad būtų lengviau jas skaityti. Sužinokite daugiau [dokumentacijoje](https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_and_donut_labels.html?highlight=donut). + +Dabar, kai žinote, kaip grupuoti savo duomenis ir juos pateikti kaip pyragą ar spurgą, galite tyrinėti kitų tipų diagramas. Pabandykite vaflių diagramą, kuri yra tiesiog kitoks būdas tyrinėti kiekius. +## Vafliai! + +„Vaflių“ tipo diagrama yra kitoks būdas vizualizuoti kiekius kaip 2D kvadratų masyvą. Pabandykite vizualizuoti skirtingus grybų kepurėlių spalvų kiekius šiame duomenų rinkinyje. Norėdami tai padaryti, turite įdiegti pagalbinę biblioteką, vadinamą [PyWaffle](https://pypi.org/project/pywaffle/), ir naudoti Matplotlib: + +```python +pip install pywaffle +``` + +Pasirinkite savo duomenų segmentą grupavimui: + +```python +capcolor=mushrooms.groupby(['cap-color']).count() +capcolor +``` + +Sukurkite vaflių diagramą, sukurdami etiketes ir tada grupuodami savo duomenis: + +```python +import pandas as pd +import matplotlib.pyplot as plt +from pywaffle import Waffle + +data ={'color': ['brown', 'buff', 'cinnamon', 'green', 'pink', 'purple', 'red', 'white', 'yellow'], + 'amount': capcolor['class'] + } + +df = pd.DataFrame(data) + +fig = plt.figure( + FigureClass = Waffle, + rows = 100, + values = df.amount, + labels = list(df.color), + figsize = (30,30), + colors=["brown", "tan", "maroon", "green", "pink", "purple", "red", "whitesmoke", "yellow"], +) +``` + +Naudodami vaflių diagramą, galite aiškiai matyti grybų kepurėlių spalvų proporcijas šiame duomenų rinkinyje. Įdomu tai, kad yra daug žalių kepurėlių grybų! + +![vaflių diagrama](../../../../translated_images/waffle.5455dbae4ccf17d53bb40ff0a657ecef7b8aa967e27a19cc96325bd81598f65e.lt.png) + +✅ PyWaffle palaiko piktogramas diagramose, kurios naudoja bet kokią piktogramą, esančią [Font Awesome](https://fontawesome.com/). Eksperimentuokite, kad sukurtumėte dar įdomesnę vaflių diagramą, naudodami piktogramas vietoj kvadratų. + +Šioje pamokoje išmokote tris būdus vizualizuoti proporcijas. Pirmiausia turite suskirstyti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, spurga ar vaflis. Visi jie yra „skanūs“ ir suteikia vartotojui greitą duomenų rinkinio vaizdą. + +## 🚀 Iššūkis + +Pabandykite atkurti šias „skanias“ diagramas naudodami [Charticulator](https://charticulator.com). +## [Po paskaitos - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21) + +## Apžvalga ir savarankiškas mokymasis + +Kartais nėra akivaizdu, kada naudoti pyrago, spurgos ar vaflių diagramą. Štai keletas straipsnių šia tema: + +https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart + +https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce + +https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm + +https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402 + +Atlikite tyrimus, kad rastumėte daugiau informacijos apie šį sudėtingą pasirinkimą. +## Užduotis + +[Pabandykite tai atlikti Excel](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/11-visualization-proportions/assignment.md b/translations/lt/3-Data-Visualization/11-visualization-proportions/assignment.md new file mode 100644 index 00000000..c86d6a2c --- /dev/null +++ b/translations/lt/3-Data-Visualization/11-visualization-proportions/assignment.md @@ -0,0 +1,25 @@ + +# Išbandykite Excel programoje + +## Instrukcijos + +Ar žinojote, kad Excel programoje galite sukurti spurgos, pyrago ir vaflinės diagramas? Naudodami savo pasirinktą duomenų rinkinį, sukurkite šias tris diagramas tiesiai Excel skaičiuoklėje. + +## Vertinimo kriterijai + +| Puikiai atlikta | Pakankamai gerai atlikta | Reikia patobulinimų | +| ------------------------------------------------------- | ------------------------------------------------- | --------------------------------------------------- | +| Pateikta Excel skaičiuoklė su visomis trimis diagramomis | Pateikta Excel skaičiuoklė su dviem diagramomis | Pateikta Excel skaičiuoklė su tik viena diagrama | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/12-visualization-relationships/README.md b/translations/lt/3-Data-Visualization/12-visualization-relationships/README.md new file mode 100644 index 00000000..303ff27d --- /dev/null +++ b/translations/lt/3-Data-Visualization/12-visualization-relationships/README.md @@ -0,0 +1,186 @@ + +# Vizualizuojant ryšius: Viskas apie medų 🍯 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/12-Visualizing-Relationships.png)| +|:---:| +|Ryšių vizualizavimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Tęsdami mūsų tyrimų dėmesį į gamtą, atraskime įdomius vizualizacijos būdus, kaip parodyti ryšius tarp įvairių medaus rūšių, remiantis duomenų rinkiniu, gautu iš [JAV Žemės ūkio departamento](https://www.nass.usda.gov/About_NASS/index.php). + +Šis duomenų rinkinys, apimantis apie 600 elementų, rodo medaus gamybą daugelyje JAV valstijų. Pavyzdžiui, galite peržiūrėti kolonijų skaičių, derlių vienai kolonijai, bendrą gamybą, atsargas, kainą už svarą ir medaus vertę tam tikroje valstijoje nuo 1998 iki 2012 metų, su viena eilute per metus kiekvienai valstijai. + +Būtų įdomu vizualizuoti ryšį tarp tam tikros valstijos gamybos per metus ir, pavyzdžiui, medaus kainos toje valstijoje. Arba galite vizualizuoti ryšį tarp valstijų medaus derliaus vienai kolonijai. Šis laikotarpis apima niokojantį „CCD“ arba „Kolonijų žlugimo sutrikimą“, pirmą kartą pastebėtą 2006 m. (http://npic.orst.edu/envir/ccd.html), todėl tai yra prasmingas duomenų rinkinys tyrimui. 🐝 + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22) + +Šioje pamokoje galite naudoti Seaborn, kurį jau naudojote anksčiau, kaip puikią biblioteką vizualizuoti ryšius tarp kintamųjų. Ypač įdomi yra Seaborn funkcija `relplot`, kuri leidžia greitai kurti sklaidos diagramas ir linijines diagramas, vizualizuojant '[statistinius ryšius](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)', padedančius duomenų mokslininkui geriau suprasti, kaip kintamieji tarpusavyje susiję. + +## Sklaidos diagramos + +Naudokite sklaidos diagramą, kad parodytumėte, kaip medaus kaina keitėsi metai iš metų, kiekvienoje valstijoje. Seaborn, naudodamas `relplot`, patogiai grupuoja valstijų duomenis ir rodo duomenų taškus tiek kategoriniams, tiek skaitiniams duomenims. + +Pradėkime nuo duomenų ir Seaborn importavimo: + +```python +import pandas as pd +import matplotlib.pyplot as plt +import seaborn as sns +honey = pd.read_csv('../../data/honey.csv') +honey.head() +``` +Pastebėsite, kad medaus duomenyse yra keletas įdomių stulpelių, įskaitant metus ir kainą už svarą. Išnagrinėkime šiuos duomenis, suskirstytus pagal JAV valstijas: + +| valstija | kolonijų skaičius | derlius/kolonija | bendra gamyba | atsargos | kaina/svaras | gamybos vertė | metai | +| -------- | ----------------- | ---------------- | ------------- | -------- | ------------ | ------------- | ----- | +| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 | +| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 | +| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 | +| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 | +| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 | + +Sukurkite paprastą sklaidos diagramą, kad parodytumėte ryšį tarp medaus kainos už svarą ir jo kilmės valstijos. Padarykite `y` ašį pakankamai aukštą, kad būtų matomos visos valstijos: + +```python +sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5); +``` +![sklaidos diagrama 1](../../../../translated_images/scatter1.5e1aa5fd6706c5d12b5e503ccb77f8a930f8620f539f524ddf56a16c039a5d2f.lt.png) + +Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad pavaizduotumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'hue' parametrą, kuris parodys pokyčius per metus: + +> ✅ Sužinokite daugiau apie [spalvų paletes, kurias galite naudoti Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html) - išbandykite gražią vaivorykštės spalvų schemą! + +```python +sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5); +``` +![sklaidos diagrama 2](../../../../translated_images/scatter2.c0041a58621ca702990b001aa0b20cd68c1e1814417139af8a7211a2bed51c5f.lt.png) + +Naudodami šią spalvų schemą, galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei pažiūrėsite į duomenų pavyzdį (pasirinkite tam tikrą valstiją, pavyzdžiui, Arizoną), galite pastebėti kainų kilimo tendenciją metai iš metų, su keliomis išimtimis: + +| valstija | kolonijų skaičius | derlius/kolonija | bendra gamyba | atsargos | kaina/svaras | gamybos vertė | metai | +| -------- | ----------------- | ---------------- | ------------- | -------- | ------------ | ------------- | ----- | +| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 | +| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 | +| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 | +| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 | +| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 | +| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 | +| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 | +| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 | +| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 | +| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 | +| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 | +| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 | +| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 | +| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 | +| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 | + +Kitas būdas vizualizuoti šią progresiją yra naudoti dydį, o ne spalvą. Spalvų aklumo turintiems vartotojams tai gali būti geresnis pasirinkimas. Redaguokite savo vizualizaciją, kad parodytumėte kainos didėjimą, didinant taško apskritimo dydį: + +```python +sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5); +``` +Galite matyti, kaip taškų dydis palaipsniui didėja. + +![sklaidos diagrama 3](../../../../translated_images/scatter3.3c160a3d1dcb36b37900ebb4cf97f34036f28ae2b7b8e6062766c7c1dfc00853.lt.png) + +Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar medaus kiekis, kurį galima įsigyti, mažėja metai iš metų, todėl kaina kyla? + +Norėdami atrasti koreliaciją tarp kai kurių šio duomenų rinkinio kintamųjų, panagrinėkime keletą linijinių diagramų. + +## Linijinės diagramos + +Klausimas: Ar yra aiškus medaus kainos už svarą kilimas metai iš metų? Tai galite lengviausiai atrasti, sukurdami vieną linijinę diagramą: + +```python +sns.relplot(x="year", y="priceperlb", kind="line", data=honey); +``` +Atsakymas: Taip, su kai kuriomis išimtimis apie 2003 metus: + +![linijinė diagrama 1](../../../../translated_images/line1.f36eb465229a3b1fe385cdc93861aab3939de987d504b05de0b6cd567ef79f43.lt.png) + +✅ Kadangi Seaborn agreguoja duomenis aplink vieną liniją, jis rodo „kelis matavimus kiekvienoje x reikšmėje, braižydamas vidurkį ir 95% pasitikėjimo intervalą aplink vidurkį“. [Šaltinis](https://seaborn.pydata.org/tutorial/relational.html). Šį laiko reikalaujantį elgesį galima išjungti, pridėjus `ci=None`. + +Klausimas: Na, o 2003 metais ar galime pastebėti medaus pasiūlos šuolį? Kas, jei pažvelgtumėte į bendrą gamybą metai iš metų? + +```python +sns.relplot(x="year", y="totalprod", kind="line", data=honey); +``` + +![linijinė diagrama 2](../../../../translated_images/line2.a5b3493dc01058af6402e657aaa9ae1125fafb5e7d6630c777aa60f900a544e4.lt.png) + +Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tikrųjų padidėjo tais metais, nors apskritai medaus gamybos kiekis mažėja per šiuos metus. + +Klausimas: Tokiu atveju, kas galėjo sukelti medaus kainos šuolį apie 2003 metus? + +Norėdami tai išsiaiškinti, galite panagrinėti facet grid. + +## Facet grid + +Facet grid leidžia pasirinkti vieną duomenų rinkinio aspektą (mūsų atveju galite pasirinkti 'metus', kad išvengtumėte per daug facetų). Seaborn tada gali sukurti diagramą kiekvienam iš šių aspektų, pasirinktų x ir y koordinatėms, kad būtų lengviau vizualiai palyginti. Ar 2003 metai išsiskiria tokio tipo palyginime? + +Sukurkite facet grid, toliau naudodami `relplot`, kaip rekomenduoja [Seaborn dokumentacija](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid). + +```python +sns.relplot( + data=honey, + x="yieldpercol", y="numcol", + col="year", + col_wrap=3, + kind="line" +``` +Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams: + +![facet grid](../../../../translated_images/facet.6a34851dcd540050dcc0ead741be35075d776741668dd0e42f482c89b114c217.lt.png) + +Šiame duomenų rinkinyje niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių, metai iš metų ir valstija po valstijos. Ar yra kitoks būdas ieškoti koreliacijos tarp šių dviejų kintamųjų? + +## Dvigubos linijos diagramos + +Išbandykite daugiagubą linijinę diagramą, uždėdami dvi linijines diagramas viena ant kitos, naudodami Seaborn 'despine', kad pašalintumėte jų viršutines ir dešines linijas, ir naudodami `ax.twinx` [gautą iš Matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx leidžia diagramai dalintis x ašimi ir rodyti dvi y ašis. Taigi, parodykite derlių vienai kolonijai ir kolonijų skaičių, uždėtus vienas ant kito: + +```python +fig, ax = plt.subplots(figsize=(12,6)) +lineplot = sns.lineplot(x=honey['year'], y=honey['numcol'], data=honey, + label = 'Number of bee colonies', legend=False) +sns.despine() +plt.ylabel('# colonies') +plt.title('Honey Production Year over Year'); + +ax2 = ax.twinx() +lineplot2 = sns.lineplot(x=honey['year'], y=honey['yieldpercol'], ax=ax2, color="r", + label ='Yield per colony', legend=False) +sns.despine(right=False) +plt.ylabel('colony yield') +ax.figure.legend(); +``` +![superimposed plots](../../../../translated_images/dual-line.a4c28ce659603fab2c003f4df816733df2bf41d1facb7de27989ec9afbf01b33.lt.png) + +Nors niekas akivaizdžiai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek laimingesne nata: nors kolonijų skaičius apskritai mažėja, kolonijų skaičius stabilizuojasi, net jei jų derlius vienai kolonijai mažėja. + +Pirmyn, bitės, pirmyn! + +🐝❤️ +## 🚀 Iššūkis + +Šioje pamokoje sužinojote šiek tiek daugiau apie kitus sklaidos diagramų ir linijinių gridų naudojimo būdus, įskaitant facet grid. Išbandykite save, sukurdami facet grid naudodami kitą duomenų rinkinį, galbūt tą, kurį naudojote prieš šias pamokas. Atkreipkite dėmesį, kiek laiko užtrunka jų kūrimas ir kaip reikia būti atsargiems dėl to, kiek gridų reikia piešti naudojant šiuos metodus. +## [Po paskaitos: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23) + +## Apžvalga ir savarankiškas mokymasis + +Linijinės diagramos gali būti paprastos arba gana sudėtingos. Šiek tiek pasiskaitykite [Seaborn dokumentacijoje](https://seaborn.pydata.org/generated/seaborn.lineplot.html) apie įvairius būdus, kaip jas kurti. Pabandykite patobulinti linijines diagramas, kurias sukūrėte šioje pamokoje, naudodami kitus dokumentacijoje išvardytus metodus. +## Užduotis + +[Pasinerkite į avilį](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/12-visualization-relationships/assignment.md b/translations/lt/3-Data-Visualization/12-visualization-relationships/assignment.md new file mode 100644 index 00000000..f5ca0eef --- /dev/null +++ b/translations/lt/3-Data-Visualization/12-visualization-relationships/assignment.md @@ -0,0 +1,25 @@ + +# Pasinerkite į avilį + +## Instrukcijos + +Šioje pamokoje pradėjote analizuoti duomenų rinkinį apie bites ir jų medaus gamybą per laikotarpį, kai bendras bičių kolonijų skaičius sumažėjo. Gilinkitės į šį duomenų rinkinį ir sukurkite užrašų knygelę, kuri galėtų papasakoti apie bičių populiacijos būklę, valstybė po valstybės ir metai po metų. Ar pastebite ką nors įdomaus šiame duomenų rinkinyje? + +## Vertinimo kriterijai + +| Puikiai | Pakankamai | Reikia patobulinimų | +| ------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------- | ---------------------------------------- | +| Pateikta užrašų knygelė su istorija, pažymėta bent trimis skirtingomis diagramomis, kurios atspindi duomenų rinkinio aspektus, valstybė po valstybės ir metai po metų | Užrašų knygelėje trūksta vieno iš šių elementų | Užrašų knygelėje trūksta dviejų iš šių elementų | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/13-meaningful-visualizations/README.md b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/README.md new file mode 100644 index 00000000..13ef7c8b --- /dev/null +++ b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/README.md @@ -0,0 +1,182 @@ + +# Kaip kurti prasmingas vizualizacijas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/13-MeaningfulViz.png)| +|:---:| +| Prasmingos vizualizacijos - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +> „Jei pakankamai ilgai kankinsi duomenis, jie prisipažins bet ką“ – [Ronaldas Coase'as](https://en.wikiquote.org/wiki/Ronald_Coase) + +Viena iš pagrindinių duomenų mokslininko įgūdžių yra gebėjimas sukurti prasmingą duomenų vizualizaciją, kuri padėtų atsakyti į jums rūpimus klausimus. Prieš vizualizuodami duomenis, turite įsitikinti, kad jie buvo išvalyti ir paruošti, kaip tai darėte ankstesnėse pamokose. Po to galite pradėti spręsti, kaip geriausiai pateikti duomenis. + +Šioje pamokoje peržiūrėsite: + +1. Kaip pasirinkti tinkamą diagramos tipą +2. Kaip išvengti klaidinančių diagramų +3. Kaip dirbti su spalvomis +4. Kaip stilizuoti diagramas, kad jos būtų lengvai suprantamos +5. Kaip kurti animuotas ar 3D diagramas +6. Kaip sukurti kūrybingą vizualizaciją + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24) + +## Pasirinkite tinkamą diagramos tipą + +Ankstesnėse pamokose eksperimentavote kurdami įvairias įdomias duomenų vizualizacijas naudodami Matplotlib ir Seaborn. Apskritai, galite pasirinkti [tinkamą diagramos tipą](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) pagal klausimą, kurį norite atsakyti, naudodamiesi šia lentele: + +| Jums reikia: | Turėtumėte naudoti: | +| -------------------------- | ------------------------------- | +| Rodyti duomenų tendencijas laikui bėgant | Linijinę diagramą | +| Palyginti kategorijas | Stulpelinę, Skritulinę | +| Palyginti sumas | Skritulinę, Sukrautą stulpelinę | +| Rodyti ryšius | Sklaidos, Linijinę, Facet, Dvigubą linijinę | +| Rodyti pasiskirstymus | Sklaidos, Histogramą, Dėžutės | +| Rodyti proporcijas | Skritulinę, Žiedo, Vaflinę | + +> ✅ Priklausomai nuo jūsų duomenų sudėties, gali reikėti juos konvertuoti iš teksto į skaitinius, kad tam tikra diagrama juos palaikytų. + +## Venkite klaidinančių diagramų + +Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pakenkiant pačių duomenų patikimumui. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių! + +[![Kaip meluoja diagramos pagal Alberto Cairo](../../../../translated_images/tornado.9f42168791208f970d6faefc11d1226d7ca89518013b14aa66b1c9edcd7678d2.lt.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos") + +> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas + +Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis: + +![blogas grafikas 1](../../../../translated_images/bad-chart-1.93130f495b748bedfb3423d91b1e754d9026e17f94ad967aecdc9ca7203373bf.lt.png) + +[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejai sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo perrikiuotos, kad būtų parodyta klaidinanti mažėjimo tendencija. + +![blogas grafikas 2](../../../../translated_images/bad-chart-2.c20e36dd4e6f617c0c325878dd421a563885bbf30a394884c147438827254e0e.lt.jpg) + +Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius išaugo po ginklams palankios teisės aktų priėmimo, akis apgaunama galvoti, kad tiesa yra priešinga: + +![blogas grafikas 3](../../../../translated_images/bad-chart-3.6865d0afac4108d737558d90a61547d23a8722896397ec792264ee51a1be4be5.lt.jpg) + +Ši keista diagrama rodo, kaip proporcijos gali būti manipuliuojamos, sukeliant juoką: + +![blogas grafikas 4](../../../../translated_images/bad-chart-4.68cfdf4011b454471053ee1231172747e1fbec2403b4443567f1dc678134f4f2.lt.jpg) + +Palyginimas to, kas nepalyginama, yra dar vienas abejotinas triukas. Yra [nuostabi svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, siejantys tokius dalykus kaip skyrybų lygis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all). + +Svarbu suprasti, kaip lengvai akis gali būti apgauta klaidinančiomis diagramomis. Net jei duomenų mokslininko ketinimai yra geri, netinkamo diagramos tipo pasirinkimas, pvz., skritulinė diagrama su per daug kategorijų, gali būti klaidinantis. + +## Spalvos + +Kaip matėte aukščiau esančioje „Floridos ginklų smurto“ diagramoje, spalva gali suteikti papildomą prasmės sluoksnį diagramoms, ypač toms, kurios nėra sukurtos naudojant tokias bibliotekas kaip Matplotlib ir Seaborn, kurios turi įvairias patikrintas spalvų bibliotekas ir paletes. Jei kuriate diagramą rankiniu būdu, šiek tiek pasidomėkite [spalvų teorija](https://colormatters.com/color-and-design/basic-color-theory). + +> ✅ Kurdami diagramas, atkreipkite dėmesį, kad prieinamumas yra svarbus vizualizacijos aspektas. Kai kurie jūsų naudotojai gali būti spalvų akli – ar jūsų diagrama gerai matoma vartotojams su regos sutrikimais? + +Būkite atsargūs rinkdamiesi spalvas savo diagramai, nes spalva gali perteikti prasmę, kurios galbūt nenorėjote. Aukščiau esančioje „aukščio“ diagramoje „rožinės damos“ perteikia aiškiai „moterišką“ reikšmę, kuri dar labiau sustiprina pačios diagramos keistumą. + +Nors [spalvų reikšmės](https://colormatters.com/color-symbolism/the-meanings-of-colors) gali skirtis skirtingose pasaulio dalyse ir keistis priklausomai nuo jų atspalvio, apskritai spalvų reikšmės apima: + +| Spalva | Reikšmė | +| ------- | ------------------- | +| raudona | galia | +| mėlyna | pasitikėjimas, lojalumas | +| geltona | laimė, atsargumas | +| žalia | ekologija, sėkmė, pavydas | +| violetinė | laimė | +| oranžinė | gyvybingumas | + +Jei jums pavesta kurti diagramą su pasirinktinėmis spalvomis, įsitikinkite, kad jūsų diagramos yra ir prieinamos, ir kad pasirinkta spalva atitinka reikšmę, kurią norite perteikti. + +## Diagramų stilizavimas, kad jos būtų lengvai suprantamos + +Diagramos nėra prasmingos, jei jos nėra suprantamos! Skirkite laiko apsvarstyti, kaip pritaikyti diagramos plotį ir aukštį, kad ji gerai atitiktų jūsų duomenis. Jei reikia parodyti vieną kintamąjį (pvz., visas 50 valstijų), parodykite jas vertikaliai Y ašyje, jei įmanoma, kad išvengtumėte horizontalaus slinkimo. + +Pažymėkite savo ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (tooltips), kad duomenys būtų lengviau suprantami. + +Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [Matplotlib](https://matplotlib.org/stable/tutorials/toolkits/mplot3d.html) siūlo 3D braižymą, jei jūsų duomenys tai palaiko. Sudėtingos duomenų vizualizacijos gali būti sukurtos naudojant `mpl_toolkits.mplot3d`. + +![3D diagramos](../../../../translated_images/3d.0cec12bcc60f0ce7284c63baed1411a843e24716f7d7425de878715ebad54a15.lt.png) + +## Animacija ir 3D diagramų rodymas + +Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu turi nuostabių darbų, sukurtų naudojant D3, pvz., '[filmų gėlės](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, skirtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei pasakojimo straipsnio formatu, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto. + +![busing](../../../../translated_images/busing.7b9e3b41cd4b981c6d63922cd82004cc1cf18895155536c1d98fcc0999bdd23e.lt.png) + +> „Bussed Out: Kaip Amerika perkelia savo benamius“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos pagal Nadieh Bremer ir Shirley Wu + +Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šių galingų vizualizacijos bibliotekų, pabandykite naudoti D3 Vue.js programoje, naudodami biblioteką, kad parodytumėte knygos „Pavojingi ryšiai“ vizualizaciją kaip animuotą socialinį tinklą. + +> „Les Liaisons Dangereuses“ yra epistolinis romanas, arba romanas, pateikiamas kaip laiškų serija. Parašytas 1782 m. Choderlos de Laclos, jis pasakoja apie žiaurius, morališkai bankrutavusius socialinius manevrus dviejų pagrindinių XVIII a. Prancūzijos aristokratijos veikėjų – vikonto de Valmont ir markizės de Merteuil. Abu galiausiai žūsta, tačiau ne be didelės socialinės žalos. Romane pateikiama laiškų serija, rašyta įvairiems jų rato žmonėms, siekiant keršto arba tiesiog sukelti problemų. Sukurkite šių laiškų vizualizaciją, kad vizualiai atrastumėte pagrindinius pasakojimo veikėjus. + +Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) naudojant Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis. + +![liaisons](../../../../translated_images/liaisons.7b440b28f6d07ea430244fdf1fc4c64ff48f473f143b8e921846eda1c302aeba.lt.png) + +## Projektas: Sukurkite tinklo diagramą naudodami D3.js + +> Šios pamokos aplanke yra `solution` aplankas, kuriame galite rasti baigtą projektą kaip nuorodą. + +1. Vadovaukitės README.md failo instrukcijomis pradiniame aplanke. Įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node.js prieš diegiant projekto priklausomybes. + +2. Atidarykite `starter/src` aplanką. Rasite `assets` aplanką, kuriame yra .json failas su visais romano laiškais, sunumeruotais, su „to“ ir „from“ anotacijomis. + +3. Užbaikite kodą `components/Nodes.vue`, kad įgalintumėte vizualizaciją. Suraskite metodą `createLinks()` ir pridėkite šį įdėtą ciklą. + +Ciklu pereikite per .json objektą, kad užfiksuotumėte „to“ ir „from“ duomenis apie laiškus ir sukurtumėte `links` objektą, kurį galėtų naudoti vizualizacijos biblioteka: + +```javascript +//loop through letters + let f = 0; + let t = 0; + for (var i = 0; i < letters.length; i++) { + for (var j = 0; j < characters.length; j++) { + + if (characters[j] == letters[i].from) { + f = j; + } + if (characters[j] == letters[i].to) { + t = j; + } + } + this.links.push({ sid: f, tid: t }); + } + ``` + +Paleiskite savo programą iš terminalo (npm run serve) ir mėgaukitės vizualizacija! + +## 🚀 Iššūkis + +Naršykite internete, kad atrastumėte klaidinančias vizualizacijas. Kaip autorius apgauna naudotoją ir ar tai daroma tyčia? Pabandykite pataisyti vizualizacijas, kad parodytumėte, kaip jos turėtų atrodyti. + +## [Po paskaitos: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25) + +## Peržiūra ir savarankiškas mokymasis + +Štai keletas straipsnių apie klaidinančias duomenų vizualizacijas: + +https://gizmodo.com/how-to-lie-with-data-visualization-1563576606 + +http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/ + +Pažvelkite į šias įdomias istorinių objektų ir artefaktų vizualizacijas: + +https://handbook.pubpub.org/ + +Peržiūrėkite šį straipsnį apie tai, kaip animacija gali pagerinti jūsų vizualizacijas: + +https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4 + +## Užduotis + +[Sukurkite savo pasirinktą vizualizaciją](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojame profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/13-meaningful-visualizations/assignment.md b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/assignment.md new file mode 100644 index 00000000..5c6c1feb --- /dev/null +++ b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/assignment.md @@ -0,0 +1,25 @@ + +# Sukurkite savo individualią vizualizaciją + +## Instrukcijos + +Naudodamiesi šio projekto kodo pavyzdžiu, sukurkite socialinį tinklą, naudodami savo socialinių sąveikų duomenų maketą. Galite atvaizduoti savo socialinių tinklų naudojimą arba sukurti savo šeimos narių diagramą. Sukurkite įdomią internetinę programėlę, kuri pateiktų unikalią socialinio tinklo vizualizaciją. + +## Vertinimo kriterijai + +Pavyzdingas | Tinkamas | Reikia patobulinimų +--- | --- | --- | +GitHub saugykla pateikiama su tinkamai veikiančiu kodu (pabandykite ją įdiegti kaip statinę internetinę programą) ir turi paaiškinamąjį README failą, kuriame aprašytas projektas | Saugykla neveikia tinkamai arba nėra gerai dokumentuota | Saugykla neveikia tinkamai ir nėra gerai dokumentuota + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojame kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/13-meaningful-visualizations/solution/README.md b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/solution/README.md new file mode 100644 index 00000000..c941c6ff --- /dev/null +++ b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/solution/README.md @@ -0,0 +1,40 @@ + +# Pavojingų ryšių duomenų vizualizacijos projektas + +Norėdami pradėti, įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node. Įdiekite priklausomybes (npm install) ir tada paleiskite projektą lokaliai (npm run serve): + +## Projekto nustatymas +``` +npm install +``` + +### Kompiliavimas ir automatinis perkrovimas vystymui +``` +npm run serve +``` + +### Kompiliavimas ir minimizavimas produkcijai +``` +npm run build +``` + +### Failų tikrinimas ir taisymas +``` +npm run lint +``` + +### Konfigūracijos pritaikymas +Žr. [Konfigūracijos nuorodą](https://cli.vuejs.org/config/). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/13-meaningful-visualizations/starter/README.md b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/starter/README.md new file mode 100644 index 00000000..32be5861 --- /dev/null +++ b/translations/lt/3-Data-Visualization/13-meaningful-visualizations/starter/README.md @@ -0,0 +1,40 @@ + +# Pavojingų ryšių duomenų vizualizacijos projektas + +Norėdami pradėti, įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node. Įdiekite priklausomybes (npm install) ir tada paleiskite projektą lokaliai (npm run serve): + +## Projekto nustatymas +``` +npm install +``` + +### Kompiliavimas ir automatinis perkrovimas kūrimo metu +``` +npm run serve +``` + +### Kompiliavimas ir minimizavimas gamybai +``` +npm run build +``` + +### Failų tikrinimas ir taisymas +``` +npm run lint +``` + +### Konfigūracijos pritaikymas +Žr. [Konfigūracijos nuorodą](https://cli.vuejs.org/config/). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/09-visualization-quantities/README.md b/translations/lt/3-Data-Visualization/R/09-visualization-quantities/README.md new file mode 100644 index 00000000..ff10ab8f --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/09-visualization-quantities/README.md @@ -0,0 +1,230 @@ + +# Vizualizacija kiekių +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/sketchnotes/09-Visualizing-Quantities.png)| +|:---:| +| Vizualizacija kiekių - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Šioje pamokoje sužinosite, kaip naudoti kai kurias iš daugelio R bibliotekų, kad sukurtumėte įdomias vizualizacijas, susijusias su kiekių koncepcija. Naudodami išvalytą duomenų rinkinį apie Minesotos paukščius, galite sužinoti daug įdomių faktų apie vietinę laukinę gamtą. +## [Prieš paskaitą - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/16) + +## Stebėkite sparnų plotį su ggplot2 +Puiki biblioteka, skirta kurti tiek paprastus, tiek sudėtingus įvairių tipų grafikus ir diagramas, yra [ggplot2](https://cran.r-project.org/web/packages/ggplot2/index.html). Apskritai, duomenų vaizdavimo procesas naudojant šias bibliotekas apima duomenų rėmelio dalių, kurias norite analizuoti, identifikavimą, reikalingų transformacijų atlikimą, x ir y ašių reikšmių priskyrimą, diagramos tipo pasirinkimą ir jos atvaizdavimą. + +`ggplot2` yra sistema, skirta grafikams kurti deklaratyviai, remiantis „Grafikų gramatika“ (The Grammar of Graphics). [Grafikų gramatika](https://en.wikipedia.org/wiki/Ggplot2) yra bendras duomenų vizualizacijos principas, kuris skirsto grafikus į semantinius komponentus, tokius kaip skalės ir sluoksniai. Kitaip tariant, galimybė lengvai kurti vieno ar kelių kintamųjų grafikus su nedaug kodo daro `ggplot2` populiariausia vizualizacijų kūrimo biblioteka R kalboje. Vartotojas nurodo `ggplot2`, kaip susieti kintamuosius su estetikos elementais, kokius grafinius elementus naudoti, o `ggplot2` pasirūpina likusia dalimi. + +> ✅ Grafikas = Duomenys + Estetika + Geometrija +> - Duomenys reiškia duomenų rinkinį +> - Estetika nurodo kintamuosius, kuriuos reikia analizuoti (x ir y kintamuosius) +> - Geometrija nurodo diagramos tipą (linijinė diagrama, stulpelinė diagrama ir pan.) + +Pasirinkite tinkamiausią geometriją (diagramos tipą) pagal savo duomenis ir istoriją, kurią norite papasakoti per diagramą. + +> - Norint analizuoti tendencijas: linijinė, stulpelinė +> - Norint palyginti reikšmes: stulpelinė, juostinė, skritulinė, sklaidos diagrama +> - Norint parodyti, kaip dalys susijusios su visuma: skritulinė +> - Norint parodyti duomenų pasiskirstymą: sklaidos diagrama, juostinė +> - Norint parodyti ryšius tarp reikšmių: linijinė, sklaidos diagrama, burbulinė + +✅ Taip pat galite peržiūrėti šį aprašomąjį [špargalkę](https://nyu-cdsc.github.io/learningr/assets/data-visualization-2.1.pdf) apie ggplot2. + +## Sukurkite linijinę diagramą apie paukščių sparnų plotį + +Atidarykite R konsolę ir importuokite duomenų rinkinį. +> Pastaba: Duomenų rinkinys yra saugomas šio saugyklos šaknyje `/data` aplanke. + +Importuokime duomenų rinkinį ir peržiūrėkime jo pradžią (pirmas 5 eilutes). + +```r +birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM") +head(birds) +``` +Duomenų pradžioje yra tekstų ir skaičių mišinys: + +| | Pavadinimas | MokslinisPavadinimas | Kategorija | Būrys | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasa | MaxKūnoMasa | MinSparnųPlotis | MaxSparnųPlotis | +| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | ----------: | ----------: | +| 0 | Juodapilvis švilpikas | Dendrocygna autumnalis | Antys/Žąsys/Vandens | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 | +| 1 | Rudasis švilpikas | Dendrocygna bicolor | Antys/Žąsys/Vandens | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 | +| 2 | Snieginė žąsis | Anser caerulescens | Antys/Žąsys/Vandens | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 | +| 3 | Rosso žąsis | Anser rossii | Antys/Žąsys/Vandens | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 | +| 4 | Didžioji baltakaktė žąsis | Anser albifrons | Antys/Žąsys/Vandens | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 | + +Pradėkime nuo kai kurių skaitinių duomenų vaizdavimo naudojant paprastą linijinę diagramą. Tarkime, norite pamatyti šių įdomių paukščių maksimalų sparnų plotį. + +```r +install.packages("ggplot2") +library("ggplot2") +ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) + + geom_line() +``` +Čia įdiegiame `ggplot2` paketą ir importuojame jį į darbo aplinką naudodami komandą `library("ggplot2")`. Norint sukurti bet kokią diagramą su ggplot, naudojama funkcija `ggplot()`, kurioje nurodote duomenų rinkinį, x ir y kintamuosius kaip atributus. Šiuo atveju naudojame funkciją `geom_line()`, nes norime sukurti linijinę diagramą. + +![MaxWingspan-lineplot](../../../../../translated_images/MaxWingspan-lineplot.b12169f99d26fdd263f291008dfd73c18a4ba8f3d32b1fda3d74af51a0a28616.lt.png) + +Ką pastebite iš karto? Atrodo, kad yra bent vienas išskirtinis atvejis – tai tikrai įspūdingas sparnų plotis! Sparnų plotis, viršijantis 2000 cm, yra daugiau nei 20 metrų – ar Minesotoje skraido pterodaktiliai? Išsiaiškinkime. + +Nors galėtumėte greitai surūšiuoti duomenis „Excel“, kad rastumėte tuos išskirtinius atvejus, kurie greičiausiai yra klaidos, tęskite vizualizacijos procesą dirbdami su diagrama. + +Pridėkite etiketes prie x ašies, kad parodytumėte, kokie paukščiai yra nagrinėjami: + +```r +ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) + + geom_line() + + theme(axis.text.x = element_text(angle = 45, hjust=1))+ + xlab("Birds") + + ylab("Wingspan (CM)") + + ggtitle("Max Wingspan in Centimeters") +``` +Mes nurodome kampą `theme` ir nurodome x ir y ašių etiketes naudodami `xlab()` ir `ylab()` atitinkamai. `ggtitle()` suteikia grafikui/diagramai pavadinimą. + +![MaxWingspan-lineplot-improved](../../../../../translated_images/MaxWingspan-lineplot-improved.04b73b4d5a59552a6bc7590678899718e1f065abe9eada9ebb4148939b622fd4.lt.png) + +Net ir pasukus etiketes 45 laipsnių kampu, jų per daug, kad būtų galima perskaityti. Pabandykime kitą strategiją: pažymėkime tik tuos išskirtinius atvejus ir nustatykime etiketes pačioje diagramoje. Galite naudoti sklaidos diagramą, kad būtų daugiau vietos etiketėms: + +```r +ggplot(data=birds, aes(x=Name, y=MaxWingspan,group=1)) + + geom_point() + + geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) + + theme(axis.title.x=element_blank(), axis.text.x=element_blank(), axis.ticks.x=element_blank()) + ylab("Wingspan (CM)") + + ggtitle("Max Wingspan in Centimeters") + +``` +Kas čia vyksta? Naudojote funkciją `geom_point()`, kad pavaizduotumėte sklaidos taškus. Su tuo pridėjote etiketes paukščiams, kurių `MaxWingspan > 500`, ir taip pat paslėpėte etiketes x ašyje, kad sumažintumėte diagramos apkrovą. + +Ką pastebite? + +![MaxWingspan-scatterplot](../../../../../translated_images/MaxWingspan-scatterplot.60dc9e0e19d32700283558f253841fdab5104abb62bc96f7d97f9c0ee857fa8b.lt.png) + +## Filtruokite savo duomenis + +Tiek Baltasis erelis, tiek Prerijų sakalas, nors tikriausiai labai dideli paukščiai, atrodo, yra neteisingai pažymėti, pridėjus papildomą nulį prie jų maksimalaus sparnų pločio. Mažai tikėtina, kad sutiksite Baltąjį erelį su 25 metrų sparnų pločiu, bet jei taip, praneškite mums! Sukurkime naują duomenų rėmelį be šių dviejų išskirtinių atvejų: + +```r +birds_filtered <- subset(birds, MaxWingspan < 500) + +ggplot(data=birds_filtered, aes(x=Name, y=MaxWingspan,group=1)) + + geom_point() + + ylab("Wingspan (CM)") + + xlab("Birds") + + ggtitle("Max Wingspan in Centimeters") + + geom_text(aes(label=ifelse(MaxWingspan>500,as.character(Name),'')),hjust=0,vjust=0) + + theme(axis.text.x=element_blank(), axis.ticks.x=element_blank()) +``` +Sukūrėme naują duomenų rėmelį `birds_filtered` ir tada pavaizdavome sklaidos diagramą. Filtruodami išskirtinius atvejus, jūsų duomenys tampa nuoseklesni ir suprantamesni. + +![MaxWingspan-scatterplot-improved](../../../../../translated_images/MaxWingspan-scatterplot-improved.7d0af81658c65f3e75b8fedeb2335399e31108257e48db15d875ece608272051.lt.png) + +Dabar, kai turime švaresnį duomenų rinkinį bent jau sparnų pločio atžvilgiu, sužinokime daugiau apie šiuos paukščius. + +Nors linijinės ir sklaidos diagramos gali parodyti informaciją apie duomenų reikšmes ir jų pasiskirstymą, norime pagalvoti apie šio duomenų rinkinio reikšmes. Galėtumėte sukurti vizualizacijas, kad atsakytumėte į šiuos klausimus apie kiekius: + +> Kiek yra paukščių kategorijų ir kokie jų skaičiai? +> Kiek paukščių yra išnykę, nykstantys, reti ar dažni? +> Kiek yra įvairių genčių ir būrių pagal Linėjaus terminologiją? +## Tyrinėkite stulpelines diagramas + +Stulpelinės diagramos yra praktiškos, kai reikia parodyti duomenų grupes. Pažvelkime į paukščių kategorijas, kurios egzistuoja šiame duomenų rinkinyje, kad pamatytume, kuri yra dažniausia pagal skaičių. +Sukurkime stulpelinę diagramą su filtruotais duomenimis. + +```r +install.packages("dplyr") +install.packages("tidyverse") + +library(lubridate) +library(scales) +library(dplyr) +library(ggplot2) +library(tidyverse) + +birds_filtered %>% group_by(Category) %>% + summarise(n=n(), + MinLength = mean(MinLength), + MaxLength = mean(MaxLength), + MinBodyMass = mean(MinBodyMass), + MaxBodyMass = mean(MaxBodyMass), + MinWingspan=mean(MinWingspan), + MaxWingspan=mean(MaxWingspan)) %>% + gather("key", "value", - c(Category, n)) %>% + ggplot(aes(x = Category, y = value, group = key, fill = key)) + + geom_bar(stat = "identity") + + scale_fill_manual(values = c("#D62728", "#FF7F0E", "#8C564B","#2CA02C", "#1F77B4", "#9467BD")) + + xlab("Category")+ggtitle("Birds of Minnesota") + +``` +Šiame fragmente įdiegiame [dplyr](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8) ir [lubridate](https://www.rdocumentation.org/packages/lubridate/versions/1.8.0) paketus, kad padėtume manipuliuoti ir grupuoti duomenis, norint pavaizduoti sukrautą stulpelinę diagramą. Pirmiausia grupuojate duomenis pagal paukščių `Category` ir tada apibendrinate `MinLength`, `MaxLength`, `MinBodyMass`, `MaxBodyMass`, `MinWingspan`, `MaxWingspan` stulpelius. Tada, naudodami `ggplot2` paketą, pavaizduojate stulpelinę diagramą, nurodydami spalvas skirtingoms kategorijoms ir etiketes. + +![Stacked bar chart](../../../../../translated_images/stacked-bar-chart.0c92264e89da7b391a7490224d1e7059a020e8b74dcd354414aeac78871c02f1.lt.png) + +Ši stulpelinė diagrama, tačiau, yra neįskaitoma, nes yra per daug negrupuotų duomenų. Turite pasirinkti tik tuos duomenis, kuriuos norite pavaizduoti, todėl pažvelkime į paukščių ilgį pagal jų kategoriją. + +Filtruokite savo duomenis, kad įtrauktumėte tik paukščių kategoriją. + +Kadangi yra daug kategorijų, galite parodyti šią diagramą vertikaliai ir pakoreguoti jos aukštį, kad atitiktų visus duomenis: + +```r +birds_count<-dplyr::count(birds_filtered, Category, sort = TRUE) +birds_count$Category <- factor(birds_count$Category, levels = birds_count$Category) +ggplot(birds_count,aes(Category,n))+geom_bar(stat="identity")+coord_flip() +``` +Pirmiausia suskaičiuojate unikalių reikšmių skaičių `Category` stulpelyje ir tada surūšiuojate jas į naują duomenų rėmelį `birds_count`. Šie surūšiuoti duomenys tada faktorizuojami tame pačiame lygyje, kad būtų pavaizduoti surūšiuota tvarka. Naudodami `ggplot2` tada pavaizduojate duomenis stulpelinėje diagramoje. Funkcija `coord_flip()` pavaizduoja horizontalius stulpelius. + +![category-length](../../../../../translated_images/category-length.7e34c296690e85d64f7e4d25a56077442683eca96c4f5b4eae120a64c0755636.lt.png) + +Ši stulpelinė diagrama suteikia gerą vaizdą apie paukščių skaičių kiekvienoje kategorijoje. Vienu žvilgsniu matote, kad didžiausias paukščių skaičius šiame regione priklauso Antys/Žąsys/Vandens kategorijai. Minesota yra „10 000 ežerų kraštas“, todėl tai nestebina! + +✅ Išbandykite kitus šio duomenų rinkinio skaičiavimus. Ar kas nors jus nustebina? + +## Duomenų palyginimas + +Galite išbandyti skirtingus grupuotų duomenų palyginimus, sukurdami naujas ašis. Pabandykite palyginti paukščių `MaxLength` pagal jų kategoriją: + +```r +birds_grouped <- birds_filtered %>% + group_by(Category) %>% + summarise( + MaxLength = max(MaxLength, na.rm = T), + MinLength = max(MinLength, na.rm = T) + ) %>% + arrange(Category) + +ggplot(birds_grouped,aes(Category,MaxLength))+geom_bar(stat="identity")+coord_flip() +``` +Mes grupuojame `birds_filtered` duomenis pagal `Category` ir tada pavaizduojame stulpelinę diagramą. + +![comparing data](../../../../../translated_images/comparingdata.f486a450d61c7ca5416f27f3f55a6a4465d00df3be5e6d33936e9b07b95e2fdd.lt.png) + +Čia nieko nestebina: kolibriai turi mažiausią `MaxLength`, palyginti su pelikanais ar žąsimis. Gerai, kai duomenys logiškai atitinka! + +Galite sukurti įdomesnes stulpelinių diagramų vizualizacijas, uždedant duomenis vienas ant kito. Uždenkime minimalų ir maksimalų ilgį tam tikroje paukščių kategorijoje: + +```r +ggplot(data=birds_grouped, aes(x=Category)) + + geom_bar(aes(y=MaxLength), stat="identity", position ="identity", fill='blue') + + geom_bar(aes(y=MinLength), stat="identity", position="identity", fill='orange')+ + coord_flip() +``` +![super-imposed values](../../../../../translated_images/superimposed-values.5363f0705a1da4167625a373a1064331ea3cb7a06a297297d0734fcc9b3819a0.lt.png) + +## 🚀 Iššūkis + +Šis paukščių duomenų rinkinys siūlo daugybę informacijos apie skirtingų tipų paukščius tam tikroje ekosistemoje. Paieškokite internete ir pažiūrėkite, ar galite rasti kitų su paukščiais susijusių duomenų rinkinių. Praktikuokitės kurti diagramas ir grafikus apie šiuos paukščius, kad atrastumėte faktų, kurių nežinojote. +## [Po paskaitos - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/17) + +## Apžvalga ir savarankiškas mokymasis + +Ši pirmoji pamoka suteikė jums informacijos apie tai, kaip naudoti `ggplot2` kiekių vizualizavimui. Atlikite tyrimus apie kitus būdus dirbti su duomenų rinkiniais vizualizacijai. Ieškokite ir tyrinėkite duomenų rinkinius, kuriuos galėtumėte vizualizuoti naudodami kitas bibliotekas, tokias kaip [Lattice](https://stat.ethz.ch/R-manual/R-devel/library/lattice/html/Lattice.html) ir [Plotly](https://github.com/plotly/plotly.R#readme). + +## Užduotis +[Linijos, sklaidos ir stulpeliai](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/09-visualization-quantities/assignment.md b/translations/lt/3-Data-Visualization/R/09-visualization-quantities/assignment.md new file mode 100644 index 00000000..67afdbb4 --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/09-visualization-quantities/assignment.md @@ -0,0 +1,25 @@ + +# Linijos, sklaidos diagramos ir stulpelinės diagramos + +## Instrukcijos + +Šioje pamokoje dirbote su linijų diagramomis, sklaidos diagramomis ir stulpelinėmis diagramomis, kad parodytumėte įdomius faktus apie šį duomenų rinkinį. Šioje užduotyje gilinkitės į duomenų rinkinį, kad atrastumėte faktą apie tam tikrą paukščių rūšį. Pavyzdžiui, sukurkite scenarijų, vizualizuojantį visus įdomius duomenis, kuriuos galite atskleisti apie sniegines žąsis. Naudokite tris aukščiau paminėtas diagramas, kad papasakotumėte istoriją savo užrašų knygelėje. + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | -- | +Pateiktas scenarijus su geromis anotacijomis, aiškia istorija ir patraukliomis diagramomis | Scenarijuje trūksta vieno iš šių elementų | Scenarijuje trūksta dviejų iš šių elementų + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/10-visualization-distributions/README.md b/translations/lt/3-Data-Visualization/R/10-visualization-distributions/README.md new file mode 100644 index 00000000..6831b875 --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/10-visualization-distributions/README.md @@ -0,0 +1,184 @@ + +# Vizualizuojant pasiskirstymus + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](https://github.com/microsoft/Data-Science-For-Beginners/blob/main/sketchnotes/10-Visualizing-Distributions.png)| +|:---:| +| Vizualizuojant pasiskirstymus - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Ankstesnėje pamokoje sužinojote įdomių faktų apie Minesotos paukščių duomenų rinkinį. Aptikote klaidingus duomenis vizualizuodami išskirtis ir išnagrinėjote skirtumus tarp paukščių kategorijų pagal jų maksimalų ilgį. + +## [Prieš paskaitą vykdomas testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/18) +## Tyrinėkite paukščių duomenų rinkinį + +Kitas būdas gilintis į duomenis yra pažvelgti į jų pasiskirstymą arba kaip duomenys yra organizuoti pagal ašį. Pavyzdžiui, galbūt norėtumėte sužinoti apie bendrą maksimalios sparnų amplitudės ar maksimalios kūno masės pasiskirstymą Minesotos paukščių duomenų rinkinyje. + +Atraskime keletą faktų apie šio duomenų rinkinio pasiskirstymus. Savo R konsolėje importuokite `ggplot2` ir duomenų bazę. Pašalinkite išskirtis iš duomenų bazės, kaip tai darėte ankstesnėje temoje. + +```r +library(ggplot2) + +birds <- read.csv("../../data/birds.csv",fileEncoding="UTF-8-BOM") + +birds_filtered <- subset(birds, MaxWingspan < 500) +head(birds_filtered) +``` +| | Pavadinimas | MokslinisPavadinimas | Kategorija | Būrys | Šeima | Gentis | ApsaugosStatusas | MinIlgis | MaxIlgis | MinKūnoMasa | MaxKūnoMasa | MinSparnųAmplitudė | MaxSparnųAmplitudė | +| ---: | :--------------------------- | :--------------------- | :-------------------- | :----------- | :------- | :---------- | :----------------- | --------: | --------: | ----------: | ----------: | -----------------: | -----------------: | +| 0 | Juodapilvė švilpiko antis | Dendrocygna autumnalis | Antys/Žąsys/Vandensf. | Anseriformes | Anatidae | Dendrocygna | LC | 47 | 56 | 652 | 1020 | 76 | 94 | +| 1 | Rudapilvė švilpiko antis | Dendrocygna bicolor | Antys/Žąsys/Vandensf. | Anseriformes | Anatidae | Dendrocygna | LC | 45 | 53 | 712 | 1050 | 85 | 93 | +| 2 | Snieginė žąsis | Anser caerulescens | Antys/Žąsys/Vandensf. | Anseriformes | Anatidae | Anser | LC | 64 | 79 | 2050 | 4050 | 135 | 165 | +| 3 | Rosso žąsis | Anser rossii | Antys/Žąsys/Vandensf. | Anseriformes | Anatidae | Anser | LC | 57.3 | 64 | 1066 | 1567 | 113 | 116 | +| 4 | Didžioji baltakaktė žąsis | Anser albifrons | Antys/Žąsys/Vandensf. | Anseriformes | Anatidae | Anser | LC | 64 | 81 | 1930 | 3310 | 130 | 165 | + +Apskritai, galite greitai pažvelgti į tai, kaip duomenys pasiskirstę, naudodami sklaidos diagramą, kaip tai darėme ankstesnėje pamokoje: + +```r +ggplot(data=birds_filtered, aes(x=Order, y=MaxLength,group=1)) + + geom_point() + + ggtitle("Max Length per order") + coord_flip() +``` +![maksimalus ilgis pagal būrį](../../../../../translated_images/max-length-per-order.e5b283d952c78c12b091307c5d3cf67132dad6fefe80a073353b9dc5c2bd3eb8.lt.png) + +Tai suteikia bendrą paukščių kūno ilgio pasiskirstymo pagal būrį apžvalgą, tačiau tai nėra optimalus būdas tikriems pasiskirstymams parodyti. Šią užduotį paprastai atlieka histograma. + +## Darbas su histogramomis + +`ggplot2` siūlo puikius būdus vizualizuoti duomenų pasiskirstymą naudojant histogramas. Šio tipo diagrama yra panaši į stulpelinę diagramą, kur pasiskirstymas matomas per stulpelių kilimą ir kritimą. Norint sukurti histogramą, reikia skaitinių duomenų. Histogramai sukurti galite nurodyti diagramos tipą kaip 'hist'. Ši diagrama rodo MaxBodyMass pasiskirstymą visame duomenų rinkinio skaitinių duomenų diapazone. Padalindama duomenų masyvą į mažesnius intervalus, ji gali parodyti duomenų reikšmių pasiskirstymą: + +```r +ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + + geom_histogram(bins=10)+ylab('Frequency') +``` +![pasiskirstymas visame duomenų rinkinyje](../../../../../translated_images/distribution-over-the-entire-dataset.d22afd3fa96be854e4c82213fedec9e3703cba753d07fad4606aadf58cf7e78e.lt.png) + +Kaip matote, dauguma iš 400+ paukščių šiame duomenų rinkinyje patenka į mažesnę nei 2000 Max Kūno Masės ribą. Gaukite daugiau įžvalgų apie duomenis, pakeisdami `bins` parametrą į didesnį skaičių, pavyzdžiui, 30: + +```r +ggplot(data = birds_filtered, aes(x = MaxBodyMass)) + geom_histogram(bins=30)+ylab('Frequency') +``` + +![pasiskirstymas su 30 intervalų](../../../../../translated_images/distribution-30bins.6a3921ea7a421bf71f06bf5231009e43d1146f1b8da8dc254e99b5779a4983e5.lt.png) + +Ši diagrama rodo pasiskirstymą šiek tiek detaliau. Mažiau į kairę pasvirusią diagramą būtų galima sukurti užtikrinant, kad pasirinktumėte tik duomenis tam tikrame diapazone: + +Filtruokite savo duomenis, kad gautumėte tik tuos paukščius, kurių kūno masė yra mažesnė nei 60, ir parodykite 30 `bins`: + +```r +birds_filtered_1 <- subset(birds_filtered, MaxBodyMass > 1 & MaxBodyMass < 60) +ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + + geom_histogram(bins=30)+ylab('Frequency') +``` + +![filtruota histograma](../../../../../translated_images/filtered-histogram.6bf5d2bfd82533220e1bd4bc4f7d14308f43746ed66721d9ec8f460732be6674.lt.png) + +✅ Išbandykite kitus filtrus ir duomenų taškus. Norėdami pamatyti visą duomenų pasiskirstymą, pašalinkite `['MaxBodyMass']` filtrą, kad parodytumėte pažymėtus pasiskirstymus. + +Histograma taip pat siūlo gražius spalvų ir žymėjimo patobulinimus, kuriuos verta išbandyti: + +Sukurkite 2D histogramą, kad palygintumėte dviejų pasiskirstymų santykį. Palyginkime `MaxBodyMass` ir `MaxLength`. `ggplot2` siūlo įmontuotą būdą parodyti susiliejimą naudojant ryškesnes spalvas: + +```r +ggplot(data=birds_filtered_1, aes(x=MaxBodyMass, y=MaxLength) ) + + geom_bin2d() +scale_fill_continuous(type = "viridis") +``` +Atrodo, kad tarp šių dviejų elementų yra tikėtinas koreliavimas pagal numatomą ašį, su viena ypač stipria susiliejimo vieta: + +![2D diagrama](../../../../../translated_images/2d-plot.c504786f439bd7ebceebf2465c70ca3b124103e06c7ff7214bf24e26f7aec21e.lt.png) + +Histogramų numatytasis veikimas gerai tinka skaitiniams duomenims. O kas, jei reikia pamatyti pasiskirstymus pagal tekstinius duomenis? +## Tyrinėkite duomenų rinkinį pagal tekstinius duomenis + +Šiame duomenų rinkinyje taip pat yra geros informacijos apie paukščių kategoriją, jų gentį, rūšį, šeimą bei apsaugos statusą. Panagrinėkime šią apsaugos informaciją. Koks yra paukščių pasiskirstymas pagal jų apsaugos statusą? + +> ✅ Duomenų rinkinyje naudojami keli akronimai, apibūdinantys apsaugos statusą. Šie akronimai yra iš [IUCN Raudonojo sąrašo kategorijų](https://www.iucnredlist.org/), organizacijos, kataloguojančios rūšių būklę. +> +> - CR: Kritiškai nykstantis +> - EN: Nykstantis +> - EX: Išnykęs +> - LC: Mažiausiai susirūpinimą keliantis +> - NT: Beveik nykstantis +> - VU: Pažeidžiamas + +Kadangi tai yra tekstinės reikšmės, reikės atlikti transformaciją, kad sukurtumėte histogramą. Naudodami `filteredBirds` duomenų rėmelį, parodykite jo apsaugos statusą kartu su minimaliu sparnų amplitudės dydžiu. Ką pastebite? + +```r +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EX'] <- 'x1' +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'CR'] <- 'x2' +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'EN'] <- 'x3' +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'NT'] <- 'x4' +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'VU'] <- 'x5' +birds_filtered_1$ConservationStatus[birds_filtered_1$ConservationStatus == 'LC'] <- 'x6' + +ggplot(data=birds_filtered_1, aes(x = MinWingspan, fill = ConservationStatus)) + + geom_histogram(position = "identity", alpha = 0.4, bins = 20) + + scale_fill_manual(name="Conservation Status",values=c("red","green","blue","pink"),labels=c("Endangered","Near Threathened","Vulnerable","Least Concern")) +``` + +![sparnų amplitudė ir apsaugos statusas](../../../../../translated_images/wingspan-conservation-collation.4024e9aa6910866aa82f0c6cb6a6b4b925bd10079e6b0ef8f92eefa5a6792f76.lt.png) + +Atrodo, kad nėra gero koreliavimo tarp minimalaus sparnų amplitudės dydžio ir apsaugos statuso. Išbandykite kitus duomenų rinkinio elementus naudodami šį metodą. Taip pat galite išbandyti skirtingus filtrus. Ar pastebite kokį nors koreliavimą? + +## Tankio diagramos + +Galbūt pastebėjote, kad iki šiol nagrinėtos histogramos yra „laiptinės“ ir nesudaro sklandžios kreivės. Norėdami parodyti sklandesnę tankio diagramą, galite išbandyti tankio diagramą. + +Dabar dirbkime su tankio diagramomis! + +```r +ggplot(data = birds_filtered_1, aes(x = MinWingspan)) + + geom_density() +``` +![tankio diagrama](../../../../../translated_images/density-plot.675ccf865b76c690487fb7f69420a8444a3515f03bad5482886232d4330f5c85.lt.png) + +Galite matyti, kaip ši diagrama atspindi ankstesnę minimalaus sparnų amplitudės duomenų diagramą; ji tiesiog šiek tiek sklandesnė. Jei norėtumėte peržiūrėti tą dantytą MaxBodyMass liniją antroje sukurtoje diagramoje, galėtumėte ją labai gerai išlyginti, naudodami šį metodą: + +```r +ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + + geom_density() +``` +![kūno masės tankis](../../../../../translated_images/bodymass-smooth.d31ce526d82b0a1f19a073815dea28ecfbe58145ec5337e4ef7e8cdac81120b3.lt.png) + +Jei norėtumėte sklandžios, bet ne per daug sklandžios linijos, redaguokite `adjust` parametrą: + +```r +ggplot(data = birds_filtered_1, aes(x = MaxBodyMass)) + + geom_density(adjust = 1/5) +``` +![mažiau sklandi kūno masė](../../../../../translated_images/less-smooth-bodymass.10f4db8b683cc17d17b2d33f22405413142004467a1493d416608dafecfdee23.lt.png) + +✅ Perskaitykite apie šio tipo diagramos parametrus ir eksperimentuokite! + +Šio tipo diagrama siūlo gražiai paaiškinančias vizualizacijas. Pavyzdžiui, su keliomis kodo eilutėmis galite parodyti maksimalios kūno masės tankį pagal paukščių būrį: + +```r +ggplot(data=birds_filtered_1,aes(x = MaxBodyMass, fill = Order)) + + geom_density(alpha=0.5) +``` +![kūno masė pagal būrį](../../../../../translated_images/bodymass-per-order.9d2b065dd931b928c839d8cdbee63067ab1ae52218a1b90717f4bc744354f485.lt.png) + +## 🚀 Iššūkis + +Histogramų naudojimas yra sudėtingesnis nei paprastų sklaidos diagramų, stulpelinių diagramų ar linijinių diagramų. Ieškokite internete gerų histogramų naudojimo pavyzdžių. Kaip jos naudojamos, ką jos parodo ir kokiose srityse ar tyrimų srityse jos dažniausiai naudojamos? + +## [Po paskaitos vykdomas testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/19) + +## Apžvalga ir savarankiškas mokymasis + +Šioje pamokoje naudojote `ggplot2` ir pradėjote kurti sudėtingesnes diagramas. Atlikite tyrimą apie `geom_density_2d()`, „nepertraukiamą tikimybės tankio kreivę vienoje ar keliose dimensijose“. Perskaitykite [dokumentaciją](https://ggplot2.tidyverse.org/reference/geom_density_2d.html), kad suprastumėte, kaip ji veikia. + +## Užduotis + +[Praktikuokite savo įgūdžius](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudotis profesionalių vertėjų paslaugomis. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/10-visualization-distributions/assignment.md b/translations/lt/3-Data-Visualization/R/10-visualization-distributions/assignment.md new file mode 100644 index 00000000..e642872e --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/10-visualization-distributions/assignment.md @@ -0,0 +1,25 @@ + +# Pradėkite taikyti savo įgūdžius + +## Instrukcijos + +Iki šiol dirbote su Minesotos paukščių duomenų rinkiniu, kad sužinotumėte apie paukščių kiekius ir populiacijos tankį. Praktikuokite šių metodų taikymą, išbandydami kitą duomenų rinkinį, galbūt gautą iš [Kaggle](https://www.kaggle.com/). Sukurkite R scenarijų, kuris papasakotų istoriją apie šį duomenų rinkinį, ir būtinai naudokite histogramas, kai apie jį diskutuojate. + +## Vertinimo kriterijai + +Pavyzdingas | Pakankamas | Reikia patobulinimų +--- | --- | -- | +Pateiktas scenarijus su anotacijomis apie šį duomenų rinkinį, įskaitant jo šaltinį, ir naudojama bent 5 histogramų faktams apie duomenis atskleisti. | Pateiktas scenarijus su neišsamiais paaiškinimais arba klaidomis. | Pateiktas scenarijus be paaiškinimų ir su klaidomis. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/11-visualization-proportions/README.md b/translations/lt/3-Data-Visualization/R/11-visualization-proportions/README.md new file mode 100644 index 00000000..d2ce6a9f --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/11-visualization-proportions/README.md @@ -0,0 +1,199 @@ + +# Vizualizuojame Proporcijas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/11-Visualizing-Proportions.png)| +|:---:| +|Vizualizuojame Proporcijas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Šioje pamokoje naudosite kitą gamtos tematikos duomenų rinkinį, kad vizualizuotumėte proporcijas, pavyzdžiui, kiek skirtingų grybų rūšių yra tam tikrame grybų duomenų rinkinyje. Panagrinėkime šiuos įdomius grybus naudodami duomenų rinkinį iš Audubon, kuriame pateikiama informacija apie 23 rūšis lakštinių grybų iš Agaricus ir Lepiota šeimų. Eksperimentuosite su skaniais vizualizacijų tipais, tokiais kaip: + +- Pyrago diagramos 🥧 +- Žiedo diagramos 🍩 +- Vaflių diagramos 🧇 + +> 💡 Labai įdomus projektas, vadinamas [Charticulator](https://charticulator.com), sukurtas Microsoft Research, siūlo nemokamą „drag and drop“ sąsają duomenų vizualizacijoms. Viename iš jų mokymų taip pat naudojamas šis grybų duomenų rinkinys! Taigi galite tyrinėti duomenis ir tuo pačiu metu mokytis naudotis biblioteka: [Charticulator tutorial](https://charticulator.com/tutorials/tutorial4.html). + +## [Prieš paskaitą - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/20) + +## Susipažinkite su savo grybais 🍄 + +Grybai yra labai įdomūs. Importuokime duomenų rinkinį, kad juos išnagrinėtume: + +```r +mushrooms = read.csv('../../data/mushrooms.csv') +head(mushrooms) +``` +Atspausdinama lentelė su puikiais duomenimis analizei: + + +| klasė | kepurėlės forma | kepurėlės paviršius | kepurėlės spalva | mėlynės | kvapas | lakštelių prisitvirtinimas | lakštelių tarpai | lakštelių dydis | lakštelių spalva | kotelio forma | kotelio šaknis | kotelio paviršius virš žiedo | kotelio paviršius po žiedu | kotelio spalva virš žiedo | kotelio spalva po žiedu | šydo tipas | šydo spalva | žiedų skaičius | žiedo tipas | sporų atspaudo spalva | populiacija | buveinė | +| --------- | -------------- | ------------------- | ---------------- | ------- | --------- | ------------------------- | ---------------- | --------------- | ---------------- | ------------- | ------------- | -------------------------- | -------------------------- | ------------------------ | ------------------------ | ---------- | ---------- | -------------- | ----------- | --------------------- | ----------- | ------- | +| Nuodingas | Išgaubta | Lygi | Ruda | Mėlynės | Aitrus | Laisvas | Artimi | Siauri | Juoda | Platėjantis | Lygus | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Pakabintas | Juoda | Išsibarstę | Miestas | +| Valgomas | Išgaubta | Lygi | Geltona | Mėlynės | Migdolų | Laisvas | Artimi | Platus | Juoda | Platėjantis | Klubas | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Pakabintas | Ruda | Gausus | Žolynai | +| Valgomas | Varpelio | Lygi | Balta | Mėlynės | Anyžinis | Laisvas | Artimi | Platus | Ruda | Platėjantis | Klubas | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Pakabintas | Ruda | Gausus | Pievos | +| Nuodingas | Išgaubta | Žvynuota | Balta | Mėlynės | Aitrus | Laisvas | Artimi | Siauri | Ruda | Platėjantis | Lygus | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Pakabintas | Juoda | Išsibarstę | Miestas | +| Valgomas | Išgaubta | Lygi | Žalia | Be mėlynių | Nėra | Laisvas | Tankūs | Platus | Juoda | Smailėjantis | Lygus | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Išnykstantis | Ruda | Gausus | Žolynai | +| Valgomas | Išgaubta | Žvynuota | Geltona | Mėlynės | Migdolų | Laisvas | Artimi | Platus | Ruda | Platėjantis | Klubas | Lygus | Lygus | Balta | Balta | Dalinis | Balta | Vienas | Pakabintas | Juoda | Gausus | Žolynai | + +Iškart pastebite, kad visi duomenys yra tekstiniai. Norėsite konvertuoti šiuos duomenis, kad galėtumėte juos naudoti diagramose. Dauguma duomenų, iš tiesų, pateikiami kaip objektai: + +```r +names(mushrooms) +``` + +Rezultatas: + +```output +[1] "class" "cap.shape" + [3] "cap.surface" "cap.color" + [5] "bruises" "odor" + [7] "gill.attachment" "gill.spacing" + [9] "gill.size" "gill.color" +[11] "stalk.shape" "stalk.root" +[13] "stalk.surface.above.ring" "stalk.surface.below.ring" +[15] "stalk.color.above.ring" "stalk.color.below.ring" +[17] "veil.type" "veil.color" +[19] "ring.number" "ring.type" +[21] "spore.print.color" "population" +[23] "habitat" +``` +Paimkite šiuos duomenis ir konvertuokite 'klasės' stulpelį į kategoriją: + +```r +library(dplyr) +grouped=mushrooms %>% + group_by(class) %>% + summarise(count=n()) +``` + +Dabar, jei atspausdinsite grybų duomenis, pamatysite, kad jie buvo suskirstyti į kategorijas pagal nuodingumo/valgymo klasę: +```r +View(grouped) +``` + +| klasė | kiekis | +| --------- | --------- | +| Valgomas | 4208 | +| Nuodingas | 3916 | + +Jei laikysitės šioje lentelėje pateiktos tvarkos kurdami savo klasės kategorijų etiketes, galėsite sukurti pyrago diagramą. + +## Pyragas! + +```r +pie(grouped$count,grouped$class, main="Edible?") +``` +Štai pyrago diagrama, rodanti šių duomenų proporcijas pagal šias dvi grybų klases. Labai svarbu teisingai nustatyti etikečių tvarką, ypač čia, todėl būtinai patikrinkite, ar etikečių masyvas sudarytas teisinga tvarka! + +![pyrago diagrama](../../../../../translated_images/pie1-wb.685df063673751f4b0b82127f7a52c7f9a920192f22ae61ad28412ba9ace97bf.lt.png) + +## Žiedai! + +Šiek tiek vizualiai įdomesnė pyrago diagrama yra žiedo diagrama, kuri yra pyrago diagrama su skylute viduryje. Pažvelkime į mūsų duomenis naudodami šį metodą. + +Pažvelkite į įvairias buveines, kuriose auga grybai: + +```r +library(dplyr) +habitat=mushrooms %>% + group_by(habitat) %>% + summarise(count=n()) +View(habitat) +``` +Rezultatas: +| buveinė | kiekis | +| --------- | --------- | +| Žolynai | 2148 | +| Lapai | 832 | +| Pievos | 292 | +| Takai | 1144 | +| Miestas | 368 | +| Atliekos | 192 | +| Mediena | 3148 | + +Čia grupuojate savo duomenis pagal buveinę. Yra 7 buveinės, todėl naudokite jas kaip etiketes savo žiedo diagramai: + +```r +library(ggplot2) +library(webr) +PieDonut(habitat, aes(habitat, count=count)) +``` + +![žiedo diagrama](../../../../../translated_images/donut-wb.34e6fb275da9d834c2205145e39a3de9b6878191dcdba6f7a9e85f4b520449bc.lt.png) + +Šis kodas naudoja dvi bibliotekas - ggplot2 ir webr. Naudodami webr bibliotekos PieDonut funkciją, galite lengvai sukurti žiedo diagramą! + +Žiedo diagramas R kalboje galima kurti ir naudojant tik ggplot2 biblioteką. Daugiau apie tai galite sužinoti [čia](https://www.r-graph-gallery.com/128-ring-or-donut-plot.html) ir išbandyti patys. + +Dabar, kai žinote, kaip grupuoti savo duomenis ir juos rodyti kaip pyragą ar žiedą, galite išbandyti kitus diagramų tipus. Pabandykite vaflių diagramą, kuri yra kitoks kiekių tyrinėjimo būdas. + +## Vafliai! + +„Vaflio“ tipo diagrama yra kitoks būdas vizualizuoti kiekius kaip 2D kvadratų masyvą. Pabandykite vizualizuoti skirtingus grybų kepurėlių spalvų kiekius šiame duomenų rinkinyje. Norėdami tai padaryti, turite įdiegti pagalbinę biblioteką, vadinamą [waffle](https://cran.r-project.org/web/packages/waffle/waffle.pdf), ir naudoti ją savo vizualizacijai sukurti: + +```r +install.packages("waffle", repos = "https://cinc.rud.is") +``` + +Pasirinkite savo duomenų segmentą grupavimui: + +```r +library(dplyr) +cap_color=mushrooms %>% + group_by(cap.color) %>% + summarise(count=n()) +View(cap_color) +``` + +Sukurkite vaflio diagramą, sukurdami etiketes ir tada grupuodami savo duomenis: + +```r +library(waffle) +names(cap_color$count) = paste0(cap_color$cap.color) +waffle((cap_color$count/10), rows = 7, title = "Waffle Chart")+scale_fill_manual(values=c("brown", "#F0DC82", "#D2691E", "green", + "pink", "purple", "red", "grey", + "yellow","white")) +``` + +Naudodami vaflio diagramą, galite aiškiai matyti grybų kepurėlių spalvų proporcijas šiame duomenų rinkinyje. Įdomu tai, kad yra daug grybų su žaliomis kepurėlėmis! + +![vaflio diagrama](../../../../../translated_images/waffle.aaa75c5337735a6ef32ace0ffb6506ef49e5aefe870ffd72b1bb080f4843c217.lt.png) + +Šioje pamokoje išmokote tris būdus, kaip vizualizuoti proporcijas. Pirmiausia reikia suskirstyti savo duomenis į kategorijas, o tada nuspręsti, kuris būdas geriausiai atspindi duomenis - pyragas, žiedas ar vaflis. Visi jie yra „skanūs“ ir suteikia vartotojui greitą duomenų rinkinio apžvalgą. + +## 🚀 Iššūkis + +Pabandykite atkurti šias skanias diagramas [Charticulator](https://charticulator.com). + +## [Po paskaitos - testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/21) + +## Apžvalga ir savarankiškas mokymasis + +Kartais nėra akivaizdu, kada naudoti pyrago, žiedo ar vaflio diagramą. Štai keletas straipsnių šia tema: + +https://www.beautiful.ai/blog/battle-of-the-charts-pie-chart-vs-donut-chart + +https://medium.com/@hypsypops/pie-chart-vs-donut-chart-showdown-in-the-ring-5d24fd86a9ce + +https://www.mit.edu/~mbarker/formula1/f1help/11-ch-c6.htm + +https://medium.datadriveninvestor.com/data-visualization-done-the-right-way-with-tableau-waffle-chart-fdf2a19be402 + +Atlikite tyrimus, kad rastumėte daugiau informacijos apie šį sudėtingą sprendimą. + +## Užduotis + +[Pabandykite Excel](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/12-visualization-relationships/README.md b/translations/lt/3-Data-Visualization/R/12-visualization-relationships/README.md new file mode 100644 index 00000000..ef7237dd --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/12-visualization-relationships/README.md @@ -0,0 +1,177 @@ + +# Vizualizuojame ryšius: Viskas apie medų 🍯 + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/12-Visualizing-Relationships.png)| +|:---:| +|Ryšių vizualizavimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Tęsdami gamtos tematiką mūsų tyrimuose, atraskime įdomius vizualizacijos būdus, kaip parodyti ryšius tarp įvairių medaus rūšių, remiantis duomenų rinkiniu, gautu iš [Jungtinių Valstijų Žemės ūkio departamento](https://www.nass.usda.gov/About_NASS/index.php). + +Šis maždaug 600 elementų duomenų rinkinys rodo medaus gamybą daugelyje JAV valstijų. Pavyzdžiui, galite peržiūrėti kolonijų skaičių, derlių vienai kolonijai, bendrą gamybą, atsargas, kainą už svarą ir medaus vertę tam tikroje valstijoje nuo 1998 iki 2012 metų, su viena eilute kiekvieniems metams kiekvienai valstijai. + +Būtų įdomu vizualizuoti ryšį tarp tam tikros valstijos gamybos per metus ir, pavyzdžiui, medaus kainos toje valstijoje. Arba galite vizualizuoti ryšį tarp valstijų medaus derliaus vienai kolonijai. Šis laikotarpis apima niokojantį „CCD“ arba „Kolonijų žlugimo sutrikimą“, pirmą kartą pastebėtą 2006 m. (http://npic.orst.edu/envir/ccd.html), todėl tai yra reikšmingas duomenų rinkinys tyrimui. 🐝 + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/22) + +Šioje pamokoje galite naudoti ggplot2, kurį jau naudojote anksčiau, kaip puikią biblioteką vizualizuoti ryšius tarp kintamųjų. Ypač įdomu naudoti ggplot2 `geom_point` ir `qplot` funkcijas, kurios leidžia greitai kurti sklaidos ir linijų diagramas, kad būtų galima vizualizuoti '[statistinius ryšius](https://ggplot2.tidyverse.org/)', padedančius duomenų mokslininkui geriau suprasti, kaip kintamieji yra susiję. + +## Sklaidos diagramos + +Naudokite sklaidos diagramą, kad parodytumėte, kaip medaus kaina keitėsi metai iš metų kiekvienoje valstijoje. ggplot2, naudojant `ggplot` ir `geom_point`, patogiai grupuoja valstijų duomenis ir rodo duomenų taškus tiek kategoriniams, tiek skaitiniams duomenims. + +Pradėkime importuodami duomenis ir Seaborn: + +```r +honey=read.csv('../../data/honey.csv') +head(honey) +``` +Pastebėsite, kad medaus duomenyse yra keletas įdomių stulpelių, įskaitant metus ir kainą už svarą. Išnagrinėkime šiuos duomenis, suskirstytus pagal JAV valstijas: + +| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai | +| -------- | ----------------- | ------------------------ | ------------- | -------- | ------------- | ------------- | ----- | +| AL | 16000 | 71 | 1136000 | 159000 | 0.72 | 818000 | 1998 | +| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 | +| AR | 53000 | 65 | 3445000 | 1688000 | 0.59 | 2033000 | 1998 | +| CA | 450000 | 83 | 37350000 | 12326000 | 0.62 | 23157000 | 1998 | +| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 | +| FL | 230000 | 98 | 22540000 | 4508000 | 0.64 | 14426000 | 1998 | + +Sukurkite paprastą sklaidos diagramą, kad parodytumėte ryšį tarp medaus kainos už svarą ir jo kilmės valstijos. Padarykite `y` ašį pakankamai aukštą, kad būtų rodomos visos valstijos: + +```r +library(ggplot2) +ggplot(honey, aes(x = priceperlb, y = state)) + + geom_point(colour = "blue") +``` +![sklaidos diagrama 1](../../../../../translated_images/scatter1.86b8900674d88b26dd3353a83fe604e9ab3722c4680cc40ee9beb452ff02cdea.lt.png) + +Dabar parodykite tuos pačius duomenis su medaus spalvų schema, kad parodytumėte, kaip kaina keičiasi metai iš metų. Tai galite padaryti pridėdami 'scale_color_gradientn' parametrą, kad parodytumėte pokyčius: + +> ✅ Sužinokite daugiau apie [scale_color_gradientn](https://www.rdocumentation.org/packages/ggplot2/versions/0.9.1/topics/scale_colour_gradientn) - išbandykite gražią vaivorykštės spalvų schemą! + +```r +ggplot(honey, aes(x = priceperlb, y = state, color=year)) + + geom_point()+scale_color_gradientn(colours = colorspace::heat_hcl(7)) +``` +![sklaidos diagrama 2](../../../../../translated_images/scatter2.4d1cbc693bad20e2b563888747eb6bdf65b73ce449d903f7cd4068a78502dcff.lt.png) + +Naudodami šią spalvų schemą, galite pastebėti, kad per metus medaus kaina už svarą akivaizdžiai kyla. Iš tiesų, jei patikrinsite duomenų pavyzdį (pavyzdžiui, Arizonos valstiją), galite pastebėti kainų kilimo modelį metai iš metų, su keliomis išimtimis: + +| valstija | kolonijų skaičius | derlius vienai kolonijai | bendra gamyba | atsargos | kaina už svarą | gamybos vertė | metai | +| -------- | ----------------- | ------------------------ | ------------- | -------- | ------------- | ------------- | ----- | +| AZ | 55000 | 60 | 3300000 | 1485000 | 0.64 | 2112000 | 1998 | +| AZ | 52000 | 62 | 3224000 | 1548000 | 0.62 | 1999000 | 1999 | +| AZ | 40000 | 59 | 2360000 | 1322000 | 0.73 | 1723000 | 2000 | +| AZ | 43000 | 59 | 2537000 | 1142000 | 0.72 | 1827000 | 2001 | +| AZ | 38000 | 63 | 2394000 | 1197000 | 1.08 | 2586000 | 2002 | +| AZ | 35000 | 72 | 2520000 | 983000 | 1.34 | 3377000 | 2003 | +| AZ | 32000 | 55 | 1760000 | 774000 | 1.11 | 1954000 | 2004 | +| AZ | 36000 | 50 | 1800000 | 720000 | 1.04 | 1872000 | 2005 | +| AZ | 30000 | 65 | 1950000 | 839000 | 0.91 | 1775000 | 2006 | +| AZ | 30000 | 64 | 1920000 | 902000 | 1.26 | 2419000 | 2007 | +| AZ | 25000 | 64 | 1600000 | 336000 | 1.26 | 2016000 | 2008 | +| AZ | 20000 | 52 | 1040000 | 562000 | 1.45 | 1508000 | 2009 | +| AZ | 24000 | 77 | 1848000 | 665000 | 1.52 | 2809000 | 2010 | +| AZ | 23000 | 53 | 1219000 | 427000 | 1.55 | 1889000 | 2011 | +| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 | + +Kitas būdas parodyti šį progresą yra naudoti dydį, o ne spalvą. Spalvų neskiriantiems vartotojams tai gali būti geresnis pasirinkimas. Redaguokite savo vizualizaciją, kad kainos padidėjimas būtų parodytas didesniu taško apskritimu: + +```r +ggplot(honey, aes(x = priceperlb, y = state)) + + geom_point(aes(size = year),colour = "blue") + + scale_size_continuous(range = c(0.25, 3)) +``` +Matote, kaip taškų dydis palaipsniui didėja. + +![sklaidos diagrama 3](../../../../../translated_images/scatter3.722d21e6f20b3ea2e18339bb9b10d75906126715eb7d5fdc88fe74dcb6d7066a.lt.png) + +Ar tai paprastas pasiūlos ir paklausos atvejis? Dėl tokių veiksnių kaip klimato kaita ir kolonijų žlugimas, ar medaus kiekis, kurį galima įsigyti, mažėja metai iš metų, todėl kaina kyla? + +Norėdami atrasti koreliaciją tarp kai kurių šio duomenų rinkinio kintamųjų, išnagrinėkime keletą linijinių diagramų. + +## Linijinės diagramos + +Klausimas: Ar yra aiškus medaus kainos už svarą kilimas metai iš metų? Tai galite lengviausiai atrasti sukurdami vieną linijinę diagramą: + +```r +qplot(honey$year,honey$priceperlb, geom='smooth', span =0.5, xlab = "year",ylab = "priceperlb") +``` +Atsakymas: Taip, su keliomis išimtimis apie 2003 metus: + +![linijinė diagrama 1](../../../../../translated_images/line1.299b576fbb2a59e60a59e7130030f59836891f90302be084e4e8d14da0562e2a.lt.png) + +Klausimas: Na, o 2003 metais, ar taip pat matome medaus tiekimo šuolį? Ką, jei pažvelgtume į bendrą gamybą metai iš metų? + +```python +qplot(honey$year,honey$totalprod, geom='smooth', span =0.5, xlab = "year",ylab = "totalprod") +``` + +![linijinė diagrama 2](../../../../../translated_images/line2.3b18fcda7176ceba5b6689eaaabb817d49c965e986f11cac1ae3f424030c34d8.lt.png) + +Atsakymas: Ne visai. Jei pažvelgsite į bendrą gamybą, atrodo, kad ji iš tikrųjų padidėjo tais metais, nors apskritai medaus gamybos kiekis mažėja per šiuos metus. + +Klausimas: Tokiu atveju, kas galėjo sukelti tą medaus kainos šuolį apie 2003 metus? + +Norėdami tai atrasti, galite išnagrinėti facet grid. + +## Facet grid + +Facet grid leidžia pasirinkti vieną duomenų rinkinio aspektą (mūsų atveju galite pasirinkti 'metus', kad išvengtumėte per daug facetų). Tada Seaborn gali sukurti diagramą kiekvienam iš šių aspektų, pasirinktoms x ir y koordinatėms, kad būtų lengviau palyginti. Ar 2003 metai išsiskiria tokiame palyginime? + +Sukurkite facet grid naudodami `facet_wrap`, kaip rekomenduoja [ggplot2 dokumentacija](https://ggplot2.tidyverse.org/reference/facet_wrap.html). + +```r +ggplot(honey, aes(x=yieldpercol, y = numcol,group = 1)) + + geom_line() + facet_wrap(vars(year)) +``` +Šioje vizualizacijoje galite palyginti derlių vienai kolonijai ir kolonijų skaičių metai iš metų, šalia vienas kito, su wrap nustatytu 3 stulpeliams: + +![facet grid](../../../../../translated_images/facet.491ad90d61c2a7cc69b50c929f80786c749e38217ccedbf1e22ed8909b65987c.lt.png) + +Šiam duomenų rinkiniui niekas ypatingai neišsiskiria, kalbant apie kolonijų skaičių ir jų derlių, metai iš metų ir valstija po valstijos. Ar yra kitoks būdas ieškoti koreliacijos tarp šių dviejų kintamųjų? + +## Dvigubos linijos diagramos + +Išbandykite daugiagubą linijinę diagramą, uždėdami dvi linijines diagramas vieną ant kitos, naudodami R `par` ir `plot` funkcijas. Mes braižysime metus x ašyje ir rodysime dvi y ašis. Taigi, parodykite derlių vienai kolonijai ir kolonijų skaičių, uždėtus vieną ant kito: + +```r +par(mar = c(5, 4, 4, 4) + 0.3) +plot(honey$year, honey$numcol, pch = 16, col = 2,type="l") +par(new = TRUE) +plot(honey$year, honey$yieldpercol, pch = 17, col = 3, + axes = FALSE, xlab = "", ylab = "",type="l") +axis(side = 4, at = pretty(range(y2))) +mtext("colony yield", side = 4, line = 3) +``` +![uždėtos diagramos](../../../../../translated_images/dual-line.fc4665f360a54018d7df9bc6abcc26460112e17dcbda18d3b9ae6109b32b36c3.lt.png) + +Nors niekas ypatingai neišsiskiria apie 2003 metus, tai leidžia mums užbaigti šią pamoką šiek tiek linksmesne nata: nors kolonijų skaičius apskritai mažėja, jų skaičius stabilizuojasi, net jei jų derlius vienai kolonijai mažėja. + +Pirmyn, bitės, pirmyn! + +🐝❤️ +## 🚀 Iššūkis + +Šioje pamokoje sužinojote daugiau apie kitus sklaidos diagramų ir linijinių tinklų, įskaitant facet grid, naudojimo būdus. Išbandykite save, sukurdami facet grid naudodami kitą duomenų rinkinį, galbūt tą, kurį naudojote prieš šias pamokas. Atkreipkite dėmesį, kiek laiko užtrunka jų kūrimas ir kaip reikia būti atsargiems dėl to, kiek tinklų reikia piešti naudojant šiuos metodus. +## [Po paskaitos: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/23) + +## Peržiūra ir savarankiškas mokymasis + +Linijinės diagramos gali būti paprastos arba gana sudėtingos. Šiek tiek pasiskaitykite [ggplot2 dokumentacijoje](https://ggplot2.tidyverse.org/reference/geom_path.html#:~:text=geom_line()%20connects%20them%20in,which%20cases%20are%20connected%20together) apie įvairius būdus, kaip jas kurti. Pabandykite patobulinti linijines diagramas, kurias sukūrėte šioje pamokoje, naudodami kitus dokumentacijoje išvardytus metodus. +## Užduotis + +[Pasinerkite į avilį](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/R/13-meaningful-vizualizations/README.md b/translations/lt/3-Data-Visualization/R/13-meaningful-vizualizations/README.md new file mode 100644 index 00000000..33476754 --- /dev/null +++ b/translations/lt/3-Data-Visualization/R/13-meaningful-vizualizations/README.md @@ -0,0 +1,182 @@ + +# Kurti prasmingas vizualizacijas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/13-MeaningfulViz.png)| +|:---:| +| Prasmingos vizualizacijos - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +> „Jei pakankamai ilgai kankinsi duomenis, jie prisipažins bet ką“ -- [Ronald Coase](https://en.wikiquote.org/wiki/Ronald_Coase) + +Viena iš pagrindinių duomenų mokslininko įgūdžių yra gebėjimas sukurti prasmingą duomenų vizualizaciją, kuri padėtų atsakyti į jums rūpimus klausimus. Prieš vizualizuodami duomenis, turite įsitikinti, kad jie buvo išvalyti ir paruošti, kaip tai darėte ankstesnėse pamokose. Po to galite pradėti spręsti, kaip geriausiai pateikti duomenis. + +Šioje pamokoje peržiūrėsite: + +1. Kaip pasirinkti tinkamą diagramos tipą +2. Kaip išvengti klaidinančių diagramų +3. Kaip dirbti su spalvomis +4. Kaip stilizuoti diagramas, kad jos būtų lengvai skaitomos +5. Kaip kurti animuotas ar 3D diagramas +6. Kaip kurti kūrybingas vizualizacijas + +## [Prieš pamokos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/24) + +## Pasirinkite tinkamą diagramos tipą + +Ankstesnėse pamokose eksperimentavote su įvairių tipų duomenų vizualizacijomis, naudodami Matplotlib ir Seaborn diagramoms kurti. Paprastai galite pasirinkti [tinkamą diagramos tipą](https://chartio.com/learn/charts/how-to-select-a-data-vizualization/) pagal klausimą, kurį norite atsakyti, naudodamiesi šia lentele: + +| Jums reikia: | Turėtumėte naudoti: | +| -------------------------- | ------------------------------- | +| Rodyti duomenų tendencijas laikui bėgant | Linijinė diagrama | +| Palyginti kategorijas | Stulpelinė, Skritulinė | +| Palyginti sumas | Skritulinė, Sudėtinė stulpelinė | +| Rodyti ryšius | Sklaidos, Linijinė, Facet, Dviguba linijinė | +| Rodyti pasiskirstymus | Sklaidos, Histogramos, Dėžutės | +| Rodyti proporcijas | Skritulinė, Žiedinė, Vaflinė | + +> ✅ Priklausomai nuo jūsų duomenų sudėties, gali tekti konvertuoti juos iš teksto į skaitinius, kad tam tikra diagrama galėtų juos palaikyti. + +## Venkite klaidinimo + +Net jei duomenų mokslininkas kruopščiai pasirenka tinkamą diagramą tinkamiems duomenims, yra daugybė būdų, kaip duomenys gali būti pateikti taip, kad įrodytų tam tikrą tašką, dažnai pažeidžiant pačius duomenis. Yra daugybė klaidinančių diagramų ir infografikų pavyzdžių! + +[![Kaip meluoja diagramos, Alberto Cairo](../../../../../translated_images/tornado.2880ffc7f135f82b5e5328624799010abefd1080ae4b7ecacbdc7d792f1d8849.lt.png)](https://www.youtube.com/watch?v=oX74Nge8Wkw "Kaip meluoja diagramos") + +> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte konferencijos pranešimą apie klaidinančias diagramas + +Ši diagrama apverčia X ašį, kad parodytų priešingą tiesai, remiantis datomis: + +![bloga diagrama 1](../../../../../translated_images/bad-chart-1.596bc93425a8ac301a28b8361f59a970276e7b961658ce849886aa1fed427341.lt.png) + +[Ši diagrama](https://media.firstcoastnews.com/assets/WTLV/images/170ae16f-4643-438f-b689-50d66ca6a8d8/170ae16f-4643-438f-b689-50d66ca6a8d8_1140x641.jpg) yra dar labiau klaidinanti, nes akis nukreipiama į dešinę, kad būtų padaryta išvada, jog laikui bėgant COVID atvejų skaičius sumažėjo įvairiose apskrityse. Tačiau, jei atidžiai pažvelgsite į datas, pastebėsite, kad jos buvo pertvarkytos, kad būtų parodyta klaidinanti mažėjimo tendencija. + +![bloga diagrama 2](../../../../../translated_images/bad-chart-2.62edf4d2f30f4e519f5ef50c07ce686e27b0196a364febf9a4d98eecd21f9f60.lt.jpg) + +Šis liūdnai pagarsėjęs pavyzdys naudoja spalvas IR apverstą Y ašį, kad suklaidintų: vietoj išvados, kad ginklų mirčių skaičius padidėjo po ginklams palankios teisės aktų priėmimo, akis apgaunama manyti, kad tiesa yra priešinga: + +![bloga diagrama 3](../../../../../translated_images/bad-chart-3.e201e2e915a230bc2cde289110604ec9abeb89be510bd82665bebc1228258972.lt.jpg) + +Ši keista diagrama rodo, kaip proporcijos gali būti manipuliuojamos, sukeliant juoką: + +![bloga diagrama 4](../../../../../translated_images/bad-chart-4.8872b2b881ffa96c3e0db10eb6aed7793efae2cac382c53932794260f7bfff07.lt.jpg) + +Palyginti nepalyginamus dalykus yra dar vienas abejotinas triukas. Yra [puiki svetainė](https://tylervigen.com/spurious-correlations), skirta „klaidingoms koreliacijoms“, kurioje pateikiami „faktai“, koreliuojantys tokius dalykus kaip skyrybų rodiklis Meino valstijoje ir margarino vartojimas. Reddit grupė taip pat renka [blogus duomenų naudojimo pavyzdžius](https://www.reddit.com/r/dataisugly/top/?t=all). + +Svarbu suprasti, kaip lengvai akis gali būti apgauta klaidinančiomis diagramomis. Net jei duomenų mokslininko ketinimai yra geri, netinkamos diagramos tipo pasirinkimas, pavyzdžiui, skritulinė diagrama, rodanti per daug kategorijų, gali būti klaidinantis. + +## Spalvos + +Kaip matėte aukščiau esančioje „Floridos ginklų smurto“ diagramoje, spalva gali suteikti papildomą prasmės sluoksnį diagramoms, ypač toms, kurios nėra sukurtos naudojant tokias bibliotekas kaip ggplot2 ir RColorBrewer, kurios turi įvairias patikrintas spalvų bibliotekas ir paletes. Jei kuriate diagramą rankiniu būdu, šiek tiek pasidomėkite [spalvų teorija](https://colormatters.com/color-and-design/basic-color-theory). + +> ✅ Kurdamas diagramas, atkreipkite dėmesį, kad prieinamumas yra svarbus vizualizacijos aspektas. Kai kurie jūsų vartotojai gali būti spalvų akli - ar jūsų diagrama gerai rodoma vartotojams su regos sutrikimais? + +Būkite atsargūs rinkdamiesi spalvas savo diagramai, nes spalva gali perteikti prasmę, kurios galbūt nenorėjote. „Rožinės damos“ aukščiau esančioje „ūgio“ diagramoje perteikia aiškiai „moterišką“ prasmę, kuri dar labiau sustiprina pačios diagramos keistumą. + +Nors [spalvų reikšmės](https://colormatters.com/color-symbolism/the-meanings-of-colors) gali skirtis skirtingose pasaulio dalyse ir keistis priklausomai nuo jų atspalvio, paprastai spalvų reikšmės apima: + +| Spalva | Reikšmė | +| ------- | ------------------- | +| raudona | galia | +| mėlyna | pasitikėjimas, lojalumas | +| geltona | laimė, atsargumas | +| žalia | ekologija, sėkmė, pavydas | +| violetinė | laimė | +| oranžinė | gyvybingumas | + +Jei jums pavesta kurti diagramą su individualiomis spalvomis, įsitikinkite, kad jūsų diagramos yra prieinamos ir kad pasirinkta spalva atitinka prasmę, kurią norite perteikti. + +## Diagramų stilius ir skaitomumas + +Diagramos nėra prasmingos, jei jos nėra lengvai skaitomos! Skirkite laiko apsvarstyti diagramos pločio ir aukščio stilių, kad jie gerai atitiktų jūsų duomenis. Jei reikia parodyti vieną kintamąjį (pvz., visas 50 valstijų), parodykite juos vertikaliai Y ašyje, jei įmanoma, kad išvengtumėte horizontalaus slinkimo. + +Pažymėkite ašis, pateikite legendą, jei reikia, ir pasiūlykite užuominas (tooltips), kad duomenys būtų geriau suprantami. + +Jei jūsų duomenys yra tekstiniai ir ilgi X ašyje, galite pakreipti tekstą, kad jis būtų lengviau skaitomas. [plot3D](https://cran.r-project.org/web/packages/plot3D/index.html) siūlo 3D diagramų kūrimą, jei jūsų duomenys tai palaiko. Naudojant šią biblioteką galima sukurti sudėtingas duomenų vizualizacijas. + +![3D diagramos](../../../../../translated_images/3d.db1734c151eee87d924989306a00e23f8cddac6a0aab122852ece220e9448def.lt.png) + +## Animacija ir 3D diagramų rodymas + +Kai kurios geriausios šių dienų duomenų vizualizacijos yra animuotos. Shirley Wu sukūrė nuostabias vizualizacijas su D3, tokias kaip '[film flowers](http://bl.ocks.org/sxywu/raw/d612c6c653fb8b4d7ff3d422be164a5d/)', kur kiekviena gėlė yra filmo vizualizacija. Kitas pavyzdys, sukurtas Guardian, yra „bussed out“, interaktyvi patirtis, derinanti vizualizacijas su Greensock ir D3 bei pasakojimo straipsnio formatą, kad parodytų, kaip NYC sprendžia benamių problemą, išsiųsdama žmones iš miesto. + +![busing](../../../../../translated_images/busing.8157cf1bc89a3f65052d362a78c72f964982ceb9dcacbe44480e35909c3dce62.lt.png) + +> „Bussed Out: How America Moves its Homeless“ iš [the Guardian](https://www.theguardian.com/us-news/ng-interactive/2017/dec/20/bussed-out-america-moves-homeless-people-country-study). Vizualizacijos: Nadieh Bremer & Shirley Wu + +Nors ši pamoka nėra pakankama, kad išsamiai išmokytų šias galingas vizualizacijos bibliotekas, išbandykite D3 Vue.js programoje, naudodami biblioteką, kad parodytumėte animuotą knygos „Pavojingi ryšiai“ socialinį tinklą. + +> „Les Liaisons Dangereuses“ yra epistolinis romanas, arba romanas, pateiktas kaip laiškų serija. Parašytas 1782 m. Choderlos de Laclos, jis pasakoja apie žiaurius, morališkai bankrutavusius socialinius manevrus dviejų pagrindinių veikėjų iš Prancūzijos aristokratijos XVIII a. pabaigoje, vikonto de Valmont ir markizės de Merteuil. Abu galiausiai žūsta, tačiau ne be didelės socialinės žalos. Romane laiškai rašomi įvairiems žmonėms jų aplinkoje, planuojant kerštą arba tiesiog siekiant sukelti problemų. Sukurkite šių laiškų vizualizaciją, kad atrastumėte pagrindinius pasakojimo veikėjus vizualiai. + +Jūs sukursite internetinę programą, kuri parodys animuotą šio socialinio tinklo vaizdą. Ji naudoja biblioteką, sukurtą [tinklo vizualizacijai](https://github.com/emiliorizzo/vue-d3-network) su Vue.js ir D3. Kai programa veikia, galite perkelti mazgus ekrane, kad pertvarkytumėte duomenis. + +![liaisons](../../../../../translated_images/liaisons.90ce7360bcf8476558f700bbbaf198ad697d5b5cb2829ba141a89c0add7c6ecd.lt.png) + +## Projektas: Sukurkite diagramą tinklui parodyti naudojant D3.js + +> Šio pamokos aplanko „solution“ aplanke rasite baigtą projektą, skirtą jūsų nuorodai. + +1. Vadovaukitės README.md failo instrukcijomis pradinio aplanko šaknyje. Įsitikinkite, kad jūsų kompiuteryje veikia NPM ir Node.js prieš diegdami projekto priklausomybes. + +2. Atidarykite `starter/src` aplanką. Rasite `assets` aplanką, kuriame yra .json failas su visais romano laiškais, sunumeruotais, su „to“ ir „from“ anotacijomis. + +3. Užbaikite kodą `components/Nodes.vue`, kad įgalintumėte vizualizaciją. Suraskite metodą, vadinamą `createLinks()` ir pridėkite šį įdėtą ciklą. + +Ciklu peržiūrėkite .json objektą, kad užfiksuotumėte „to“ ir „from“ duomenis apie laiškus ir sukurtumėte `links` objektą, kad vizualizacijos biblioteka galėtų jį naudoti: + +```javascript +//loop through letters + let f = 0; + let t = 0; + for (var i = 0; i < letters.length; i++) { + for (var j = 0; j < characters.length; j++) { + + if (characters[j] == letters[i].from) { + f = j; + } + if (characters[j] == letters[i].to) { + t = j; + } + } + this.links.push({ sid: f, tid: t }); + } + ``` + +Paleiskite savo programą iš terminalo (npm run serve) ir mėgaukitės vizualizacija! + +## 🚀 Iššūkis + +Pasidairykite internete, kad atrastumėte klaidinančias vizualizacijas. Kaip autorius apgauna vartotoją, ir ar tai tyčinis? Pabandykite pataisyti vizualizacijas, kad parodytumėte, kaip jos turėtų atrodyti. + +## [Po pamokos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/25) + +## Peržiūra ir savarankiškas mokymasis + +Štai keletas straipsnių apie klaidinančias duomenų vizualizacijas: + +https://gizmodo.com/how-to-lie-with-data-visualization-1563576606 + +http://ixd.prattsi.org/2017/12/visual-lies-usability-in-deceptive-data-visualizations/ + +Pažvelkite į šias įdomias vizualizacijas apie istorinius objektus ir artefaktus: + +https://handbook.pubpub.org/ + +Peržiūrėkite šį straipsnį apie tai, kaip animacija gali pagerinti jūsų vizualizacijas: + +https://medium.com/@EvanSinar/use-animation-to-supercharge-data-visualization-cd905a882ad4 + +## Užduotis + +[Sukurkite savo individualią vizualizaciją](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/3-Data-Visualization/README.md b/translations/lt/3-Data-Visualization/README.md new file mode 100644 index 00000000..8beffc47 --- /dev/null +++ b/translations/lt/3-Data-Visualization/README.md @@ -0,0 +1,42 @@ + +# Vizualizacijos + +![bitė ant levandos žiedo](../../../translated_images/bee.0aa1d91132b12e3a8994b9ca12816d05ce1642010d9b8be37f8d37365ba845cf.lt.jpg) +> Nuotrauka Jenna LeeUnsplash + +Duomenų vizualizavimas yra viena svarbiausių duomenų mokslininko užduočių. Vaizdai verti tūkstančio žodžių, o vizualizacija gali padėti atskleisti įvairius įdomius jūsų duomenų aspektus, tokius kaip šuoliai, anomalijos, grupavimai, tendencijos ir dar daugiau, kas padeda suprasti istoriją, kurią jūsų duomenys bando papasakoti. + +Šiose penkiose pamokose tyrinėsite gamtos duomenis ir kursite įdomias bei gražias vizualizacijas naudodami įvairias technikas. + +| Temos numeris | Tema | Susieta pamoka | Autorius | +| :-----------: | :--: | :-----------: | :----: | +| 1. | Kiekių vizualizavimas | | | +| 2. | Pasiskirstymo vizualizavimas | | | +| 3. | Proporcijų vizualizavimas | | | +| 4. | Ryšių vizualizavimas | | | +| 5. | Reikšmingų vizualizacijų kūrimas | | | + +### Kreditas + +Šios vizualizacijų pamokos buvo parašytos su 🌸 [Jen Looper](https://twitter.com/jenlooper), [Jasleen Sondhi](https://github.com/jasleen101010) ir [Vidushi Gupta](https://github.com/Vidushi-Gupta). + +🍯 Duomenys apie JAV medaus gamybą yra paimti iš Jessica Li projekto [Kaggle](https://www.kaggle.com/jessicali9530/honey-production). [Duomenys](https://usda.library.cornell.edu/concern/publications/rn301137d) yra gauti iš [Jungtinių Valstijų Žemės ūkio departamento](https://www.nass.usda.gov/About_NASS/index.php). + +🍄 Duomenys apie grybus taip pat yra paimti iš [Kaggle](https://www.kaggle.com/hatterasdunton/mushroom-classification-updated-dataset), atnaujinti Hatteras Dunton. Šis duomenų rinkinys apima hipotetinių mėginių aprašymus, atitinkančius 23 rūšių grybus iš Agaricus ir Lepiota šeimų. Grybai aprašyti remiantis „The Audubon Society Field Guide to North American Mushrooms“ (1981). Šis duomenų rinkinys buvo perduotas UCI ML 27 1987 metais. + +🦆 Duomenys apie Minesotos paukščius yra iš [Kaggle](https://www.kaggle.com/hannahcollins/minnesota-birds), surinkti iš [Wikipedia](https://en.wikipedia.org/wiki/List_of_birds_of_Minnesota) Hannah Collins. + +Visi šie duomenų rinkiniai yra licencijuoti pagal [CC0: Creative Commons](https://creativecommons.org/publicdomain/zero/1.0/). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/14-Introduction/README.md b/translations/lt/4-Data-Science-Lifecycle/14-Introduction/README.md new file mode 100644 index 00000000..aa3bb22d --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/14-Introduction/README.md @@ -0,0 +1,123 @@ + +# Duomenų mokslo gyvavimo ciklo įvadas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/14-DataScience-Lifecycle.png)| +|:---:| +| Duomenų mokslo gyvavimo ciklo įvadas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [Prieš paskaitą: testas](https://red-water-0103e7a0f.azurestaticapps.net/quiz/26) + +Šiuo metu tikriausiai jau supratote, kad duomenų mokslas yra procesas. Šį procesą galima suskirstyti į 5 etapus: + +- Duomenų rinkimas +- Apdorojimas +- Analizė +- Komunikacija +- Priežiūra + +Šioje pamokoje daugiausia dėmesio skiriama trims gyvavimo ciklo dalims: duomenų rinkimui, apdorojimui ir priežiūrai. + +![Duomenų mokslo gyvavimo ciklo diagrama](../../../../translated_images/data-science-lifecycle.a1e362637503c4fb0cd5e859d7552edcdb4aa629a279727008baa121f2d33f32.lt.jpg) +> Nuotrauka iš [Berkeley School of Information](https://ischoolonline.berkeley.edu/data-science/what-is-data-science/) + +## Duomenų rinkimas + +Pirmasis gyvavimo ciklo etapas yra labai svarbus, nes nuo jo priklauso visi kiti etapai. Iš esmės tai yra dviejų etapų derinys: duomenų gavimas ir tikslo bei problemų, kurias reikia spręsti, apibrėžimas. +Projekto tikslų apibrėžimas reikalauja gilesnio problemos ar klausimo konteksto supratimo. Pirmiausia reikia nustatyti ir įtraukti tuos, kuriems reikia išspręsti problemą. Tai gali būti verslo suinteresuotosios šalys arba projekto rėmėjai, kurie gali padėti nustatyti, kas ar kas gaus naudos iš šio projekto, taip pat ką ir kodėl jiems to reikia. Aiškiai apibrėžtas tikslas turėtų būti išmatuojamas ir kiekybiškai įvertinamas, kad būtų galima nustatyti priimtiną rezultatą. + +Klausimai, kuriuos gali užduoti duomenų mokslininkas: +- Ar ši problema jau buvo nagrinėta anksčiau? Ką pavyko atrasti? +- Ar visi dalyviai supranta tikslą ir paskirtį? +- Ar yra neaiškumų ir kaip juos sumažinti? +- Kokie yra apribojimai? +- Kaip gali atrodyti galutinis rezultatas? +- Kiek turime išteklių (laiko, žmonių, skaičiavimo galimybių)? + +Kitas žingsnis – nustatyti, surinkti ir galiausiai ištirti duomenis, reikalingus šiems tikslams pasiekti. Šiame duomenų gavimo etape duomenų mokslininkai taip pat turi įvertinti duomenų kiekį ir kokybę. Tai reikalauja tam tikro duomenų tyrimo, kad būtų patvirtinta, jog surinkti duomenys padės pasiekti norimą rezultatą. + +Klausimai, kuriuos gali užduoti duomenų mokslininkas apie duomenis: +- Kokie duomenys jau yra prieinami? +- Kas yra šių duomenų savininkas? +- Kokie yra privatumo klausimai? +- Ar turiu pakankamai duomenų šiai problemai išspręsti? +- Ar duomenų kokybė yra tinkama šiai problemai? +- Jei per šiuos duomenis atrasiu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perapibrėžimą? + +## Apdorojimas + +Gyvavimo ciklo apdorojimo etapas orientuojasi į duomenų modeliavimą ir šablonų atradimą. Kai kurios technikos, naudojamos šiame etape, reikalauja statistinių metodų, kad būtų galima atskleisti šablonus. Paprastai tai būtų sudėtinga užduotis žmogui, dirbančiam su dideliais duomenų rinkiniais, todėl procesui paspartinti naudojami kompiuteriai. Šiame etape duomenų mokslas ir mašininis mokymasis susikerta. Kaip sužinojote pirmoje pamokoje, mašininis mokymasis yra modelių kūrimo procesas, siekiant suprasti duomenis. Modeliai yra kintamųjų santykių duomenyse reprezentacija, padedanti prognozuoti rezultatus. + +Įprastos technikos, naudojamos šiame etape, yra aptartos pradedančiųjų mašininio mokymosi kurse. Sekite nuorodas, kad sužinotumėte daugiau apie jas: + +- [Klasifikacija](https://github.com/microsoft/ML-For-Beginners/tree/main/4-Classification): Duomenų organizavimas į kategorijas efektyvesniam naudojimui. +- [Grupavimas](https://github.com/microsoft/ML-For-Beginners/tree/main/5-Clustering): Duomenų grupavimas į panašias grupes. +- [Regresija](https://github.com/microsoft/ML-For-Beginners/tree/main/2-Regression): Kintamųjų santykių nustatymas, siekiant prognozuoti ar numatyti vertes. + +## Priežiūra + +Gyvavimo ciklo diagramoje galite pastebėti, kad priežiūra yra tarp duomenų rinkimo ir apdorojimo. Priežiūra yra nuolatinis procesas, apimantis duomenų valdymą, saugojimą ir apsaugą viso projekto metu, ir turėtų būti svarstoma viso projekto eigoje. + +### Duomenų saugojimas + +Kaip ir kur duomenys saugomi, gali turėti įtakos saugojimo kaštams bei duomenų prieigos greičiui. Tokius sprendimus dažniausiai priima ne vien duomenų mokslininkai, tačiau jie gali turėti įtakos tam, kaip dirbama su duomenimis, atsižvelgiant į jų saugojimo būdą. + +Štai keletas šiuolaikinių duomenų saugojimo sistemų aspektų, kurie gali turėti įtakos šiems pasirinkimams: + +**Vietinis vs nuotolinis saugojimas vs viešas ar privatus debesis** + +Vietinis saugojimas reiškia duomenų valdymą savo įrangoje, pavyzdžiui, serveryje su kietaisiais diskais, o nuotolinis saugojimas priklauso nuo įrangos, kuri jums nepriklauso, pavyzdžiui, duomenų centro. Viešasis debesis yra populiarus pasirinkimas, kai nereikia žinoti, kaip ar kur tiksliai duomenys saugomi. Viešasis debesis reiškia bendrą infrastruktūrą, kuria naudojasi visi debesies vartotojai. Kai kurios organizacijos turi griežtas saugumo politikos taisykles, reikalaujančias visiškos prieigos prie įrangos, kurioje saugomi duomenys, ir pasirenka privatų debesį, kuris teikia savo debesų paslaugas. Apie duomenis debesyje sužinosite daugiau [vėlesnėse pamokose](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/5-Data-Science-In-Cloud). + +**Šalti vs karšti duomenys** + +Mokant modelius, gali prireikti daugiau mokymo duomenų. Jei esate patenkinti savo modeliu, vis tiek gali būti gaunami nauji duomenys, kad modelis atliktų savo paskirtį. Bet kuriuo atveju, kaupiant daugiau duomenų, didės jų saugojimo ir prieigos kaštai. Retai naudojamų duomenų, vadinamų šaltaisiais duomenimis, atskyrimas nuo dažnai naudojamų karštųjų duomenų gali būti pigesnis saugojimo sprendimas naudojant aparatinę ar programinę įrangą. Jei reikia pasiekti šaltuosius duomenis, jų gavimas gali užtrukti šiek tiek ilgiau nei karštųjų duomenų. + +### Duomenų valdymas + +Dirbdami su duomenimis galite pastebėti, kad kai kuriuos duomenis reikia išvalyti naudojant technikas, aptartas pamokoje apie [duomenų paruošimą](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/2-Working-With-Data/08-data-preparation), kad būtų galima sukurti tikslius modelius. Kai gaunami nauji duomenys, jiems reikės taikyti tas pačias technikas, kad būtų išlaikyta kokybės nuoseklumas. Kai kurie projektai apima automatizuotų įrankių naudojimą duomenų valymui, agregavimui ir suspaudimui prieš perkeliant juos į galutinę vietą. Azure Data Factory yra vienas iš tokių įrankių pavyzdžių. + +### Duomenų apsauga + +Vienas pagrindinių duomenų apsaugos tikslų yra užtikrinti, kad tie, kurie dirba su duomenimis, kontroliuotų, kas yra renkama ir kokiame kontekste tai naudojama. Duomenų apsauga apima prieigos ribojimą tik tiems, kuriems jos reikia, vietinių įstatymų ir reglamentų laikymąsi bei etikos standartų laikymąsi, kaip aptarta [etikos pamokoje](https://github.com/microsoft/Data-Science-For-Beginners/tree/main/1-Introduction/02-ethics). + +Štai keletas dalykų, kuriuos komanda gali daryti, atsižvelgdama į saugumą: +- Užtikrinti, kad visi duomenys būtų užšifruoti +- Suteikti klientams informaciją apie tai, kaip jų duomenys naudojami +- Pašalinti duomenų prieigą tiems, kurie paliko projektą +- Leisti tik tam tikriems projekto nariams keisti duomenis + +## 🚀 Iššūkis + +Yra daug duomenų mokslo gyvavimo ciklo versijų, kuriose kiekvienas etapas gali turėti skirtingus pavadinimus ir etapų skaičių, tačiau jose bus tie patys procesai, aptarti šioje pamokoje. + +Išnagrinėkite [Komandos duomenų mokslo proceso gyvavimo ciklą](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/lifecycle) ir [Kryžminės pramonės standartinį duomenų gavybos procesą](https://www.datascience-pm.com/crisp-dm-2/). Įvardykite 3 panašumus ir skirtumus tarp jų. + +|Komandos duomenų mokslo procesas (TDSP)|Kryžminės pramonės standartinis duomenų gavybos procesas (CRISP-DM)| +|--|--| +|![Komandos duomenų mokslo gyvavimo ciklas](../../../../translated_images/tdsp-lifecycle2.e19029d598e2e73d5ef8a4b98837d688ec6044fe332c905d4dbb69eb6d5c1d96.lt.png) | ![Duomenų mokslo proceso aljanso vaizdas](../../../../translated_images/CRISP-DM.8bad2b4c66e62aa75278009e38e3e99902c73b0a6f63fd605a67c687a536698c.lt.png) | +| Vaizdas iš [Microsoft](https://docs.microsoft.comazure/architecture/data-science-process/lifecycle) | Vaizdas iš [Duomenų mokslo proceso aljanso](https://www.datascience-pm.com/crisp-dm-2/) | + +## [Po paskaitos: testas](https://red-water-0103e7a0f.azurestaticapps.net/quiz/27) + +## Apžvalga ir savarankiškas mokymasis + +Duomenų mokslo gyvavimo ciklo taikymas apima įvairius vaidmenis ir užduotis, kur kai kurie gali būti orientuoti į tam tikras kiekvieno etapo dalis. Komandos duomenų mokslo procesas pateikia keletą išteklių, kurie paaiškina vaidmenų ir užduočių tipus, kuriuos kažkas gali turėti projekte. + +* [Komandos duomenų mokslo proceso vaidmenys ir užduotys](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/roles-tasks) +* [Duomenų mokslo užduočių vykdymas: tyrimas, modeliavimas ir diegimas](https://docs.microsoft.com/en-us/azure/architecture/data-science-process/execute-data-science-tasks) + +## Užduotis + +[Duomenų rinkinio vertinimas](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipiame dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/14-Introduction/assignment.md b/translations/lt/4-Data-Science-Lifecycle/14-Introduction/assignment.md new file mode 100644 index 00000000..b27c1dce --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/14-Introduction/assignment.md @@ -0,0 +1,37 @@ + +# Duomenų rinkinio vertinimas + +Klientas kreipėsi į jūsų komandą, prašydamas pagalbos tiriant taksi klientų sezoninius išlaidų įpročius Niujorke. + +Jie nori sužinoti: **Ar geltonojo taksi keleiviai Niujorke žiemą vairuotojams palieka daugiau arbatpinigių nei vasarą?** + +Jūsų komanda yra [Fiksavimo](Readme.md#Capturing) etape duomenų mokslo gyvavimo cikle, o jūs esate atsakingas už duomenų rinkinio tvarkymą. Jums buvo pateiktas užrašų knygelės failas ir [duomenys](../../../../data/taxi.csv), kuriuos reikia ištirti. + +Šiame kataloge yra [užrašų knygelė](notebook.ipynb), kurioje naudojama Python programavimo kalba geltonojo taksi kelionių duomenims įkelti iš [Niujorko taksi ir limuzinų komisijos](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets). +Taip pat galite atidaryti taksi duomenų failą teksto redaktoriuje arba skaičiuoklių programinėje įrangoje, pavyzdžiui, Excel. + +## Instrukcijos + +- Įvertinkite, ar šio duomenų rinkinio duomenys gali padėti atsakyti į klausimą. +- Išnagrinėkite [Niujorko atvirų duomenų katalogą](https://data.cityofnewyork.us/browse?sortBy=most_accessed&utf8=%E2%9C%93). Nustatykite papildomą duomenų rinkinį, kuris galėtų būti naudingas atsakant į kliento klausimą. +- Parašykite 3 klausimus, kuriuos užduotumėte klientui, kad geriau suprastumėte problemą ir gautumėte daugiau paaiškinimų. + +Pasinaudokite [duomenų rinkinio žodynu](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) ir [naudotojo vadovu](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf), kad gautumėte daugiau informacijos apie duomenis. + +## Vertinimo kriterijai + +Pavyzdinis | Tinkamas | Reikia patobulinimų +--- | --- | --- | --- + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/15-analyzing/README.md b/translations/lt/4-Data-Science-Lifecycle/15-analyzing/README.md new file mode 100644 index 00000000..b5a95537 --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/15-analyzing/README.md @@ -0,0 +1,62 @@ + +# Duomenų mokslo gyvavimo ciklas: Analizavimas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/15-Analyzing.png)| +|:---:| +| Duomenų mokslo gyvavimo ciklas: Analizavimas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## Prieš paskaitą: testas + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28) + +Analizavimas duomenų gyvavimo cikle patvirtina, kad duomenys gali atsakyti į pateiktus klausimus arba išspręsti tam tikrą problemą. Šis etapas taip pat gali būti skirtas patvirtinti, kad modelis tinkamai sprendžia šiuos klausimus ir problemas. Ši pamoka orientuota į duomenų tyrimo analizę (EDA), kuri apima metodus, skirtus apibrėžti duomenų savybes ir ryšius, bei gali būti naudojama duomenų paruošimui modeliavimui. + +Naudosime pavyzdinį duomenų rinkinį iš [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1), kad parodytume, kaip tai galima pritaikyti naudojant Python ir Pandas biblioteką. Šis duomenų rinkinys apima dažniausiai pasitaikančių žodžių skaičių el. laiškuose, o šių laiškų šaltiniai yra anonimiški. Naudokite [užrašų knygelę](notebook.ipynb) šiame kataloge, kad galėtumėte sekti pamoką. + +## Duomenų tyrimo analizė + +Duomenų surinkimo etapas gyvavimo cikle yra tas, kuriame duomenys yra įgyjami, taip pat apibrėžiamos problemos ir klausimai. Bet kaip žinoti, ar duomenys gali padėti pasiekti galutinį rezultatą? +Priminkime, kad duomenų mokslininkas gali užduoti šiuos klausimus, kai gauna duomenis: +- Ar turiu pakankamai duomenų šiai problemai išspręsti? +- Ar duomenų kokybė yra tinkama šiai problemai? +- Jei per šiuos duomenis atrandu papildomos informacijos, ar turėtume apsvarstyti tikslų pakeitimą ar perdefinavimą? + +Duomenų tyrimo analizė yra procesas, leidžiantis geriau pažinti duomenis ir gali būti naudojamas atsakyti į šiuos klausimus, taip pat nustatyti iššūkius, susijusius su duomenų rinkiniu. Pažvelkime į kai kuriuos metodus, naudojamus šiam tikslui pasiekti. + +## Duomenų profiliavimas, aprašomoji statistika ir Pandas +Kaip įvertinti, ar turime pakankamai duomenų problemai išspręsti? Duomenų profiliavimas gali apibendrinti ir surinkti bendrą informaciją apie mūsų duomenų rinkinį naudojant aprašomosios statistikos metodus. Duomenų profiliavimas padeda suprasti, kas mums yra prieinama, o aprašomoji statistika padeda suprasti, kiek dalykų yra prieinama. + +Keletą ankstesnių pamokų metu naudojome Pandas, kad pateiktume aprašomąją statistiką su [`describe()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html). Ji pateikia skaičių, maksimalias ir minimalias reikšmes, vidurkį, standartinį nuokrypį ir kvantiles skaitmeniniams duomenims. Naudojant aprašomąją statistiką, tokią kaip `describe()` funkcija, galima įvertinti, kiek turime duomenų ir ar jų reikia daugiau. + +## Imčių ėmimas ir užklausos +Didelio duomenų rinkinio tyrimas gali būti labai daug laiko reikalaujantis procesas, kurį dažniausiai atlieka kompiuteris. Tačiau imčių ėmimas yra naudingas įrankis, leidžiantis geriau suprasti duomenis ir tai, ką jie reprezentuoja. Naudodami imtį, galite taikyti tikimybių ir statistikos metodus, kad padarytumėte bendras išvadas apie savo duomenis. Nors nėra nustatytos taisyklės, kiek duomenų reikėtų imti, svarbu pažymėti, kad kuo daugiau duomenų imsite, tuo tikslesnę bendrą išvadą galėsite padaryti apie duomenis. + +Pandas bibliotekoje yra [`sample()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html), kurioje galite nurodyti, kiek atsitiktinių imčių norite gauti ir naudoti. + +Bendros duomenų užklausos gali padėti atsakyti į kai kuriuos bendrus klausimus ir teorijas, kurias galite turėti. Skirtingai nuo imčių ėmimo, užklausos leidžia jums kontroliuoti ir susitelkti į konkrečias duomenų dalis, apie kurias turite klausimų. +[`query()` funkcija](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) Pandas bibliotekoje leidžia pasirinkti stulpelius ir gauti paprastus atsakymus apie duomenis per gautas eilutes. + +## Tyrimas naudojant vizualizacijas +Jums nereikia laukti, kol duomenys bus visiškai išvalyti ir išanalizuoti, kad pradėtumėte kurti vizualizacijas. Iš tiesų, vizualinis atvaizdavimas tyrimo metu gali padėti identifikuoti duomenų modelius, ryšius ir problemas. Be to, vizualizacijos suteikia galimybę bendrauti su tais, kurie nėra tiesiogiai susiję su duomenų valdymu, ir gali būti galimybė pasidalinti bei patikslinti papildomus klausimus, kurie nebuvo sprendžiami surinkimo etape. Žr. [Vizualizacijų skyrių](../../../../../../../../../3-Data-Visualization), kad sužinotumėte daugiau apie populiarius būdus tyrinėti vizualiai. + +## Tyrimas siekiant nustatyti neatitikimus +Visos šios pamokos temos gali padėti identifikuoti trūkstamas ar nesuderinamas reikšmes, tačiau Pandas suteikia funkcijas, leidžiančias patikrinti kai kurias iš jų. [isna() arba isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) gali patikrinti trūkstamas reikšmes. Vienas svarbus aspektas, tyrinėjant šias reikšmes jūsų duomenyse, yra suprasti, kodėl jos atsirado. Tai gali padėti nuspręsti, kokius [veiksmus reikėtų atlikti, kad jas išspręstumėte](/2-Working-With-Data/08-data-preparation/notebook.ipynb). + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27) + +## Užduotis + +[Tyrimas atsakymams rasti](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/15-analyzing/assignment.md b/translations/lt/4-Data-Science-Lifecycle/15-analyzing/assignment.md new file mode 100644 index 00000000..e1b50f3c --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/15-analyzing/assignment.md @@ -0,0 +1,36 @@ + +# Atsakymų paieška + +Tai yra tęsinys ankstesnės pamokos [užduoties](../14-Introduction/assignment.md), kurioje trumpai apžvelgėme duomenų rinkinį. Dabar giliau pažvelgsime į duomenis. + +Dar kartą, klausimas, į kurį klientas nori gauti atsakymą: **Ar Niujorko geltonųjų taksi keleiviai žiemą vairuotojams palieka daugiau arbatpinigių nei vasarą?** + +Jūsų komanda yra [Analizės](README.md) etape Duomenų mokslo gyvavimo cikle, kur esate atsakingi už duomenų rinkinio tyrimą ir analizę. Jums buvo pateiktas užrašų knygelė ir duomenų rinkinys, kuriame yra 200 taksi operacijų iš 2019 m. sausio ir liepos mėnesių. + +## Instrukcijos + +Šiame kataloge yra [užrašų knygelė](assignment.ipynb) ir duomenys iš [Taksi ir limuzinų komisijos](https://docs.microsoft.com/en-us/azure/open-datasets/dataset-taxi-yellow?tabs=azureml-opendatasets). Daugiau informacijos apie duomenis rasite [duomenų žodyne](https://www1.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf) ir [naudotojo vadove](https://www1.nyc.gov/assets/tlc/downloads/pdf/trip_record_user_guide.pdf). + +Naudokite kai kurias šioje pamokoje aptartas technikas, kad atliktumėte savo EDA užrašų knygelėje (jei reikia, pridėkite papildomų langelių) ir atsakykite į šiuos klausimus: + +- Kokie kiti duomenų veiksniai galėtų turėti įtakos arbatpinigių sumai? +- Kokios stulpeliai greičiausiai nebus reikalingi atsakant į kliento klausimus? +- Remiantis tuo, kas iki šiol pateikta, ar duomenys rodo kokius nors sezoninio arbatpinigių elgesio įrodymus? + +## Vertinimo kriterijai + +Pavyzdingas | Tinkamas | Reikia patobulinimų +--- | --- | --- + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/16-communication/README.md b/translations/lt/4-Data-Science-Lifecycle/16-communication/README.md new file mode 100644 index 00000000..b4b62149 --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/16-communication/README.md @@ -0,0 +1,220 @@ + +# Duomenų mokslo ciklas: Komunikacija + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/16-Communicating.png)| +|:---:| +| Duomenų mokslo ciklas: Komunikacija - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +## [Prieš paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/30) + +Patikrinkite savo žinias apie tai, kas laukia, atlikdami aukščiau pateiktą prieš paskaitos testą! + +# Įvadas + +### Kas yra komunikacija? +Pradėkime šią pamoką apibrėždami, ką reiškia komunikuoti. **Komunikuoti – tai perduoti arba keistis informacija.** Informacija gali būti idėjos, mintys, jausmai, žinutės, slapti signalai, duomenys – bet kas, ką **_siuntėjas_** (tas, kuris siunčia informaciją) nori, kad **_gavėjas_** (tas, kuris gauna informaciją) suprastų. Šioje pamokoje siuntėjus vadinsime komunikatoriais, o gavėjus – auditorija. + +### Duomenų komunikacija ir pasakojimas +Suprantame, kad komunikuojant tikslas yra perduoti arba keistis informacija. Tačiau komunikuojant duomenis, jūsų tikslas neturėtų būti vien tik skaičių perdavimas auditorijai. Jūsų tikslas turėtų būti perteikti istoriją, kurią pagrindžia jūsų duomenys – efektyvi duomenų komunikacija ir pasakojimas yra neatsiejami. Auditorija labiau prisimins jūsų pasakojamą istoriją nei pateiktą skaičių. Vėliau šioje pamokoje aptarsime keletą būdų, kaip galite naudoti pasakojimą, kad efektyviau perteiktumėte savo duomenis. + +### Komunikacijos tipai +Šioje pamokoje bus aptarti du skirtingi komunikacijos tipai: vienpusė komunikacija ir dvikryptė komunikacija. + +**Vienpusė komunikacija** vyksta, kai siuntėjas perduoda informaciją gavėjui, nesitikėdamas jokio grįžtamojo ryšio ar atsakymo. Vienpusės komunikacijos pavyzdžių matome kasdien – masiniai el. laiškai, naujienos, kurios praneša naujausias istorijas, ar net televizijos reklamos, kurios informuoja, kodėl jų produktas yra puikus. Šiais atvejais siuntėjas nesiekia keistis informacija, o tik perduoti ją. + +**Dvikryptė komunikacija** vyksta, kai visos dalyvaujančios šalys veikia ir kaip siuntėjai, ir kaip gavėjai. Siuntėjas pradeda komunikuoti su gavėju, o gavėjas pateikia grįžtamąjį ryšį ar atsakymą. Dvikryptė komunikacija yra tai, ką tradiciškai įsivaizduojame, kai kalbame apie komunikaciją. Paprastai galvojame apie žmones, kurie bendrauja – asmeniškai, telefonu, socialiniuose tinkluose ar žinutėmis. + +Komunikuojant duomenis, bus atvejų, kai naudosite vienpusę komunikaciją (pvz., pristatydami konferencijoje ar didelėje grupėje, kur klausimai nebus užduodami iš karto po pristatymo), ir atvejų, kai naudosite dvikryptę komunikaciją (pvz., naudodami duomenis, kad įtikintumėte kelis suinteresuotus asmenis ar įtikintumėte komandos narį, kad verta skirti laiko ir pastangų kuriant naują sprendimą). + +# Efektyvi komunikacija + +### Jūsų atsakomybės kaip komunikatoriaus +Komunikuojant jūsų darbas yra užtikrinti, kad gavėjas (-ai) suprastų informaciją, kurią norite perduoti. Komunikuojant duomenis, nenorite, kad gavėjai tiesiog įsimintų skaičius – norite, kad jie suprastų istoriją, kurią pagrindžia jūsų duomenys. Geras duomenų komunikatorius yra geras pasakotojas. + +Kaip pasakoti istoriją naudojant duomenis? Yra begalė būdų, tačiau žemiau pateikiame 6, kuriuos aptarsime šioje pamokoje: +1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą +2. Pradėkite nuo galutinio tikslo +3. Prieikite prie to kaip prie tikros istorijos +4. Naudokite prasmingus žodžius ir frazes +5. Naudokite emocijas + +Kiekviena iš šių strategijų bus išsamiau paaiškinta žemiau. + +### 1. Supraskite savo auditoriją, kanalą ir komunikacijos metodą +Bendravimo būdas su šeimos nariais greičiausiai skiriasi nuo bendravimo su draugais. Tikriausiai naudojate skirtingus žodžius ir frazes, kuriuos žmonės, su kuriais kalbate, labiau supras. Tą patį požiūrį turėtumėte taikyti komunikuodami duomenis. Pagalvokite, su kuo bendraujate. Pagalvokite apie jų tikslus ir kontekstą, kurį jie turi apie situaciją, kurią jiems aiškinate. + +Daugumą savo auditorijos galite suskirstyti į kategorijas. _Harvardo verslo apžvalgos_ straipsnyje „[Kaip pasakoti istoriją naudojant duomenis](http://blogs.hbr.org/2013/04/how-to-tell-a-story-with-data/)“ Dell vykdomasis strategas Jim Stikeleather išskiria penkias auditorijų kategorijas: + +- **Naujokas**: pirmas susidūrimas su tema, tačiau nenori per daug supaprastinimo +- **Bendrasis**: susipažinęs su tema, bet ieško apžvalgos ir pagrindinių temų +- **Vadovaujantis**: išsamus, praktiškai pritaikomas supratimas apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių +- **Ekspertas**: daugiau tyrinėjimo ir atradimų, mažiau pasakojimo, su daug detalių +- **Vadovas**: turi laiko tik suprasti reikšmę ir išvadas, pagrįstas tikimybių svoriu + +Šios kategorijos gali padėti nuspręsti, kaip pateikti duomenis savo auditorijai. + +Be auditorijos kategorijos, taip pat turėtumėte atsižvelgti į kanalą, kurį naudojate bendraudami su auditorija. Jūsų požiūris turėtų šiek tiek skirtis, jei rašote memorandumą ar el. laišką, palyginti su susitikimu ar pristatymu konferencijoje. + +Be to, kad suprastumėte savo auditoriją, svarbu žinoti, kaip su ja bendrausite (naudodami vienpusę ar dvikryptę komunikaciją). + +Jei bendraujate su dauguma naujokų auditorijos ir naudojate vienpusę komunikaciją, pirmiausia turite šviesti auditoriją ir suteikti jai tinkamą kontekstą. Tada turite pateikti savo duomenis ir paaiškinti, ką jie reiškia ir kodėl jie svarbūs. Šiuo atveju turėtumėte būti itin aiškūs, nes jūsų auditorija negalės užduoti tiesioginių klausimų. + +Jei bendraujate su dauguma vadovaujančios auditorijos ir naudojate dvikryptę komunikaciją, greičiausiai nereikės šviesti auditorijos ar suteikti jai daug konteksto. Galbūt galėsite iš karto pradėti diskusiją apie surinktus duomenis ir jų svarbą. Tačiau šioje situacijoje turėtumėte sutelkti dėmesį į laiką ir savo pristatymo kontrolę. Naudojant dvikryptę komunikaciją (ypač su vadovaujančia auditorija, kuri siekia „praktiškai pritaikomo supratimo apie sudėtingumus ir tarpusavio ryšius su prieiga prie detalių“), diskusijos metu gali kilti klausimų, kurie gali nukreipti pokalbį nuo jūsų pasakojamos istorijos. Kai taip nutinka, galite imtis veiksmų ir grąžinti diskusiją į jūsų pasakojimą. + +### 2. Pradėkite nuo galutinio tikslo +Pradėti nuo galutinio tikslo reiškia suprasti, kokias išvadas norite, kad jūsų auditorija padarytų, dar prieš pradėdami su ja bendrauti. Apgalvojimas, ką norite, kad jūsų auditorija suprastų iš anksto, gali padėti sukurti istoriją, kurią auditorija galės sekti. Pradėti nuo galutinio tikslo tinka tiek vienpusėje, tiek dvikryptėje komunikacijoje. + +Kaip pradėti nuo galutinio tikslo? Prieš komunikuodami savo duomenis, užsirašykite pagrindines išvadas. Tada kiekviename pasiruošimo etape klauskite savęs: „Kaip tai integruojasi į istoriją, kurią pasakoju?“ + +Būkite atsargūs – nors pradėti nuo galutinio tikslo yra idealu, nenorite komunikuoti tik tų duomenų, kurie palaiko jūsų numatytas išvadas. Tai vadinama „vyšnių rinkimu“, kai komunikatorius pateikia tik tuos duomenis, kurie palaiko jo teiginį, ir ignoruoja visus kitus duomenis. + +Jei visi surinkti duomenys aiškiai palaiko jūsų numatytas išvadas – puiku. Tačiau jei yra duomenų, kurie nepalaiko jūsų išvadų arba netgi palaiko priešingą argumentą, turėtumėte pateikti ir tuos duomenis. Jei taip nutinka, būkite atviri su savo auditorija ir paaiškinkite, kodėl nusprendėte laikytis savo istorijos, nors ne visi duomenys ją palaiko. + +### 3. Prieikite prie to kaip prie tikros istorijos +Tradicinė istorija vyksta 5 fazėmis. Galbūt esate girdėję šias fazes išreikštas kaip Įžanga, Didėjanti įtampa, Kulminacija, Mažėjanti įtampa ir Pabaiga. Arba lengviau įsimenamus: Kontekstas, Konfliktas, Kulminacija, Sprendimas, Išvada. Komunikuodami savo duomenis ir istoriją, galite taikyti panašų požiūrį. + +Galite pradėti nuo konteksto, nustatyti sceną ir užtikrinti, kad jūsų auditorija būtų tame pačiame puslapyje. Tada pristatykite konfliktą. Kodėl reikėjo rinkti šiuos duomenis? Kokias problemas siekėte išspręsti? Po to – kulminacija. Kokie yra duomenys? Ką jie reiškia? Kokius sprendimus duomenys siūlo? Tada pereikite prie sprendimo, kur galite pakartoti problemą ir siūlomus sprendimus. Galiausiai – išvada, kurioje galite apibendrinti pagrindines išvadas ir rekomenduojamus kitus žingsnius. + +### 4. Naudokite prasmingus žodžius ir frazes +Jei dirbtume kartu prie produkto, ir aš jums pasakyčiau: „Mūsų vartotojams užtrunka ilgai prisijungti prie mūsų platformos“, kiek laiko jūs įsivaizduotumėte, kad „ilgai“ reiškia? Valandą? Savaitę? Sunku žinoti. O jei tą patį pasakyčiau visai auditorijai? Kiekvienas auditorijos narys galėtų turėti skirtingą supratimą apie tai, kiek laiko vartotojams užtrunka prisijungti prie mūsų platformos. + +Vietoj to, ką jei pasakyčiau: „Mūsų vartotojams vidutiniškai užtrunka 3 minutes prisijungti ir pradėti naudotis mūsų platforma.“ + +Šis pranešimas yra aiškesnis. Komunikuojant duomenis, gali būti lengva manyti, kad visi auditorijoje mąsto taip pat kaip jūs. Tačiau taip nėra visada. Aiškumo užtikrinimas apie jūsų duomenis ir jų reikšmę yra viena iš jūsų, kaip komunikatoriaus, atsakomybių. Jei duomenys ar jūsų istorija nėra aiškūs, auditorijai bus sunku sekti, ir mažiau tikėtina, kad jie supras jūsų pagrindines išvadas. + +Galite aiškiau komunikuoti duomenis, naudodami prasmingus žodžius ir frazes, o ne neaiškius. Žemiau pateikiami keli pavyzdžiai. + +- Turėjome *įspūdingus* metus! + - Vienas žmogus gali manyti, kad įspūdingi metai reiškia 2%–3% pajamų padidėjimą, o kitas – 50%–60%. +- Mūsų vartotojų sėkmės rodikliai *drastiškai* padidėjo. + - Kiek didelis padidėjimas yra drastiškas? +- Šiam projektui reikės *reikšmingų* pastangų. + - Kiek pastangų yra reikšminga? + +Naudoti neaiškius žodžius gali būti naudinga kaip įžanga į daugiau duomenų arba kaip santrauka istorijos, kurią ką tik papasakojote. Tačiau apsvarstykite galimybę užtikrinti, kad kiekviena jūsų pristatymo dalis būtų aiški auditorijai. + +### 5. Naudokite emocijas +Emocijos yra svarbios pasakojime. Jos dar svarbesnės, kai pasakojate istoriją su duomenimis. Komunikuojant duomenis, viskas sukasi apie išvadas, kurias norite, kad jūsų auditorija padarytų. Sukeldami emocijas auditorijoje, padedate jiems įsijausti ir padidinate tikimybę, kad jie imsis veiksmų. Emocijos taip pat padidina tikimybę, kad auditorija prisimins jūsų žinutę. + +Galbūt tai jau patyrėte žiūrėdami televizijos reklamas. Kai kurios reklamos yra labai liūdnos ir naudoja liūdesio emociją, kad susietų su auditorija ir išryškintų pateikiamus duomenis. Kitos reklamos yra labai linksmos ir laimingos, todėl sukelia teigiamas asociacijas su jų pateikiamais duomenimis. + +Kaip naudoti emocijas komunikuojant duomenis? Žemiau pateikiami keli būdai. + +- Naudokite liudijimus ir asmenines istorijas + - Rinkdami duomenis, stenkitės rinkti tiek kiekybinius, tiek kokybinius duomenis ir integruokite abu tipus komunikuodami. Jei jūsų duomenys yra daugiausia kiekybiniai, ieškokite asmeninių istorijų, kad sužinotumėte daugiau apie žmonių patirtį, susijusią su jūsų duomenimis. +- Naudokite vaizdus + - Vaizdai padeda auditorijai įsivaizduoti save situacijoje. Naudodami vaizdus galite nukreipti auditoriją link emocijos, kurią, jūsų manymu, jie turėtų jausti apie jūsų duomenis. +- Naudokite spalvas + - Skirtingos spalvos sukelia skirtingas emocijas. Populiarios spalvos ir jų sukeliamos emocijos yra šios. Atkreipkite dėmesį, kad spalvos gali turėti skirtingas reikšmes skirtingose kultūrose. + - Mėlyna dažniausiai sukelia ramybės ir pasitikėjimo emocijas + - Žalia dažniausiai siejama su gamta ir aplinka + - Raudona dažniausiai reiškia aistrą ir jaudulį + - Geltona dažniausiai simbolizuoja optimizmą ir laimę + +# Komunikacijos atvejo analizė +Emersonas yra mobiliosios programėlės produktų vadovas. Emersonas pastebėjo, kad savaitgaliais klientai pateikia 42% daugiau skundų ir klaidų pranešimų. Emersonas taip pat pastebėjo, kad klientai, kurie pateikia skundą, kuris lieka neatsakytas ilgiau nei 48 valandas, yra 32% labiau linkę suteikti programėlei 1 arba 2 žvaigždučių įvertinimą programėlių parduotuvėje. + +Atlikęs tyrimą, Emersonas turi keletą sprendimų, kurie išspręstų problemą. Emersonas suorganizuoja 30 minučių susitikimą su 3 įmonės vadovais, kad perteiktų duomenis ir pasiūlytus sprendimus. + +Šio susitikimo metu Emersono tikslas yra užtikrinti, kad įmonės vadovai suprastų, jog šie 2 sprendimai gali pagerinti programėlės įvertinimą, o tai greičiausiai reikš didesnes pajamas. + +**Sprendimas 1.** Sam +Susitikimo metu Emersonas praleidžia 5 minutes aiškindamas, kodėl žema programėlės reitingų parduotuvėje vertė yra blogai, 10 minučių pasakodamas apie tyrimo procesą ir kaip buvo nustatytos tendencijos, 10 minučių aptardamas kai kuriuos naujausius klientų skundus, o paskutines 5 minutes paviršutiniškai apžvelgdamas 2 galimus sprendimus. + +Ar tai buvo veiksmingas būdas Emersonui perteikti informaciją šio susitikimo metu? + +Susitikimo metu vienas įmonės vadovas susikoncentravo tik į 10 minučių, kurias Emersonas skyrė klientų skundams. Po susitikimo šie skundai buvo vienintelis dalykas, kurį šis vadovas prisiminė. Kitas įmonės vadovas daugiausia dėmesio skyrė Emersono aprašytam tyrimo procesui. Trečias įmonės vadovas prisiminė Emersono pasiūlytus sprendimus, tačiau nebuvo tikras, kaip tuos sprendimus būtų galima įgyvendinti. + +Aukščiau pateiktoje situacijoje matome, kad buvo reikšmingas atotrūkis tarp to, ką Emersonas norėjo, kad vadovai išsineštų iš susitikimo, ir to, ką jie iš tikrųjų išsinešė. Žemiau pateikiamas kitas požiūris, kurį Emersonas galėtų apsvarstyti. + +Kaip Emersonas galėtų patobulinti šį požiūrį? +Kontekstas, Konfliktas, Kulminacija, Uždarymas, Išvada +**Kontekstas** – Emersonas galėtų praleisti pirmąsias 5 minutes pristatydamas visą situaciją ir užtikrindamas, kad vadovai suprastų, kaip problemos veikia įmonei svarbius rodiklius, tokius kaip pajamos. + +Tai galėtų būti išdėstyta taip: „Šiuo metu mūsų programėlės reitingas parduotuvėje yra 2,5. Reitingai programėlių parduotuvėje yra labai svarbūs programėlių parduotuvės optimizavimui, kuris daro įtaką tam, kiek vartotojų mato mūsų programėlę paieškoje, ir kaip mūsų programėlė yra vertinama potencialių vartotojų. Ir, žinoma, vartotojų skaičius tiesiogiai susijęs su pajamomis.“ + +**Konfliktas** Emersonas galėtų pereiti prie konflikto aptarimo per kitas 5 minutes. + +Tai galėtų skambėti taip: „Vartotojai pateikia 42% daugiau skundų ir klaidų pranešimų savaitgaliais. Klientai, kurie pateikia skundą ir negauna atsakymo per 48 valandas, 32% rečiau suteikia mūsų programėlei reitingą, didesnį nei 2. Pagerinus mūsų programėlės reitingą parduotuvėje iki 4, mūsų matomumas padidėtų 20–30%, o tai, mano skaičiavimais, padidintų pajamas 10%." Žinoma, Emersonas turėtų būti pasiruošęs pagrįsti šiuos skaičius. + +**Kulminacija** Po pagrindo paruošimo Emersonas galėtų pereiti prie kulminacijos, skirdamas tam apie 5 minutes. + +Emersonas galėtų pristatyti siūlomus sprendimus, paaiškinti, kaip tie sprendimai išspręs iškeltas problemas, kaip jie galėtų būti įtraukti į esamus darbo procesus, kiek tie sprendimai kainuotų, kokia būtų jų investicijų grąža (ROI), ir galbūt net parodyti ekrano nuotraukas ar prototipus, kaip tie sprendimai atrodytų įgyvendinus. Emersonas taip pat galėtų pasidalinti vartotojų, kurių skundai buvo išspręsti per daugiau nei 48 valandas, atsiliepimais, taip pat dabartinio įmonės klientų aptarnavimo atstovo komentarais apie esamą bilietų sistemą. + +**Uždarymas** Dabar Emersonas galėtų praleisti 5 minutes dar kartą apžvelgdamas įmonės problemas, grįždamas prie siūlomų sprendimų ir peržiūrėdamas, kodėl tie sprendimai yra tinkami. + +**Išvada** Kadangi tai yra susitikimas su keliais suinteresuotais asmenimis, kuriame bus naudojama dvikryptė komunikacija, Emersonas galėtų suplanuoti palikti 10 minučių klausimams, kad būtų užtikrinta, jog vadovams būtų aišku viskas, kas galėjo būti neaišku. + +Jei Emersonas pasirinktų antrąjį požiūrį, yra daug didesnė tikimybė, kad vadovai iš susitikimo išsineštų būtent tai, ką Emersonas norėjo jiems perteikti – kad skundų ir klaidų valdymas galėtų būti patobulintas, ir yra 2 sprendimai, kuriuos būtų galima įgyvendinti, kad šis patobulinimas įvyktų. Šis požiūris būtų daug veiksmingesnis būdas perteikti duomenis ir istoriją, kurią Emersonas nori papasakoti. + +# Išvada +### Pagrindinių punktų santrauka +- Komunikacija – tai informacijos perteikimas ar apsikeitimas ja. +- Perduodant duomenis, jūsų tikslas neturėtų būti tiesiog skaičių pateikimas auditorijai. Jūsų tikslas turėtų būti papasakoti istoriją, kurią informuoja jūsų duomenys. +- Yra 2 komunikacijos tipai: vienkryptė komunikacija (informacija perduodama be atsako tikimybės) ir dvikryptė komunikacija (informacija perduodama abipusiai). +- Yra daug strategijų, kaip pasakoti istoriją naudojant duomenis. 5 strategijos, kurias aptarėme, yra: + - Supraskite savo auditoriją, savo terpę ir savo komunikacijos metodą + - Pradėkite galutinį tikslą turėdami omenyje + - Prieikite prie to kaip prie tikros istorijos + - Naudokite prasmingus žodžius ir frazes + - Naudokite emocijas + +### Rekomenduojami ištekliai savarankiškam mokymuisi +[The Five C's of Storytelling - Articulate Persuasion](http://articulatepersuasion.com/the-five-cs-of-storytelling/) + +[1.4 Your Responsibilities as a Communicator – Business Communication for Success (umn.edu)](https://open.lib.umn.edu/businesscommunication/chapter/1-4-your-responsibilities-as-a-communicator/) + +[How to Tell a Story with Data (hbr.org)](https://hbr.org/2013/04/how-to-tell-a-story-with-data) + +[Two-Way Communication: 4 Tips for a More Engaged Workplace (yourthoughtpartner.com)](https://www.yourthoughtpartner.com/blog/bid/59576/4-steps-to-increase-employee-engagement-through-two-way-communication) + +[6 succinct steps to great data storytelling - BarnRaisers, LLC (barnraisersllc.com)](https://barnraisersllc.com/2021/05/02/6-succinct-steps-to-great-data-storytelling/) + +[How to Tell a Story With Data | Lucidchart Blog](https://www.lucidchart.com/blog/how-to-tell-a-story-with-data) + +[6 Cs of Effective Storytelling on Social Media | Cooler Insights](https://coolerinsights.com/2018/06/effective-storytelling-social-media/) + +[The Importance of Emotions In Presentations | Ethos3 - A Presentation Training and Design Agency](https://ethos3.com/2015/02/the-importance-of-emotions-in-presentations/) + +[Data storytelling: linking emotions and rational decisions (toucantoco.com)](https://www.toucantoco.com/en/blog/data-storytelling-dataviz) + +[Emotional Advertising: How Brands Use Feelings to Get People to Buy (hubspot.com)](https://blog.hubspot.com/marketing/emotions-in-advertising-examples) + +[Choosing Colors for Your Presentation Slides | Think Outside The Slide](https://www.thinkoutsidetheslide.com/choosing-colors-for-your-presentation-slides/) + +[How To Present Data [10 Expert Tips] | ObservePoint](https://resources.observepoint.com/blog/10-tips-for-presenting-data) + +[Microsoft Word - Persuasive Instructions.doc (tpsnva.org)](https://www.tpsnva.org/teach/lq/016/persinstr.pdf) + +[The Power of Story for Your Data (thinkhdi.com)](https://www.thinkhdi.com/library/supportworld/2019/power-story-your-data.aspx) + +[Common Mistakes in Data Presentation (perceptualedge.com)](https://www.perceptualedge.com/articles/ie/data_presentation.pdf) + +[Infographic: Here are 15 Common Data Fallacies to Avoid (visualcapitalist.com)](https://www.visualcapitalist.com/here-are-15-common-data-fallacies-to-avoid/) + +[Cherry Picking: When People Ignore Evidence that They Dislike – Effectiviology](https://effectiviology.com/cherry-picking/#How_to_avoid_cherry_picking) + +[Tell Stories with Data: Communication in Data Science | by Sonali Verghese | Towards Data Science](https://towardsdatascience.com/tell-stories-with-data-communication-in-data-science-5266f7671d7) + +[1. Communicating Data - Communicating Data with Tableau [Book] (oreilly.com)](https://www.oreilly.com/library/view/communicating-data-with/9781449372019/ch01.html) + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/31) + +Peržiūrėkite, ką ką tik išmokote, naudodamiesi aukščiau pateiktu testu! + +## Užduotis + +[Rinkos tyrimas](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/16-communication/assignment.md b/translations/lt/4-Data-Science-Lifecycle/16-communication/assignment.md new file mode 100644 index 00000000..4b1b3d66 --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/16-communication/assignment.md @@ -0,0 +1,26 @@ + +# Papasakok istoriją + +## Instrukcijos + +Duomenų mokslas yra apie istorijų pasakojimą. Pasirinkite bet kokį duomenų rinkinį ir parašykite trumpą straipsnį apie istoriją, kurią galėtumėte papasakoti remdamiesi juo. Ką tikitės, kad jūsų duomenų rinkinys atskleis? Ką darysite, jei jo atskleisti dalykai pasirodys problemiški? Ką darysite, jei jūsų duomenys neatskleis savo paslapčių lengvai? Pagalvokite apie scenarijus, kuriuos jūsų duomenų rinkinys galėtų pateikti, ir užrašykite juos. + +## Vertinimo kriterijai + +Pavyzdinis | Tinkamas | Reikia patobulinimų +--- | --- | --- | + +Vieno puslapio esė pateikta .doc formatu, su paaiškintu, dokumentuotu ir priskirtu duomenų rinkiniu, bei nuosekliai papasakota istorija su išsamiais pavyzdžiais iš duomenų.| Trumpesnė esė pateikta mažiau detaliu formatu | Esė trūksta vienos iš aukščiau paminėtų detalių. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/4-Data-Science-Lifecycle/README.md b/translations/lt/4-Data-Science-Lifecycle/README.md new file mode 100644 index 00000000..ffdf8a3e --- /dev/null +++ b/translations/lt/4-Data-Science-Lifecycle/README.md @@ -0,0 +1,30 @@ + +# Duomenų mokslo gyvavimo ciklas + +![communication](../../../translated_images/communication.06d8e2a88d30d168d661ad9f9f0a4f947ebff3719719cfdaf9ed00a406a01ead.lt.jpg) +> Nuotrauka HeadwayUnsplash + +Šiose pamokose nagrinėsite kai kuriuos duomenų mokslo gyvavimo ciklo aspektus, įskaitant duomenų analizę ir komunikaciją. + +### Temos + +1. [Įvadas](14-Introduction/README.md) +2. [Analizė](15-analyzing/README.md) +3. [Komunikacija](16-communication/README.md) + +### Autorystė + +Šios pamokos buvo parašytos su ❤️ [Jalen McGee](https://twitter.com/JalenMCG) ir [Jasmine Greenaway](https://twitter.com/paladique) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/17-Introduction/README.md b/translations/lt/5-Data-Science-In-Cloud/17-Introduction/README.md new file mode 100644 index 00000000..a1e86aa4 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/17-Introduction/README.md @@ -0,0 +1,116 @@ + +# Įvadas į duomenų mokslą debesyje + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/17-DataScience-Cloud.png)| +|:---:| +| Duomenų mokslas debesyje: Įvadas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Šioje pamokoje sužinosite pagrindinius debesų kompiuterijos principus, kodėl verta naudoti debesų paslaugas savo duomenų mokslo projektams vykdyti, ir peržiūrėsime keletą pavyzdžių, kaip duomenų mokslas vykdomas debesyje. + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/32) + +## Kas yra debesis? + +Debesis, arba debesų kompiuterija, yra įvairių mokamų pagal poreikį kompiuterinių paslaugų teikimas, kurios yra talpinamos infrastruktūroje internete. Paslaugos apima sprendimus, tokius kaip saugyklos, duomenų bazės, tinklai, programinė įranga, analizė ir intelektualios paslaugos. + +Paprastai skiriame viešąjį, privatųjį ir hibridinį debesį: + +* Viešasis debesis: viešasis debesis priklauso ir yra valdomas trečiosios šalies debesų paslaugų teikėjo, kuris teikia savo kompiuterinius išteklius internetu visuomenei. +* Privatus debesis: tai debesų kompiuterijos ištekliai, naudojami tik vienos įmonės ar organizacijos, su paslaugomis ir infrastruktūra, palaikoma privačiame tinkle. +* Hibridinis debesis: hibridinis debesis yra sistema, kuri sujungia viešuosius ir privačiuosius debesis. Vartotojai pasirenka vietinį duomenų centrą, tuo pačiu leidžiant duomenims ir programoms veikti viename ar keliuose viešuosiuose debesyse. + +Dauguma debesų kompiuterijos paslaugų skirstomos į tris kategorijas: infrastruktūra kaip paslauga (IaaS), platforma kaip paslauga (PaaS) ir programinė įranga kaip paslauga (SaaS). + +* Infrastruktūra kaip paslauga (IaaS): vartotojai nuomojasi IT infrastruktūrą, tokią kaip serveriai, virtualios mašinos (VM), saugyklos, tinklai, operacinės sistemos. +* Platforma kaip paslauga (PaaS): vartotojai nuomojasi aplinką programinės įrangos kūrimui, testavimui, pristatymui ir valdymui. Vartotojams nereikia rūpintis serverių, saugyklų, tinklų ir duomenų bazių infrastruktūros nustatymu ar valdymu. +* Programinė įranga kaip paslauga (SaaS): vartotojai gauna prieigą prie programinės įrangos internetu pagal poreikį, dažniausiai prenumeratos pagrindu. Vartotojams nereikia rūpintis programinės įrangos talpinimu, valdymu, infrastruktūra ar priežiūra, pvz., programinės įrangos atnaujinimais ir saugumo pataisomis. + +Kai kurie didžiausi debesų paslaugų teikėjai yra Amazon Web Services, Google Cloud Platform ir Microsoft Azure. + +## Kodėl verta rinktis debesį duomenų mokslui? + +Kūrėjai ir IT specialistai renkasi darbą su debesimi dėl daugelio priežasčių, įskaitant šias: + +* Inovacijos: galite integruoti inovatyvias paslaugas, sukurtas debesų teikėjų, tiesiai į savo programas. +* Lankstumas: mokate tik už tas paslaugas, kurių jums reikia, ir galite rinktis iš daugybės paslaugų. Paprastai mokate pagal poreikį ir pritaikote paslaugas pagal savo besikeičiančius poreikius. +* Biudžetas: nereikia investuoti į pradinį aparatūros ir programinės įrangos pirkimą, vietinių duomenų centrų nustatymą ir valdymą – mokate tik už tai, ką naudojate. +* Skalavimas: jūsų ištekliai gali būti pritaikyti pagal projekto poreikius, tai reiškia, kad jūsų programos gali naudoti daugiau ar mažiau kompiuterinės galios, saugyklos ir pralaidumo, prisitaikydamos prie išorinių veiksnių bet kuriuo metu. +* Produktyvumas: galite susitelkti į savo verslą, užuot skyrę laiką užduotims, kurias gali valdyti kiti, pvz., duomenų centrų valdymui. +* Patikimumas: debesų kompiuterija siūlo kelis būdus nuolat kurti duomenų atsargines kopijas ir galite nustatyti atkūrimo po nelaimių planus, kad jūsų verslas ir paslaugos veiktų net krizės metu. +* Saugumas: galite pasinaudoti politikomis, technologijomis ir kontrolėmis, kurios stiprina jūsų projekto saugumą. + +Tai yra keletas dažniausiai pasitaikančių priežasčių, kodėl žmonės renkasi debesų paslaugas. Dabar, kai geriau suprantame, kas yra debesis ir kokie jo pagrindiniai privalumai, pažvelkime konkrečiau į duomenų mokslininkų ir kūrėjų, dirbančių su duomenimis, darbus ir kaip debesis gali padėti jiems spręsti įvairius iššūkius: + +* Didelių duomenų saugojimas: vietoj to, kad pirktumėte, valdytumėte ir apsaugotumėte didelius serverius, galite saugoti savo duomenis tiesiogiai debesyje, naudodami tokius sprendimus kaip Azure Cosmos DB, Azure SQL Database ir Azure Data Lake Storage. +* Duomenų integravimas: duomenų integravimas yra esminė duomenų mokslo dalis, leidžianti pereiti nuo duomenų rinkimo prie veiksmų atlikimo. Naudodami debesyje siūlomas duomenų integravimo paslaugas, galite rinkti, transformuoti ir integruoti duomenis iš įvairių šaltinių į vieną duomenų saugyklą, naudodami Data Factory. +* Duomenų apdorojimas: didelių duomenų apdorojimas reikalauja daug kompiuterinės galios, ir ne visi turi prieigą prie pakankamai galingų mašinų, todėl daugelis žmonių renkasi tiesiogiai naudoti debesies didžiulę kompiuterinę galią savo sprendimams vykdyti ir diegti. +* Duomenų analizės paslaugų naudojimas: debesų paslaugos, tokios kaip Azure Synapse Analytics, Azure Stream Analytics ir Azure Databricks, padeda paversti jūsų duomenis į veiksmingas įžvalgas. +* Mašininio mokymosi ir duomenų intelekto paslaugų naudojimas: vietoj to, kad pradėtumėte nuo nulio, galite naudoti debesų teikėjo siūlomus mašininio mokymosi algoritmus, su paslaugomis, tokiomis kaip AzureML. Taip pat galite naudoti kognityvines paslaugas, tokias kaip kalbos į tekstą, tekstas į kalbą, kompiuterinė vizija ir daugiau. + +## Duomenų mokslas debesyje: pavyzdžiai + +Padarykime tai konkretesniu, pažvelgdami į keletą scenarijų. + +### Socialinių tinklų nuotaikų analizė realiu laiku + +Pradėsime nuo scenarijaus, dažnai nagrinėjamo pradedantiesiems mašininio mokymosi srityje: socialinių tinklų nuotaikų analizė realiu laiku. + +Tarkime, jūs valdote naujienų svetainę ir norite pasinaudoti tiesioginiais duomenimis, kad suprastumėte, kokiu turiniu jūsų skaitytojai galėtų būti suinteresuoti. Norėdami sužinoti daugiau apie tai, galite sukurti programą, kuri atlieka realaus laiko nuotaikų analizę iš „Twitter“ publikacijų, susijusių su jūsų skaitytojams aktualiomis temomis. + +Pagrindiniai rodikliai, kuriuos stebėsite, yra „Twitter“ žinučių kiekis tam tikromis temomis (hashtag'ais) ir nuotaikos, kurios nustatomos naudojant analizės įrankius, atliekančius nuotaikų analizę apie nurodytas temas. + +Šio projekto kūrimo žingsniai yra šie: + +* Sukurkite įvykių centrą srauto įvestims, kuris rinks duomenis iš „Twitter“. +* Konfigūruokite ir paleiskite „Twitter“ klientų programą, kuri naudos „Twitter Streaming“ API. +* Sukurkite srauto analizės užduotį. +* Nurodykite užduoties įvestį ir užklausą. +* Sukurkite išvesties saugyklą ir nurodykite užduoties išvestį. +* Paleiskite užduotį. + +Norėdami peržiūrėti visą procesą, apsilankykite [dokumentacijoje](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099). + +### Mokslinių straipsnių analizė + +Pažvelkime į kitą projekto pavyzdį, sukurtą [Dmitrijaus Sošnikovo](http://soshnikov.com), vieno iš šios mokymo programos autorių. + +Dmitrijus sukūrė įrankį, kuris analizuoja COVID straipsnius. Peržiūrėdami šį projektą, pamatysite, kaip galite sukurti įrankį, kuris išgauna žinias iš mokslinių straipsnių, gauna įžvalgas ir padeda tyrėjams efektyviai naršyti per dideles straipsnių kolekcijas. + +Pažiūrėkime, kokie žingsniai buvo naudojami: + +* Informacijos išgavimas ir išankstinis apdorojimas naudojant [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). +* Naudojant [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) apdorojimo paralelizavimui. +* Informacijos saugojimas ir užklausų vykdymas naudojant [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). +* Interaktyvios duomenų tyrimo ir vizualizacijos ataskaitų kūrimas naudojant Power BI. + +Norėdami peržiūrėti visą procesą, apsilankykite [Dmitrijaus tinklaraštyje](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/). + +Kaip matote, debesų paslaugas galima panaudoti įvairiais būdais duomenų mokslui vykdyti. + +## Pastabos + +Šaltiniai: +* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109 +* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109 +* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/ + +## Po paskaitos: testas + +[Po paskaitos: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/33) + +## Užduotis + +[Rinkos tyrimas](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/17-Introduction/assignment.md b/translations/lt/5-Data-Science-In-Cloud/17-Introduction/assignment.md new file mode 100644 index 00000000..1fd4cf06 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/17-Introduction/assignment.md @@ -0,0 +1,25 @@ + +# Rinkos tyrimai + +## Instrukcijos + +Šioje pamokoje sužinojote, kad yra keli svarbūs debesų kompiuterijos paslaugų teikėjai. Atlikite rinkos tyrimą, kad sužinotumėte, ką kiekvienas iš jų gali pasiūlyti duomenų mokslininkui. Ar pasiūlymai yra panašūs? Parašykite darbą, kuriame aprašytumėte trijų ar daugiau šių debesų paslaugų teikėjų pasiūlymus. + +## Vertinimo kriterijai + +Puikiai | Pakankamai | Reikia tobulinti +--- | --- | -- | +Vieno puslapio darbe aprašomi trijų debesų paslaugų teikėjų pasiūlymai duomenų mokslui ir išskiriami jų skirtumai. | Pateikiamas trumpesnis darbas | Pateikiamas darbas, kuriame nebaigta analizė + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/README.md b/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/README.md new file mode 100644 index 00000000..0ec79d62 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/README.md @@ -0,0 +1,347 @@ + +# Duomenų mokslas debesyje: „Mažai kodo / Be kodo“ būdas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/18-DataScience-Cloud.png)| +|:---:| +| Duomenų mokslas debesyje: Mažai kodo - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Turinys: + +- [Duomenų mokslas debesyje: „Mažai kodo / Be kodo“ būdas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [Prieš paskaitą: klausimynas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [1. Įvadas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [1.1 Kas yra Azure Machine Learning?](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [1.2 Širdies nepakankamumo prognozavimo projektas:](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [1.3 Širdies nepakankamumo duomenų rinkinys:](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2. Mažai kodo / Be kodo modelio mokymas Azure ML studijoje](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.1 Sukurkite Azure ML darbo sritį](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.2 Skaičiavimo ištekliai](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.2.1 Tinkamų skaičiavimo išteklių pasirinkimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.2.2 Skaičiavimo klasterio kūrimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.3 Duomenų rinkinio įkėlimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [2.4 Mažai kodo / Be kodo mokymas naudojant AutoML](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [3. Mažai kodo / Be kodo modelio diegimas ir galinių taškų naudojimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [3.1 Modelio diegimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [3.2 Galinių taškų naudojimas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [🚀 Iššūkis](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [Po paskaitos: klausimynas](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [Apžvalga ir savarankiškas mokymasis](../../../../5-Data-Science-In-Cloud/18-Low-Code) + - [Užduotis](../../../../5-Data-Science-In-Cloud/18-Low-Code) + +## [Prieš paskaitą: klausimynas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/34) + +## 1. Įvadas + +### 1.1 Kas yra Azure Machine Learning? + +Azure debesų platforma apima daugiau nei 200 produktų ir paslaugų, skirtų padėti jums kurti naujus sprendimus. Duomenų mokslininkai daug laiko skiria duomenų tyrimui, išankstiniam apdorojimui ir įvairių modelių mokymo algoritmų bandymui, siekdami sukurti tikslius modelius. Šios užduotys užima daug laiko ir dažnai neefektyviai naudoja brangius skaičiavimo išteklius. + +[Azure ML](https://docs.microsoft.com/azure/machine-learning/overview-what-is-azure-machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) yra debesų platforma, skirta kurti ir valdyti mašininio mokymosi sprendimus Azure aplinkoje. Ji siūlo daugybę funkcijų, kurios padeda duomenų mokslininkams paruošti duomenis, mokyti modelius, publikuoti prognozavimo paslaugas ir stebėti jų naudojimą. Svarbiausia, ji padeda padidinti efektyvumą automatizuojant daugelį laiko reikalaujančių užduočių, susijusių su modelių mokymu, ir leidžia naudoti debesų skaičiavimo išteklius, kurie efektyviai skaluojasi, apdorojant didelius duomenų kiekius, mokant tik už faktinį naudojimą. + +Azure ML siūlo visus įrankius, kurių reikia kūrėjams ir duomenų mokslininkams jų mašininio mokymosi darbo eigoms: + +- **Azure Machine Learning Studio**: žiniatinklio portalas, skirtas mažai kodo ir be kodo modelių mokymui, diegimui, automatizavimui, stebėjimui ir turto valdymui. Studija integruojasi su Azure Machine Learning SDK, kad būtų užtikrinta vientisa patirtis. +- **Jupyter Notebooks**: greitam ML modelių prototipavimui ir testavimui. +- **Azure Machine Learning Designer**: leidžia vilkti ir mesti modulius, kad būtų galima kurti eksperimentus ir diegti procesus mažai kodo aplinkoje. +- **Automatizuoto mašininio mokymosi sąsaja (AutoML)**: automatizuoja iteracines užduotis, susijusias su modelių kūrimu, leidžiant kurti ML modelius efektyviai ir produktyviai, išlaikant modelio kokybę. +- **Duomenų žymėjimas**: ML įrankis, padedantis automatiškai žymėti duomenis. +- **Mašininio mokymosi plėtinys Visual Studio Code**: suteikia pilnai funkcionalią aplinką ML projektų kūrimui ir valdymui. +- **Mašininio mokymosi CLI**: komandinės eilutės įrankis Azure ML išteklių valdymui. +- **Integracija su atvirojo kodo sistemomis**, tokiomis kaip PyTorch, TensorFlow, Scikit-learn ir kt., skirtomis mokymui, diegimui ir viso ML proceso valdymui. +- **MLflow**: atvirojo kodo biblioteka, skirta ML eksperimentų gyvavimo ciklui valdyti. **MLFlow Tracking** yra MLflow komponentas, kuris registruoja ir seka mokymo rezultatų metrikas bei modelio artefaktus, nepriklausomai nuo eksperimentų aplinkos. + +### 1.2 Širdies nepakankamumo prognozavimo projektas: + +Projektų kūrimas yra geriausias būdas patikrinti savo įgūdžius ir žinias. Šioje pamokoje mes nagrinėsime du skirtingus būdus, kaip sukurti duomenų mokslo projektą, skirtą širdies nepakankamumo prognozavimui Azure ML studijoje: naudojant mažai kodo / be kodo metodą ir naudojant Azure ML SDK, kaip parodyta toliau pateiktoje schemoje: + +![projekto schema](../../../../translated_images/project-schema.736f6e403f321eb48d10242b3f4334dc6ccf0eabef8ff87daf52b89781389fcb.lt.png) + +Kiekvienas būdas turi savo privalumų ir trūkumų. Mažai kodo / be kodo metodas yra lengvesnis pradėti, nes jis apima darbą su grafinės vartotojo sąsajos (GUI) įrankiais, nereikalaujant išankstinių programavimo žinių. Šis metodas leidžia greitai patikrinti projekto gyvybingumą ir sukurti POC (Proof Of Concept). Tačiau, kai projektas auga ir reikia pasiruošti gamybai, neįmanoma visko sukurti per GUI. Tada tampa būtina viską automatizuoti programiškai, nuo išteklių kūrimo iki modelio diegimo. Čia svarbu mokėti naudotis Azure ML SDK. + +| | Mažai kodo / Be kodo | Azure ML SDK | +|-------------------|----------------------|---------------------------| +| Programavimo žinios | Nereikalingos | Reikalingos | +| Kūrimo laikas | Greitas ir paprastas | Priklauso nuo žinių | +| Paruoštas gamybai | Ne | Taip | + +### 1.3 Širdies nepakankamumo duomenų rinkinys: + +Širdies ir kraujagyslių ligos (CVD) yra pagrindinė mirties priežastis pasaulyje, sudaranti 31% visų mirčių. Aplinkos ir elgesio rizikos veiksniai, tokie kaip tabako vartojimas, nesveika mityba, nutukimas, fizinis neveiklumas ir žalingas alkoholio vartojimas, gali būti naudojami kaip modelių prognozavimo požymiai. Gebėjimas įvertinti CVD išsivystymo tikimybę galėtų būti labai naudingas siekiant užkirsti kelią atakoms rizikos grupės žmonėms. + +Kaggle platformoje yra viešai prieinamas [Širdies nepakankamumo duomenų rinkinys](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data), kurį naudosime šiame projekte. Galite atsisiųsti šį duomenų rinkinį dabar. Tai lentelinis duomenų rinkinys su 13 stulpelių (12 požymių ir 1 tikslinė kintamoji) ir 299 eilutėmis. + +| | Kintamojo pavadinimas | Tipas | Aprašymas | Pavyzdys | +|----|---------------------------|-----------------|---------------------------------------------------------|-------------------| +| 1 | age | skaitinis | Paciento amžius | 25 | +| 2 | anaemia | loginis | Raudonųjų kraujo kūnelių ar hemoglobino sumažėjimas | 0 arba 1 | +| 3 | creatinine_phosphokinase | skaitinis | CPK fermento lygis kraujyje | 542 | +| 4 | diabetes | loginis | Ar pacientas serga diabetu | 0 arba 1 | +| 5 | ejection_fraction | skaitinis | Kraujo procentas, išeinantis iš širdies per susitraukimą| 45 | +| 6 | high_blood_pressure | loginis | Ar pacientas turi hipertenziją | 0 arba 1 | +| 7 | platelets | skaitinis | Trombocitų kiekis kraujyje | 149000 | +| 8 | serum_creatinine | skaitinis | Serumo kreatinino lygis kraujyje | 0.5 | +| 9 | serum_sodium | skaitinis | Serumo natrio lygis kraujyje | jun | +| 10 | sex | loginis | Moteris ar vyras | 0 arba 1 | +| 11 | smoking | loginis | Ar pacientas rūko | 0 arba 1 | +| 12 | time | skaitinis | Stebėjimo laikotarpis (dienos) | 4 | +|----|---------------------------|-----------------|---------------------------------------------------------|-------------------| +| 21 | DEATH_EVENT [Tikslas] | loginis | Ar pacientas mirė stebėjimo laikotarpiu | 0 arba 1 | + +Kai turėsite duomenų rinkinį, galėsime pradėti projektą Azure aplinkoje. + +## 2. Mažai kodo / Be kodo modelio mokymas Azure ML studijoje + +### 2.1 Sukurkite Azure ML darbo sritį + +Norėdami mokyti modelį Azure ML, pirmiausia turite sukurti Azure ML darbo sritį. Darbo sritis yra aukščiausio lygio išteklius Azure Machine Learning, suteikiantis centralizuotą vietą visiems artefaktams, kuriuos sukuriate naudodami Azure Machine Learning. Darbo sritis saugo visų mokymo sesijų istoriją, įskaitant žurnalus, metriką, rezultatus ir jūsų scenarijų momentinę kopiją. Ši informacija leidžia nustatyti, kuri mokymo sesija sukūrė geriausią modelį. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-workspace?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) + +Rekomenduojama naudoti naujausią naršyklę, suderinamą su jūsų operacine sistema. Palaikomos šios naršyklės: + +- Microsoft Edge (naujausia versija, ne Microsoft Edge legacy) +- Safari (naujausia versija, tik Mac) +- Chrome (naujausia versija) +- Firefox (naujausia versija) + +Norėdami naudoti Azure Machine Learning, sukurkite darbo sritį savo Azure prenumeratoje. Tada galite naudoti šią darbo sritį duomenų, skaičiavimo išteklių, kodo, modelių ir kitų artefaktų, susijusių su jūsų mašininio mokymosi užduotimis, valdymui. + +> **_PASTABA:_** Jūsų Azure prenumerata bus apmokestinta nedidele suma už duomenų saugojimą, kol Azure Machine Learning darbo sritis egzistuos jūsų prenumeratoje, todėl rekomenduojame ištrinti darbo sritį, kai jos nebereikia. + +1. Prisijunkite prie [Azure portalo](https://ms.portal.azure.com/) naudodami Microsoft kredencialus, susijusius su jūsų Azure prenumerata. +2. Pasirinkite **+Sukurti išteklių** + + ![darbo sritis-1](../../../../translated_images/workspace-1.ac8694d60b073ed1ae8333d71244dc8a9b3e439d54593724f98f1beefdd27b08.lt.png) + + Ieškokite „Machine Learning“ ir pasirinkite „Machine Learning“ plytelę. + + ![darbo sritis-2](../../../../translated_images/workspace-2.ae7c486db8796147075e4a56566aa819827dd6c4c8d18d64590317c3be625f17.lt.png) + + Spustelėkite mygtuką „Sukurti“. + + ![darbo sritis-3](../../../../translated_images/workspace-3.398ca4a5858132cce584db9df10c5a011cd9075eb182e647a77d5cac01771eea.lt.png) + + Užpildykite nustatymus taip: + - Prenumerata: Jūsų Azure prenumerata + - Išteklių grupė: Sukurkite arba pasirinkite išteklių grupę + - Darbo srities pavadinimas: Įveskite unikalų darbo srities pavadinimą + - Regionas: Pasirinkite geografinį regioną, esantį arčiausiai jūsų + - Saugojimo paskyra: Atkreipkite dėmesį į numatytąją naują saugojimo paskyrą, kuri bus sukurta jūsų darbo sričiai + - Raktų saugykla: Atkreipkite dėmesį į numatytąją naują raktų saugyklą, kuri bus sukurta jūsų darbo sričiai + - Programos įžvalgos: Atkreipkite dėmesį į numatytąją naują programos įžvalgų išteklių, kuris bus sukurtas jūsų darbo sričiai + - Konteinerių registras: Nėra (vienas bus sukurtas automatiškai pirmą kartą diegiant modelį į konteinerį) + + ![darbo sritis-4](../../../../translated_images/workspace-4.bac87f6599c4df63e624fc2608990f965887bee551d9dedc71c687b43b986b6a.lt.png) + + - Spustelėkite „Peržiūrėti + sukurti“, tada „Sukurti“. +3. Palaukite, kol jūsų darbo sritis bus sukurta (tai gali užtrukti kelias minutes). Tada eikite į ją portale. Ją galite rasti per „Machine Learning“ Azure paslaugą. +4. Darbo srities apžvalgos puslapyje paleiskite Azure Machine Learning studiją (arba atidarykite naują naršyklės skirtuką ir eikite į https://ml.azure.com), ir prisijunkite prie Azure Machine Learning studijos naudodami savo Microsoft paskyrą. Jei paprašoma, pasirinkite savo Azure katalogą ir prenumeratą bei Azure Machine Learning darbo sritį. + +![darbo sritis-5](../../../../translated_images/workspace-5.a6eb17e0a5e6420018b08bdaf3755ce977f96f1df3ea363d2476a9dce7e15adb.lt.png) + +5. Azure Machine Learning studijoje perjunkite ☰ piktogramą viršutiniame kairiajame kampe, kad peržiūrėtumėte įvairius sąsajos puslapius. Šiuos puslapius galite naudoti savo darbo srities ištekliams valdyti. + +![darbo sritis-6](../../../../translated_images/workspace-6.8dd81fe841797ee17f8f73916769576260b16c4e17e850d277a49db35fd74a15.lt.png) + +Darbo sritį galite valdyti naudodami Azure portalą, tačiau duomenų mokslininkams ir mašininio mokymosi operacijų inžinieriams Azure Machine Learning studija suteikia labiau pritaikytą vartotojo sąsają išteklių valdymui. + +### 2.2 Skaičiavimo ištekliai + +Skaičiavimo ištekliai yra debesų pagrindu veikiantys ištekliai, kuriuose galite vykdyti modelių mokymo ir duomenų tyrimo procesus. Yra keturi skaičiavimo išteklių tipai, kuriuos galite su +- **Prijungtas skaičiavimas**: Nuorodos į esamus „Azure“ skaičiavimo išteklius, tokius kaip virtualios mašinos ar „Azure Databricks“ klasteriai. + +#### 2.2.1 Tinkamų skaičiavimo išteklių pasirinkimas + +Kai kuriant skaičiavimo išteklius reikia atsižvelgti į keletą svarbių veiksnių, kurie gali būti kritiniai sprendimai. + +**Ar jums reikia CPU ar GPU?** + +CPU (centrinis procesorius) yra elektroninė grandinė, vykdanti kompiuterio programos instrukcijas. GPU (grafikos procesorius) yra specializuota elektroninė grandinė, galinti vykdyti su grafika susijusį kodą labai dideliu greičiu. + +Pagrindinis CPU ir GPU architektūros skirtumas yra tas, kad CPU yra sukurtas greitai atlikti įvairias užduotis (matuojama pagal CPU laikrodžio greitį), tačiau yra ribotas užduočių, kurios gali būti vykdomos vienu metu, lygiagretumu. GPU yra sukurti lygiagrečiam skaičiavimui, todėl jie daug geriau tinka giluminio mokymosi užduotims. + +| CPU | GPU | +|-----------------------------------------|-----------------------------| +| Mažiau brangus | Brangesnis | +| Mažesnis lygiagretumo lygis | Didesnis lygiagretumo lygis | +| Lėtesnis mokant giluminio mokymosi modelius | Optimalus giluminiam mokymuisi | + +**Klasterio dydis** + +Didesni klasteriai yra brangesni, tačiau jie užtikrina geresnį atsaką. Todėl, jei turite laiko, bet ribotą biudžetą, pradėkite nuo mažo klasterio. Priešingai, jei turite pakankamai pinigų, bet mažai laiko, pradėkite nuo didesnio klasterio. + +**VM dydis** + +Priklausomai nuo jūsų laiko ir biudžeto apribojimų, galite keisti RAM, disko, branduolių skaičiaus ir laikrodžio greičio dydį. Visų šių parametrų didinimas kainuos daugiau, tačiau užtikrins geresnį našumą. + +**Skirti ar mažo prioriteto egzemplioriai?** + +Mažo prioriteto egzempliorius reiškia, kad jis gali būti nutrauktas: iš esmės „Microsoft Azure“ gali perimti šiuos išteklius ir priskirti juos kitai užduočiai, taip nutraukdama darbą. Skirtas egzempliorius, arba nenutraukiamas, reiškia, kad darbas niekada nebus nutrauktas be jūsų leidimo. Tai dar vienas laiko ir pinigų svarstymas, nes nutraukiami egzemplioriai yra pigesni nei skirti. + +#### 2.2.2 Skaičiavimo klasterio kūrimas + +„[Azure ML darbo erdvėje](https://ml.azure.com/)“, kurią sukūrėme anksčiau, eikite į skaičiavimą ir galėsite matyti įvairius skaičiavimo išteklius, kuriuos ką tik aptarėme (pvz., skaičiavimo egzempliorius, skaičiavimo klasterius, prognozavimo klasterius ir prijungtą skaičiavimą). Šiam projektui mums reikės skaičiavimo klasterio modelio mokymui. Studijoje spustelėkite meniu „Compute“, tada skirtuką „Compute cluster“ ir spustelėkite mygtuką „+ New“, kad sukurtumėte skaičiavimo klasterį. + +![22](../../../../translated_images/cluster-1.b78cb630bb543729b11f60c34d97110a263f8c27b516ba4dc47807b3cee5579f.lt.png) + +1. Pasirinkite savo parinktis: Skirtas ar mažo prioriteto, CPU ar GPU, VM dydis ir branduolių skaičius (šiam projektui galite palikti numatytuosius nustatymus). +2. Spustelėkite mygtuką „Next“. + +![23](../../../../translated_images/cluster-2.ea30cdbc9f926bb9e05af3fdbc1f679811c796dc2a6847f935290aec15526e88.lt.png) + +3. Suteikite klasteriui pavadinimą. +4. Pasirinkite savo parinktis: Minimalus/maksimalus mazgų skaičius, neveiklumo sekundės prieš sumažinimą, SSH prieiga. Atkreipkite dėmesį, kad jei minimalus mazgų skaičius yra 0, sutaupysite pinigų, kai klasteris neveiks. Atkreipkite dėmesį, kad kuo didesnis maksimalus mazgų skaičius, tuo trumpesnis bus mokymas. Rekomenduojamas maksimalus mazgų skaičius yra 3. +5. Spustelėkite mygtuką „Create“. Šis žingsnis gali užtrukti kelias minutes. + +![29](../../../../translated_images/cluster-3.8a334bc070ec173a329ce5abd2a9d727542e83eb2347676c9af20f2c8870b3e7.lt.png) + +Puiku! Dabar, kai turime skaičiavimo klasterį, turime įkelti duomenis į „Azure ML Studio“. + +### 2.3 Duomenų rinkinio įkėlimas + +1. „[Azure ML darbo erdvėje](https://ml.azure.com/)“, kurią sukūrėme anksčiau, spustelėkite „Datasets“ kairiajame meniu ir spustelėkite mygtuką „+ Create dataset“, kad sukurtumėte duomenų rinkinį. Pasirinkite parinktį „From local files“ ir pasirinkite anksčiau atsisiųstą „Kaggle“ duomenų rinkinį. + + ![24](../../../../translated_images/dataset-1.e86ab4e10907a6e9c2a72577b51db35f13689cb33702337b8b7032f2ef76dac2.lt.png) + +2. Suteikite savo duomenų rinkiniui pavadinimą, tipą ir aprašymą. Spustelėkite „Next“. Įkelkite duomenis iš failų. Spustelėkite „Next“. + + ![25](../../../../translated_images/dataset-2.f58de1c435d5bf9ccb16ccc5f5d4380eb2b50affca85cfbf4f97562bdab99f77.lt.png) + +3. Schemoje pakeiskite duomenų tipą į „Boolean“ šiems požymiams: anaemia, diabetes, high blood pressure, sex, smoking ir DEATH_EVENT. Spustelėkite „Next“ ir „Create“. + + ![26](../../../../translated_images/dataset-3.58db8c0eb783e89236a02bbce5bb4ba808d081a87d994d5284b1ae59928c95bf.lt.png) + +Puiku! Dabar, kai duomenų rinkinys yra vietoje ir skaičiavimo klasteris sukurtas, galime pradėti modelio mokymą! + +### 2.4 Mažo kodo/Be kodo mokymas naudojant AutoML + +Tradicinis mašininio mokymosi modelių kūrimas reikalauja daug išteklių, reikšmingų žinių ir laiko, kad būtų galima sukurti ir palyginti dešimtis modelių. Automatinis mašininis mokymasis (AutoML) yra procesas, automatizuojantis daug laiko reikalaujančias, pasikartojančias mašininio mokymosi modelių kūrimo užduotis. Tai leidžia duomenų mokslininkams, analitikams ir kūrėjams kurti ML modelius dideliu mastu, efektyviai ir produktyviai, išlaikant modelio kokybę. Tai sumažina laiką, reikalingą paruošti ML modelius gamybai, su dideliu paprastumu ir efektyvumu. [Sužinokite daugiau](https://docs.microsoft.com/azure/machine-learning/concept-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) + +1. „[Azure ML darbo erdvėje](https://ml.azure.com/)“, kurią sukūrėme anksčiau, spustelėkite „Automated ML“ kairiajame meniu ir pasirinkite ką tik įkeltą duomenų rinkinį. Spustelėkite „Next“. + + ![27](../../../../translated_images/aml-1.67281a85d3a1e2f34eb367b2d0f74e1039d13396e510f363cd8766632106d1ec.lt.png) + +2. Įveskite naują eksperimento pavadinimą, tikslinį stulpelį (DEATH_EVENT) ir sukurtą skaičiavimo klasterį. Spustelėkite „Next“. + + ![28](../../../../translated_images/aml-2.c9fb9cffb39ccbbe21ab9810ae937195d41a489744e15cff2b8477ed4dcae1ec.lt.png) + +3. Pasirinkite „Classification“ ir spustelėkite „Finish“. Šis žingsnis gali užtrukti nuo 30 minučių iki 1 valandos, priklausomai nuo jūsų skaičiavimo klasterio dydžio. + + ![30](../../../../translated_images/aml-3.a7952e4295f38cc6cdb0c7ed6dc71ea756b7fb5697ec126bc1220f87c5fa9231.lt.png) + +4. Kai vykdymas bus baigtas, spustelėkite skirtuką „Automated ML“, pasirinkite savo vykdymą ir spustelėkite algoritmą kortelėje „Best model summary“. + + ![31](../../../../translated_images/aml-4.7a627e09cb6f16d0aa246059d9faee3d1725cc4258d0c8df15e801f73afc7e2c.lt.png) + +Čia galite matyti išsamią informaciją apie geriausią modelį, kurį sukūrė AutoML. Taip pat galite tyrinėti kitus modelius skirtuke „Models“. Skirkite kelias minutes modelių tyrinėjimui skirtuke „Explanations (preview)“. Kai pasirinksite modelį, kurį norite naudoti (čia pasirinkime geriausią modelį, kurį pasirinko AutoML), pamatysime, kaip jį galima diegti. + +## 3. Mažo kodo/Be kodo modelio diegimas ir galutinio taško naudojimas +### 3.1 Modelio diegimas + +Automatinio mašininio mokymosi sąsaja leidžia diegti geriausią modelį kaip žiniatinklio paslaugą keliais žingsniais. Diegimas yra modelio integravimas, kad jis galėtų atlikti prognozes pagal naujus duomenis ir nustatyti galimas galimybių sritis. Šiame projekte diegimas kaip žiniatinklio paslauga reiškia, kad medicininės programos galės naudoti modelį, kad galėtų atlikti tiesiogines pacientų širdies smūgio rizikos prognozes. + +Geriausio modelio aprašyme spustelėkite mygtuką „Deploy“. + +![deploy-1](../../../../translated_images/deploy-1.ddad725acadc84e34553c3d09e727160faeb32527a9fb8b904c0f99235a34bb6.lt.png) + +15. Suteikite jam pavadinimą, aprašymą, skaičiavimo tipą (Azure Container Instance), įjunkite autentifikavimą ir spustelėkite „Deploy“. Šis žingsnis gali užtrukti apie 20 minučių. Diegimo procesas apima kelis žingsnius, įskaitant modelio registravimą, išteklių generavimą ir jų konfigūravimą žiniatinklio paslaugai. Būsena rodoma po „Deploy status“. Periodiškai spustelėkite „Refresh“, kad patikrintumėte diegimo būseną. Kai būsena yra „Healthy“, diegimas baigtas ir veikia. + +![deploy-2](../../../../translated_images/deploy-2.94dbb13f239086473aa4bf814342fd40483d136849b080f02bafbb995383940e.lt.png) + +16. Kai jis bus įdiegtas, spustelėkite skirtuką „Endpoint“ ir pasirinkite ką tik įdiegtą galutinį tašką. Čia galite rasti visą informaciją apie galutinį tašką. + +![deploy-3](../../../../translated_images/deploy-3.fecefef070e8ef3b28e802326d107f61ac4e672d20bf82d05f78d025f9e6c611.lt.png) + +Nuostabu! Dabar, kai turime įdiegtą modelį, galime pradėti naudoti galutinį tašką. + +### 3.2 Galutinio taško naudojimas + +Spustelėkite skirtuką „Consume“. Čia galite rasti REST galutinį tašką ir „Python“ scenarijų naudojimo parinktyje. Skirkite laiko perskaityti „Python“ kodą. + +Šis scenarijus gali būti vykdomas tiesiogiai iš jūsų vietinio kompiuterio ir naudos jūsų galutinį tašką. + +![35](../../../../translated_images/consumption-1.700abd196452842a020c7d745908637a6e4c5c50494ad1217be80e283e0de154.lt.png) + +Skirkite akimirką patikrinti šias dvi kodo eilutes: + +```python +url = 'http://98e3715f-xxxx-xxxx-xxxx-9ec22d57b796.centralus.azurecontainer.io/score' +api_key = '' # Replace this with the API key for the web service +``` +Kintamasis `url` yra REST galutinio taško adresas, rastas naudojimo skirtuke, o kintamasis `api_key` yra pirminis raktas, taip pat rastas naudojimo skirtuke (tik tuo atveju, jei įjungėte autentifikavimą). Štai kaip scenarijus gali naudoti galutinį tašką. + +18. Vykdydami scenarijų turėtumėte matyti šį rezultatą: + ```python + b'"{\\"result\\": [true]}"' + ``` +Tai reiškia, kad širdies nepakankamumo prognozė pagal pateiktus duomenis yra teisinga. Tai logiška, nes jei atidžiau pažvelgsite į scenarijuje automatiškai sugeneruotus duomenis, viskas pagal numatytuosius nustatymus yra 0 ir klaidinga. Galite pakeisti duomenis naudodami šį pavyzdį: + +```python +data = { + "data": + [ + { + 'age': "0", + 'anaemia': "false", + 'creatinine_phosphokinase': "0", + 'diabetes': "false", + 'ejection_fraction': "0", + 'high_blood_pressure': "false", + 'platelets': "0", + 'serum_creatinine': "0", + 'serum_sodium': "0", + 'sex': "false", + 'smoking': "false", + 'time': "0", + }, + { + 'age': "60", + 'anaemia': "false", + 'creatinine_phosphokinase': "500", + 'diabetes': "false", + 'ejection_fraction': "38", + 'high_blood_pressure': "false", + 'platelets': "260000", + 'serum_creatinine': "1.40", + 'serum_sodium': "137", + 'sex': "false", + 'smoking': "false", + 'time': "130", + }, + ], +} +``` +Scenarijus turėtų grąžinti: + ```python + b'"{\\"result\\": [true, false]}"' + ``` + +Sveikiname! Jūs ką tik panaudojote įdiegtą modelį ir jį apmokėte „Azure ML“! + +> **_PASTABA:_** Kai baigsite projektą, nepamirškite ištrinti visų išteklių. +## 🚀 Iššūkis + +Atidžiai pažvelkite į modelio paaiškinimus ir detales, kurias AutoML sugeneravo geriausiems modeliams. Pabandykite suprasti, kodėl geriausias modelis yra geresnis už kitus. Kokie algoritmai buvo palyginti? Kokie jų skirtumai? Kodėl šis modelis šiuo atveju veikia geriau? + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/35) + +## Apžvalga ir savarankiškas mokymasis + +Šioje pamokoje išmokote, kaip apmokyti, įdiegti ir naudoti modelį, skirtą širdies nepakankamumo rizikai prognozuoti, naudojant mažo kodo/Be kodo metodą debesyje. Jei dar to nepadarėte, gilinkitės į modelio paaiškinimus, kuriuos AutoML sugeneravo geriausiems modeliams, ir pabandykite suprasti, kodėl geriausias modelis yra geresnis už kitus. + +Galite gilintis į mažo kodo/Be kodo AutoML skaitydami šią [dokumentaciją](https://docs.microsoft.com/azure/machine-learning/tutorial-first-experiment-automated-ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). + +## Užduotis + +[Mažo kodo/Be kodo duomenų mokslo projektas „Azure ML“](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/assignment.md b/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/assignment.md new file mode 100644 index 00000000..392fd041 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/18-Low-Code/assignment.md @@ -0,0 +1,25 @@ + +# Mažai kodo/Be kodo duomenų mokslų projektas Azure ML platformoje + +## Instrukcijos + +Mes išmokome, kaip naudoti Azure ML platformą modelio mokymui, diegimui ir naudojimui mažai kodo/visiškai be kodo būdu. Dabar paieškokite duomenų, kuriuos galėtumėte panaudoti kito modelio mokymui, diegimui ir naudojimui. Duomenų rinkinius galite rasti [Kaggle](https://kaggle.com) ir [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). + +## Vertinimo kriterijai + +| Puikiai | Pakankamai | Reikia tobulinti | +|---------|------------|------------------| +|Įkeldami duomenis pasirūpinote, kad prireikus pakeistumėte savybių tipus. Taip pat išvalėte duomenis, jei to reikėjo. Atlikote mokymą naudodami AutoML ir patikrinote modelio paaiškinimus. Diegėte geriausią modelį ir sugebėjote jį naudoti. | Įkeldami duomenis pasirūpinote, kad prireikus pakeistumėte savybių tipus. Atlikote mokymą naudodami AutoML, diegėte geriausią modelį ir sugebėjote jį naudoti. | Diegėte geriausią AutoML mokytą modelį ir sugebėjote jį naudoti. | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/19-Azure/README.md b/translations/lt/5-Data-Science-In-Cloud/19-Azure/README.md new file mode 100644 index 00000000..3586b3c5 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/19-Azure/README.md @@ -0,0 +1,325 @@ + +# Duomenų mokslas debesyje: „Azure ML SDK“ būdas + +|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/19-DataScience-Cloud.png)| +|:---:| +| Duomenų mokslas debesyje: Azure ML SDK - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Turinys: + +- [Duomenų mokslas debesyje: „Azure ML SDK“ būdas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [Prieš paskaitą: testas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [1. Įvadas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [1.1 Kas yra Azure ML SDK?](../../../../5-Data-Science-In-Cloud/19-Azure) + - [1.2 Širdies nepakankamumo prognozavimo projektas ir duomenų rinkinio pristatymas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2. Modelio mokymas naudojant Azure ML SDK](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.1 Sukurti Azure ML darbo sritį](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.2 Sukurti skaičiavimo instanciją](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.3 Duomenų rinkinio įkėlimas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.4 Užrašinių kūrimas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.5 Modelio mokymas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.5.1 Darbo srities, eksperimento, skaičiavimo klasterio ir duomenų rinkinio nustatymas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [2.5.2 AutoML konfigūracija ir mokymas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [3. Modelio diegimas ir naudojimas per Azure ML SDK](../../../../5-Data-Science-In-Cloud/19-Azure) + - [3.1 Geriausio modelio išsaugojimas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [3.2 Modelio diegimas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [3.3 Naudojimasis galutiniu tašku](../../../../5-Data-Science-In-Cloud/19-Azure) + - [🚀 Iššūkis](../../../../5-Data-Science-In-Cloud/19-Azure) + - [Po paskaitos: testas](../../../../5-Data-Science-In-Cloud/19-Azure) + - [Apžvalga ir savarankiškas mokymasis](../../../../5-Data-Science-In-Cloud/19-Azure) + - [Užduotis](../../../../5-Data-Science-In-Cloud/19-Azure) + +## [Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/36) + +## 1. Įvadas + +### 1.1 Kas yra Azure ML SDK? + +Duomenų mokslininkai ir dirbtinio intelekto kūrėjai naudoja „Azure Machine Learning SDK“, kad kurtų ir vykdytų mašininio mokymosi darbo eigas naudodami „Azure Machine Learning“ paslaugą. Galite sąveikauti su paslauga bet kurioje „Python“ aplinkoje, įskaitant „Jupyter Notebooks“, „Visual Studio Code“ ar jūsų mėgstamą „Python IDE“. + +Pagrindinės SDK sritys apima: + +- Duomenų rinkinių, naudojamų mašininio mokymosi eksperimentuose, tyrimą, paruošimą ir gyvavimo ciklo valdymą. +- Debesų išteklių valdymą eksperimentų stebėjimui, žurnalavimui ir organizavimui. +- Modelių mokymą tiek lokaliai, tiek naudojant debesų išteklius, įskaitant modelių mokymą su GPU. +- Automatinį mašininį mokymą, kuris priima konfigūracijos parametrus ir mokymo duomenis. Jis automatiškai iteruoja per algoritmus ir hiperparametrų nustatymus, kad rastų geriausią modelį prognozėms vykdyti. +- Žiniatinklio paslaugų diegimą, kad jūsų apmokyti modeliai taptų RESTful paslaugomis, kurias galima naudoti bet kurioje programoje. + +[Daugiau apie „Azure Machine Learning SDK“](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) + +[Ankstesnėje pamokoje](../18-Low-Code/README.md) matėme, kaip treniruoti, diegti ir naudoti modelį naudojant mažai kodo arba be kodo metodą. Naudojome širdies nepakankamumo duomenų rinkinį, kad sukurtume širdies nepakankamumo prognozavimo modelį. Šioje pamokoje darysime tą patį, bet naudodami „Azure Machine Learning SDK“. + +![projekto-schema](../../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png) + +### 1.2 Širdies nepakankamumo prognozavimo projektas ir duomenų rinkinio pristatymas + +Peržiūrėkite [čia](../18-Low-Code/README.md) širdies nepakankamumo prognozavimo projekto ir duomenų rinkinio pristatymą. + +## 2. Modelio mokymas naudojant Azure ML SDK + +### 2.1 Sukurti Azure ML darbo sritį + +Paprastumo dėlei dirbsime „Jupyter Notebook“. Tai reiškia, kad jau turite darbo sritį ir skaičiavimo instanciją. Jei jau turite darbo sritį, galite pereiti tiesiai prie skyriaus 2.3 Užrašinių kūrimas. + +Jei ne, vadovaukitės instrukcijomis skyriuje **2.1 Sukurti Azure ML darbo sritį** [ankstesnėje pamokoje](../18-Low-Code/README.md), kad sukurtumėte darbo sritį. + +### 2.2 Sukurti skaičiavimo instanciją + +„[Azure ML darbo srityje](https://ml.azure.com/)“, kurią sukūrėme anksčiau, eikite į skaičiavimo meniu ir pamatysite skirtingus skaičiavimo išteklius. + +![skaiciavimo-instancija-1](../../../../translated_images/compute-instance-1.dba347cb199ca4996b3e3d649295ed95626ba481479d3986557b9b98e76d8816.lt.png) + +Sukurkime skaičiavimo instanciją, kad galėtume naudoti „Jupyter Notebook“. +1. Spustelėkite mygtuką + Naujas. +2. Suteikite savo skaičiavimo instancijai pavadinimą. +3. Pasirinkite parinktis: CPU arba GPU, VM dydį ir branduolių skaičių. +4. Spustelėkite mygtuką Kurti. + +Sveikiname, ką tik sukūrėte skaičiavimo instanciją! Šią skaičiavimo instanciją naudosime užrašinei sukurti skyriuje [Užrašinių kūrimas](../../../../5-Data-Science-In-Cloud/19-Azure). + +### 2.3 Duomenų rinkinio įkėlimas + +Jei dar neįkėlėte duomenų rinkinio, peržiūrėkite [ankstesnę pamoką](../18-Low-Code/README.md) skyriuje **2.3 Duomenų rinkinio įkėlimas**. + +### 2.4 Užrašinių kūrimas + +> **_PASTABA:_** Kitame žingsnyje galite sukurti naują užrašinę nuo nulio arba įkelti [užrašinę, kurią sukūrėme](notebook.ipynb) į savo „Azure ML Studio“. Norėdami ją įkelti, tiesiog spustelėkite meniu „Notebook“ ir įkelkite užrašinę. + +Užrašinės yra labai svarbi duomenų mokslo proceso dalis. Jos gali būti naudojamos tyrinėjimo duomenų analizei (EDA), modelio mokymui skaičiavimo klasteryje arba galutinio taško diegimui. + +Norėdami sukurti užrašinę, mums reikia skaičiavimo mazgo, kuris paleistų „Jupyter Notebook“ instanciją. Grįžkite į [Azure ML darbo sritį](https://ml.azure.com/) ir spustelėkite Skaičiavimo instancijos. Skaičiavimo instancijų sąraše turėtumėte matyti [anksčiau sukurtą skaičiavimo instanciją](../../../../5-Data-Science-In-Cloud/19-Azure). + +1. Skiltyje Programos spustelėkite parinktį Jupyter. +2. Pažymėkite langelį „Taip, suprantu“ ir spustelėkite mygtuką Tęsti. +![uzrasine-1](../../../../translated_images/notebook-1.12998af7b02c83f536c11b3aeba561be16e0f05e94146600728ec64270ce1105.lt.png) +3. Tai turėtų atidaryti naują naršyklės skirtuką su jūsų „Jupyter Notebook“ instancija. Spustelėkite mygtuką „Naujas“, kad sukurtumėte užrašinę. + +![uzrasine-2](../../../../translated_images/notebook-2.9a657c037e34f1cf26c0212f5ee9e2da8545b3e107c7682c55114e494167a8aa.lt.png) + +Dabar, kai turime užrašinę, galime pradėti mokyti modelį naudodami „Azure ML SDK“. + +### 2.5 Modelio mokymas + +Visų pirma, jei turite kokių nors abejonių, peržiūrėkite [Azure ML SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). Joje pateikiama visa reikalinga informacija apie modulius, kuriuos aptarsime šioje pamokoje. + +#### 2.5.1 Darbo srities, eksperimento, skaičiavimo klasterio ir duomenų rinkinio nustatymas + +Turite įkelti `workspace` iš konfigūracijos failo naudodami šį kodą: + +```python +from azureml.core import Workspace +ws = Workspace.from_config() +``` + +Tai grąžina objektą `Workspace` tipo, kuris atstovauja darbo sritį. Tada turite sukurti `eksperimentą` naudodami šį kodą: + +```python +from azureml.core import Experiment +experiment_name = 'aml-experiment' +experiment = Experiment(ws, experiment_name) +``` + +Norėdami gauti arba sukurti eksperimentą iš darbo srities, turite nurodyti eksperimento pavadinimą. Eksperimento pavadinimas turi būti nuo 3 iki 36 simbolių, prasidėti raide arba skaičiumi ir gali turėti tik raides, skaičius, pabraukimus ir brūkšnelius. Jei darbo srityje eksperimentas nerandamas, sukuriamas naujas eksperimentas. + +Dabar turite sukurti skaičiavimo klasterį mokymui naudodami šį kodą. Atkreipkite dėmesį, kad šis žingsnis gali užtrukti kelias minutes. + +```python +from azureml.core.compute import AmlCompute + +aml_name = "heart-f-cluster" +try: + aml_compute = AmlCompute(ws, aml_name) + print('Found existing AML compute context.') +except: + print('Creating new AML compute context.') + aml_config = AmlCompute.provisioning_configuration(vm_size = "Standard_D2_v2", min_nodes=1, max_nodes=3) + aml_compute = AmlCompute.create(ws, name = aml_name, provisioning_configuration = aml_config) + aml_compute.wait_for_completion(show_output = True) + +cts = ws.compute_targets +compute_target = cts[aml_name] +``` + +Duomenų rinkinį galite gauti iš darbo srities naudodami duomenų rinkinio pavadinimą šiuo būdu: + +```python +dataset = ws.datasets['heart-failure-records'] +df = dataset.to_pandas_dataframe() +df.describe() +``` + +#### 2.5.2 AutoML konfigūracija ir mokymas + +Norėdami nustatyti AutoML konfigūraciją, naudokite [AutoMLConfig klasę](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig(class)?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). + +Kaip aprašyta dokumentacijoje, yra daug parametrų, su kuriais galite eksperimentuoti. Šiam projektui naudosime šiuos parametrus: + +- `experiment_timeout_minutes`: Maksimalus laikas (minutėmis), kurį eksperimentas gali veikti prieš automatinį sustabdymą. +- `max_concurrent_iterations`: Maksimalus leidžiamų vienu metu vykdomų mokymo iteracijų skaičius. +- `primary_metric`: Pagrindinis metrikos rodiklis, naudojamas eksperimento būsenai nustatyti. +- `compute_target`: „Azure Machine Learning“ skaičiavimo tikslas, kuriame vykdomas automatinis mašininis mokymas. +- `task`: Užduoties tipas. Vertės gali būti „classification“, „regression“ arba „forecasting“. +- `training_data`: Mokymo duomenys, naudojami eksperimente. Jie turėtų apimti tiek mokymo funkcijas, tiek etikečių stulpelį. +- `label_column_name`: Etikečių stulpelio pavadinimas. +- `path`: Pilnas kelias iki „Azure Machine Learning“ projekto aplanko. +- `enable_early_stopping`: Ar įjungti ankstyvą nutraukimą, jei rezultatai trumpuoju laikotarpiu negerėja. +- `featurization`: Indikatorius, ar featurizacija turėtų būti atliekama automatiškai, ar pritaikyta. +- `debug_log`: Žurnalo failas, į kurį rašoma derinimo informacija. + +```python +from azureml.train.automl import AutoMLConfig + +project_folder = './aml-project' + +automl_settings = { + "experiment_timeout_minutes": 20, + "max_concurrent_iterations": 3, + "primary_metric" : 'AUC_weighted' +} + +automl_config = AutoMLConfig(compute_target=compute_target, + task = "classification", + training_data=dataset, + label_column_name="DEATH_EVENT", + path = project_folder, + enable_early_stopping= True, + featurization= 'auto', + debug_log = "automl_errors.log", + **automl_settings + ) +``` + +Dabar, kai turite savo konfigūraciją, galite mokyti modelį naudodami šį kodą. Šis žingsnis gali užtrukti iki valandos, priklausomai nuo jūsų klasterio dydžio. + +```python +remote_run = experiment.submit(automl_config) +``` + +Galite paleisti „RunDetails“ valdiklį, kad pamatytumėte skirtingus eksperimentus. + +```python +from azureml.widgets import RunDetails +RunDetails(remote_run).show() +``` + +## 3. Modelio diegimas ir naudojimas per Azure ML SDK + +### 3.1 Geriausio modelio išsaugojimas + +`remote_run` yra objektas [AutoMLRun](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) tipo. Šis objektas turi metodą `get_output()`, kuris grąžina geriausią vykdymą ir atitinkamą pritaikytą modelį. + +```python +best_run, fitted_model = remote_run.get_output() +``` + +Galite matyti geriausio modelio parametrus tiesiog atspausdinę `fitted_model` ir naudodami [get_properties()](https://docs.microsoft.com/python/api/azureml-core/azureml.core.run(class)?view=azure-ml-py#azureml_core_Run_get_properties?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą. + +```python +best_run.get_properties() +``` + +Dabar užregistruokite modelį naudodami [register_model](https://docs.microsoft.com/python/api/azureml-train-automl-client/azureml.train.automl.run.automlrun?view=azure-ml-py#register-model-model-name-none--description-none--tags-none--iteration-none--metric-none-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą. + +```python +model_name = best_run.properties['model_name'] +script_file_name = 'inference/score.py' +best_run.download_file('outputs/scoring_file_v_1_0_0.py', 'inference/score.py') +description = "aml heart failure project sdk" +model = best_run.register_model(model_name = model_name, + model_path = './outputs/', + description = description, + tags = None) +``` + +### 3.2 Modelio diegimas + +Kai geriausias modelis išsaugotas, galime jį diegti naudodami [InferenceConfig](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model.inferenceconfig?view=azure-ml-py?ocid=AID3041109) klasę. „InferenceConfig“ atstovauja konfigūracijos nustatymus, naudojamus diegimui. [AciWebservice](https://docs.microsoft.com/python/api/azureml-core/azureml.core.webservice.aciwebservice?view=azure-ml-py) klasė atstovauja mašininio mokymosi modelį, diegiamą kaip žiniatinklio paslaugos galutinį tašką „Azure Container Instances“. Diegta paslauga yra apkrovos balansavimo HTTP galutinis taškas su REST API. Galite siųsti duomenis į šį API ir gauti modelio grąžintą prognozę. + +Modelis diegiamas naudojant [deploy](https://docs.microsoft.com/python/api/azureml-core/azureml.core.model(class)?view=azure-ml-py#deploy-workspace--name--models--inference-config-none--deployment-config-none--deployment-target-none--overwrite-false--show-output-false-?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) metodą. + +```python +from azureml.core.model import InferenceConfig, Model +from azureml.core.webservice import AciWebservice + +inference_config = InferenceConfig(entry_script=script_file_name, environment=best_run.get_environment()) + +aciconfig = AciWebservice.deploy_configuration(cpu_cores = 1, + memory_gb = 1, + tags = {'type': "automl-heart-failure-prediction"}, + description = 'Sample service for AutoML Heart Failure Prediction') + +aci_service_name = 'automl-hf-sdk' +aci_service = Model.deploy(ws, aci_service_name, [model], inference_config, aciconfig) +aci_service.wait_for_deployment(True) +print(aci_service.state) +``` + +Šis žingsnis turėtų užtrukti kelias minutes. + +### 3.3 Naudojimasis galutiniu tašku + +Galutinį tašką naudojate sukurdami pavyzdinį įvestį: + +```python +data = { + "data": + [ + { + 'age': "60", + 'anaemia': "false", + 'creatinine_phosphokinase': "500", + 'diabetes': "false", + 'ejection_fraction': "38", + 'high_blood_pressure': "false", + 'platelets': "260000", + 'serum_creatinine': "1.40", + 'serum_sodium': "137", + 'sex': "false", + 'smoking': "false", + 'time': "130", + }, + ], +} + +test_sample = str.encode(json.dumps(data)) +``` + +Tada galite siųsti šį įvestį savo modeliui prognozei gauti: +```python +response = aci_service.run(input_data=test_sample) +response +``` +Tai turėtų išvesti `'{"result": [false]}'`. Tai reiškia, kad paciento duomenys, kuriuos išsiuntėme į galinį tašką, sukūrė prognozę `false`, kas reiškia, jog šis asmuo greičiausiai nepatirs širdies smūgio. + +Sveikiname! Jūs ką tik panaudojote modelį, kuris buvo įdiegtas ir apmokytas naudojant Azure ML su Azure ML SDK! + +> **_NOTE:_** Baigę projektą, nepamirškite ištrinti visų resursų. + +## 🚀 Iššūkis + +Yra daugybė kitų dalykų, kuriuos galite atlikti naudodami SDK, deja, visų jų negalime aptarti šioje pamokoje. Tačiau gera žinia – išmokę greitai peržiūrėti SDK dokumentaciją, galėsite daug pasiekti savarankiškai. Peržiūrėkite Azure ML SDK dokumentaciją ir suraskite `Pipeline` klasę, kuri leidžia kurti procesus. Procesas yra žingsnių rinkinys, kurį galima vykdyti kaip darbo eigą. + +**Patarimas:** Eikite į [SDK dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) ir paieškos laukelyje įveskite tokius raktažodžius kaip „Pipeline“. Paieškos rezultatuose turėtumėte rasti `azureml.pipeline.core.Pipeline` klasę. + +## [Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/37) + +## Apžvalga ir savarankiškas mokymasis + +Šioje pamokoje išmokote, kaip apmokyti, įdiegti ir panaudoti modelį, skirtą širdies nepakankamumo rizikai prognozuoti, naudojant Azure ML SDK debesyje. Peržiūrėkite šią [dokumentaciją](https://docs.microsoft.com/python/api/overview/azure/ml/?view=azure-ml-py?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109), kad gautumėte daugiau informacijos apie Azure ML SDK. Pabandykite sukurti savo modelį naudodami Azure ML SDK. + +## Užduotis + +[Duomenų mokslo projektas naudojant Azure ML SDK](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/19-Azure/assignment.md b/translations/lt/5-Data-Science-In-Cloud/19-Azure/assignment.md new file mode 100644 index 00000000..ca040be0 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/19-Azure/assignment.md @@ -0,0 +1,25 @@ + +# Duomenų mokslo projektas naudojant Azure ML SDK + +## Instrukcijos + +Mes matėme, kaip naudoti Azure ML platformą modelio treniravimui, diegimui ir naudojimui su Azure ML SDK. Dabar paieškokite duomenų, kuriuos galėtumėte panaudoti kito modelio treniravimui, diegimui ir naudojimui. Duomenų rinkinių galite ieškoti [Kaggle](https://kaggle.com) ir [Azure Open Datasets](https://azure.microsoft.com/services/open-datasets/catalog?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109). + +## Vertinimo kriterijai + +| Puikiai | Pakankamai | Reikia patobulinimų | +|---------|-----------|---------------------| +|Atliekant AutoML konfigūraciją, peržiūrėjote SDK dokumentaciją, kad sužinotumėte, kokius parametrus galite naudoti. Atlikote duomenų rinkinio treniravimą naudodami AutoML su Azure ML SDK ir patikrinote modelio paaiškinimus. Diegėte geriausią modelį ir sugebėjote jį naudoti per Azure ML SDK. | Atlikote duomenų rinkinio treniravimą naudodami AutoML su Azure ML SDK ir patikrinote modelio paaiškinimus. Diegėte geriausią modelį ir sugebėjote jį naudoti per Azure ML SDK. | Atlikote duomenų rinkinio treniravimą naudodami AutoML su Azure ML SDK. Diegėte geriausią modelį ir sugebėjote jį naudoti per Azure ML SDK. | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/5-Data-Science-In-Cloud/README.md b/translations/lt/5-Data-Science-In-Cloud/README.md new file mode 100644 index 00000000..8e699052 --- /dev/null +++ b/translations/lt/5-Data-Science-In-Cloud/README.md @@ -0,0 +1,35 @@ + +# Duomenų mokslas debesyje + +![cloud-picture](../../../translated_images/cloud-picture.f5526de3c6c6387b2d656ba94f019b3352e5e3854a78440e4fb00c93e2dea675.lt.jpg) + +> Nuotrauka [Jelleke Vanooteghem](https://unsplash.com/@ilumire) iš [Unsplash](https://unsplash.com/s/photos/cloud?orientation=landscape) + +Kalbant apie duomenų mokslą su dideliais duomenų kiekiais, debesis gali būti tikras žaidimo keitiklis. Per artimiausias tris pamokas sužinosime, kas yra debesis ir kodėl jis gali būti labai naudingas. Taip pat išnagrinėsime širdies nepakankamumo duomenų rinkinį ir sukursime modelį, kuris padės įvertinti tikimybę, ar žmogui gresia širdies nepakankamumas. Naudosime debesies galią, kad apmokytume, diegtume ir naudotume modelį dviem skirtingais būdais. Vienas būdas – naudojant tik vartotojo sąsają „Low code/No code“ stiliumi, kitas – naudojant „Azure Machine Learning Software Developer Kit“ (Azure ML SDK). + +![project-schema](../../../translated_images/project-schema.420e56d495624541eaecf2b737f138c86fb7d8162bb1c0bf8783c350872ffc4d.lt.png) + +### Temos + +1. [Kodėl naudoti debesį duomenų mokslui?](17-Introduction/README.md) +2. [Duomenų mokslas debesyje: „Low code/No code“ būdas](18-Low-Code/README.md) +3. [Duomenų mokslas debesyje: „Azure ML SDK“ būdas](19-Azure/README.md) + +### Kreditas +Šios pamokos buvo parašytos su ☁️ ir 💕 [Maud Levy](https://twitter.com/maudstweets) ir [Tiffany Souterre](https://twitter.com/TiffanySouterre). + +Duomenys širdies nepakankamumo prognozavimo projektui yra paimti iš [ +Larxel](https://www.kaggle.com/andrewmvd) platformos [Kaggle](https://www.kaggle.com/andrewmvd/heart-failure-clinical-data). Jie yra licencijuoti pagal [Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/README.md b/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/README.md new file mode 100644 index 00000000..3d599b82 --- /dev/null +++ b/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/README.md @@ -0,0 +1,148 @@ + +# Duomenų mokslas realiame pasaulyje + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-RealWorld.png) | +| :--------------------------------------------------------------------------------------------------------------: | +| Duomenų mokslas realiame pasaulyje - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Mes beveik pasiekėme šios mokymosi kelionės pabaigą! + +Pradėjome nuo duomenų mokslo ir etikos apibrėžimų, tyrinėjome įvairius duomenų analizės ir vizualizacijos įrankius bei technikas, peržiūrėjome duomenų mokslo gyvavimo ciklą ir aptarėme, kaip mastelį ir automatizaciją galima pasiekti naudojant debesų kompiuterijos paslaugas. Taigi, tikriausiai klausiate savęs: _"Kaip tiksliai pritaikyti visus šiuos mokymus realiame pasaulyje?"_ + +Šioje pamokoje nagrinėsime duomenų mokslo taikymą įvairiose pramonės srityse ir gilinsimės į konkrečius pavyzdžius, susijusius su tyrimais, skaitmeninėmis humanitarinėmis mokslų sritimis ir tvarumu. Taip pat aptarsime studentų projektų galimybes ir užbaigsime naudingais ištekliais, kurie padės tęsti mokymosi kelionę! + +## Prieš paskaitą: testas + +[Prieš paskaitą: testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/38) + +## Duomenų mokslas + Pramonė + +Dėl AI demokratizacijos kūrėjams dabar lengviau kurti ir integruoti AI pagrįstus sprendimus bei duomenimis pagrįstas įžvalgas į vartotojų patirtis ir kūrimo procesus. Štai keletas pavyzdžių, kaip duomenų mokslas "taikomas" realiame pasaulyje įvairiose pramonės srityse: + + * [Google Flu Trends](https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/) naudojo duomenų mokslą, kad susietų paieškos terminus su gripo tendencijomis. Nors metodas turėjo trūkumų, jis atkreipė dėmesį į galimybes (ir iššūkius) prognozuojant sveikatos būklę remiantis duomenimis. + + * [UPS maršrutų prognozės](https://www.technologyreview.com/2018/11/21/139000/how-ups-uses-ai-to-outsmart-bad-weather/) - paaiškina, kaip UPS naudoja duomenų mokslą ir mašininį mokymąsi, kad numatytų optimaliausius pristatymo maršrutus, atsižvelgiant į oro sąlygas, eismo modelius, pristatymo terminus ir kt. + + * [NYC taksi maršrutų vizualizacija](http://chriswhong.github.io/nyctaxi/) - duomenys, surinkti naudojant [Informacijos laisvės įstatymus](https://chriswhong.com/open-data/foil_nyc_taxi/), padėjo vizualizuoti vieną NYC taksi dieną, leidžiant suprasti, kaip jie naviguoja užimtame mieste, kiek uždirba ir kiek trunka kelionės per 24 valandas. + + * [Uber duomenų mokslo darbo aplinka](https://eng.uber.com/dsw/) - naudoja duomenis (apie paėmimo ir išlaipinimo vietas, kelionės trukmę, pageidaujamus maršrutus ir kt.), surinktus iš milijonų Uber kelionių *kasdien*, kad sukurtų duomenų analizės įrankį, padedantį nustatyti kainas, saugumą, sukčiavimo aptikimą ir navigacijos sprendimus. + + * [Sporto analitika](https://towardsdatascience.com/scope-of-analytics-in-sports-world-37ed09c39860) - orientuojasi į _prognozavimo analitiką_ (komandų ir žaidėjų analizė - pagalvokite apie [Moneyball](https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/) - ir gerbėjų valdymą) bei _duomenų vizualizaciją_ (komandų ir gerbėjų skydeliai, žaidimai ir kt.) su taikymu, kaip talentų paieška, sporto lažybos ir inventoriaus/vietos valdymas. + + * [Duomenų mokslas bankininkystėje](https://data-flair.training/blogs/data-science-in-banking/) - pabrėžia duomenų mokslo vertę finansų pramonėje, taikant rizikos modeliavimą, sukčiavimo aptikimą, klientų segmentavimą, realaus laiko prognozes ir rekomendacijų sistemas. Prognozavimo analitika taip pat skatina svarbias priemones, tokias kaip [kredito reitingai](https://dzone.com/articles/using-big-data-and-predictive-analytics-for-credit). + + * [Duomenų mokslas sveikatos apsaugoje](https://data-flair.training/blogs/data-science-in-healthcare/) - pabrėžia taikymą, kaip medicininė vaizdinė analizė (pvz., MRT, rentgenas, CT-skenavimas), genomika (DNR sekos nustatymas), vaistų kūrimas (rizikos vertinimas, sėkmės prognozė), prognozavimo analitika (pacientų priežiūra ir tiekimo logistika), ligų stebėjimas ir prevencija ir kt. + +![Duomenų mokslo taikymas realiame pasaulyje](../../../../translated_images/data-science-applications.4e5019cd8790ebac2277ff5f08af386f8727cac5d30f77727c7090677e6adb9c.lt.png) Vaizdo kreditas: [Data Flair: 6 Amazing Data Science Applications ](https://data-flair.training/blogs/data-science-applications/) + +Paveikslėlyje parodytos kitos sritys ir pavyzdžiai, kaip taikyti duomenų mokslo technikas. Norite tyrinėti kitus taikymus? Peržiūrėkite [Peržiūra ir savarankiškas mokymasis](../../../../6-Data-Science-In-Wild/20-Real-World-Examples) skyrių žemiau. + +## Duomenų mokslas + Tyrimai + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Research.png) | +| :---------------------------------------------------------------------------------------------------------------: | +| Duomenų mokslas ir tyrimai - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Nors realaus pasaulio taikymas dažnai orientuojasi į pramonės naudojimo atvejus mastu, _tyrimų_ taikymas ir projektai gali būti naudingi iš dviejų perspektyvų: + +* _inovacijų galimybės_ - tyrinėti pažangių koncepcijų greitą prototipavimą ir vartotojų patirties testavimą kitų kartų taikymams. +* _diegimo iššūkiai_ - tirti galimus žalingus ar netikėtus duomenų mokslo technologijų padarinius realiame pasaulyje. + +Studentams šie tyrimų projektai gali suteikti tiek mokymosi, tiek bendradarbiavimo galimybių, kurios gali pagerinti jūsų supratimą apie temą ir praplėsti jūsų sąmoningumą bei įsitraukimą su atitinkamais žmonėmis ar komandomis, dirbančiomis dominančiose srityse. Taigi, kaip atrodo tyrimų projektai ir kaip jie gali turėti įtakos? + +Pažvelkime į vieną pavyzdį - [MIT Gender Shades Study](http://gendershades.org/overview.html) iš Joy Buolamwini (MIT Media Labs) su [reikšmingu tyrimo straipsniu](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf), kurį kartu parašė Timnit Gebru (tuomet Microsoft Research), kuris buvo orientuotas į: + + * **Kas:** Tyrimo projekto tikslas buvo _įvertinti šališkumą automatizuotų veido analizės algoritmų ir duomenų rinkinių_ pagrindu pagal lytį ir odos tipą. + * **Kodėl:** Veido analizė naudojama tokiose srityse kaip teisėsauga, oro uostų saugumas, įdarbinimo sistemos ir kt. - kontekstuose, kur netikslūs klasifikavimai (pvz., dėl šališkumo) gali sukelti ekonominius ir socialinius padarinius paveiktiems asmenims ar grupėms. Šališkumo supratimas (ir jo pašalinimas ar mažinimas) yra raktas į teisingumą naudojime. + * **Kaip:** Tyrėjai pastebėjo, kad esami etalonai daugiausia naudojo šviesesnės odos subjektus, ir sukūrė naują duomenų rinkinį (1000+ vaizdų), kuris buvo _labiau subalansuotas_ pagal lytį ir odos tipą. Duomenų rinkinys buvo naudojamas trijų lyties klasifikavimo produktų (Microsoft, IBM ir Face++) tikslumui įvertinti. + +Rezultatai parodė, kad nors bendras klasifikavimo tikslumas buvo geras, buvo pastebimas klaidų rodiklių skirtumas tarp įvairių pogrupių - su **neteisingu lyties nustatymu**, kuris buvo didesnis moterims ar tamsesnės odos tipų asmenims, rodantis šališkumą. + +**Pagrindiniai rezultatai:** Atkreiptas dėmesys, kad duomenų mokslui reikia daugiau _reprezentatyvių duomenų rinkinių_ (subalansuotų pogrupių) ir daugiau _įtraukiančių komandų_ (įvairių kilmės), kad būtų galima anksčiau atpažinti ir pašalinti ar sumažinti tokį šališkumą AI sprendimuose. Tokie tyrimų pastangos taip pat yra svarbios daugeliui organizacijų, apibrėžiančių principus ir praktikas _atsakingam AI_, siekiant pagerinti teisingumą jų AI produktuose ir procesuose. + +**Norite sužinoti apie atitinkamus tyrimų pastangas Microsoft?** + +* Peržiūrėkite [Microsoft tyrimų projektus](https://www.microsoft.com/research/research-area/artificial-intelligence/?facet%5Btax%5D%5Bmsr-research-area%5D%5B%5D=13556&facet%5Btax%5D%5Bmsr-content-type%5D%5B%5D=msr-project) apie dirbtinį intelektą. +* Tyrinėkite studentų projektus iš [Microsoft Research Data Science Summer School](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/). +* Peržiūrėkite [Fairlearn](https://fairlearn.org/) projektą ir [Atsakingo AI](https://www.microsoft.com/en-us/ai/responsible-ai?activetab=pivot1%3aprimaryr6) iniciatyvas. + +## Duomenų mokslas + Humanitariniai mokslai + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Humanities.png) | +| :---------------------------------------------------------------------------------------------------------------: | +| Duomenų mokslas ir skaitmeninės humanitarinės mokslų sritys - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +Skaitmeninės humanitarinės mokslų sritys [apibrėžtos](https://digitalhumanities.stanford.edu/about-dh-stanford) kaip "praktikų ir metodų rinkinys, derinantis skaičiavimo metodus su humanitariniais tyrimais". [Stanford projektai](https://digitalhumanities.stanford.edu/projects), tokie kaip _"istorijos atnaujinimas"_ ir _"poetinis mąstymas"_, iliustruoja ryšį tarp [Skaitmeninių humanitarinių mokslų ir duomenų mokslo](https://digitalhumanities.stanford.edu/digital-humanities-and-data-science) - pabrėžiant technikas, tokias kaip tinklo analizė, informacijos vizualizacija, erdvinė ir teksto analizė, kurios gali padėti mums iš naujo peržiūrėti istorinius ir literatūrinius duomenų rinkinius, kad gautume naujų įžvalgų ir perspektyvų. + +*Norite tyrinėti ir plėsti projektą šioje srityje?* + +Peržiūrėkite ["Emily Dickinson ir nuotaikos metras"](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671) - puikus pavyzdys iš [Jen Looper](https://twitter.com/jenlooper), kuris klausia, kaip galime naudoti duomenų mokslą, kad iš naujo peržiūrėtume pažįstamą poeziją ir įvertintume jos prasmę bei autoriaus indėlį naujuose kontekstuose. Pavyzdžiui, _ar galime prognozuoti sezoną, kuriame buvo parašytas eilėraštis, analizuodami jo toną ar nuotaiką_ - ir ką tai pasakoja apie autoriaus būseną per atitinkamą laikotarpį? + +Norėdami atsakyti į šį klausimą, sekame duomenų mokslo gyvavimo ciklo žingsnius: + * [`Duomenų gavimas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#acquiring-the-dataset) - surinkti tinkamą duomenų rinkinį analizei. Galimybės apima API naudojimą (pvz., [Poetry DB API](https://poetrydb.org/index.html)) arba tinklalapių nuskaitymą (pvz., [Project Gutenberg](https://www.gutenberg.org/files/12242/12242-h/12242-h.htm)) naudojant įrankius, tokius kaip [Scrapy](https://scrapy.org/). + * [`Duomenų valymas`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#clean-the-data) - paaiškina, kaip tekstas gali būti formatuojamas, valomas ir supaprastinamas naudojant pagrindinius įrankius, tokius kaip Visual Studio Code ir Microsoft Excel. + * [`Duomenų analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#working-with-the-data-in-a-notebook) - paaiškina, kaip dabar galime importuoti duomenų rinkinį į "Notebooks" analizei naudojant Python paketus (pvz., pandas, numpy ir matplotlib), kad organizuotume ir vizualizuotume duomenis. + * [`Nuotaikos analizė`](https://gist.github.com/jlooper/ce4d102efd057137bc000db796bfd671#sentiment-analysis-using-cognitive-services) - paaiškina, kaip galime integruoti debesų paslaugas, tokias kaip Teksto analizė, naudojant mažo kodo įrankius, tokius kaip [Power Automate](https://flow.microsoft.com/en-us/) automatizuotoms duomenų apdorojimo darbo eigoms. + +Naudodami šį darbo eigą, galime tyrinėti sezoninius poveikius eilėraščių nuotaikai ir padėti mums suformuoti savo perspektyvas apie autorių. Išbandykite patys - tada išplėskite užrašų knygelę, kad užduotumėte kitus klausimus arba vizualizuotumėte duomenis naujais būdais! + +> Galite naudoti kai kuriuos įrankius iš [Skaitmeninių humanitarinių mokslų įrankių rinkinio](https://github.com/Digital-Humanities-Toolkit), kad tęstumėte šias tyrimų kryptis. + +## Duomenų mokslas + Tvarumas + +| ![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/20-DataScience-Sustainability.png) | +| :---------------------------------------------------------------------------------------------------------------: | +| Duomenų mokslas ir tvarumas - _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +[2030 m. darbotvarkė tvariam vystymuisi](https://sdgs.un.org/2030agenda) - priimta visų Jungtinių Tautų narių 2015 m. - identifikuoja 17 tikslų, įskaitant tuos, kurie orientuojasi į **planetos apsaugą** nuo degradacijos ir klimato kaitos poveikio. [Microsoft tvarumo](https://www.microsoft.com/en-us/sustainability) iniciatyva palaiko šiuos tikslus, tyrinėdama, kaip technologiniai sprendimai gali padėti kurti tvaresnę ateitį, orientuojantis į [4 tikslus](https://dev.to/azure/a-visual-guide-to-sustainable-software-engineering-53hh) - būti anglies neigiamais, vandens teigiamais, be atliekų ir bioįvairiais iki +**Planetary Computer projektas šiuo metu yra peržiūros stadijoje (nuo 2021 m. rugsėjo)** - štai kaip galite pradėti prisidėti prie tvarumo sprendimų naudodami duomenų mokslą. + +* [Prašyti prieigos](https://planetarycomputer.microsoft.com/account/request), kad galėtumėte pradėti tyrinėti ir bendrauti su bendraminčiais. +* [Naršyti dokumentaciją](https://planetarycomputer.microsoft.com/docs/overview/about), kad suprastumėte palaikomus duomenų rinkinius ir API. +* Naršykite tokias programas kaip [Ekosistemos stebėjimas](https://analytics-lab.org/ecosystemmonitoring/), kad gautumėte idėjų programų kūrimui. + +Pagalvokite, kaip galite naudoti duomenų vizualizaciją, kad atskleistumėte ar sustiprintumėte svarbias įžvalgas tokiose srityse kaip klimato kaita ir miškų naikinimas. Arba apsvarstykite, kaip įžvalgos gali būti panaudotos kuriant naujas vartotojų patirtis, kurios motyvuotų elgesio pokyčius siekiant tvaresnio gyvenimo. + +## Duomenų mokslas + studentai + +Mes kalbėjome apie realaus pasaulio pritaikymą pramonėje ir moksliniuose tyrimuose, taip pat nagrinėjome duomenų mokslo taikymo pavyzdžius skaitmeninėse humanitarinėse mokslų srityse ir tvarume. Taigi, kaip galite ugdyti savo įgūdžius ir dalintis savo žiniomis kaip pradedantieji duomenų mokslininkai? + +Štai keletas duomenų mokslo studentų projektų pavyzdžių, kurie gali jus įkvėpti: + +* [MSR Duomenų mokslo vasaros mokykla](https://www.microsoft.com/en-us/research/academic-program/data-science-summer-school/#!projects) su GitHub [projektais](https://github.com/msr-ds3), nagrinėjančiais tokias temas kaip: + - [Rasinis šališkumas policijos jėgos naudojime](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2019-replicating-an-empirical-analysis-of-racial-differences-in-police-use-of-force/) | [Github](https://github.com/msr-ds3/stop-question-frisk) + - [Niujorko metro sistemos patikimumas](https://www.microsoft.com/en-us/research/video/data-science-summer-school-2018-exploring-the-reliability-of-the-nyc-subway-system/) | [Github](https://github.com/msr-ds3/nyctransit) +* [Materialinės kultūros skaitmeninimas: socioekonominių pasiskirstymų tyrimas Sirkape](https://claremont.maps.arcgis.com/apps/Cascade/index.html?appid=bdf2aef0f45a4674ba41cd373fa23afc) - nuo [Ornella Altunyan](https://twitter.com/ornelladotcom) ir komandos Claremont, naudojant [ArcGIS StoryMaps](https://storymaps.arcgis.com/). + +## 🚀 Iššūkis + +Ieškokite straipsnių, kurie rekomenduoja pradedantiesiems tinkamus duomenų mokslo projektus - pavyzdžiui, [šias 50 temų](https://www.upgrad.com/blog/data-science-project-ideas-topics-beginners/), [šias 21 projekto idėją](https://www.intellspot.com/data-science-project-ideas) arba [šiuos 16 projektų su šaltinio kodu](https://data-flair.training/blogs/data-science-project-ideas/), kuriuos galite analizuoti ir pritaikyti. Nepamirškite rašyti tinklaraščio apie savo mokymosi kelionę ir dalintis savo įžvalgomis su visais. + +## Po paskaitos testas + +[Po paskaitos testas](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/39) + +## Apžvalga ir savarankiškas mokymasis + +Norite tyrinėti daugiau pritaikymo atvejų? Štai keletas susijusių straipsnių: +* [17 duomenų mokslo taikymo sričių ir pavyzdžių](https://builtin.com/data-science/data-science-applications-examples) - 2021 m. liepa +* [11 stulbinančių duomenų mokslo taikymo sričių realiame pasaulyje](https://myblindbird.com/data-science-applications-real-world/) - 2021 m. gegužė +* [Duomenų mokslas realiame pasaulyje](https://towardsdatascience.com/data-science-in-the-real-world/home) - straipsnių kolekcija +* Duomenų mokslas: [Švietime](https://data-flair.training/blogs/data-science-in-education/), [Žemės ūkyje](https://data-flair.training/blogs/data-science-in-agriculture/), [Finansuose](https://data-flair.training/blogs/data-science-in-finance/), [Filmuose](https://data-flair.training/blogs/data-science-at-movies/) ir daugiau. + +## Užduotis + +[Tyrinėkite Planetary Computer duomenų rinkinį](assignment.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/assignment.md b/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/assignment.md new file mode 100644 index 00000000..a33a92c8 --- /dev/null +++ b/translations/lt/6-Data-Science-In-Wild/20-Real-World-Examples/assignment.md @@ -0,0 +1,50 @@ + +# Tyrinėkite Planetary Computer duomenų rinkinį + +## Instrukcijos + +Šioje pamokoje aptarėme įvairias duomenų mokslo taikymo sritis – išsamiai nagrinėjome pavyzdžius, susijusius su tyrimais, tvarumu ir skaitmeninėmis humanitarinėmis mokslų sritimis. Šioje užduotyje išsamiau išnagrinėsite vieną iš šių pavyzdžių ir pritaikysite savo žinias apie duomenų vizualizacijas bei analizę, kad gautumėte įžvalgų apie tvarumo duomenis. + +[Planetary Computer](https://planetarycomputer.microsoft.com/) projektas siūlo duomenų rinkinius ir API, prie kurių galima prisijungti turint paskyrą – jei norite atlikti papildomą užduoties žingsnį, užsiregistruokite paskyrai. Svetainėje taip pat yra [Explorer](https://planetarycomputer.microsoft.com/explore) funkcija, kurią galite naudoti be paskyros kūrimo. + +`Žingsniai:` +Explorer sąsaja (pavaizduota žemiau esančiame ekrano vaizde) leidžia pasirinkti duomenų rinkinį (iš pateiktų variantų), iš anksto nustatytą užklausą (duomenų filtravimui) ir atvaizdavimo parinktį (reikšmingai vizualizacijai sukurti). Šioje užduotyje jūsų užduotis yra: + + 1. Perskaityti [Explorer dokumentaciją](https://planetarycomputer.microsoft.com/docs/overview/explorer/) – suprasti galimybes. + 2. Išnagrinėti duomenų rinkinių [Katalogą](https://planetarycomputer.microsoft.com/catalog) – sužinoti kiekvieno paskirtį. + 3. Naudoti Explorer – pasirinkti jus dominantį duomenų rinkinį, pasirinkti tinkamą užklausą ir atvaizdavimo parinktį. + +![Planetary Computer Explorer](../../../../translated_images/planetary-computer-explorer.c1e95a9b053167d64e2e8e4347cfb689e47e2037c33103fc1bbea1a149d4f85b.lt.png) + +`Jūsų užduotis:` +Dabar išanalizuokite naršyklėje sugeneruotą vizualizaciją ir atsakykite į šiuos klausimus: + * Kokias _savybes_ turi duomenų rinkinys? + * Kokias _įžvalgas_ ar rezultatus pateikia vizualizacija? + * Kokios yra šių įžvalgų _pasekmės_ projekto tvarumo tikslams? + * Kokie yra vizualizacijos _apribojimai_ (t. y., kokių įžvalgų negavote)? + * Jei galėtumėte gauti neapdorotus duomenis, kokias _alternatyvias vizualizacijas_ sukurtumėte ir kodėl? + +`Papildomi taškai:` +Užsiregistruokite paskyrai – ir prisijunkite, kai ji bus patvirtinta. + * Naudokite _Launch Hub_ parinktį, kad atidarytumėte neapdorotus duomenis Notepad'e. + * Interaktyviai tyrinėkite duomenis ir įgyvendinkite alternatyvias vizualizacijas, kurias sugalvojote. + * Dabar išanalizuokite savo sukurtas vizualizacijas – ar pavyko gauti įžvalgas, kurių anksčiau trūko? + +## Vertinimo kriterijai + +Pavyzdingai | Pakankamai | Reikia patobulinimų +--- | --- | -- | +Atsakyta į visus penkis pagrindinius klausimus. Studentas aiškiai nurodė, kaip dabartinės ir alternatyvios vizualizacijos galėtų suteikti įžvalgų apie tvarumo tikslus ar rezultatus. | Studentas išsamiai atsakė bent į 3 pagrindinius klausimus, parodydamas, kad praktiškai dirbo su Explorer. | Studentas neatsakė į kelis klausimus arba pateikė nepakankamai detalius atsakymus, kas rodo, kad užduotis nebuvo atlikta prasmingai. | + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/6-Data-Science-In-Wild/README.md b/translations/lt/6-Data-Science-In-Wild/README.md new file mode 100644 index 00000000..ad1cdf3a --- /dev/null +++ b/translations/lt/6-Data-Science-In-Wild/README.md @@ -0,0 +1,25 @@ + +# Duomenų mokslas praktikoje + +Duomenų mokslo taikymas įvairiose pramonės šakose. + +### Temos + +1. [Duomenų mokslas realiame pasaulyje](20-Real-World-Examples/README.md) + +### Kreditas + +Parašyta su ❤️ [Nitya Narasimhan](https://twitter.com/nitya) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama profesionali žmogaus vertimo paslauga. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius naudojant šį vertimą. \ No newline at end of file diff --git a/translations/lt/CODE_OF_CONDUCT.md b/translations/lt/CODE_OF_CONDUCT.md new file mode 100644 index 00000000..c247ff8d --- /dev/null +++ b/translations/lt/CODE_OF_CONDUCT.md @@ -0,0 +1,23 @@ + +# Microsoft atvirojo kodo elgesio kodeksas + +Šis projektas priėmė [Microsoft atvirojo kodo elgesio kodeksą](https://opensource.microsoft.com/codeofconduct/). + +Ištekliai: + +- [Microsoft atvirojo kodo elgesio kodeksas](https://opensource.microsoft.com/codeofconduct/) +- [Microsoft elgesio kodekso DUK](https://opensource.microsoft.com/codeofconduct/faq/) +- Klausimams ar rūpesčiams rašykite adresu [opencode@microsoft.com](mailto:opencode@microsoft.com) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/CONTRIBUTING.md b/translations/lt/CONTRIBUTING.md new file mode 100644 index 00000000..3932b2bc --- /dev/null +++ b/translations/lt/CONTRIBUTING.md @@ -0,0 +1,23 @@ + +# Prisidėjimas + +Šis projektas kviečia prisidėti ir teikti pasiūlymus. Dauguma indėlių reikalauja, kad sutiktumėte su Contributor License Agreement (CLA), kuriame deklaruojate, jog turite teisę suteikti mums teises naudoti jūsų indėlį. Daugiau informacijos rasite adresu https://cla.microsoft.com. + +Kai pateikiate „pull request“, CLA-botas automatiškai nustatys, ar jums reikia pateikti CLA, ir atitinkamai pažymės PR (pvz., pridės etiketę, komentarą). Tiesiog vykdykite boto pateiktas instrukcijas. Tai reikės padaryti tik vieną kartą visuose saugyklose, kurios naudoja mūsų CLA. + +Šis projektas priėmė [Microsoft atvirojo kodo elgesio kodeksą](https://opensource.microsoft.com/codeofconduct/). +Daugiau informacijos rasite [Elgesio kodekso DUK](https://opensource.microsoft.com/codeofconduct/faq/) +arba susisiekite el. paštu [opencode@microsoft.com](mailto:opencode@microsoft.com), jei turite papildomų klausimų ar komentarų. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Dėl svarbios informacijos rekomenduojama kreiptis į profesionalius vertėjus. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/README.md b/translations/lt/README.md new file mode 100644 index 00000000..3dae87ba --- /dev/null +++ b/translations/lt/README.md @@ -0,0 +1,155 @@ + +# Duomenų mokslas pradedantiesiems – mokymo programa + +Azure Cloud Advocates komanda iš Microsoft džiaugiasi galėdama pasiūlyti 10 savaičių, 20 pamokų mokymo programą apie duomenų mokslą. Kiekviena pamoka apima prieš pamoką ir po pamokos pateikiamus testus, rašytines instrukcijas, kaip atlikti užduotis, sprendimus ir užduotis. Mūsų projektinis mokymosi metodas leidžia mokytis kuriant – tai įrodytas būdas įtvirtinti naujus įgūdžius. + +**Nuoširdžiai dėkojame mūsų autoriams:** [Jasmine Greenaway](https://www.twitter.com/paladique), [Dmitry Soshnikov](http://soshnikov.com), [Nitya Narasimhan](https://twitter.com/nitya), [Jalen McGee](https://twitter.com/JalenMcG), [Jen Looper](https://twitter.com/jenlooper), [Maud Levy](https://twitter.com/maudstweets), [Tiffany Souterre](https://twitter.com/TiffanySouterre), [Christopher Harrison](https://www.twitter.com/geektrainer). + +**🙏 Ypatinga padėka 🙏 mūsų [Microsoft Student Ambassador](https://studentambassadors.microsoft.com/) autoriams, recenzentams ir turinio kūrėjams,** tarp jų Aaryan Arora, [Aditya Garg](https://github.com/AdityaGarg00), [Alondra Sanchez](https://www.linkedin.com/in/alondra-sanchez-molina/), [Ankita Singh](https://www.linkedin.com/in/ankitasingh007), [Anupam Mishra](https://www.linkedin.com/in/anupam--mishra/), [Arpita Das](https://www.linkedin.com/in/arpitadas01/), ChhailBihari Dubey, [Dibri Nsofor](https://www.linkedin.com/in/dibrinsofor), [Dishita Bhasin](https://www.linkedin.com/in/dishita-bhasin-7065281bb), [Majd Safi](https://www.linkedin.com/in/majd-s/), [Max Blum](https://www.linkedin.com/in/max-blum-6036a1186/), [Miguel Correa](https://www.linkedin.com/in/miguelmque/), [Mohamma Iftekher (Iftu) Ebne Jalal](https://twitter.com/iftu119), [Nawrin Tabassum](https://www.linkedin.com/in/nawrin-tabassum), [Raymond Wangsa Putra](https://www.linkedin.com/in/raymond-wp/), [Rohit Yadav](https://www.linkedin.com/in/rty2423), Samridhi Sharma, [Sanya Sinha](https://www.linkedin.com/mwlite/in/sanya-sinha-13aab1200), [Sheena Narula](https://www.linkedin.com/in/sheena-narua-n/), [Tauqeer Ahmad](https://www.linkedin.com/in/tauqeerahmad5201/), Yogendrasingh Pawar, [Vidushi Gupta](https://www.linkedin.com/in/vidushi-gupta07/), [Jasleen Sondhi](https://www.linkedin.com/in/jasleen-sondhi/) + +|![Sketchnote by @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Title.8af36cd35da1ac555b678627fbdc6e320c75f0100876ea41d30ea205d3b08d22.lt.png)| +|:---:| +| Duomenų mokslas pradedantiesiems – _Sketchnote by [@nitya](https://twitter.com/nitya)_ | + +### 🌐 Daugiakalbė parama + +#### Palaikoma per GitHub Action (automatiškai ir visada atnaujinama) + +[Prancūzų](../fr/README.md) | [Ispanų](../es/README.md) | [Vokiečių](../de/README.md) | [Rusų](../ru/README.md) | [Arabų](../ar/README.md) | [Persų (Farsi)](../fa/README.md) | [Urdu](../ur/README.md) | [Kinų (supaprastinta)](../zh/README.md) | [Kinų (tradicinė, Makao)](../mo/README.md) | [Kinų (tradicinė, Honkongas)](../hk/README.md) | [Kinų (tradicinė, Taivanas)](../tw/README.md) | [Japonų](../ja/README.md) | [Korėjiečių](../ko/README.md) | [Hindi](../hi/README.md) | [Bengalų](../bn/README.md) | [Marathi](../mr/README.md) | [Nepalų](../ne/README.md) | [Pandžabų (Gurmukhi)](../pa/README.md) | [Portugalų (Portugalija)](../pt/README.md) | [Portugalų (Brazilija)](../br/README.md) | [Italų](../it/README.md) | [Lenkų](../pl/README.md) | [Turkų](../tr/README.md) | [Graikų](../el/README.md) | [Tajų](../th/README.md) | [Švedų](../sv/README.md) | [Danų](../da/README.md) | [Norvegų](../no/README.md) | [Suomių](../fi/README.md) | [Olandų](../nl/README.md) | [Hebrajų](../he/README.md) | [Vietnamiečių](../vi/README.md) | [Indoneziečių](../id/README.md) | [Malajų](../ms/README.md) | [Tagalogų (Filipinų)](../tl/README.md) | [Svahilių](../sw/README.md) | [Vengrų](../hu/README.md) | [Čekų](../cs/README.md) | [Slovakų](../sk/README.md) | [Rumunų](../ro/README.md) | [Bulgarų](../bg/README.md) | [Serbų (kirilica)](../sr/README.md) | [Kroatų](../hr/README.md) | [Slovėnų](../sl/README.md) | [Ukrainiečių](../uk/README.md) | [Birmos (Mianmaras)](../my/README.md) + +**Jei norite, kad būtų palaikomos papildomos kalbos, sąrašą rasite [čia](https://github.com/Azure/co-op-translator/blob/main/getting_started/supported-languages.md)** + +#### Prisijunkite prie mūsų bendruomenės +[![Azure AI Discord](https://dcbadge.limes.pink/api/server/kzRShWzttr)](https://discord.gg/kzRShWzttr) + +# Ar esate studentas? + +Pradėkite nuo šių išteklių: + +- [Studentų centras](https://docs.microsoft.com/en-gb/learn/student-hub?WT.mc_id=academic-77958-bethanycheum) Šiame puslapyje rasite pradedančiųjų išteklius, studentų paketus ir net būdus, kaip gauti nemokamą sertifikato kuponą. Tai puslapis, kurį verta pažymėti ir reguliariai tikrinti, nes turinys keičiamas bent kartą per mėnesį. +- [Microsoft Learn Student Ambassadors](https://studentambassadors.microsoft.com?WT.mc_id=academic-77958-bethanycheum) Prisijunkite prie pasaulinės studentų ambasadorių bendruomenės – tai gali būti jūsų kelias į Microsoft. + +# Pradžia + +> **Mokytojai**: mes [įtraukėme keletą pasiūlymų](for-teachers.md), kaip naudoti šią mokymo programą. Laukiame jūsų atsiliepimų [mūsų diskusijų forume](https://github.com/microsoft/Data-Science-For-Beginners/discussions)! + +> **[Studentai](https://aka.ms/student-page)**: norėdami naudoti šią mokymo programą savarankiškai, fork'inkite visą repozitoriją ir atlikite užduotis savarankiškai, pradėdami nuo prieš paskaitą pateikiamo testo. Tada perskaitykite paskaitą ir atlikite likusias veiklas. Stenkitės kurti projektus suprasdami pamokas, o ne kopijuodami sprendimų kodą; tačiau tas kodas yra prieinamas /solutions aplankuose kiekvienoje projektinėje pamokoje. Kita idėja – sukurti mokymosi grupę su draugais ir kartu peržiūrėti turinį. Tolimesniam mokymuisi rekomenduojame [Microsoft Learn](https://docs.microsoft.com/en-us/users/jenlooper-2911/collections/qprpajyoy3x0g7?WT.mc_id=academic-77958-bethanycheum). + +## Susipažinkite su komanda + +[![Promo video](../../ds-for-beginners.gif)](https://youtu.be/8mzavjQSMM4 "Promo video") + +**Gif sukūrė** [Mohit Jaisal](https://www.linkedin.com/in/mohitjaisal) + +> 🎥 Spustelėkite aukščiau esančią nuotrauką, kad pamatytumėte vaizdo įrašą apie projektą ir žmones, kurie jį sukūrė! + +## Pedagogika + +Kurdami šią mokymo programą pasirinkome du pedagoginius principus: užtikrinti, kad ji būtų projektinė, ir įtraukti dažnus testus. Pasibaigus šiai serijai, studentai bus išmokę pagrindinius duomenų mokslo principus, įskaitant etikos koncepcijas, duomenų paruošimą, įvairius darbo su duomenimis būdus, duomenų vizualizaciją, duomenų analizę, realaus pasaulio duomenų mokslo taikymo atvejus ir dar daugiau. + +Be to, mažos rizikos testas prieš pamoką padeda studentui susitelkti į temos mokymąsi, o antrasis testas po pamokos užtikrina geresnį įsiminimą. Ši mokymo programa buvo sukurta taip, kad būtų lanksti ir smagi, ir ją galima naudoti visą arba dalimis. Projektai prasideda nuo paprastų ir tampa vis sudėtingesni per 10 savaičių ciklą. +> Rasite mūsų [Elgesio kodeksą](CODE_OF_CONDUCT.md), [Prisidėjimo](CONTRIBUTING.md), [Vertimo](TRANSLATIONS.md) gaires. Laukiame jūsų konstruktyvių atsiliepimų! +## Kiekviena pamoka apima: + +- Pasirenkamą eskizą +- Pasirenkamą papildomą vaizdo įrašą +- Įžanginį testą prieš pamoką +- Rašytinę pamoką +- Projektinėms pamokoms – žingsnis po žingsnio vadovus, kaip sukurti projektą +- Žinių patikrinimus +- Iššūkį +- Papildomą literatūrą +- Užduotį +- [Testą po pamokos](https://ff-quizzes.netlify.app/en/) + +> **Pastaba apie testus**: Visi testai yra „Quiz-App“ aplanke, iš viso 40 testų, kiekviename po tris klausimus. Jie yra susieti su pamokomis, tačiau testų programėlę galima paleisti lokaliai arba įdiegti „Azure“; sekite instrukcijas „quiz-app“ aplanke. Testai palaipsniui lokalizuojami. + +## Pamokos + +|![ Eskizas @sketchthedocs https://sketchthedocs.dev](../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png)| +|:---:| +| Duomenų mokslas pradedantiesiems: Planas - _Eskizas [@nitya](https://twitter.com/nitya)_ | + + +| Pamokos numeris | Tema | Pamokų grupavimas | Mokymosi tikslai | Susieta pamoka | Autorius | +| :-----------: | :----------------------------------------: | :--------------------------------------------------: | :-----------------------------------------------------------------------------------------------------------------------------------------------------------------------: | :---------------------------------------------------------------------: | :----: | +| 01 | Duomenų mokslo apibrėžimas | [Įvadas](1-Introduction/README.md) | Sužinokite pagrindines duomenų mokslo sąvokas ir kaip jis susijęs su dirbtiniu intelektu, mašininio mokymosi ir didžiųjų duomenų sritimis. | [pamoka](1-Introduction/01-defining-data-science/README.md) [vaizdo įrašas](https://youtu.be/beZ7Mb_oz9I) | [Dmitry](http://soshnikov.com) | +| 02 | Duomenų mokslo etika | [Įvadas](1-Introduction/README.md) | Duomenų etikos sąvokos, iššūkiai ir struktūros. | [pamoka](1-Introduction/02-ethics/README.md) | [Nitya](https://twitter.com/nitya) | +| 03 | Duomenų apibrėžimas | [Įvadas](1-Introduction/README.md) | Kaip klasifikuojami duomenys ir kokie yra jų dažniausi šaltiniai. | [pamoka](1-Introduction/03-defining-data/README.md) | [Jasmine](https://www.twitter.com/paladique) | +| 04 | Įvadas į statistiką ir tikimybes | [Įvadas](1-Introduction/README.md) | Matematiniai tikimybių ir statistikos metodai duomenims suprasti. | [pamoka](1-Introduction/04-stats-and-probability/README.md) [vaizdo įrašas](https://youtu.be/Z5Zy85g4Yjw) | [Dmitry](http://soshnikov.com) | +| 05 | Darbas su reliaciniais duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į reliacinius duomenis ir pagrindai, kaip tyrinėti ir analizuoti reliacinius duomenis naudojant struktūrinės užklausos kalbą (SQL, tariama „si-kvel“). | [pamoka](2-Working-With-Data/05-relational-databases/README.md) | [Christopher](https://www.twitter.com/geektrainer) | | | +| 06 | Darbas su NoSQL duomenimis | [Darbas su duomenimis](2-Working-With-Data/README.md) | Įvadas į nereliacinius duomenis, jų įvairius tipus ir pagrindai, kaip tyrinėti ir analizuoti dokumentų duomenų bazes. | [pamoka](2-Working-With-Data/06-non-relational/README.md) | [Jasmine](https://twitter.com/paladique)| +| 07 | Darbas su Python | [Darbas su duomenimis](2-Working-With-Data/README.md) | Python naudojimo pagrindai duomenų tyrinėjimui su tokiomis bibliotekomis kaip Pandas. Rekomenduojama turėti pagrindinį Python programavimo supratimą. | [pamoka](2-Working-With-Data/07-python/README.md) [vaizdo įrašas](https://youtu.be/dZjWOGbsN4Y) | [Dmitry](http://soshnikov.com) | +| 08 | Duomenų paruošimas | [Darbas su duomenimis](2-Working-With-Data/README.md) | Temos apie duomenų valymo ir transformavimo technikas, siekiant spręsti trūkstamų, netikslių ar neišsamių duomenų problemas. | [pamoka](2-Working-With-Data/08-data-preparation/README.md) | [Jasmine](https://www.twitter.com/paladique) | +| 09 | Kiekių vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Sužinokite, kaip naudoti Matplotlib vizualizuojant paukščių duomenis 🦆 | [pamoka](3-Data-Visualization/09-visualization-quantities/README.md) | [Jen](https://twitter.com/jenlooper) | +| 10 | Duomenų pasiskirstymo vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Vizualizuojant stebėjimus ir tendencijas intervale. | [pamoka](3-Data-Visualization/10-visualization-distributions/README.md) | [Jen](https://twitter.com/jenlooper) | +| 11 | Proporcijų vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Vizualizuojant diskrečius ir grupuotus procentus. | [pamoka](3-Data-Visualization/11-visualization-proportions/README.md) | [Jen](https://twitter.com/jenlooper) | +| 12 | Ryšių vizualizavimas | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Vizualizuojant ryšius ir koreliacijas tarp duomenų rinkinių ir jų kintamųjų. | [pamoka](3-Data-Visualization/12-visualization-relationships/README.md) | [Jen](https://twitter.com/jenlooper) | +| 13 | Reikšmingos vizualizacijos | [Duomenų vizualizacija](3-Data-Visualization/README.md) | Technikos ir patarimai, kaip padaryti vizualizacijas vertingas efektyviam problemų sprendimui ir įžvalgoms. | [pamoka](3-Data-Visualization/13-meaningful-visualizations/README.md) | [Jen](https://twitter.com/jenlooper) | +| 14 | Įvadas į duomenų mokslo gyvavimo ciklą | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Įvadas į duomenų mokslo gyvavimo ciklą ir jo pirmąjį žingsnį – duomenų gavimą ir ištrauką. | [pamoka](4-Data-Science-Lifecycle/14-Introduction/README.md) | [Jasmine](https://twitter.com/paladique) | +| 15 | Analizavimas | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo gyvavimo ciklo fazė orientuota į duomenų analizės technikas. | [pamoka](4-Data-Science-Lifecycle/15-analyzing/README.md) | [Jasmine](https://twitter.com/paladique) | | | +| 16 | Komunikacija | [Gyvavimo ciklas](4-Data-Science-Lifecycle/README.md) | Ši duomenų mokslo gyvavimo ciklo fazė orientuota į įžvalgų iš duomenų pateikimą taip, kad sprendimų priėmėjams būtų lengviau suprasti. | [pamoka](4-Data-Science-Lifecycle/16-communication/README.md) | [Jalen](https://twitter.com/JalenMcG) | | | +| 17 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Ši pamokų serija pristato duomenų mokslą debesyje ir jo privalumus. | [pamoka](5-Data-Science-In-Cloud/17-Introduction/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) | +| 18 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių mokymas naudojant mažo kodo įrankius. |[pamoka](5-Data-Science-In-Cloud/18-Low-Code/README.md) | [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) | +| 19 | Duomenų mokslas debesyje | [Debesų duomenys](5-Data-Science-In-Cloud/README.md) | Modelių diegimas naudojant „Azure Machine Learning Studio“. | [pamoka](5-Data-Science-In-Cloud/19-Azure/README.md)| [Tiffany](https://twitter.com/TiffanySouterre) ir [Maud](https://twitter.com/maudstweets) | +| 20 | Duomenų mokslas realiame pasaulyje | [Realiame pasaulyje](6-Data-Science-In-Wild/README.md) | Duomenų mokslo projektai realiame pasaulyje. | [pamoka](6-Data-Science-In-Wild/20-Real-World-Examples/README.md) | [Nitya](https://twitter.com/nitya) | + +## GitHub Codespaces + +Sekite šiuos žingsnius, kad atidarytumėte šį pavyzdį „Codespace“ aplinkoje: +1. Spustelėkite „Code“ išskleidžiamąjį meniu ir pasirinkite „Open with Codespaces“ parinktį. +2. Pasirinkite + „New codespace“ apačioje esančiame lange. +Daugiau informacijos rasite [GitHub dokumentacijoje](https://docs.github.com/en/codespaces/developing-in-codespaces/creating-a-codespace-for-a-repository#creating-a-codespace). + +## VSCode Remote - Containers +Sekite šiuos žingsnius, kad atidarytumėte šį repo konteineryje naudodami savo vietinį kompiuterį ir VSCode su VS Code Remote - Containers plėtiniu: + +1. Jei tai jūsų pirmas kartas naudojant vystymo konteinerį, įsitikinkite, kad jūsų sistema atitinka reikalavimus (pvz., įdiegta „Docker“) [pradžios dokumentacijoje](https://code.visualstudio.com/docs/devcontainers/containers#_getting-started). + +Norėdami naudoti šį repo, galite jį atidaryti izoliuotame „Docker“ tūryje: + +**Pastaba**: Viduje tai naudos „Remote-Containers: **Clone Repository in Container Volume...**“ komandą, kad nukopijuotų šaltinio kodą į „Docker“ tūrį, o ne į vietinę failų sistemą. [Tūriai](https://docs.docker.com/storage/volumes/) yra rekomenduojamas mechanizmas konteinerio duomenims išsaugoti. + +Arba atidarykite vietoje nukopijuotą ar atsisiųstą repo versiją: + +- Nukopijuokite šį repo į savo vietinę failų sistemą. +- Paspauskite F1 ir pasirinkite **Remote-Containers: Open Folder in Container...** komandą. +- Pasirinkite nukopijuotą šio aplanko kopiją, palaukite, kol konteineris pradės veikti, ir išbandykite. + +## Prieiga neprisijungus + +Šią dokumentaciją galite paleisti neprisijungus naudodami [Docsify](https://docsify.js.org/#/). Nukopijuokite šį repo, [įdiekite Docsify](https://docsify.js.org/#/quickstart) savo vietiniame kompiuteryje, tada šio repo šakniniame aplanke įveskite `docsify serve`. Svetainė bus paleista 3000 prievade jūsų vietiniame kompiuteryje: `localhost:3000`. + +> Pastaba, užrašų knygelės nebus rodomos per Docsify, todėl, kai reikia paleisti užrašų knygelę, tai darykite atskirai VS Code naudojant Python branduolį. + +## Kiti mokymo planai + +Mūsų komanda kuria kitus mokymo planus! Peržiūrėkite: + +- [Generatyvus AI pradedantiesiems](https://aka.ms/genai-beginners) +- [Generatyvus AI pradedantiesiems .NET](https://github.com/microsoft/Generative-AI-for-beginners-dotnet) +- [Generatyvus AI su JavaScript](https://github.com/microsoft/generative-ai-with-javascript) +- [Generatyvus AI su Java](https://aka.ms/genaijava) +- [AI pradedantiesiems](https://aka.ms/ai-beginners) +- [Duomenų mokslas pradedantiesiems](https://aka.ms/datascience-beginners) +- [ML pradedantiesiems](https://aka.ms/ml-beginners) +- [Kibernetinis saugumas pradedantiesiems](https://github.com/microsoft/Security-101) +- [Web kūrimas pradedantiesiems](https://aka.ms/webdev-beginners) +- [IoT pradedantiesiems](https://aka.ms/iot-beginners) +- [XR kūrimas pradedantiesiems](https://github.com/microsoft/xr-development-for-beginners) +- [GitHub Copilot įvaldymas poriniam programavimui](https://github.com/microsoft/Mastering-GitHub-Copilot-for-Paired-Programming) +- [GitHub Copilot įvaldymas C#/.NET programuotojams](https://github.com/microsoft/mastering-github-copilot-for-dotnet-csharp-developers) +- [Pasirinkite savo Copilot nuotykį](https://github.com/microsoft/CopilotAdventures) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/SECURITY.md b/translations/lt/SECURITY.md new file mode 100644 index 00000000..665ef18c --- /dev/null +++ b/translations/lt/SECURITY.md @@ -0,0 +1,51 @@ + +## Saugumas + +„Microsoft“ rimtai žiūri į savo programinės įrangos produktų ir paslaugų saugumą, įskaitant visus šaltinio kodo saugyklas, valdomas per mūsų „GitHub“ organizacijas, tokias kaip [Microsoft](https://github.com/Microsoft), [Azure](https://github.com/Azure), [DotNet](https://github.com/dotnet), [AspNet](https://github.com/aspnet), [Xamarin](https://github.com/xamarin) ir [mūsų GitHub organizacijas](https://opensource.microsoft.com/). + +Jei manote, kad radote saugumo pažeidžiamumą bet kurioje „Microsoft“ valdomoje saugykloje, atitinkančioje [„Microsoft“ saugumo pažeidžiamumo apibrėžimą](https://docs.microsoft.com/en-us/previous-versions/tn-archive/cc751383(v=technet.10)), praneškite apie tai mums, kaip aprašyta toliau. + +## Saugumo problemų pranešimas + +**Prašome nepranešti apie saugumo pažeidžiamumus viešose „GitHub“ problemose.** + +Vietoj to, praneškite apie juos „Microsoft Security Response Center“ (MSRC) adresu [https://msrc.microsoft.com/create-report](https://msrc.microsoft.com/create-report). + +Jei norite pateikti pranešimą neprisijungę, siųskite el. laišką adresu [secure@microsoft.com](mailto:secure@microsoft.com). Jei įmanoma, užšifruokite savo pranešimą naudodami mūsų PGP raktą; atsisiųskite jį iš [Microsoft Security Response Center PGP Key puslapio](https://www.microsoft.com/en-us/msrc/pgp-key-msrc). + +Atsakymą turėtumėte gauti per 24 valandas. Jei dėl kokių nors priežasčių jo negaunate, susisiekite el. paštu dar kartą, kad įsitikintumėte, jog gavome jūsų pradinį pranešimą. Papildomos informacijos galite rasti [microsoft.com/msrc](https://www.microsoft.com/msrc). + +Prašome pateikti kuo daugiau žemiau išvardytos informacijos, kad padėtumėte mums geriau suprasti galimos problemos pobūdį ir mastą: + + * Problemos tipas (pvz., buferio perpildymas, SQL injekcija, kryžminio svetainės scenarijaus vykdymas ir pan.) + * Pilni šaltinio failų keliai, susiję su problemos pasireiškimu + * Pažeisto šaltinio kodo vieta (žyma/šaka/įsipareigojimas arba tiesioginis URL) + * Bet kokia speciali konfigūracija, reikalinga problemai atkurti + * Žingsnis po žingsnio instrukcijos, kaip atkurti problemą + * Įrodymo koncepcija arba išnaudojimo kodas (jei įmanoma) + * Problemos poveikis, įskaitant tai, kaip užpuolikas galėtų išnaudoti šią problemą + +Ši informacija padės mums greičiau įvertinti jūsų pranešimą. + +Jei pranešate apie klaidą, siekdami gauti atlygį, išsamesni pranešimai gali prisidėti prie didesnio atlygio. Daugiau informacijos apie mūsų aktyvias programas rasite mūsų [„Microsoft Bug Bounty Program“](https://microsoft.com/msrc/bounty) puslapyje. + +## Pageidaujamos kalbos + +Pageidaujame, kad visa komunikacija būtų anglų kalba. + +## Politika + +„Microsoft“ laikosi [Koordinuoto pažeidžiamumo atskleidimo principo](https://www.microsoft.com/en-us/msrc/cvd). + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/SUPPORT.md b/translations/lt/SUPPORT.md new file mode 100644 index 00000000..bb152ea8 --- /dev/null +++ b/translations/lt/SUPPORT.md @@ -0,0 +1,24 @@ + +# Palaikymas +## Kaip pranešti apie problemas ir gauti pagalbą + +Šis projektas naudoja „GitHub Issues“ klaidoms ir funkcijų užklausoms stebėti. Prieš pateikdami naują problemą, paieškokite esamų problemų, kad išvengtumėte dubliavimo. Naujas problemas pateikite kaip naują klaidą arba funkcijos užklausą. + +Jei reikia pagalbos ar turite klausimų apie šio projekto naudojimą, pateikite problemą. + +## „Microsoft“ palaikymo politika + +Šio saugyklos palaikymas apsiriboja aukščiau išvardytais ištekliais. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/docs/_sidebar.md b/translations/lt/docs/_sidebar.md new file mode 100644 index 00000000..8595a9fa --- /dev/null +++ b/translations/lt/docs/_sidebar.md @@ -0,0 +1,40 @@ + +- Įvadas + - [Duomenų mokslo apibrėžimas](../1-Introduction/01-defining-data-science/README.md) + - [Duomenų mokslo etika](../1-Introduction/02-ethics/README.md) + - [Duomenų apibrėžimas](../1-Introduction/03-defining-data/README.md) + - [Tikimybė ir statistika](../1-Introduction/04-stats-and-probability/README.md) +- Darbas su duomenimis + - [Reliacinės duomenų bazės](../2-Working-With-Data/05-relational-databases/README.md) + - [Nereliacinės duomenų bazės](../2-Working-With-Data/06-non-relational/README.md) + - [Python](../2-Working-With-Data/07-python/README.md) + - [Duomenų paruošimas](../2-Working-With-Data/08-data-preparation/README.md) +- Duomenų vizualizacija + - [Kiekio vizualizavimas](../3-Data-Visualization/09-visualization-quantities/README.md) + - [Pasiskirstymų vizualizavimas](../3-Data-Visualization/10-visualization-distributions/README.md) + - [Proporcijų vizualizavimas](../3-Data-Visualization/11-visualization-proportions/README.md) + - [Ryšių vizualizavimas](../3-Data-Visualization/12-visualization-relationships/README.md) + - [Reikšmingos vizualizacijos](../3-Data-Visualization/13-meaningful-visualizations/README.md) +- Duomenų mokslo gyvavimo ciklas + - [Įvadas](../4-Data-Science-Lifecycle/14-Introduction/README.md) + - [Analizavimas](../4-Data-Science-Lifecycle/15-analyzing/README.md) + - [Komunikacija](../4-Data-Science-Lifecycle/16-communication/README.md) +- Duomenų mokslas debesijoje + - [Įvadas](../5-Data-Science-In-Cloud/17-Introduction/README.md) + - [Mažai kodo](../5-Data-Science-In-Cloud/18-Low-Code/README.md) + - [Azure](../5-Data-Science-In-Cloud/19-Azure/README.md) +- Duomenų mokslas praktikoje + - [Duomenų mokslas praktikoje](../6-Data-Science-In-Wild/README.md) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/for-teachers.md b/translations/lt/for-teachers.md new file mode 100644 index 00000000..38f3afd3 --- /dev/null +++ b/translations/lt/for-teachers.md @@ -0,0 +1,78 @@ + +## Mokytojams + +Norėtumėte naudoti šią mokymo programą savo klasėje? Prašome, naudokitės! + +Iš tiesų, galite naudoti ją tiesiogiai GitHub platformoje, pasitelkdami GitHub Classroom. + +Norėdami tai padaryti, sukurkite šio repozitorijos šaką (fork). Jums reikės sukurti atskirą repozitoriją kiekvienai pamokai, todėl turėsite išskirstyti kiekvieną aplanką į atskirą repozitoriją. Tokiu būdu [GitHub Classroom](https://classroom.github.com/classrooms) galės atskirai apdoroti kiekvieną pamoką. + +Šios [išsamios instrukcijos](https://github.blog/2020-03-18-set-up-your-digital-classroom-with-github-classroom/) padės jums suprasti, kaip sukurti savo klasę. + +## Naudojimasis repozitorija tokia, kokia ji yra + +Jei norėtumėte naudoti šią repozitoriją tokia, kokia ji yra, be GitHub Classroom, tai taip pat įmanoma. Jums reikės susitarti su savo mokiniais, kurią pamoką nagrinėti kartu. + +Naudojant internetinį formatą (pvz., Zoom, Teams ar kitą), galite sukurti atskiras grupes testams, o mokinius mentoriauti, kad jie pasiruoštų mokymuisi. Tada pakvieskite mokinius atlikti testus ir pateikti atsakymus kaip „issues“ tam tikru laiku. Tą patį galite daryti ir su užduotimis, jei norite, kad mokiniai dirbtų atvirai ir bendradarbiautų. + +Jei labiau mėgstate privatesnį formatą, paprašykite mokinių sukurti šios mokymo programos šakas (fork), pamoka po pamokos, savo privačiose GitHub repozitorijose ir suteikti jums prieigą. Tada jie galės atlikti testus ir užduotis privačiai bei pateikti juos jums kaip „issues“ jūsų klasės repozitorijoje. + +Yra daug būdų, kaip pritaikyti šią mokymo programą internetinėje klasėje. Prašome pranešti, kas jums veikia geriausiai! + +## Šioje mokymo programoje yra: + +20 pamokų, 40 testų ir 20 užduočių. Pamokas lydi eskizai, skirti vizualiems besimokantiesiems. Daugelis pamokų yra prieinamos tiek Python, tiek R kalbomis ir gali būti atliekamos naudojant Jupyter užrašines (notebooks) VS Code aplinkoje. Sužinokite daugiau apie tai, kaip paruošti savo klasę naudoti šią technologijų bazę: https://code.visualstudio.com/docs/datascience/jupyter-notebooks. + +Visi eskizai, įskaitant didelio formato plakatą, yra [šiame aplanke](../../sketchnotes). + +Visa mokymo programa yra prieinama [PDF formatu](../../pdf/readme.pdf). + +Taip pat galite paleisti šią mokymo programą kaip atskirą, neprisijungus veikiančią svetainę, naudodami [Docsify](https://docsify.js.org/#/). [Įdiekite Docsify](https://docsify.js.org/#/quickstart) savo vietiniame kompiuteryje, tada pagrindiniame šios repozitorijos aplanke įveskite `docsify serve`. Svetainė bus pasiekiama 3000 prievade jūsų vietiniame serveryje: `localhost:3000`. + +Neprisijungus veikianti mokymo programos versija bus atidaryta kaip atskiras tinklalapis: https://localhost:3000 + +Pamokos yra suskirstytos į 6 dalis: + +- 1: Įvadas + - 1: Duomenų mokslo apibrėžimas + - 2: Etika + - 3: Duomenų apibrėžimas + - 4: Tikimybių ir statistikos apžvalga +- 2: Darbas su duomenimis + - 5: Reliacinės duomenų bazės + - 6: Nereliacinės duomenų bazės + - 7: Python + - 8: Duomenų paruošimas +- 3: Duomenų vizualizacija + - 9: Kiekių vizualizacija + - 10: Pasiskirstymų vizualizacija + - 11: Proporcijų vizualizacija + - 12: Ryšių vizualizacija + - 13: Prasmingos vizualizacijos +- 4: Duomenų mokslo gyvavimo ciklas + - 14: Įvadas + - 15: Analizė + - 16: Komunikacija +- 5: Duomenų mokslas debesyje + - 17: Įvadas + - 18: Mažo kodo sprendimai + - 19: Azure +- 6: Duomenų mokslas praktikoje + - 20: Apžvalga + +## Prašome pasidalinti savo mintimis! + +Norime, kad ši mokymo programa būtų naudinga jums ir jūsų mokiniams. Prašome pateikti atsiliepimus diskusijų lentose! Drąsiai sukurkite klasės erdvę diskusijų lentose savo mokiniams. + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant dirbtinio intelekto vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, atkreipkite dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus aiškinimus, kylančius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/quiz-app/README.md b/translations/lt/quiz-app/README.md new file mode 100644 index 00000000..4856869d --- /dev/null +++ b/translations/lt/quiz-app/README.md @@ -0,0 +1,138 @@ + +# Viktorinos + +Šios viktorinos yra prieš ir po paskaitų vykstančios viktorinos, skirtos duomenų mokslo mokymo programai adresu https://aka.ms/datascience-beginners. + +## Kaip pridėti išverstą viktorinų rinkinį + +Pridėkite viktorinų vertimą, sukurdami atitinkamas viktorinų struktūras aplankuose `assets/translations`. Pagrindinės viktorinos yra aplanke `assets/translations/en`. Viktorinos yra suskirstytos į kelias grupes. Užtikrinkite, kad numeracija atitiktų tinkamą viktorinų sekciją. Šioje mokymo programoje yra iš viso 40 viktorinų, o numeracija prasideda nuo 0. + +Po vertimų redagavimo, redaguokite failą `index.js` vertimų aplanke, kad importuotumėte visus failus pagal `en` aplanko konvencijas. + +Redaguokite failą `index.js` aplanke `assets/translations`, kad importuotumėte naujus išverstus failus. + +Tada redaguokite išskleidžiamąjį meniu faile `App.vue` šiame projekte, kad pridėtumėte savo kalbą. Suderinkite lokalizuotą santrumpą su jūsų kalbos aplanko pavadinimu. + +Galiausiai, redaguokite visus viktorinų nuorodas išverstose pamokose, jei jos egzistuoja, kad įtrauktumėte šią lokalizaciją kaip užklausos parametrą: pavyzdžiui, `?loc=fr`. + +## Projekto nustatymas + +``` +npm install +``` + +### Kompiliavimas ir karštasis perkrovimas kūrimui + +``` +npm run serve +``` + +### Kompiliavimas ir minimizavimas gamybai + +``` +npm run build +``` + +### Failų tikrinimas ir taisymas + +``` +npm run lint +``` + +### Konfigūracijos pritaikymas + +Žr. [Konfigūracijos nuorodą](https://cli.vuejs.org/config/). + +Kreditai: Dėkojame už pradinę šios viktorinų programėlės versiją: https://github.com/arpan45/simple-quiz-vue + +## Diegimas į Azure + +Štai žingsnis po žingsnio vadovas, kaip pradėti: + +1. Sukurkite GitHub saugyklos šaką +Įsitikinkite, kad jūsų statinės žiniatinklio programos kodas yra jūsų GitHub saugykloje. Sukurkite šaką iš šios saugyklos. + +2. Sukurkite Azure statinę žiniatinklio programą +- Susikurkite [Azure paskyrą](http://azure.microsoft.com) +- Eikite į [Azure portalą](https://portal.azure.com) +- Spustelėkite „Sukurti išteklių“ ir ieškokite „Static Web App“. +- Spustelėkite „Sukurti“. + +3. Konfigūruokite statinę žiniatinklio programą +- Pagrindai: Prenumerata: Pasirinkite savo Azure prenumeratą. +- Išteklių grupė: Sukurkite naują išteklių grupę arba naudokite esamą. +- Pavadinimas: Nurodykite savo statinės žiniatinklio programos pavadinimą. +- Regionas: Pasirinkite regioną, artimiausią jūsų naudotojams. + +- #### Diegimo detalės: +- Šaltinis: Pasirinkite „GitHub“. +- GitHub paskyra: Įgaliokite Azure pasiekti jūsų GitHub paskyrą. +- Organizacija: Pasirinkite savo GitHub organizaciją. +- Saugykla: Pasirinkite saugyklą, kurioje yra jūsų statinė žiniatinklio programa. +- Šaka: Pasirinkite šaką, iš kurios norite diegti. + +- #### Kūrimo detalės: +- Kūrimo nustatymai: Pasirinkite sistemą, su kuria sukurta jūsų programa (pvz., React, Angular, Vue ir kt.). +- Programos vieta: Nurodykite aplanką, kuriame yra jūsų programos kodas (pvz., / jei jis yra šakniniame kataloge). +- API vieta: Jei turite API, nurodykite jos vietą (nebūtina). +- Išvesties vieta: Nurodykite aplanką, kuriame sugeneruojama kūrimo išvestis (pvz., build arba dist). + +4. Peržiūrėkite ir sukurkite +Peržiūrėkite savo nustatymus ir spustelėkite „Sukurti“. Azure nustatys reikiamus išteklius ir sukurs GitHub Actions darbo eigą jūsų saugykloje. + +5. GitHub Actions darbo eiga +Azure automatiškai sukurs GitHub Actions darbo eigos failą jūsų saugykloje (.github/workflows/azure-static-web-apps-.yml). Ši darbo eiga tvarkys kūrimo ir diegimo procesą. + +6. Stebėkite diegimą +Eikite į „Actions“ skirtuką savo GitHub saugykloje. +Turėtumėte matyti veikiančią darbo eigą. Ši darbo eiga sukurs ir įdiegs jūsų statinę žiniatinklio programą į Azure. +Kai darbo eiga bus baigta, jūsų programa bus pasiekiama pateiktu Azure URL. + +### Pavyzdinis darbo eigos failas + +Štai pavyzdys, kaip gali atrodyti GitHub Actions darbo eigos failas: +name: Azure Static Web Apps CI/CD +``` +on: + push: + branches: + - main + pull_request: + types: [opened, synchronize, reopened, closed] + branches: + - main + +jobs: + build_and_deploy_job: + runs-on: ubuntu-latest + name: Build and Deploy Job + steps: + - uses: actions/checkout@v2 + - name: Build And Deploy + id: builddeploy + uses: Azure/static-web-apps-deploy@v1 + with: + azure_static_web_apps_api_token: ${{ secrets.AZURE_STATIC_WEB_APPS_API_TOKEN }} + repo_token: ${{ secrets.GITHUB_TOKEN }} + action: "upload" + app_location: "quiz-app" # App source code path + api_location: ""API source code path optional + output_location: "dist" #Built app content directory - optional +``` + +### Papildomi ištekliai +- [Azure Static Web Apps dokumentacija](https://learn.microsoft.com/azure/static-web-apps/getting-started) +- [GitHub Actions dokumentacija](https://docs.github.com/actions/use-cases-and-examples/deploying/deploying-to-azure-static-web-app) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file diff --git a/translations/lt/sketchnotes/README.md b/translations/lt/sketchnotes/README.md new file mode 100644 index 00000000..7e42758c --- /dev/null +++ b/translations/lt/sketchnotes/README.md @@ -0,0 +1,21 @@ + +Raskite visas sketchnotes čia! + +## Kreditas + +Nitya Narasimhan, menininkė + +![kelio žemėlapio sketchnote](../../../translated_images/00-Roadmap.4905d6567dff47532b9bfb8e0b8980fc6b0b1292eebb24181c1a9753b33bc0f5.lt.png) + +--- + +**Atsakomybės apribojimas**: +Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą [Co-op Translator](https://github.com/Azure/co-op-translator). Nors siekiame tikslumo, prašome atkreipti dėmesį, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Originalus dokumentas jo gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Kritinei informacijai rekomenduojama naudoti profesionalų žmogaus vertimą. Mes neprisiimame atsakomybės už nesusipratimus ar klaidingus interpretavimus, atsiradusius dėl šio vertimo naudojimo. \ No newline at end of file