Update README.ko.md

pull/266/head
SeonDahye 3 years ago committed by GitHub
parent e8d70f098b
commit 36664b9d77
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

@ -1,24 +1,24 @@
# 관계 시각화: 꿀의 모든 것 🍯 # 관계 시각화: 꿀의 모든 것 🍯
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/12-Visualizing-Relationships.png)| |![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/12-Visualizing-Relationships.png)|
|:---:| |:---:|
|관계 시각화 - _제작자 : [@nitya](https://twitter.com/nitya)_ | |관계 시각화 - _제작자 : [@nitya](https://twitter.com/nitya)_ |
계속해서 우리 연구의 본질에 초점을 맞춰 미국 농무부 [United States Department of Agriculture](https://www.nass.usda.gov/About_NASS/index.php)에서 도출된 데이터 셋에 따라 다양한 꿀 유형 간의 관계를 보여주는 흥미로운 시각화를 발견해 보겠습니다. 계속해서 우리 연구의 본질에 초점을 맞춰 [미국 농무부](https://www.nass.usda.gov/About_NASS/index.php)에서 도출된 데이터 셋에 따라 다양한 꿀 유형 간의 관계를 보여주는 흥미로운 시각화를 발견해 보겠습니다.
약 600개 항목으로 구성된 이 데이터셋은 미국의 여러 주에서의 꿀 생산량을 보여줍니다. 예를 들어, 1998년부터 2012년까지 각 주에서 생산한 꿀의 군집의 수, 군집 당 수확량, 총 생산량, 재고, 파운드당 가격, 꿀의 가치를 볼 수 있습니다. 약 600개 항목으로 구성된 이 데이터셋은 미국의 여러 주에서의 꿀 생산량을 보여줍니다. 예를 들어, 1998년부터 2012년까지 각 주에 대해 연간 한 행씩 군집의 수, 군집 당 수확량, 총 생산량, 재고, 파운드당 가격 및 특정 주에서 생산된 꿀의 가치를 볼 수 있습니다.
It will be interesting to visualize the relationship between a given state's production per year and, for example, the price of honey in that state. Alternately, you could visualize the relationship between states' honey yield per colony. This year span covers the devastating 'CCD' or 'Colony Collapse Disorder' first seen in 2006 (http://npic.orst.edu/envir/ccd.html), so it is a poignant dataset to study. 🐝 예를 들어 해당 주의 연간 생산량과 해당 주의 꿀 가격 간의 관계를 시각화하는 것은 흥미로울 것입니다. 또는 각 주의 군집 당 꿀 생산량 간의 관계를 시각화할 수 있습니다. 올해에는 2006년(http://npic.orst.edu/envir/ccd.html)에 처음 발견된 파괴적인 'CCD' 또는 '봉군붕괴증후군'을 다루는데, 이것은 연구하기에 가슴 아픈 데이터 셋입니다. 🐝
## [Pre-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/22) ## [이전 강의 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/22)
In this lesson, you can use Seaborn, which you have used before, as a good library to visualize relationships between variables. Particularly interesting is the use of Seaborn's `relplot` function that allows scatter plots and line plots to quickly visualize '[statistical relationships](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)', which allow the data scientist to better understand how variables relate to each other. 이 강의에서는 변수 간의 관계를 시각화하는 좋은 라이브러리로, 전에 사용했던 Seaborn을 사용할 수 있습니다. 특히 흥미로운 점은 산점도와 선 플롯이 '[통계적 관계](https://seaborn.pydata.org/tutorial/relational.html?highlight=relationships)'를 빠르게 시각화할 수 있도록 해주는 Seaborn의 'relplot' 기능입니다. 'replot'은 데이터 과학자가 변수들이 서로 어떻게 관련되어 있는지 더 잘 이해할 수 있도록 합니다.
## Scatterplots ## 산점도
Use a scatterplot to show how the price of honey has evolved, year over year, per state. Seaborn, using `relplot`, conveniently groups the state data and displays data points for both categorical and numeric data. 산점도를 사용하여 해마다 주별로 꿀 가격이 어떻게 변해왔는지 확인할 수 있습니다. Seaborn은 'replot'을 사용하여 상태 데이터를 편리하게 그룹화하고 범주형 데이터와 수치형 데이터 모두에 대한 데이터를 점으로 표시합니다.
Let's start by importing the data and Seaborn: 먼저 데이터와 Seaborn을 가져오는 것으로 시작하겠습니다:
```python ```python
import pandas as pd import pandas as pd
@ -27,7 +27,7 @@ import seaborn as sns
honey = pd.read_csv('../../data/honey.csv') honey = pd.read_csv('../../data/honey.csv')
honey.head() honey.head()
``` ```
You notice that the honey data has several interesting columns, including year and price per pound. Let's explore this data, grouped by U.S. state: 꿀 데이터에는 연도 및 파운드 당 가격을 포함하여 몇가지 흥미로운 열들이 있습니다. 미국 주별로 분류된 이 데이터를 살펴보겠습니다:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year | | state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- | | ----- | ------ | ----------- | --------- | -------- | ---------- | --------- | ---- |
@ -38,23 +38,23 @@ You notice that the honey data has several interesting columns, including year a
| CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 | | CO | 27000 | 72 | 1944000 | 1594000 | 0.7 | 1361000 | 1998 |
Create a basic scatterplot to show the relationship between the price per pound of honey and its U.S. state of origin. Make the `y` axis tall enough to display all the states: 꿀 1파운드 당 가격과 미국 원산지 간의 관계를 보여주는 기본 산점도를 생성합니다. 'y'축을 모든 상태를 표시할 수 있을 만큼 높게 만듭니다:
```python ```python
sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5); sns.relplot(x="priceperlb", y="state", data=honey, height=15, aspect=.5);
``` ```
![scatterplot 1](images/scatter1.png) ![scatterplot 1](../images/scatter1.png)
Now, show the same data with a honey color scheme to show how the price evolves over the years. You can do this by adding a 'hue' parameter to show the change, year over year: 이제 동일한 데이터를 꿀 색상 구성표로 표시하여 몇 년 동안 가격이 어떻게 변하는지 보여줍니다. 매년 변경 사항을 표시하기 위해 'hue' 매개 변수를 추가하여 이를 수행할 수 있습니다:
> ✅ Learn more about the [color palettes you can use in Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html) - try a beautiful rainbow color scheme! > ✅ [Seaborn에서 사용할 수 있는 색상 팔레트](https://seaborn.pydata.org/tutorial/color_palettes.html) 에 대해 자세히 알아보기 - 아름다운 무지개 색 구성표를 시도하세요!
```python ```python
sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5); sns.relplot(x="priceperlb", y="state", hue="year", palette="YlOrBr", data=honey, height=15, aspect=.5);
``` ```
![scatterplot 2](images/scatter2.png) ![scatterplot 2](../images/scatter2.png)
With this color scheme change, you can see that there's obviously a strong progression over the years in terms of honey price per pound. Indeed, if you look at a sample set in the data to verify (pick a given state, Arizona for example) you can see a pattern of price increases year over year, with few exceptions: 이 색상 구성표 변경을 통해, 여러분은 파운드당 꿀의 가격 측면에서 몇 년 동안 분명히 강력한 발전이 있음을 알 수 있습니다. 실제로 검증할 데이터의 표본 셋(예: 아리조나 주를 선택)을 보면 몇 가지 예외를 제외하고 매년 가격이 상승하는 패턴을 볼 수 있습니다:
| state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year | | state | numcol | yieldpercol | totalprod | stocks | priceperlb | prodvalue | year |
| ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- | | ----- | ------ | ----------- | --------- | ------- | ---------- | --------- | ---- |
@ -75,51 +75,51 @@ With this color scheme change, you can see that there's obviously a strong progr
| AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 | | AZ | 22000 | 46 | 1012000 | 253000 | 1.79 | 1811000 | 2012 |
Another way to visualize this progression is to use size, rather than color. For colorblind users, this might be a better option. Edit your visualization to show an increase of price by an increase in dot circumference: 이 진행 상황을 시각화하는 또 다른 방법은 색상이 아닌 크기를 사용하는 것입니다. 색맹 사용자의 경우 이것이 더 나은 옵션일 수 있습니다. 점 둘레의 증가에 따른 가격 인상을 표시하도록 시각화를 편집합니다:
```python ```python
sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5); sns.relplot(x="priceperlb", y="state", size="year", data=honey, height=15, aspect=.5);
``` ```
You can see the size of the dots gradually increasing. 점들의 크기가 점점 커지는 것을 볼 수 있습니다.
![scatterplot 3](images/scatter3.png) ![scatterplot 3](../images/scatter3.png)
Is this a simple case of supply and demand? Due to factors such as climate change and colony collapse, is there less honey available for purchase year over year, and thus the price increases? 이것은 단순한 수요와 공급의 경우인가요? 기후 변화 및 봉군 붕괴와 같은 요인으로 인해, 매년 구매할 수 있는 꿀이 줄어들어 가격이 상승하나요?
To discover a correlation between some of the variables in this dataset, let's explore some line charts. 이 데이터 셋의 일부 변수 간의 상관 관계를 발견하기 위해 몇 가지 꺾은선 그래프를 살펴보겠습니다.
## Line charts ## 꺾은선 그래프
Question: Is there a clear rise in price of honey per pound year over year? You can most easily discover that by creating a single line chart: 질문: 매년 파운드 당 꿀값이 상승하고 있습니까? 여러분은 단일 꺾은선 그래프를 만들어 가장 쉽게 확인할 수 있습니다:
```python ```python
sns.relplot(x="year", y="priceperlb", kind="line", data=honey); sns.relplot(x="year", y="priceperlb", kind="line", data=honey);
``` ```
Answer: Yes, with some exceptions around the year 2003: 답변: 네, 2003년 경의 일부 예외를 제외하고 그렇습니다:
![line chart 1](images/line1.png) ![line chart 1](../images/line1.png)
Because Seaborn is aggregating data around one line, it displays "the multiple measurements at each x value by plotting the mean and the 95% confidence interval around the mean". [Source](https://seaborn.pydata.org/tutorial/relational.html). This time-consuming behavior can be disabled by adding `ci=None`. Seaborn은 한 선으로 데이터를 집계하기 때문에 "평균을 중심으로 95% 신뢰 구간과 평균을 표시하여 각 x 값에 대한 다중 측정"을 표시합니다. [출처](https://seaborn.pydata.org/tutorial/relational.html). 이 시간 소모적인 동작은 `ci=None`을 추가하여 비활성화할 수 있습니다.
Question: Well, in 2003 can we also see a spike in the honey supply? What if you look at total production year over year? 질문: 2003년에도 꿀 공급이 급증하는 것을 볼 수 있습니까? 연간 총 생산량을 보면 어떨까요?
```python ```python
sns.relplot(x="year", y="totalprod", kind="line", data=honey); sns.relplot(x="year", y="totalprod", kind="line", data=honey);
``` ```
![line chart 2](images/line2.png) ![line chart 2](../images/line2.png)
Answer: Not really. If you look at total production, it actually seems to have increased in that particular year, even though generally speaking the amount of honey being produced is in decline during these years. 답변: 그렇지 않습니다. 총 생산량을 보면 그 해에 실제로 증가한 것으로 보이지만 일반적으로 이 기간 동안 생산되는 꿀의 양은 감소하고 있습니다.
Question: In that case, what could have caused that spike in the price of honey around 2003? 질문: 그렇다면 2003년경 꿀 가격이 급등하게 된 원인은 무엇이었습니까?
To discover this, you can explore a facet grid. 이를 발견하기 위해 facet grid를 탐색할 수 있습니다.
## Facet grids ## Facet grids
Facet grids take one facet of your dataset (in our case, you can choose 'year' to avoid having too many facets produced). Seaborn can then make a plot for each of those facets of your chosen x and y coordinates for more easy visual comparison. Does 2003 stand out in this type of comparison? Facet grid는 데이터셋의 한 면을 차지합니다(우리의 경우 너무 많은 면을 생산하지 않도록 '연도'를 선택할 수 있습니다). 그런 다음 Seaborn은 보다 쉬운 시각적 비교를 위해 선택한 x 좌표와 y 좌표의 각 면에 대한 플롯을 만들 수 있습니다. 2003년은 이런 유형의 비교에서 두드러집니까?
Create a facet grid by continuing to use `relplot` as recommended by [Seaborn's documentation](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid). [Seaborn의 문서](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html?highlight=facetgrid#seaborn.FacetGrid)에서 권장하는 대로 'relplot'을 계속 사용하여 facet grid를 만듭니다.
```python ```python
sns.relplot( sns.relplot(
@ -129,15 +129,15 @@ sns.relplot(
col_wrap=3, col_wrap=3,
kind="line" kind="line"
``` ```
In this visualization, you can compare the yield per colony and number of colonies year over year, side by side with a wrap set at 3 for the columns: 이 시각화에서는 군집 당 수확량과 연간 군집 수를 3개로 감싸진 열로 나란히 비교할 수 있습니다:
![facet grid](images/facet.png) ![facet grid](../images/facet.png)
For this dataset, nothing particularly stands out with regards to the number of colonies and their yield, year over year and state over state. Is there a different way to look at finding a correlation between these two variables? 이 데이터셋의 경우, 매년 주별로 군집 수와 수확량과 관련하여 특별히 눈에 띄는 것은 없습니다. 이 두 변수 사이의 상관 관계를 찾는 다른 방법이 있습니까?
## Dual-line Plots ## 이중 꺾은선 그래프
Try a multiline plot by superimposing two lineplots on top of each other, using Seaborn's 'despine' to remove their top and right spines, and using `ax.twinx` [derived from Matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html). Twinx allows a chart to share the x axis and display two y axes. So, display the yield per colony and number of colonies, superimposed: Seaborn의 'despine'을 사용하여 상단 및 오른쪽 가시를 제거하고, `ax.twinx` [Matplotlib에서 파생된](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.twinx.html)을 사용하여 두 개의 꺾은 선 그래프를 서로 겹쳐서 여러 개의 꺾은 선 그래프를 시도합니다. Twinx를 사용하면 차트가 x축을 공유하고 두 개의 y축을 표시할 수 있습니다. 따라서 군집 당 수확량과 군집 수를 겹쳐서 표시합니다:
```python ```python
fig, ax = plt.subplots(figsize=(12,6)) fig, ax = plt.subplots(figsize=(12,6))
@ -154,21 +154,21 @@ sns.despine(right=False)
plt.ylabel('colony yield') plt.ylabel('colony yield')
ax.figure.legend(); ax.figure.legend();
``` ```
![superimposed plots](images/dual-line.png) ![superimposed plots](../images/dual-line.png)
While nothing jumps out to the eye around the year 2003, it does allow us to end this lesson on a little happier note: while there are overall a declining number of colonies, the number of colonies is stabilizing even if their yield per colony is decreasing. 2003년경에 눈에 띄는 것은 아무것도 없지만, 이것은 우리에게 이 강의을 조금 더 행복하게 마무리 할 수 있게 합니다. 전반적으로 군집의 수는 감소하는 반면, 군집당 수확량은 감소하고 있다고 해도 군집의 수는 안정되고 있습니다.
Go, bees, go! 벌들아, 고고!
🐝❤️ 🐝❤️
## 🚀 Challenge ## 🚀 도전
In this lesson, you learned a bit more about other uses of scatterplots and line grids, including facet grids. Challenge yourself to create a facet grid using a different dataset, maybe one you used prior to these lessons. Note how long they take to create and how you need to be careful about how many grids you need to draw using these techniques. 이번 강의에서는 facet grid를 비롯한 산점도 및 꺾은선 그래프의 다른 용도에 대해 조금 더 알아봤습니다. 다른 데이터 셋(이 교육 전에 사용했을 수도 있습니다.)을 사용하여 facet grid를 만드는 데 도전해보세요. 이러한 기술을 사용하여 그리드를 만드는 데 걸리는 시간과 그리드를 몇 개 그려야 하는지 주의할 필요가 있습니다.
## [Post-lecture quiz](https://red-water-0103e7a0f.azurestaticapps.net/quiz/23) ## [이전 강의 퀴즈](https://red-water-0103e7a0f.azurestaticapps.net/quiz/23)
## Review & Self Study ## 복습 & 자기 주도 학습
Line plots can be simple or quite complex. Do a bit of reading in the [Seaborn documentation](https://seaborn.pydata.org/generated/seaborn.lineplot.html) on the various ways you can build them. Try to enhance the line charts you built in this lesson with other methods listed in the docs. 꺾은선 그래프는 단순하거나 매우 복잡할 수 있습니다. [Seaborn 문서](https://seaborn.pydata.org/generated/seaborn.lineplot.html)에서 빌드할 수 있는 다양한 방법을 읽어 보세요. 문서에 나열된 다른 방법을 사용하여 이 강의에서 만든 꺾은선그래프를 향상시키세요.
## Assignment ## 과제
[Dive into the beehive](assignment.md) [벌집 속으로 뛰어들어라](assignment.md)

Loading…
Cancel
Save