티스토리 뷰

반응형

이번장에서는 

PART 1. Hello World ?  장에 이어 데이터셋을 이용하여 데이터 시각화를 해보자.


그전에 먼저 다시한번 필자의 구동 환경에 대해 짚어보자.

VULTR 클라우드 호스팅에 우분투 17.04 서버를 얹혀 PC 윈도우상에서 putty 로 접속해서 코드를 짜서 실행해보고있다.


이번장에 데이터 시각화를 하기위해서는 우분투 데스크탑이 필요하다.

서버라서 그런건 없고 우분투는 서툴고.. 


간편한 맥으로 넘어가서 python2.7 만 설치하고 다시 처음부터 할까 하다가

시작을 이렇게 했는데 계속 해야지! 하며 우분투 서버에 데스크탑을 설치하기로 했다.


자세한 내용은 우분투 17.04 서버에 VNC로 접속하기 편을 참고.


-----------------------------------


PART 1에서 사용했던 load_dataset.py 코드를 열고, 

마지막 줄에 다음 코드를 추가한다.

# box and whisker plots

dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=True, sharey=False)

plt.show()

저장후 쉘에서 python load_dataset.py 를 실행시켜본다.


위와같은 결과 화면이 열린다. 


앞번장의 dataset.describe() 를 기억하는가.. ( 아래 실행 결과 참고 ) 

>>> print(dataset.describe())

       sepal-length  sepal-width  petal-length  petal-width

count    150.000000   150.000000    150.000000   150.000000

mean       5.843333     3.054000      3.758667     1.198667

std        0.828066     0.433594      1.764420     0.763161

min        4.300000     2.000000      1.000000     0.100000

25%        5.100000     2.800000      1.600000     0.300000

50%        5.800000     3.000000      4.350000     1.300000

75%        6.400000     3.300000      5.100000     1.800000

max        7.900000     4.400000      6.900000     2.500000

이 함수의 결과를 그대로 시각화 했다고 볼순 없지만
  최소값, 최대값, 25~75% 사이의 중간값 그리고 평균값까지의 데이터 분포를 살펴보는데에 있어서 쉽게 파악이 가능하다. 


이번에는 각 구간별 데이터의 크기와 변화를 한눈에 볼수있는 히스토그램을 출력해보자.

다시 편집기로 코드를 열어 위에서 작성한 plot 부분을 주석처리하고

다음 코드를 추가한다.

# histograms

dataset.hist()

plt.show()

저장하고 나와서 실행해보자. 

x축 구간별 y축 데이터 갯수 이다. 


다음은 다변량 플롯을 출력해보자.

# scatter plot matrix

scatter_matrix(dataset)

plt.show()

위의 코드를 넣고 저장하고 실행하면 다음과 같은 결과를 얻을수 있다.


통계학이건 수학이건 모르는게 너무 많아 이게 무얼 나타내는 그래프인지, 어떻게 봐야하는건지 처음에 이해하는데 조금 시간이 걸렸다.

우분투 데스크탑이 구려서 이렇게 나오나 싶었는데, 원본 데이터와 비교해보며 계~속 보다보니 이해가 간다.


아래는 원본 데이터중 Sepal length 를 기준으로 오름차순 정렬한 결과이다. 

위의 다변량 분포표의 결과 왼쪽 제일 하단을 기준으로 아래의 표와 비교해보면 이해가 간다.
( ex : Sepal-length의 값이 4.3~5까지일때 Petal-width의 값은 0.1~0.3 까지의 값이 분포? 되어있다 라고 설명이 가능..  ) 



다변량 분석에 대해 자세한 설명은 이곳에 더 잘 나와있으니 긴 설명은 생략한다. 


여기까지 데이터를 다양한 방법으로 시각화 해보았다.

R은 아직 해보진 않았지만 파이썬 코드는 라이브러리가 잘되어있어서인지 너무 간편한것같다.. 

잘 이해하고 자주사용하고 외워 내것으로 만들자! 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함