데이터분석/데이터분석

[비전공자의 불타는 데이터 노트] 데이터시각화 알아보기 |패캠 데이터분석 인강 | 내배카

chaewon11 2022. 4. 18. 22:10
반응형

드디어 4주 차가 되었지만, 아직 3주 차 진도에서 헤어나지 못한 건에 대하여..

나 이챈챈.. 반성합니다..

그래도 지난주에는 퇴근하고 무조건 1시간 30분은 자리에 앉아서 강의를 들었다. ㅎㅎ

목요일 회식 + 혐리 때문에 목~토는 날렸지만, 그래도 일단 3주 차 진도는 끝냈다!!!

 

이번 한 주동안 가장 기억에 남는 건 "데이터 시각화"파트다.

이전에 친구가 하는걸 보고 '와, 대단하다. 어떻게 저렇게 하지?' 하고 감탄만 했던 그 작업을 드디어 내 손으로 직접 실습해볼 수 있었다.

 

나는 배움이 느리고 이해를 해야 습득을 하는 사람이라 아직 공부할 게 산더미지만, 이번에 공부한 내용을 정리해보려 한다.

 

 


 1. seaborn(https://seaborn.pydata.org/)

 

seaborn은 matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리로 다양한 통계 그래프를 표현할 수 있다.

이번에 강의를 통해 11개의 기법을 배웠는데, 다 어디선가 한번쯤 봤던 그래프라 편하게 배울 수 있었다.

ㅎ 물론 아직 다 이해한건 아니라 더 공부는 해야 하지만.. 

e.g Histplot, Displot, Barplot, Countplot, Boxplot, Violinplot, Lineplot, Pointplot, Scatterplot, Pairplot, Heatmap

 

 

1) Hisplot!!!

Hisplot은 흔히 하는 히스토그램을 출력한다.

다양하게 쓰이지만 데이터의 빈도, 특정 구간별 정보 확인할 때 사용한다. 

 

 

위는 Flipper_length_mm의 데이터를, species를 기준으로 나타난 히스토그램이다.

아래도 마찬가지인데, 둘의 차이점은 위는 겹쳤고, 아래는 쌓았다는 점!

이를 나누는게 multiple = 'stack'의 유무다.

 

 

2) Displot

위의 데이터를 나눠서 출력하는 plot이 Displot이다.

좀 더 깔끔하게 데이터를 보고자 할 때 유용하지 않을까하는 생각이 들었다.

 

 

이 외에도 다양한 plot을 실습했는데, 혼자 데이터로 많이 이리저리 연습해보면서 사용법을 익혀야 할 듯싶다.

 


추가로 데이터 시각화 실습을 실제 데이터를 가지고 연습을 했는데..

데이터 불러오는 게 참 힘들고 어려웠다..

 

공공데이터 CSV 파일이 코드 변환을 해야 해서, 새 엑셀 파일에서 데이터 불러오기 -> 텍스트/csv로 불러온 후,

utf-8 코드와 | 기준으로 데이터 변환하고 이를 다시 csv파일로 저장하기.. 무한.. 노가다..

정말.. 이게 최선이었을까..??....ㅎ..

이거 해결한다고 이틀은 붙잡고 있었던 거 같은데, 불러와지고 나서 컬럼을 추출하려니 아래오류가 떴다.

 

KeyError라니..!! ㅠㅠㅠㅠ 도대체 뭐가 문제야.. 뭐가..!!!! 

컬럼 하나만 뽑아오는 건 괜찮은데, 2개부터는 key error가 떠서 이것도 원인을 찾아봐야 할 것 같다.

나와의 숙제.... ㅎ 데이터 분석 쉽지 않다.. ㅠㅠ 

화이팅 이챈챈!!!

 

반응형