드디어 4주 차가 되었지만, 아직 3주 차 진도에서 헤어나지 못한 건에 대하여..
나 이챈챈.. 반성합니다..
그래도 지난주에는 퇴근하고 무조건 1시간 30분은 자리에 앉아서 강의를 들었다. ㅎㅎ
목요일 회식 + 혐리 때문에 목~토는 날렸지만, 그래도 일단 3주 차 진도는 끝냈다!!!
이번 한 주동안 가장 기억에 남는 건 "데이터 시각화"파트다.
이전에 친구가 하는걸 보고 '와, 대단하다. 어떻게 저렇게 하지?' 하고 감탄만 했던 그 작업을 드디어 내 손으로 직접 실습해볼 수 있었다.
나는 배움이 느리고 이해를 해야 습득을 하는 사람이라 아직 공부할 게 산더미지만, 이번에 공부한 내용을 정리해보려 한다.
1. seaborn(https://seaborn.pydata.org/)
seaborn은 matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리로 다양한 통계 그래프를 표현할 수 있다.
이번에 강의를 통해 11개의 기법을 배웠는데, 다 어디선가 한번쯤 봤던 그래프라 편하게 배울 수 있었다.
ㅎ 물론 아직 다 이해한건 아니라 더 공부는 해야 하지만..
e.g Histplot, Displot, Barplot, Countplot, Boxplot, Violinplot, Lineplot, Pointplot, Scatterplot, Pairplot, Heatmap
1) Hisplot!!!
Hisplot은 흔히 하는 히스토그램을 출력한다.
다양하게 쓰이지만 데이터의 빈도, 특정 구간별 정보 확인할 때 사용한다.
위는 Flipper_length_mm의 데이터를, species를 기준으로 나타난 히스토그램이다.
아래도 마찬가지인데, 둘의 차이점은 위는 겹쳤고, 아래는 쌓았다는 점!
이를 나누는게 multiple = 'stack'의 유무다.
2) Displot
위의 데이터를 나눠서 출력하는 plot이 Displot이다.
좀 더 깔끔하게 데이터를 보고자 할 때 유용하지 않을까하는 생각이 들었다.
이 외에도 다양한 plot을 실습했는데, 혼자 데이터로 많이 이리저리 연습해보면서 사용법을 익혀야 할 듯싶다.
추가로 데이터 시각화 실습을 실제 데이터를 가지고 연습을 했는데..
데이터 불러오는 게 참 힘들고 어려웠다..
공공데이터 CSV 파일이 코드 변환을 해야 해서, 새 엑셀 파일에서 데이터 불러오기 -> 텍스트/csv로 불러온 후,
utf-8 코드와 | 기준으로 데이터 변환하고 이를 다시 csv파일로 저장하기.. 무한.. 노가다..
정말.. 이게 최선이었을까..??....ㅎ..
이거 해결한다고 이틀은 붙잡고 있었던 거 같은데, 불러와지고 나서 컬럼을 추출하려니 아래오류가 떴다.
KeyError라니..!! ㅠㅠㅠㅠ 도대체 뭐가 문제야.. 뭐가..!!!!
컬럼 하나만 뽑아오는 건 괜찮은데, 2개부터는 key error가 떠서 이것도 원인을 찾아봐야 할 것 같다.
나와의 숙제.... ㅎ 데이터 분석 쉽지 않다.. ㅠㅠ
화이팅 이챈챈!!!