<데이터분석과정 수강기> #2 boxplot

in #kr-science6 years ago

#1에서 이어짐
안녕하세요, 스팀잇 뉴비 @islandvibes입니다. 데이터분석과정을 듣는 김에 스팀잇에 정리해보기로 했는데요,


첫번째, 박스플롯입니다.


제가 사실 주식은 예전부터 하고 있었는데 주먹구구로 하다보니;; 그게 박스플롯인줄은 이번에 알았네요.

수업을 듣기 시작했을 때 선생님이 그러셨습니다. 시각화는 사실 엑셀로도 가능하다! 중요한 건 데이터 수집 저장 정제(이게 젤 중요) 분석이다! 아니 일단 그래프나 그릴 수 있었으면 하는 심정에서는 무슨 말인가 했는데..
파일럿으로 서비스 내부 데이터로 한 번 돌려보니 제일 중요한 건 역시 데이터를 추리는 과정이더라구요. 문제(보고 싶은 것)을 선정해서 그게 잘 보이게끔 데이터를 잘 뽑고(SQL) 시각화를 해보면서 계속 수정하고 그 중에 의미있는 결론에 도달하는 것. 이게 전부.... 저는 서비스기획자로 사용자들이 어떻게 쓰는지 궁금했던 부분이 정확히 있어서, 처음 진도였던 boxplot으로 시각화라는 걸 해 봤습니다. 보고싶은 건 그거였어요. 사용자의 이상패턴을 혹시 눈으로 볼 수 있을까? 그럼 그걸 가지고 개선점을 도출할 수도 있지 않을까?

R의 기본문법으로 summary()를 돌려주면 짜잔하고 다음 값들이 나옵니다.

Min. 1st Qu. Median Mean 3rd Qu. Max.
최소값,1/4값, 중간값, 평균, 1/3값, 최대값

저는 이 정도로도 충분한 인사이트를 얻을 수 있지만 그래도 이것을 boxplot() 으로 돌려주면 아래와 같은 그림이 튀어나옵니다.


오오... 위에 쩜쩜쩜으로 표시된 게 보이나요? outlier를 알아서 표시해주는데요 아무래도 이상한 패턴으로 사용하는 사용자로 추정됩니다.


상태별로 다르게 뽑히는 예

만약 boxplot() 괄호 안에 데이터이름, ~구분컬럼을 넣어주면 요렇게 뽑힙니다. 상태별로 구분해서 볼 수도 있지요. 실제로 이상행동인지는 내부적으로 좀 더 검증을 해봐야 알 것 같습니다만 저는 이 정도로 매우 만족했습니다. 기초자료를 수집하고 분석하고싶었거든요.


휴, 두번째 포스팅입니다.
마크다운은 이것 을 참고했습니다. 감사해요!

Sort:  

스스로 홍보하는 프로젝트에서 나왔습니다.
오늘도 좋은글 잘 읽었습니다.
오늘도 여러분들의 꾸준한 포스팅을 응원합니다.

감사합니다! 자주 뵐게요 :)

#3도 봐주세요. 감사합니다.