기본적인 통계지식 익히기 — 평균, 분산, 표준편차

YJ
4 min readAug 18, 2019

--

요즘 부쩍 데이터 분석에 관심이 있다. 꼭 데이터 사이언스가 되는 게 목표는 아니지만 요즘 업계에서 가장 핫한 분야이니만큼 뭐가 어떻게 돌아가고 있는지는 알아야겠다는 생각이 들었다. 그리고 나 또한 마케팅을 하는 사람으로서 데이터를 바탕으로 무언가 결론을 내야 하는 상황들이 때때로 있다. 그런 상황들에 조금이나마 도움을 받을 수 있는 부분이 있지 않을까 내심 기대도 해보며 이 책을 집어들었다. 오늘은 통계의 가장 기본 지식인 평균, 분산, 표준편차를 이해하는 시간을 가져보겠다.

평균, 분산, 표준편차, 그게 뭔데?

데이터 분석을 실제로 하는 사람 뿐 아니라, 그 밖의 관계자들도 최소한의 통계 지식은 아는 상태에서 프로젝트를 진행해야 한다. 통계적 사고의 기초가 되는 평균, 분산, 표준편자의 개념과 이 분석 수법을 가지고 무엇을 할 수 있는지 사례를 통해 알아보자.

여기 영업사원 A와 B가 있다. A와 B는 지난 3개월 간 각각 330만원, 420만원의 매출을 올렸다. 둘 중 어느 영업사원이 더 좋은 성과를 냈는가? 얼핏 봤을 때는 B가 더 잘한 거 아니야? 하기 쉽다. 근데 통계적인 시각을 가지고 보면 저것 만으로는 실적을 평가하기가 어렵다. 정확한 평가를 위해서는 매출 내역을 자세히 들여다볼 필요가 있기 때문이다.

분산, 데이터가 들쭉날쭉한 정도를 파악하다.

영업사원 A와 B의 월별 매출 성과를 살펴보니 3개월간 총 매출액이 A보다 90만원 정도 우세했던 B가 더 우수한 영업사원이라고 평가하기가 어려워졌다. 월별 매출액이 안정적이지 않고 들쭉날쭉 격차가 크기 때문이다. 이 들쭉날쭉한 정도를 조사하기 위한 계산이 바로 ‘분산’이다.

분산 계산법

분산을확인하려면 평균값이 필요하다. 즉 3개월간 A와 B가 담당했던 월평균 매출액은 각각 110만원, 140만원이다. 이 평균값을 바탕으로 A와 B의 월별 매출액과 월평균 매출액의 차이를 확인해본다. (아래 계산식 참고) 다음에는 차이의 평균값을 구한다. 다만 마이너스 숫자가 있는 점을 고려해 편의상 각 수치들을 제곱해 플러스로 바꾼 다음 제곱한 수치의 합을 데이터의 개수로 나눠 ‘분산’을 구한다.

위 이미지와 같이 분산을 계산하니 큰 차이가 생겼다. 이 수치는 평균에서의 편차의 제곱이므로 제곱근으로 되돌린다. 그리고 이 것이 바로 ‘표준편차’다. 단순히 데이터가 평균에서 ‘얼마나 벗어났는가’를 측정하는 것을 넘어서 ‘분산’을 이용한 단순한 계산을 거침으로써 평균적인 들쭉날쭉함으로 지표화된 ‘표준편차’가 된 것이다.

정리.

평균, 분산, 표준편차는 데이터 분석을 할 때 제일 먼저 이해해야 하는 요소이다.

  • 평균 : 수집한 데이터의 수치를 더한 다음 데이터의 개수를 나눠서 구함. 하지만 평균이 모든 성과의 측정의 기준이 되어서는 안된다. 평균은 데이터의 들쭉날쭉한 정도를 반영하고 있지 않기 때문이다.
  • 분산 : 들쭉날쭉한 정도를 조사하기 위한 계산. 분산을 계산하기 위해서는 ‘평균값’이 필요. 평균과 각 지표의 차이의 평균값을 구한다. 이 상태로 평균을 구하면 플러스와 마이너스가 상쇄되기 때문에, 편의상 각 수치를 제곱해 플러스초 바꾼 다움 제곱한 수치의 합을 데이터의 개수로 나누어 계산한다.
  • 표준편차 : 분산은 평균에서의 편차의 제곱이므로 제곱근으로 되돌린다. 이것이 ‘표준편차’다. 단순히 데이터의 평균에서 ‘얼마나 벗어났는가’를 측정하는 데 불과했던 ‘편차’가 ‘분산’을 이용한 단순한 계산을 거침으로써 ‘평균적인 들쭉날쭉함’으로 지표화된 ‘표준편차’로 새롭게 태어났다.

주목해야 할 부분이 어긋나면 결론도 어긋나기 때문에 똑같은 데이터를 봐도 통계에 관한 지식이 있느냐 없느냐에 따라 결론이 크게 달라질 수 있다고 한다. 통계학에 대한 기본적인 이해를 통해서 데이터 분석에 있어서 더욱 정확한 판단을 할 수 있는 날이 오기를 바라며…

*덧) 해당 글은 학습의 목적으로 책의 내용을 재구성하여 편집했습니다.

--

--