[펌글]통계제대로 보기

PC에서 잠자고 있던 글인데 우연히 찾아서 읽다가 올려봅니다.
중앙일보 조사연구팀에서 중앙일보에 연재햇던 글인데 통계적 착시현상이란 글을 보니 IMF 시 사례가 나왔습니다. 그 글을 보니 얼마전 IMF에서 올해 및 내년 경제성장율을 예측했는데 올해 -4.0%로 역성장 후 내년에 4.2%로 급반등한다고해서 정붕[서는 가장 빠르게 회복하는 나라이다라고 호도하던데 이 또한정형적인 통계적 착시현상이지요..

항상 하는 생각이지만 통계는 무지 어렵고 나와는 맞지않는다는 생각은 접하면 접할수록 새록새록 듭니다.

Table of contents 목차 보이기

1. 통계적 착시현상

한국언론재단에서 펴낸 ‘통계 보도 길잡이’라는 책 내용 중 일부를 요약, 인용했습니다.

오늘은 첫 번째로 통계적 착시 현상에 대해 알아 보겠습니다. 다음 시간에는 ‘오차에 대한 오해’를, 세 번째로는 ‘비율의 패러독스’, 네 번째 시간에는 ‘인과관계에 대한 이해’ 편을 차례대로 보내 드리겠습니다.

‘착시 현상’이란 아시는 대로 우리가 감각기관을 통해 지각하는 현상이 실제와 다른 경우를 말합니다. 이런 착시 현상은 통계 수치에서도 찾아 볼 수 있습니다. 통계 수치에서 착시 현상은 왜 생기게 될까요.

첫째, 기준 시점이 부적절한 경우 가장 빈번하게 나타납니다.
예로 1999년 말 정부에서 발표한 경제성장 지표에서 3분기 성장률이 12.3%로 ‘IMF 체제를 완전히 졸업했다’고 밝힌 바 있습니다.

GDP성장률(%)=(금년도 실질GDP-전년도 실질GDP)/전년도 실질GDP x 100

위의 공식을 보게 되면 기준이 전년도 실질 GDP가 됨을 알 수 있습니다. 그런데 위에서 말한 12.3%의 성장률은 1998년 IMF 외환위기라는 특수상황으로 GDP 규모가 절대적으로 감소했기 때문에 나타난 반등효과가 크게 작용한 것입니다. 한 민간경제 연구소는 1997, 1998, 1999년 상반기 GDP규모는 각각 201조, 190조, 204조원으로 1997년에서 1999년간 상반기 평균 성장률은 0.7%에 불과하다고 발표한 바 있습니다. 즉, 1998년과 비교하면 12%의 고성장이지만 지난 2년 동안의 평균성장률은 0.7%에 불과해서 경제여건이 과건 2년 전보다 크게 나아지지 않았음을 말해줍니다. 경제성장률의 비교시점이 되는 1998년의 특수성이 제대로 고려되지 않고 지나치게 큰 폭의 성장률만을 강조한 것입니다.

둘째, 어떤 비교 기준이 적용되었는가에 따라서도 발생합니다.
척도의 변화나 차원의 변화가 그것인데요, 예를 들어 서로 다른 방식으로 세계인구를 표현한 3가지 사례를 통해 비교단위가 만드는 차이를 보시죠.

1)세계의 모든 사람들을 한 줄로 세운다면, 달의 지구 회전궤도보다 4배나 더 긴 길이가 된다.
2)세계 인구를 뉴욕시의 인구밀도로 세운다면, 그 면적은 아마 텍사스주 정도의 규모가 될 것이다.
3)세계인구를 가로, 세로, 높이가 20피트인 아파트에 꽉 채워서 계산해보면, 그 전체 공간은 미국 그랜드 캐년의 2분의 1 정도가 될 것이다.

위의 세 가지 표현에 따라 세계인구에 대해 우리가 갖는 느낌이 달라지는 것을 느낄 수 있을 겁니다.

셋째, 통계결과에 크게 영향을 미치는 특정 요인을 고려하지 못할 때 발생합니다.
특히 시간의 흐름에 따라 국가 재정적 상황을 비교 할 때, 일반적으로 인플레이션을 무시한 채 비교하곤 합니다. 미국의 한 영화잡지가 발표한 ‘최고의 수입을 올린 영화 순위’에서 ‘타이타닉’이 1위를 차지했습니다. 그러나 그 동안의 인플레이션을 감안할 경우 1939년에 만들어진 ‘바람과 함께 사라지다’가 ‘타이타닉’보다 3억 달러 더 수입을 올린 게 됩니다. 1939년에 영화티켓 1장은 10센트였고 1998년의 티켓 1장 값은 7.5달러로 차이가 큰 것입니다.

끝으로 숫자에 관련없는 요인들이 포함되는 경우입니다. 환자통계 등에서 분모에는 현재의 인구수를 사용하고 분자에는 누적환자수를 사용하는 경우나, 인플레이션된 숫자에 다시 인플레이션을 감안해서 계산하는 경우입니다.

생텍쥐페리의 ‘어린 왕자’에 나오는 한 대목처럼 모든 것이 숫자로 표현되는 조금은 삭막한 현대를 살아가는 우리에게는 숫자를 제대로 보는 눈을 기르는 노력은 불가결한 것이 아닐까 생각해 봅니다.

2. 오차에 대한 오해

많은 통계조사를 보면 오차라는 것을 표시합니다. 오차란 대상을 측정해서 나온 관찰 값이 대상의 실재와 차이가 나는 불일치 정도를 의미합니다. 그러나 통계조사에서 쓰인 오차의 의미를 정확히 아시는 분이 많지 않아 통계 수치를 잘못 파악하는 경우가 종종 있습니다.

조사를 하는 목적은 조사 대상(모집단)의 상태(모수)를 알고자 하는 일련의 행위입니다. 대부분의 조사에서는 여건상 조사 대상을 모두 조사하는 전수조사를 하지 못합니다. 그래서 조사 대상 중 일부를 추출하여 조사하고 그 결과로 조사 대상의 상태를 추정하게 됩니다. 이 과정에서 크게 두 가지 오차가 생기는데 하나는 표본을 추출하면서 생기는 ‘표본오차’와 그 외의 다른 요인으로 생기는 ‘비표본오차’입니다. 우리가 보통 부르는 오차는 이 표본오차를 말합니다. 비표본오차는 많은 원인(조사원의 실수, 응답자의 과오, 자료처리과정 등)에서 발생할 수 있고 이를 계산하는 것은 불가능합니다.

보통 조사결과를 말할 때 95% 신뢰 수준에서 최대 ±3.1%의 표본오차를 갖는다는 형태를 말을 많이 들었을 겁니다. 신뢰 수준은 결과치를 어느 정도 오차까지 믿을 것인가를 나타내 주는 확률적 수준이라 할 수 있습니다. 즉, 95% 신뢰 수준이라는 것은 같은 조사를 1백번 반복했을 때 95번은 표본오차 한계 내에서 같은 조사 결과를 얻을 수 있다는 것입니다. 그리고 표본오차는 해당 신뢰수준에서 결과치가 가지는 오차 범위입니다. 이어 오차에 대한 잘못된 상식에 대해 말씀 드리겠습니다.

첫째, 표본수가 많을수록 표본오차는 그 비율만큼 줄어든다.

표본오차문제가 발생할 때 많은 사람들은 표본 수를 늘리면 되지 않느냐고 합니다. 표본수가 많으면 많을수록 표본오차를 줄일 수 있습니다. 그러나 무조건 표본수를 늘린다고 해서 표본오차가 그 만큼 줄어드는 것은 아닙니다. 표본수가 400일 때 95% 신뢰수준에서 표본오차 한계는 ±4.9%인데 표본수를 6,400으로 늘려도 표본오차 한계는 1.2%로 감소되는데 그치게 됩니다. 따라서 표본수를 많이 확보한다고 자료의 정확성이 보장되거나 신뢰성이 높아지는 것은 아닙니다. 표본수보다 더 중요한 것은 어떤 방식으로 표집되었는가 입니다. 모집단의 모든 대상이 뽑힐 확률이 동등한 조건에서 편향없이 추출되느냐가 표본수 보다 더 중요한 것입니다.

둘째, 표본오차가 표본통계의 정확성을 대표한다.

보통 통계의 정확성을 이야기할 때 일반적으로 표본오차만을 이야기합니다. 표본조사에서 그 크기를 정확하게 추정할 수 있는 오차는 표본오차뿐이기 때문입니다. 그러나 실제로 그 크기를 정확하게 추정하기 힘든 비표본오차는 이보다 훨씬 클 수도 있습니다. 표본오차는 공식에 따라 산출되는 이론적 오차이고, 이 개념은 이론적 전제가 만족될 때 성립합니다. 따라서 조사과정에서 통제가 제대로 이루어지지 않는 등 비표본오차가 클 경우 표본오차의 설명력은 무의미해 질 수 있습니다.

셋째, 모집단의 크기에 따라 표본오차가 달라진다.

예를 들어 “특정지역을 대상으로 한 여론조사의 경우 표본이 500인데, 전국 여론조사 표본이 1천명에 불과하다고 표본을 같은 비율로 늘려야 한다”는 주장은 그럴듯해 보이는 주장이지만 실제로 모집단의 크기 자체는 표본수를 결정하는 데 별로 관계가 없습니다. 표본오차를 구하는 수학적 공식만 보면 표본오차는 오로지 표본수와 신뢰수준에 의해 결정되기 때문입니다.

넷째, 전체 표본오차로 하부집단(성별, 연령별, 소득별)에 적용할 수 있다.

분석을 하다보면 표본을 하부집단으로 쪼개어 비교하는 경우가 많이 있습니다. 성별이나 연령별로 나누어 보는 것이 대표적인데요. 만약 남녀 각 500명을 대상으로 조사를 실시해 표본 전체 표본오차가 95% 신뢰수준에 최대 표본오차 ±3.1%라고 한다면 성별로 구분해서 결과를 분석한다면 최대 표본오차를 ±4.4%가 적용되어야 합니다. 학력이나 지역 등 더 세부적인 하부집단으로 나눌 경우 표본오차 값은 더욱 커진다는 것을 주의해야 합니다.

모든 통계 조사에는 오차가 발생하기 마련입니다. 이 오차를 제대로 이해하고 결과를 본다면 보다 정확하고 유용하게 결과를 이용할 수 있다고 생각합니다.

3. 비율의 패러독스

첫째, 심프슨의 패러독스(Simpson’s Paradox)는 어떤 범주 내에서의 속성에 대한 비율을 서로 비교한 결과가 각 범주의 하위범주에서의 그 속성에 대한 비율을 서로 비교한 결과와 어긋나는 현상을 말합니다.

예를 들어 한 회사가 두 곳의 창구에서 신입사원을 뽑았습니다. 이 회사는 남녀 비율을 맞추기 위해 첫 번째 모집창구에서는 5명의 남성과 3명의 여성 지원자 중 남성 1명과 여성 1명을 고용했습니다. 비율적으로 본다면 남성은 남성 후보자 중에 20%가 고용된 것이고, 여성은 여성 후보자 중 33%가 고용된 것입니다. 두 번째 모집창구에서는 20명의 남성과 3명의 여성 지원자 중에 남성 13명과 여성 2명을 고용했습니다. 남성은 남성 후보자 중에 65%를 고용한 것이고, 여성은 여성 후보자 중에 67%를 고용한 것입니다.

과연 이 회사는 남녀 비율을 맞추어 신입 사원을 뽑은 걸까요. 위 내용을 보면 여성은 첫 번째 창구에서는 33%, 두 번째 창구에서는 67%로 남성보다 높은 입사율을 보입니다. 그러나 두 창구를 합해서 본다면 여성은 총 6명이 지원해서 3명(50%)이 고용되었고, 남성은 총 25명이 지원해서 14명(56%)이 고용되었습니다. 이처럼 하위 항목과 상위 항목간에 전혀 다른 결과가 나오는 것을 ‘심프슨의 패러독스’라고 합니다. 일반적으로 우리는 여러 비율들을 상호 비교할 때 전체집단에서의 단순비율에만 의존하여 대소를 가름하는 습관이 있습니다. 그러나 비율의 결정에 영향을 미치는 여러 관련 요인들을 분할해서 보면 전혀 다른 결과가 나타날 수 있다는 것을 주의 해야겠습니다.

둘째, 대표성의 패러독스(Representation Paradox)는 서로 다른 개념의 비율을 비교할 경우 발생합니다.

또 예를 들어보죠. 우리는 종종 “우리 나라 전체 인구 가운데 경상도는 몇%이고, 전라도는 몇 %이며, 충청도는 몇%이다. 그런데 고위직 군인의 비율은 경상도 출신이 몇%, 전라도 출신이 몇%, 그리고 충청도 출신이 몇%로 차이가 난다”는 식의 이야기를 듣습니다. 이 이야기에 나오는 통계치에 오류가 없다고 해도 그 차이를 낸다는 것은 모순이 있습니다. 이 통계가 정확하게 비교되려면 직업군인의 지역별 출신 비율과 고위직 군인의 지역별 출신비율을 비교하는 것이 적합합니다.

다른 예로 미국 노동 통계국의 보고에서 백인의 실업률이 6.1%이고 흑인의 실업률이 14.5%라고 발표한 적이 있었습니다. 이를 두고 뉴욕타임즈는 “흑인 대 백인의 실업률이 최고 2.4대 1 까지 상승했고, 이는 백인 노동자 1명이 실직 상태에 있을 때 흑인 노동자 2.4명이 실직 상태에 놓여 있다는 것을 의미한다”라고 설명했습니다. 그러나 흑인이 전체 노동력의 11%를 구성하고 있기 때문에, 흑인의 실업률이 백인의 실업률보다 높다 할지라도 실업자 수는 백인이 더 많을 수 밖에 없습니다. 실업률 백분율과 실직자의 수를 혼동한 것입니다.

셋째, 비율 계산을 잘못하는 경우입니다. 가장 흔히 접하게 되는 것은 할인 비율을 부풀리기 위해 사용하는 것으로 일반적인 할인율 공식은 내린 요금/정상 요금입니다. 그러나 백분율을 높게 나타나게 하는 방식은 내린 요금/(정상 요금-내린 요금)입니다. 예로 10만원 하는 물건을 7만원에 판다고 하면, 정상적 할인율은 30%이지만 백분율을 높게 나타나게 하는 방식으로 하면 43%가 됩니다. 다른 예로 모든 물건을 30% 할인해서 파는 곳에서 20%를 추가 할인한다고 하면 전체 할인율은 50%라고 생각하기 쉽지만 실제 할인율은 44%가 됩니다.

넷째, 포인트 변동률 개념을 혼동하는 경우입니다. 먼저 변동률이란 어느 통계량의 기준시점에 대한 비교시점에서의 증감률을 의미합니다. 예를 들어 1995년과 1998년의 생산자물가지수가 각각 100.0, 120.3인 경우, 1998년의 생산자물가지수의 수준은 120.3이고 생산자물가의 변동률은 20.3%입니다.

이제, 변동률 개념을 이용하여 포인트 변동률을 알아보겠습니다. 포인트 변동률이란 비교시점에서의 변동률에서 전기의 변동률을 차감한 것을 의미하며, 변동률 자체변화의 크기를 비교할 때 쓰이는 개념입니다. 예를 들어 세 기간의 물가상승률이 0.5%, 2.7%, 1.5%라고 했을 때, 두 번째 기에는 물가상승률이 첫 번째기에 비해서 2.2% 포인트(2.7%-0.5%) 증가하였으며, 세 번째 기는 두 번째기에 비해서 1.2%포인트(1.5%-2.7%) 감소하였다고 말합니다.(이 때 포인트라는 말 대신에 간단히 ‘p’로 대체할 수도 있습니다)

다섯째, 통계적 경솔함(statistical rash)을 범하는 경우입니다. 관련요인들을 고려하지 않은 통계 데이터에 근거해서 판단하는 오류입니다. 예로 자동차가 운전하는 속도에 근거한 사고 비율에 대한 통계치를 살펴보면

<자동차 속도별 사고 비율>

    자동차 속도(Km/h)                 사고 비율
      40 이하                                      2.0%
      41~50                                       29.7%
      51~60                                       30.4%
      61~70                                       16.5%
      71~80                                       19.2%
      81 이상                                     2.2%

이 결과를 보고 어떤 사람이 “제한 속도(80Km/h)이상으로 운행하는 것이 더 안전하다”라고 말한다면 맞는 걸까요. 여기에는 한 가지 오류가 있습니다. 만약 자동차 속도별로 사고 비율을 비교하려고 했다면, 속도별로 운행한 모든 차 대수와 사고가 발생한 차 대수의 비율을 비교하는 것이 맞습니다. 보통 과속을 하는 경우가 과속을 하지 않는 차에 비해 절대 수가 적기 때문에 전체 사고 중 차지 하는 비중이 적은 것입니다.

비율을 다루는데 있어 발생하는 오류나 주의할 점 몇 가지에 대해 알아봤습니다. 너무나 익숙하게 사용하는 비율이지만 그 속에 이런 함정이 있다는 것을 아시고 비율에 관련된 다른 요인도 살펴보는 습관을 길러야겠습니다.

4. 인과관계에 대한 이해

먼저 관계에 대해서 알아보겠습니다. 관계에는 인과관계, 공변관계, 교란관계가 있습니다.
① 인과관계 : X가 Y에 영향을 미쳐 Y가 영향을 받는 경우
② 공변관계 : X,Y에 Z가 영향을 미쳐 X,Y가 같이 영향을 받는 경우
③ 교란관계 : X와 Y가 서로 영향을 미쳐 X,Y가 같이 영향을 받는 경우

이제부터 관계를 잘못 이해해 결론에 오류가 있는 경우를 살펴보겠습니다.

만약 위암환자와 일반환자를 구분해 즐겨 먹는 음식을 조사한 경우, 일반환자들이 위암환자보다 칼국수를 자주 먹는 사람들이 더 많다고 해서 “칼국수를 먹으면 위암을 막는다”는 결론을 내렸다면, 보는 사람으로 하여금 칼국수가 위암에 예방 효과가 있다고 생각할 것입니다. 그러나 이 조사는 식습관에 대한 조사일 뿐 위암의 원인을 조사한 것은 아닙니다. 즉, 인과관계가 성립되지 않는데도 불구하고 이를 인과관계로 해석한다는 것에 오류가 있는 것입니다. 단지 이 조사를 통해서 위암환자와 일반환자의 식습관에 차이가 있다고 설명해야 할 것입니다.

다른 예로 몇 년간 교사 월급의 중간값과 연간 주류 판매액을 살펴보니, 그들 사이에 강한 긍정적 연관관계가 성립하고 있다는 점을 발견 했다면 “교사들이 월급을 술 마시는 데 사용해서 주류 판매액이 증가한 것”이라고 결론 내릴 수 있을까요. 연관관계가 나타난다고 모두 인과관계로 볼 수는 없습니다. 이는 잠재변수를 고려하지 않은 데서 오는 오류입니다. 잠재변수(인플레이션·경기 등)이 교사 월급과 연간 주류 판매액에 영향을 주었다고 하는 것이 더 합리적일 것입니다. 여기에서 교사 월급과 연간 주류 판매액 사이에는 공변관계가 성립합니다.

인과관계를 보다 명확하게 구분할 수 있는 방법에 정답은 없지만 몇 가지 기준이 있을 수 있습니다.
① A와 B가 함께 변해야 한다.
② A와 B가 함께 변하는 것은 다른 요인에 의한 것이 아니어야 한다.
② A의 증가는 B의 증가보다 시간적으로 선행되어야 한다.

그리고 인과관계와 공변관계의 혼동을 막기 위해서는 다음과 같은 사항을 고려하는 것이 바람직합니다.
① 전제된 관계가 인과관계라는 것을 작성자가 명확히 제시하지 않았으면 그 관계는 공변관계로 여겨야 한다.
② 전제된 인과관계가 단일 원인 또는 다중 원인을 가지고 있는지 대해 명확히 제시되지 않았다면, 그 관계가 다중 원인을 가지고 있다고 생각해야 한다.

이런 관계를 파악하기 위해 통계치 중에서 두 변수간의 상호관계를 나타내는 공분산이 있습니다. 그러나 통계적 유용성에도 불구하고 분석대상이 되는 변수의 측정단위에 따라 그 값이 달라진다는 문제점을 지니고 있습니다. 그래서 보편적으로 표준화된 공분산을 사용하는데 이것이 상관 계수입니다. 상관계수는 -1 과 1사이의 값으로 -1 또는 1일 경우는 완전관계, 0일 경우에는 관계가 없다고 말합니다. 그런데 이 상관계수는 단순히 두 변수간의 선형관계(일차함수)의 강도만을 계측하여 제시하므로, 비선형관계에 있는 변수간의 밀접도는 판정할 수 없는 단점이 있습니다. 그래서 상관계수가 0에 근접한 값을 지녔다고 해서 두 변수간에 밀접한 연관성이 없다고 한마디로 정의 할 수는 없음을 주의해야 합니다.

새롭게 뉴스레터를 시작했습니다.

1️⃣ 주식 등 투자 정보 : 기업 분석, IB 투자의견 등 투자 관련 내용
..... 테슬라 실적 및 IB들의의 테슬라 투자의견
2️⃣ 사례 및 트렌드 : 사례연구와 트렌드 관련 괜찮은 내용
.....유튜브와 경쟁대신 구독 전환한 비디오 플래폼 비메오 사례