들어가며 - "숫자만 보면 되는데 왜 그래프까지 그려야 하나요?"
현업에서 BI 컨설팅을 하다 보면 의외로 자주 듣는 질문이다.
"그냥 피벗 테이블로 숫자만 뽑아주시면 안 돼요? 그래프는 왜 또 만들어요?"
집계된 숫자가 가득한 그리드 하나면 충분하다고 생각하는 분들이 여전히 많다. 틀린 말은 아니다. 정확한 숫자가 필요한 순간은 분명히 있다. 하지만 숫자만으로는 절대 보이지 않는 것들이 있다는 사실을, 통계학자들조차 한참 뒤에야 깨달았다.
태블로 실무 가이드를 본격적으로 시작하기 전에, 오늘은 그 이유를 가장 극적으로 보여주는 사례 하나를 소개하려고 한다. 바로 앤스컴의 콰르텟(Anscombe's Quartet)이다. 데이터 시각화 수업이나 통계학 개론에서 한 번쯤 들어봤을 법한 이름인데, 정작 제대로 뜯어본 사람은 많지 않다.
1. 프랜시스 앤스컴은 누구인가
프랜시스 존 앤스컴(Francis John Anscombe, 1918~2001)은 영국 출신의 통계학자로, 예일 대학교에서 활동한 인물이다. 그는 통계 분석을 단순히 공식에 숫자를 대입하는 기계적인 절차가 아니라, 판단력과 회의적 시각, 그리고 시각적 직관이 함께 요구되는 일종의 기술(craft)로 봐야 한다고 오랫동안 주장해왔다.
당시 통계학계의 분위기는 지금과 사뭇 달랐다. 평균, 분산, 표준편차, 피어슨 상관계수 같은 요약 통계량은 19세기 프랜시스 골턴의 인체측정학 연구 때부터 이어져 내려온, 데이터를 이해하기 위한 사실상 유일한 도구였다. 그래프는 어디까지나 보조 자료였고, "숫자는 정확하지만 그래프는 대략적인 것"이라는 인식이 통계학자들 사이에 널리 퍼져 있었다.
앤스컴은 이런 분위기에 문제의식을 느꼈다. 그래서 그는 이론이 아니라 경험적 증거로 반박하기로 했다.
2. 앤스컴의 콰르텟, 등장 배경
시각적 분석 방법론은 당시 존 튜키(John Tukey)에 의해 비교적 최근에 정립된 개념이었지만, 통계학자들 사이에서는 여전히 회의적인 시각이 많았다. 앤스컴은 1973년 《The American Statistician》 저널에 「Graphs in Statistical Analysis(통계 분석에서의 그래프)」라는 제목의 논문을 발표하면서, 이 회의론에 정면으로 맞섰다.
논문의 서두에서 그는 이렇게 못 박는다.
"컴퓨터는 계산과 그래프를 모두 만들어야 한다. 두 종류의 결과물 모두 연구되어야 하며, 각각이 이해에 기여할 것이다."
— Francis J. Anscombe, The American Statistician, 1973
앤스컴은 이 논문을 통해 데이터를 분석하기 전에 그래프로 그려보는 것의 중요성과, 이상치 및 영향력 있는 관측값이 통계적 속성에 미치는 효과를 동시에 보여주려 했다. 그는 이론적인 증명이 아니라, 누구도 부정할 수 없는 실증적인 사례를 만들고 싶었다. 그래서 손수 4개의 데이터셋을 설계했다.
(참고로 앤스컴이 정확히 어떤 방식으로 이 데이터를 만들어냈는지는 지금까지도 명확히 알려져 있지 않다.)
3. 앤스컴의 콰르텟, 상세 설명
앤스컴의 콰르텟은 11개의 (x, y) 좌표쌍으로 이루어진 데이터셋 4개(I, II, III, IV)로 구성된다. 핵심은 이 4개 데이터셋이 다음 요약 통계량에서 거의 완벽하게 동일하다는 점이다.
| 통계량 | 값 | 정확도 |
|---|---|---|
| x의 평균 | 9 | 정확히 일치 |
| x의 표본분산 | 11 | 정확히 일치 |
| y의 평균 | 7.50 | 소수점 둘째 자리까지 일치 |
| y의 표본분산 | 4.125 | ±0.003 |
| x와 y의 상관계수 | 0.816 | 소수점 셋째 자리까지 일치 |
| 회귀직선 | y = 3.00 + 0.500x | 절편·기울기 각각 둘째·셋째 자리까지 일치 |
| 결정계수(R²) | 0.67 | 소수점 둘째 자리까지 일치 |
원본 데이터는 다음과 같다.
| I | II | III | IV | |||||
|---|---|---|---|---|---|---|---|---|
| x | y | x | y | x | y | x | y | |
| 1 | 10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
| 2 | 8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
| 3 | 13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
| 4 | 9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
| 5 | 11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
| 6 | 14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
| 7 | 6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
| 8 | 4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
| 9 | 12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
| 10 | 7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
| 11 | 5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |

이 표만 본 통계학자라면 "4개 데이터셋 모두 같은 선형 회귀 모델로 설명 가능한, 사실상 동일한 데이터"라고 결론 내릴 가능성이 높다. 실제로 1970년대 당시 표준 관행이 그랬다. 숫자가 같으면 데이터의 성격도 같다고 간주했다.

그런데 이 4개의 데이터셋을 산점도로 그려보면 이야기가 완전히 달라진다.
첫 번째 산점도(데이터셋 I)는 단순한 선형 관계로 보이며, y가 x에 선형적으로 의존하는 평균을 가진 정규분포로 모델링할 수 있는, 서로 상관관계가 있는 두 변수에 해당한다. 우리가 흔히 기대하는 '깔끔한 산점도'의 전형이다.
두 번째 그래프(데이터셋 II)는 정규분포를 따르지 않는다. 두 변수 사이에 관계가 있다는 것은 명백하지만 그 관계는 선형이 아니며, 따라서 피어슨 상관계수를 적용하는 것 자체가 부적절하다. x와 y는 사실 뚜렷한 곡선(2차함수에 가까운) 관계를 갖고 있는데, 선형 회귀로 분석하면 이 곡선성이 완전히 사라져 버린다.
세 번째 그래프(데이터셋 III)에서는 분포 자체는 선형이지만, 실제로는 다른 회귀선이 적용되어야 한다(이런 경우 로버스트 회귀가 필요하다). 계산된 회귀선은 단 하나의 이상치로 인해 왜곡되어 있으며, 이 이상치 하나가 상관계수를 1에서 0.816으로 끌어내릴 만큼의 영향력을 행사하고 있다. 즉, 이상치 1개만 제거하면 사실상 완벽한 선형관계(r=1)가 드러난다.
네 번째 그래프(데이터셋 IV)는 단 하나의 높은 레버리지를 가진 점만으로도 높은 상관계수가 만들어질 수 있다는 것을 보여주는 사례다. 나머지 데이터 포인트들은 두 변수 사이에 어떤 관계도 보여주지 않는데도 말이다. x값이 8로 고정된 10개의 점은 사실상 수직선을 이루고 있고, x=19인 단 하나의 점이 전체 회귀선과 상관계수를 결정짓는다.
요약하면:
- 데이터셋 I → 진짜 선형관계. 회귀분석이 정당화되는 유일한 케이스
- 데이터셋 II → 명백한 비선형(곡선) 관계. 선형 회귀 자체가 부적절
- 데이터셋 III → 완벽한 선형관계 + 이상치 1개. 이상치 제거 또는 로버스트 회귀 필요
- 데이터셋 IV → 사실상 무관계 + 레버리지 포인트 1개가 모든 통계량을 왜곡
네 데이터셋 모두 "y = 3 + 0.5x, R²=0.67"이라는 동일한 결론으로 요약될 수 있지만, 그 결론이 의미하는 바는 데이터셋마다 완전히 다르다.
4. 앤스컴의 콰르텟이 의미하는 것
이 실험이 던지는 메시지는 단순하지만 강력하다.
"같은 요약 통계량 = 같은 데이터"가 아니다.
평균, 분산, 상관계수, 회귀직선, 결정계수까지 — 데이터 분석에서 가장 많이 쓰이는 다섯 가지 숫자가 모두 일치하더라도, 그 데이터의 실제 구조와 패턴, 그리고 그 안에 숨어 있는 이상치나 비선형성은 전혀 다를 수 있다. 숫자만 보고 모델을 적용하면 데이터셋 II처럼 애초에 맞지 않는 모델을 들이대거나, 데이터셋 III·IV처럼 단 하나의 이상치가 만들어낸 허상의 상관관계를 진짜 패턴으로 오해하게 된다.
앤스컴의 답은 명확했다. 그래프를 보라는 것이다. 데이터를 들여다보는 것만으로도 구조의 상당 부분이 즉시 드러나며, 분석가가 데이터셋 IV 같은 '병리적인' 사례를 인지할 수 있게 해 준다.
이 연구는 발표된 지 50년이 넘었지만 그 의미는 전혀 퇴색하지 않았다. 한 연구에서는 응용통계 분야에서조차 앤스컴이 오래전에 제안한 그래프와 계산을 함께 활용해야 한다는 원칙이, 거의 반세기가 지난 지금까지도 연구자들 사이에서 합의되지 않은 채 남아 있다는 점이 놀랍다고 지적한다. 그만큼 "숫자만 보고 끝내려는 관성"은 통계를 전문적으로 다루는 사람들 사이에서도 끊임없이 반복되는 함정이라는 뜻이다.
참고로 앤스컴의 콰르텟 이후로도 이 아이디어를 확장한 후속 연구들이 이어졌다. 2017년 오토데스크 리서치팀이 발표한 "Same Stats, Different Graphs"는 시뮬레이티드 어닐링(simulated annealing) 알고리즘을 이용해 동일한 통계량을 가지면서도 점, 별, 동물 모양 등 임의의 형태로 그려지는 데이터셋을 자동 생성하는 방법을 제시했다 (이른바 "Datasaurus Dozen"). 통계량이 같다는 사실이 얼마나 데이터의 실제 모습에 대해 아무것도 보장해주지 않는지를 한 번 더, 더 극단적으로 입증한 셈이다. 또한 2023년 논문 "Causal quartets"에서는 이 개념을 인과추론 영역까지 확장해, 동일한 평균처치효과(ATE)를 갖더라도 처치효과의 분포 양상이 전혀 다를 수 있음을 보여주기도 했다.
원본 논문 서지정보는 다음과 같다.
Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21.
위키피디아 문서: Anscombe's quartet - Wikipedia
5. 그래서, 내가 생각하는 데이터 시각화가 필요한 이유
앤스컴의 콰르텟이 보여준 것은 결국 "숫자는 거짓말을 하지 않지만, 숫자만으로는 전체를 말해주지 않는다"는 사실이다. 현업에서 BI 컨설팅과 태블로 작업을 해오면서 체감한 시각화의 필요성을 정리하면 다음과 같다.
5-1. 복잡한 데이터를 직관적으로 이해 가능
수치와 텍스트만으로는 패턴, 추세, 이상치를 파악하기 어렵다. 수천 행짜리 엑셀 시트보다 선 그래프 하나가 시간에 따른 변화 추세를 훨씬 더 빠르고 정확하게 전달한다. 앤스컴의 데이터셋 III이 정확히 이 사례다. 11개 행의 숫자만 봐서는 이상치 하나가 회귀선을 왜곡하고 있다는 사실을 거의 알아챌 수 없지만, 산점도 위에서는 단 1초 만에 눈에 띈다.
5-2. 빠른 의사결정 지원
시각화는 핵심 정보를 압축해서 전달함으로써 경영진, 정책 결정자, 연구자의 판단 속도를 끌어올린다. 보고 회의에서 그리드 테이블을 띄워놓고 "이 셀과 저 셀을 비교해 보면..."이라고 설명하는 것과, 막대그래프 하나를 띄워놓고 "이게 가장 큽니다"라고 말하는 것의 의사결정 속도 차이는 명확하다.
5-3. 변수 간 관계와 흐름 파악 용이
상관관계, 분포, 흐름, 계층 구조는 시각적으로 분석할 때 훨씬 효율적이다. 산점도로 두 변수의 상관관계를 시각화하는 것이 대표적인 예다. 그런데 앤스컴의 콰르텟이 경고하는 지점이 바로 여기다 — 상관계수라는 숫자 하나만 믿고 "관계가 있다/없다"를 판단하면 데이터셋 IV처럼 레버리지 포인트 하나에 속아 넘어갈 수 있다. 시각화는 단순히 관계를 "보여주는" 것을 넘어, 그 관계가 신뢰할 만한 것인지 검증하는 역할까지 한다.
5-4. 의사소통과 설득에 효과적
보고서, 프레젠테이션, 설명자료에서 시각 자료는 청중의 이해와 설득력을 크게 끌어올린다. 같은 인사이트라도 텍스트로 세 문단을 쓰는 것보다 차트 하나로 보여주는 게 청중의 머릿속에 더 오래, 더 명확하게 남는다.
5-5. 이상치 및 문제 탐지에 유리
시각화는 수치 데이터 안에 숨겨진 이상치, 오류, 누락을 빠르게 찾아낼 수 있게 해 준다. 데이터셋 III과 IV는 사실상 이 항목을 위해 설계된 것이나 다름없다. 표 형태로 11행의 데이터를 눈으로 훑어서 이상치를 찾아내는 것과, 산점도에서 한눈에 튀어나온 점 하나를 발견하는 것 — 어느 쪽이 더 빠르고 정확할지는 굳이 비교할 필요가 없다.
5-6. 스토리텔링을 통한 몰입도 향상
데이터를 시간순, 공간적 맥락 등과 결합하면 '데이터 기반 스토리텔링(Data Storytelling)'을 구성할 수 있다. 같은 매출 데이터라도, 단순 표가 아니라 "코로나19 발생 시점 전후로 매출이 어떻게 꺾이고 회복됐는지"를 타임라인 형태로 보여주면 청중은 숫자가 아니라 이야기로 데이터를 기억하게 된다.
5-7. 사용자 맞춤형 인터랙션 가능
태블로나 파워BI 같은 대시보드 도구에서는 사용자가 원하는 데이터만 필터링해서 탐색할 수 있다. 정적인 보고서와 달리, 사용자 스스로 "이 지역만", "이 기간만" 들여다보면서 자신만의 질문에 답을 찾아갈 수 있다는 것이 대시보드형 시각화의 차별점이다.
마무리하며
앤스컴이 1973년에 직접 손으로 설계한 11개 행짜리 데이터 4세트는, 50여 년이 지난 지금까지도 데이터 시각화 교육에서 가장 강력한 한 방으로 쓰인다. 이유는 단순하다. "숫자가 같다고 데이터가 같은 게 아니다"라는 명제를, 그 어떤 설명보다 직관적으로 증명해내기 때문이다.
다음 글부터는 본격적으로 태블로 실무 가이드 시리즈를 이어가면서, 이런 시각화의 필요성을 실제 업무에서 어떻게 구현하는지 — 차트 선택부터 대시보드 설계까지 — 하나씩 다뤄보려 한다.
그리드만 고집하던 동료가 있다면, 이 글의 산점도 4개를 그냥 보여주는 것만으로도 절반은 설득될 것이다.
참고자료
https://commons.wikimedia.org/wiki/Category:Anscombe's_quartet
https://commons.wikimedia.org/wiki/File:Anscombe.svg