본문 바로가기
기초 통계

No09_그래프에 의한 기술통계

by 스터디마형 2024. 4. 16.

그래프를 이용한 자료의 정리

- 자료의 유형에 맞는 그래프를 이용하여, 한눈에 알아볼 수 있게 자료를 시각화 할 수 있다.

 

[다양한 종류의 그래프를 이용한 시각화 기법]

 

'어떤 타입의 데이터에 대해서 무엇을 보고 싶을 때 그리는가?'


데이터 시각화는 데이터를 분석하고 이해하는 데 매우 중요한 과정입니다. 그래프를 이용한 자료 정리는 복잡한 데이터 집합에서 유용한 정보를 추출하고, 데이터 사이의 관계를 명확히 보여줄 수 있습니다. 데이터는 크게 질적 자료와 양적 자료로 분류할 수 있으며, 이에 따라 적절한 그래프를 선택해야 합니다.

 

1. 데이터 시각화 개요

데이터 시각화는 크게 질적 자료와 양적 자료를 다룹니다.

  • 질적 자료: 카테고리 또는 그룹으로 표현되는 비수량적 데이터입니다.

- 1개 변수 : 바차트(막대그림), 파이차트

- 2개 변수 : 히트맵, 스택드컴럼차트

 

  • 양적 자료: 수량이나 숫자로 표현되는 데이터로, 연속적(예: 키, 몸무게) 또는 이산적(예: 결함 개수, 사건 발생 횟수)일 수 있습니다.

- 1개 변수 : 히스토그램, 박스플롯(상자그림), 라인차트, QQ플롯

- 2개 변수 : 산점도


★그래프 이미지 출처 : https://carbondesignsystem.com/data-visualization/simple-charts#bar-(simple)

주요 그래프 유형

  • 막대 차트(Bar Chart): 질적 자료의 빈도나 양적 자료의 집계를 카테고리별로 비교할 때 사용합니다. 가로형과 세로형이 있으며, 각 카테고리의 크기를 직사각형의 길이로 나타냅니다. 막대 차트는 각각의 카테고리 별 데이터를 비교하기 유리하며 시간 경과에 따른 추세를 표현하기에 좋습니다. 

 

  • 파이차트(Pie Chart): 전체에 대한 각 부분의 비율을 원형으로 표현합니다. 질적 자료의 구성 비율을 시각화할 때 유용합니다.

 

  • 히트맵(Heatmap): 데이터의 크기나 수치를 색상의 강도로 나타내어, 변수 간의 관계나 패턴을 한눈에 파악할 수 있습니다.

  • 스택트컬럼차트(Stacked Column Chart): 여러 그룹의 데이터를 각 카테고리에 대해 쌓아 올린 형태로 나타내, 전체와 각 부분의 관계를 동시에 보여줍니다.

 

  • 히스토그램(Histogram): 연속적인 양적 자료를 구간별로 나누어 빈도를 나타내는 그래프입니다. 데이터의 분포 상태를 확인할 수 있습니다.

  • 박스플롯(Box Plot): 데이터의 중앙값, 사분위수, 최대/최소값 등을 나타내어 데이터의 분포와 이상치를 파악하는 데 유용합니다. 최대값, 최소값, 중앙값, 사분편차(Q1, Q2, Q3)를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있는지, 극단값 또는 이상치(outliers)들은 어떠한지 등을 쉽게 알 수 있도록 합니다.

 

출처 : https://blog.naver.com/dotorimj2/222115005114

  •  
  • QQ플롯(Q-Q Plot, Quantile-Quantile Plot): 두 확률변수의 분포를 비교하여, 데이터가 특정 분포를 따르는지를 시각적으로 평가합니다. 즉 데이터의 정규성을 파악할때, QQ plot을 이용해 확인할수 있다. 

 

  • 산점도(Scatter Plot): 두 변수 간의 관계를 점으로 표현한 그래프로, 변수 간의 상관관계를 파악할 때 사용됩니다.

 

 

이러한 그래프들은 각각의 목적과 데이터 유형에 따라 선택하여 사용됩니다. 데이터 시각화를 통해 데이터를 더 깊이 이해하고, 숨겨진 패턴이나 인사이트를 발견하는 데 큰 도움이 됩니다.