huginn muninn

머신러닝을 위한 수학적 개념 이해 본문

머신러닝

머신러닝을 위한 수학적 개념 이해

_maddy 2024. 4. 4. 03:25

1. 모집단

내가그린그림

 

 

  • 모집단 : 연구의 대상이 되는 모든 개체들을 모은 집합.(일반적으로 시간적 공간적 제약으로 인해 모집단 전체를 대상으로한 분석은 불가)
  • 표본 : 모집단 일부분의 관측값들

 

모집단은 연구의 대산이 되는 모든 개체들을 모은 집합이다. 모집단은 우리가 전부 다 수집을 못하는 대상이라고 생각해도 된다. 통계학은 기본적으로 모집단에 대해서 알아내는 것이 목표인데 모집단을 얻을 수가 없으니 표본을 이용하는 것.

통계학은 모집단을 다루기보다는 표본을 통해서 모집단이 가지고 있는 정보를 최대한 효율적으로 알아내고자 하는 것이다. 

 

 

 

 

  • 모수(parameter) : 수치로 표현되는 모집단의 특성. 
  • 통계량(statistic) : 표본의 관측값들에 의해서 결정되는 양. 

 

모집단은 굉장히 많은 관측치들의 모임이다. 이 많은 관측치를 하나하나 살펴보고 특징을 알긴 힘드니까 평균이나 분산같은 정보를 눈여겨 보게 된다. 이런 평균이나 분산같은 값을 모수(parameter)라고 하고 이것들을 알기 위해 표본에서 계산을 한 것이 통계량이다. 

 

 

 

 

 

2. 자료의 종류

데이터의 형식은 아래와 같이 4가지가 있다. 데이터의 형식에 따라 보아야 할 통계량, 사용해야할 모델이 다르기 때문에 데이터의 형식을 알고 있는 것은 중요하다. 

 

수치형(양적자료)

  • 연속형 (예 : 키 몸무게)
  • 이산형 (예 : 전화 통화 수)

 

범주형(질적자료)

  • 순위형 (예 : 학점) : 기본적인 범주형 자료에 순서가 있는 자료
  • 명목형 (예 : 성별)

자료에 따라서 분석하는 방법도 다르다. 

 

반응변수(y) 설명변수(x)
범주형 연속형
범주형(이분형) 범주형 자료분석
(카이스퀘어 검정)
로지스틱 회귀분석
연속형 분산분석 회귀분석

 

설명변수 : 독립변수 혹은 입력변수, x

반응변수 : 종속변수 혹은 출력변수, y

 

 

3. 자료의 요약 - 수치

모집단을 요약할 수 있도록 수치로 도출하는 몇가지 방법을 살펴보자.  

 

3.1중심 경향값(대표값)

 

모집단 개체의 수가 N일 때 중심 경향값(대표값)들에는 평균, 중앙값, 최빈값이 있다. 

 

  • 평균 : 값들의 합을 값들의 개수로 나눈 값. 
  • 중앙값 : 크기 순으로 정렬시켜 중앙에 위치한 값
  • 최빈값 : 가장 자주 나오는 값, 범주형 자료에서 자주 쓰임.

 

가운데 그래프는 좌우 대칭이다. 이런 경우 평균과 중앙값이 같다. 그래프가 좌우대칭인 경우 항상 평균과 중앙값은 같다. 

첫번째 그래프와 세번째 그래프는 한쪽으로 치우쳐져 있다. 꼬리가 긴 그래프라고 할 수 있다. 첫번째 그래프의 경우 평균은 오른쪽에 위치하게 되고 중앙값은 상대적으로 왼쪽에 위치하게된다. 세번째 그래프는 이 반대다.

 

여기서 잠깐 기억해두면 좋을 것!!

평균은 아웃라이어, 즉 특이하게 큰 값, 혹은 특이하게 작은 값에 영향을 많이 받는다. 값들 중에 이상하게 큰 값이 있으면 평균도 커지는 경향이 있기 때문이다. (전체 값의 합을 값의 개수로 나누는 특성을 생각해보면 쉽다). 중앙값은 아웃라이어에 큰 영향을 받지 않는다. 

 

 

3.2 산포도 (퍼진 정도)

  • 분산(Variance) : 분산도 아웃라이어에 영향을 많이 받는다. 

분산

 

  • 사분위수 범위(Inter Quartile range) : 전체 관측값을 크기순으로 정렬했을 때 중앙에 위치한 50%의 관측지가 가지는 범위

 

3.3 정규분포

  • 자연과학 현상을 설명할 때 가장 널리 쓰이는 분포
  • 위치는 평균에 의해, 모양은 분산에 의해 결정. 
    • 종모양, 좌우 대칭 평균값에 따라서 중심이 이동하고, 분산이 작으면 위로 솟고, 크면  아래로 평평한 모양이다. 

3.3.1 분포도

자료의 모양을 볼 때 왜도와 첨도가 중요하다. 

 

왜도(skewness)

 

  • 분포의 비대칭 정도
  • Left-skewed를 Negative skewed로 표현. 

정규분포는 왜도가 0이다. 좌측 꼬리가 길어지면 left skewed라고 하고 우측 꼬리가 길어지면 right skewed라고 한다. 

 

첨도(kurtosis)

 

https://www.ssacstat.com/base/component/board/board_12/u_image/149/20150730112504_177069732.jpg

 

  • 분포의 꼬리 부분의 비중에 대한 측도
  • k=3 정규분포는 첨도가 3이다.
    • 첨도값이 3에 가까우면 산포도가 정규분포에 가깝고
    • 첨도값이 3보다 작을 경우 산포는 높이가 낮고 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다.
    • 첨도값이 3보타 큰 양수이면 정규분포보다 꼬리가 두꺼운 분포이다.  

 

통계량, 추정량

 

모집단의 수치를 요약하는 평균과 분산에 대해 알아봤다면, 이번에는 표본으로부터 얻어낼 수 있는 통계량, 추정량에 대해서 알아보자. 

추정량은 모수를 추정하기 위한 목적을 가진 통계량이다. 

 

추정량의 종류

  • 표본평균 : 평균을 구할 때랑 수식이 같다.

표본평균

  • 표본분산 : 분산 수식과 차이점이 있다. n-1로 나누어주고 모평균(뮤)이 아닌 표본평균을 값에서 빼준다는 것. 

분산
표본분산

 

표본분산에서 n이 아닌 n-1로 나눈 것은 나중에 설명을 해보겠다....