기본 통계학적 개념
- 평균(mean, average): 주어진 수의 합을 측정개수로 나눈 값으로, 대표값 중 하나이다
- 분산(Variance): 편차의 제 곱의 평균값으로, 변량들이 퍼져있는 정도를 의미한다.
- 표준편차(standard deviation): 분산의 양의 제곱근으로, 분산보다 많이 쓰인다.
집단
모집단과 표본집단으로 구별
모집단= 전체 대상 또는 전체 집합
표본집단= 모집단으로부터 추출된 모집단의 부분 집합
분포
정규 분포
하나를 기준으로 좌, 우가 대칭인 모습을 보여주는데, 이런 형태의 자료 분포를 일반적으로 정규분포라고한다.
주의할점은 정규 분포 곧 확률 분포를 의미 하지않는다
확률밀도 함수는 자료가 퍼져 있는 위의 모습과 함께 자료가 특정 범위에 속할 가능성을 정량적인 확률로 나타내는 수학 함수를 포함한 것을 의미한다.
정규 분포라고 가정했을 떄 확률 밀도 함수를 나타낸 것이다. x축의 범위가 -x
+x (무한을 x로 표시한것)일떄 면적은 정확히 1.0이 된다. 즉, 남성의 키가 -x+x (무한을 x로 표시한것)에 속할 확률은 1.0 (100%)이다.한편 키가 180cm이상인 사람들의 비율은 확률 밀도 함수 곡선 아래 면적중 x축 범위가 180~x(무한을 x로 표시한것)사이의 면적으로 구할수있다.
특히 이런 방법으로 나타낸 확률 밀도 함수 곡선 아래 특정 범위의 면적(즉, 확률)은 통계 분석에서 가설 검정의 p value로 해석할 수 있다.
표준 정규 분포
그럼 모든 다른 모든 자료에 대해 확률 밀도 함수를 각각 구해서 p value에 해당하는 면적을 계산해야할까?
아니다. 정규 분포를 나타내는 확률 밀도 함수에는 해당 자료에 따른 각각의 평균과 표준편차가 반드시있고, 이를 표준화 시키면 모든 자료의 다양한 분포를 단 한 개의 함수식으로 대표해서 나타낼수있다
표준화 시킨 것이 표준 정규 분포이다
표준 정규 분포의 조건은 아래와 같다
- 평균 =0
- 표준편차=1
즉, 표준화를 해놓으면 x축 변수가 Z가 1.9이상일 확률(=p(Z>=1.9))를 나타내고있다
표준화하는 방법?
만약 위에서 설명했던 키에 대해서 표준화 작업을 한다면
Z=(180-173.3)/5.714 이다
T분포
Student T distribution 를 의미한다
T분포의 확률 밀도 함수는 표준 정규 분포의 확률 밀도 함수와 매우 흡사한 형태를 보이는데, x값 0을 기준으로 좌,우가 대칭인 종 모양의 곡선 형태를 가지고 있다.
T분포가 표준 정규 분포와 다른점은 자유도(df)에 따라 형태가 조금씩 달라진다는 것이다. 자유도에 따른 T분포의 확률 밀도 함수를 참고해보자. 자유도가 커질수록 T분포는 표준 정규 분포에 가까워지는 것을 알 수 있다.
한편, 정규 분포와 달리 T분포는 모집단이 아닌 표본 집단의 평균을 가지는 분포를 나타낼 때 사용한다.
즉, 모집단에서 표본 크기(=표본 내에 들어있는 표본 수)가 n인 표본을 m 개 추출했을 때 추출했을 때 m개의 표본 평균이 계산되는데, 이들 m개의 표본 평균을 이용하여 표준화된 분포 함수를 그리게 되면 T분포가 된다.!
위에서 자유도가 커질수록 분포는 표준 정규 분포에 가까워 진다고 하였습니다 T분포에서 자유도는 곧 표본 크기(정확히는 표본 크기-1)이기 때문에 표본 크기가 크면 클수록 해당 표본은 모집단에 가까워지기 때문입니다. (그치, 표본크기가1이면 엄청 부정확하겠지!)
아래는 표본 크기가 n인 표본 집단의 평균을 표준화 하는 식이다
T분포는 통계 분석에서 두 집단의 평균 차이 분석에 사용하는 분포입니다. 두 집단의 평균 차이를 분석한다는 것은 곧 가설 검정을 한다는것이다.
가설 검정은 유의 수준과 p value 두가지 값의 크기를 비교하여 판단을 내리는 과정이라고 할수있다.
회귀 분석 단변량 단순 선형 회귀 모델!
단변량 단순 선형 회귀 모델을 나타내는 식이다
x는 독립변수, y는 종속변수,b는 계수(회귀 계수), a는 x값이 변해도 y의 변동에는 영향을 주지 않는 회귀 계수, e는 오차항(독립변수 x가 종속변수y에 주는 영향력을 제외한 다른 모든 영향력을 나타내는 항목)
변수 x와 y의 관계를 가장 잘나타내는 가장 단순한 형태의 함수가 붉은 직성이라고할수있다.
그럼 변수x와 y의 관계를 가장 잘 나타낸다는 의미?
그림a는 x,y변수의 실제 측정값 두점와 양의 기울기를 가지는 붉은 직선과의 거리를 나타낸겟이다. 그림 a가 거리가 보다 가까움
따라서 x,y관계를 가장잘나타낸다는 것은 곧 (x,y)의 좌표로 나타낸 점들에 가장 가까이 있는 직선을 찾는다는 것이다. 곧 모든 점들과의 거리의 합이 최소가 되는 직선을 찾는것이다.
각 점들과 직선과의 거리를 ei라고 한다면 ei는 아래와 같은 식으로 나타낼수있다.
위 식에서 SEE 를 최소화하는 a와 b를 계산하게 되면 x와 y의 관계를 가장 잘 나타내주는 직선, 곧 선형 회귀식이 나온다.
SSE를 최소화 하는 법은 최소 제곱법(최소 자승법)이용한다.(잔차를 최소화해야함)
MSE=SSE/n-k이며 잔차들의 평균(=회귀식으로 설명하지 못하는 변량의 평균), 이를 최소화해야함