데이터 공부기록

8월 30일 본문

카테고리 없음

8월 30일

standingR 2023. 8. 30. 18:31

 

1, 통계

현상을 나타내고 있는 DATA로 부터 유용한 정보를  도출하여 적절한 의사결정을 하게 해주는 것
모집단/ 전수조사 표본/표준 조사
대한민국 국민 1000명

 

유의 수준 (오차한계)  5%

신뢰 수준 95%

 

ex) 유의 수준 5%의 범위 내에서, 대한 민국 국민은 47.2%가 보수당을 지지한다...라고 표현

- 통계 분석을 한 경우에는 유의 수준 내에서라는 걸 설명


 

2. 표본으로 전체를 설명하는 것을 “검정 통계학

 

- 가설 검정

귀무 가설 기존의 사실과 차이가 없다, 같다.
대립 가설 귀무 가설의 반대

 

ex)  처음에 ‘범죄자는 범인이 아니다’ 라는 귀무가설을 세우고

그 귀무가설을 기각할 수 있는 ‘범죄자는 범인이다.” 를 입증할 수 있는 자료를 모으는 것

 

유의 수준(오차한계) 5%
P-Value < 0.05  = 귀무가설 기각, 대립가설 채택

 

-  1종 오류 VS 2종 오류

1종 오류 : 귀무가설이 참인데 기각하는 경우

2종 오류: 귀무가설이 거짓인데 기각하지 않는 경우 / 귀무가설이 참인데 기각하지 않는 경우

 

EX) 무죄 추정의 원칙

귀무가설 - 범죄자는 범인이 아니다 1,귀무가설

그 귀무가설을 기각할 수 있는 범죄자는 범인이다 를 입증할 수 있는 자료를 모으는것 (즉, 내가 주장하고 싶은 가설을 대립 가설로 놓으면 됨)


 

 

P- value ?

어떠한 일이 우연히 일어날 확률이 얼마일까?

 

P- Value를 이해 하기 위한 지식

 

1. 가설 검정

가설 검정이란 대상 집단에 대해여 어떤 가설을 설정하고 검토하는 통계적 추론을 의미합니다.

 

예시 및  P-Value 설명

https://bodi.tistory.com/entry/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-P-value%EB%9E%80%EC%96%B4%EB%96%A4-%EC%82%AC%EA%B1%B4%EC%9D%B4-%EC%9A%B0%EC%97%B0%ED%9E%88-%EB%B0%9C%EC%83%9D%ED%95%A0-%ED%99%95%EB%A5%A0

 

 

p - Value 

p- Value는 Probability- value의 줄임말로 확률 값을 뜻하며, 어떤 사건이 우연히 발생할 확률을 말합니다.

 

예를 들어, p- value l 0.05보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다는 것으로 생각 할 수 있다.

(우연히 발생한 것이 아니라 분명한 인과관계가 있다고 추정하는 것)

 

 

즉_ p값이 0.05보다 크면 이 사건은 우연히 발생한 것이다 라고 생각하고 이 사건에는 어떠한 의미 즉, 인과관계가 없다고 판단

P - Value의 사용과 예시 및 한계점

https://bodi.tistory.com/entry/%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95-P-value%EB%9E%80%EC%96%B4%EB%96%A4-%EC%82%AC%EA%B1%B4%EC%9D%B4-%EC%9A%B0%EC%97%B0%ED%9E%88-%EB%B0%9C%EC%83%9D%ED%95%A0-%ED%99%95%EB%A5%A0

 

 

 


다중 회귀 분석 

 두 개 이상의 연속형 독립변수가 연속형 종속변수에 미치는 영향을 검증하는 분석 방법 입니다.
 독립변수의 변화에 의해 종속변수가 어떻게 변화하는지를 검증하는 분석 방법입니다

 

 

- 다중 회귀 분석 수식 

 

 

 


 

 

 

인과관계의 특징

1.공변성

두가지 변수가 함께 움직이는 경향

2.시간적 선후관계

시간적으로 어느 하나가 먼저 변화 했을 떄 다른 하나가 뒤따라 변화하는 관계

3.비 허위성

공변성과 선후관계의 양상이 제 3의 다른 변인으로 설명될 수 없어야 함 (앞선 두가지가 만족하더라고 비허위성이면 인과관계를 충족시키지 못함)

 

 

 

 

 

 

 


 

핵심 개념 정리 

 

편차

편차는 하나의 데이터 값이 평균에서 얼마나 떨어져 있는지에 대한 값이다.

분산

분산은 ‘편차’의 제곱의 합을 계산한 값인데, 편차는 음수 양수를 가질 수 있기 때문에 편차들의 합을 양수화하기 위해 제곱을 사용한 것이다. 그 다음, 루트를 씌워서 값을 줄여준다.

표준편차

표준편차는 분산에서 제곱근(루트)를 씌워준 값으로, 제곱의 합으로 계산한 ‘분산’의 값이 너무 커서 실제 값과 근사한 오차의 값을 구하기 위해서 사용할 수 있다..

왜도, 데이터가 대칭이 아닌 정도로 분포의 특징 이해하기 

(기준 표준 편차, 기준점이 0인 경우)

 

-데이터가 대칭을 이룰 수록 왜도 값은 0 , 데이터가 한쪽으로 치우칠 수록 양수 또는 음수
-데이터가 정규 분포를 이룰수록 왜도 값이 0에 가까워진다.
-분포의 ‘꼬리’가 왼쪽을 가리키고 왜도 값이 음수인 데이터는 대표적으로 고장률 데이터가 있다.

 

다중 상관계수

 

결정 계수

 

조정된 결정 계수

 

표준 오차

 

유의한 F

 

 

 

오차  

모집단에 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이

 

잔차 

 

표본 집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이

 

잔차  = 관측값  = 예측값

잔차의 값을 다 더해서 0이 나와야한다, 즉 회귀 분석이 잘 되었다는 의미

 

행복 데이터 분석- 회귀분석, 결정 계수 실습 데이터.xlsx
0.26MB