데이터 공부기록

[Algorithm - Decision Tree] - about information entrop 본문

sesac ai 과정/Algorithm

[Algorithm - Decision Tree] - about information entrop

standingR 2023. 10. 12. 21:40

이 글은,

 

자료출처 - 양정원 강사님 자료

 

 

H(t)=  (- ∑ p x log2(P)) -> log2인 이유는 정보단위가 비트여서.

H(t) : 정보량의 평균

P :  각각의 사건들이 일어날 확률

log2(P) :  각각의 사건들

 

In information theory, the entropy of a random variable is the average level of “information”, “surprise”, or “uncertainty” inherent to the variable’s possible outcomes.

 

 

 

한 공식, 문장을 이해하기 위한 글입니다.

 

 

“surprise" = 통계학 에서 말하는 정보량 을 말합니다. 즉 제가 아는 정보의 개념이 아닌 겁니다. 

(= 공돌이의 수학노트님은 이걸 "깜놀도"라고 표현하셨는데, 개인적으로 이 표현이 찰떡이라고 생각합니다ㅎㅎ )

 

즉, 통계학에서는 놀랄만한 내용일수록 => 정보량이 많다고 이야기한것 입니다.

 

이 개념은 확률의 개념을 재해석 한것으로 볼 수 있습니다. 다시 말하자면, 확률이 낮은 사건일 수록 

정보량은 높습니다(앞서 강사님께서 보여주셨던 A♠ 뽑기를 생각할 것, 카드의 종류가 많아질수록(정보량의 증가),불확실성은 증가한다.)

 

그럼, 정보량을 수식적으로 생각한다면, 확률값에 반비례 하는 값으로 정의하는 것으로 이해한다.

 

첫번쨰 퍼즐 = 정보량을 수식으로 이해

 

-log2p(x)가 놀람의 정도  P(x) 가확률 / 자료출처 - 양정원 강사님 자료

 

 

 

정보량

구체적으로, 통계학에서 정보량은 다음을 의미합니다.

이산 랜덤변수 X에 대해(이부분이 완벽히 이해가 되질 않습니다.)

 

 

퍼즐2 - 통계학에서 정보량

이 때, 로그의 밑 는 응용 분야에 따라 다르게 쓸 수 있는데, 대게   중 하나를 사용할 수 있다. (각각을 사용했을 때의 정보량의 단위는 bit, nit, dit이다). -> 강사님이 말한 log2를 쓰는 이유를 여기서 이해했다.

 

정보량의 정의에 음수가 붙은 것은 다음과 같이 정보량의 정의에 로그가 사용되어서이다.

 

퍼즐3 = 음수가 붙은 이유

 

 

 

그러면, 정보량을 정의할 때 왜 굳이 log를 붙여서 정의했을까?

정보에 대한 아래의 개념들을 만족시킬 수 있는 수식이어야 하기 때문이다.

1) 확률값(혹은 확률밀도 값)에 반비례 해야 하기 때문.

2) 두 사건의 정보량을 합치면 각 사건의 정보량을 합친 것과 같아야 함.

 

 

엔트로피: 평균 정보량