일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- ai 새싹 부트캠프 6일차
- X
- ASAC
- ai 새싹 부트캠프 5일차
- ai 새싹 부트캠프 4일차
- 새싹 AI데이터새싹 엔지니어 부트캠프
- 취준생
- 통계용어 정리
- ㅂ.
- ai 새싹 부트캠프 7일차
- T
- 새싹 AI데이터새싹 엔지니어 부트캠프 1일차
- 새싹 AI데이터새싹 엔지니어 부트캠프 2일차
- 데이터분석가면접준비
- 새싹 AI데이터새싹 엔지니어 부트캠프 3일차
- 데이터분석가
- Til
- 데이터관련면접
- Today
- Total
데이터 공부기록
[Algorithm - Decision Tree] - about information entrop 본문
[Algorithm - Decision Tree] - about information entrop
standingR 2023. 10. 12. 21:40이 글은,
H(t)= (- ∑ p x log2(P)) -> log2인 이유는 정보단위가 비트여서.
H(t) : 정보량의 평균
P : 각각의 사건들이 일어날 확률
log2(P) : 각각의 사건들
In information theory, the entropy of a random variable is the average level of “information”, “surprise”, or “uncertainty” inherent to the variable’s possible outcomes.
한 공식, 문장을 이해하기 위한 글입니다.
“surprise" = 통계학 에서 말하는 정보량 을 말합니다. 즉 제가 아는 정보의 개념이 아닌 겁니다.
(= 공돌이의 수학노트님은 이걸 "깜놀도"라고 표현하셨는데, 개인적으로 이 표현이 찰떡이라고 생각합니다ㅎㅎ )
즉, 통계학에서는 놀랄만한 내용일수록 => 정보량이 많다고 이야기한것 입니다.
이 개념은 확률의 개념을 재해석 한것으로 볼 수 있습니다. 다시 말하자면, 확률이 낮은 사건일 수록
정보량은 높습니다(앞서 강사님께서 보여주셨던 A♠ 뽑기를 생각할 것, 카드의 종류가 많아질수록(정보량의 증가),불확실성은 증가한다.)
그럼, 정보량을 수식적으로 생각한다면, 확률값에 반비례 하는 값으로 정의하는 것으로 이해한다.
정보량
구체적으로, 통계학에서 정보량은 다음을 의미합니다.
이산 랜덤변수 X에 대해(이부분이 완벽히 이해가 되질 않습니다.)
이 때, 로그의 밑 는 응용 분야에 따라 다르게 쓸 수 있는데, 대게 는 중 하나를 사용할 수 있다. (각각을 사용했을 때의 정보량의 단위는 bit, nit, dit이다). -> 강사님이 말한 log2를 쓰는 이유를 여기서 이해했다.
정보량의 정의에 음수가 붙은 것은 다음과 같이 정보량의 정의에 로그가 사용되어서이다.
그러면, 정보량을 정의할 때 왜 굳이 log를 붙여서 정의했을까?
정보에 대한 아래의 개념들을 만족시킬 수 있는 수식이어야 하기 때문이다.
1) 확률값(혹은 확률밀도 값)에 반비례 해야 하기 때문.
2) 두 사건의 정보량을 합치면 각 사건의 정보량을 합친 것과 같아야 함.
엔트로피: 평균 정보량
'sesac ai 과정 > Algorithm' 카테고리의 다른 글
[algorithm] bayes 베이즈 정리 (0) | 2023.10.20 |
---|---|
[Bayes' Theroem] : UPDATE (0) | 2023.10.17 |
[Algorithm 공부법] (0) | 2023.10.12 |
[Algorithm - Decision Tree] - (Classification & Regression,Fundamentals, Entropy) (0) | 2023.10.12 |
[Algorithm] Before KNN (0) | 2023.10.10 |