카테고리 없음

지니지수와 엔트로피 비교 (2)

멋쟁이천재사자 2023. 3. 6. 14:50

엔트로피란 무엇일까요?

 

엔트로피 하면 떠오르는 것은 "엔트로피 증가의 법칙"이며 무질서가 증가한다는 법칙이라고 알고 있습니다.

 

그런데 데이터분석에서 엔트로피가 튀어 나왔습니다.

ADsP ~ ADP 준비하는 과정에서 무질서한 정도라고 대충 개념만 알고 넘어갔고 그것으로 충분했습니다.

 

기술사 기출 문제에 지니지수와 엔트로피 지수 비교 문제가 있었습니다. 기술사 시험은 1교시형 문제 기준으로도 한페이지 분량의 답안을 작성해야 합니다. 수식을 포함해서 작성 가능한 모든 것을 끌어내야 합니다.

동일하거나 유사한 문제가 또다시 출제되는 경우를 대비해서 엔트로피 수식을 떠올릴 수 있도록 의미를 부여해 보겠습니다.

 

엔트로피는 무질서입니다.

 

무질서한 정도를 어떻게 수식으로 나타낼 수 있을까요요?

엔트로피의 수식은 ∑기호와 log 기호가 섞여 있어서 단순하게 억지로 암기하면 머리만 아프고 오래가기 힘듭니다.

 

사건 X 가 있는데 그것은 우주입니다.

X 에는 구성항목들이 있는데 x 입니다.

 

태초에 우주는 하나의 점이었으므로 x는 1가지 값밖에 없었습니다. 순수한 상태이며 무질서 0 인 상태였습니다.

빅뱅 이후 우주를 구성하는 x 에는 셀 수 없는 무한한 요소들로 가득해졌습니다. 현재도 어마 무시하게 가속 팽창하며 무질서가 증가하고 있습니다.

 

 

무질서는 놀라움입니다.

 

현재의 우주는 복잡하고 다양함으로 가득한 참으로 놀라운 세상입니다.

지구가 생겨나고 거기에서 생명이 출현하고 내가 태어난 것 모든 것이 극히 희박한 확률의 결과물들입니다.

x 값 하나 하나 모두가 발생 확률 p(x)이 극히 작은 것이며, 그 놀라움은 확률의 크기에 반비례합니다. 

매우 희박한 확률인 사건이 발생하면 놀라운 것입니다. 

 

내일 해가 뜬다고 해도 전혀 놀랍지 않습니다. 100% 확률의 사건이 발생한 것이기 때문입니다.

동전을 던져 앞면이 나오는 사건이 발생해도 별로 놀랍지 않습니다. 그 확률이 50% 나 되기 깨문입니다.

내가 로또에 당첨된다면 깜짝 놀랄 일입니다. 그 확률이 백만분의 일인지 천만분의 일인지 모를 정도로 낮기 때문입니다.


놀라움은 확률 p(x)와 반대입니다.

일출, 동전, 로또 확률을 1, 0.5, 0.0000001 이라고 가정해 보죠.

놀라움을 1/p(x)로 계산해 보면 1, 2,  10000000 입니다. 

 

로또의 놀라움은 크고 일출의 놀라움은 작습니다.

 

 

당연한 것의 놀라움은 0

그런데 해가 뜨는 것의 놀라움은 1이라기 보다는 0 이 맞을 것입니다. 너무나 당연한 일이 발생하는 것의 놀라움은 0 이라는 것이 좀 더 직관적입니다. 1 ~ 무한대를 0 ~ 무한대로 변환이 필요합니다. log(1/p(x)) 형태로 앞에 로그를 취하면 됩니다.


x 에는 여러 가지 값이 있습니다.

여러 가지 사건들의 놀라움이 평균적으로 어느 정도인지가 전체적인 무질서입니다.

그래서  "∑ 확률 * 사건별놀라움"의 형태로 평균 수식을 구성하면 ∑ p(x) * log(1/p(x)) 가 무질서의 정도이며 엔트로피 지수입니다.  역수는 -1승이며 이를 앞으로 빼면 - ∑ p(x) * log(p(x)) 로 변경해도 동일한 수식입니다. 

 

 

 

Reference

이상은 StatQuest with Josh Starmer 영상을 보고 제 나름의 방식으로 표현해 본 것입니다. 원본 영상 시청을 강추합니다.

 

출처 : https://youtu.be/YtebGVx-Fxw

관련 화면