크로스엔트로피 Cross Entropy, KL Divergence

2021. 6. 7. 23:56

참조 :
https://www.youtube.com/watch?v=7GBXCD-B6fo
https://www.youtube.com/watch?v=Jt5BS71uVfI
https://theeluwin.postype.com/post/6080524
https://velog.io/@vanang7/%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC%EC%99%80-%ED%81%AC%EB%A1%9C%EC%8A%A4-%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC

머신러닝/딥러닝에서 분류문제를 풀 때 크로스엔트로피를 써서 손실을 구한다.

틀릴 수 있는 정보를 갖고 구한 엔트로피. 즉 불확실성 정도의 양이라고 할 수 있는데, 이 틀릴 수 있는 정보는 바로 머신러닝모델의 아웃풋이 있다. 모델의 아웃풋은 예측값이기에 틀릴 수 있다.

Cross Entropy is optimal entropy When ifro is from estimated probability

간단한 딥러닝 분류문제이다. 최종단에 softmax레이어가있고, 이것을 활용해 예측값을 구할 수 있다.
이것을 정답과 비교할 땐 정답값을 원-핫 인코딩으로 비교하는 형태이다. 이 과정에서 softmax값과 one-hot인코딩된 실제 값을 사용한다.

소프트맥스 값을 Q라고 하고, 실제 라벨을 P라고 했을 때
Q : Estimated Probability , P : True Probability

H(P,Q)가 크로스 엔트로피 공식이고, H(X)가 엔트로피 공식이다.
각각 클래스마다 어떤 확률로 존재하는지를 나타낸다 -> 여기서 $p_i$는 (어떠한 정보의) 확률이다.

$ log_2{1\over{q_i}}$ 는 정보의 양을 나타낸다

왜 크로스엔트로피에서 정보의 양에 $log_2$ $1\over{q_i}$ 을 사용하는걸까?

첫번쨰로 우리는 딥러닝 모델을 학습시킬때 이 예측값이 정답과 얼마나 근사한지 알고싶다.
그를 위해 실제 확률값을 사용해야한다. 단 정보의 양은 모델을 통해 온 정보의 양(예측값의 확률)을 사용해야해서 위의 log 안에 q 가 들어간것이다.
실제 정답의 확률을 사용함으로써 이 엔트로피값이 과연 실제 정답값과 얼마나 근사한지를 알 수 있게되는것이다.

틀릴 수 있는 정보를 갖고 구한 엔트로피값이다 라고 한마디로 정리할 수 있다.