kl divergence 예제

이제 KL 발산에 대한 논의가 끝날 때까지 도착합니다. 보시다시피, 이항 분포(점으로 표시)에 대한 추정치는 KL 발산을 최소화하는 가장 좋은 추정치였습니다. 는 Kullback-Leibler 확률 분포 P (i) {displaystyle P(i)}의 차이로, kronecker 델타에서 i = m {displaystyle i=m} – 즉, i {displaystyle i}를 식별하기 위해 전송되어야 하는 추가 비트의 수입니다. 확률 분포 P (i) {displaystyle P(i)}만 수신기에서 사용할 수 있으며 i = m {displaystyle i=m}이 아니라 . KL 발산의 정의와 KL 발산에 대한 다양한 해석을 소개합니다. 가장 중요한 것은, 나는 다음과 같은 사실을 주장 할 것이다 : 이후이 시점에서 계속, 나는이 블로그 게시물에있는 예제를 겸손하게 사용할 것입니다 [1]. KL 의 차이를 설명하는 훌륭한 게시물이지만 설명의 복잡성 중 일부는 더 자세히 설명 할 수 있습니다. 괜찮아, 괜찮아. 즉, 확률 P {디스플레이 스타일 P}와 Q {displaystyle Q}의 로그 차이에 대한 기대치이며, 여기서 예상은 확률 P {displaystyle P}를 사용하여 수행됩니다.

Kullback-Leibler 발산은 모든 x {디스플레이 스타일 x} , Q – x) = 0 {디스플레이 스타일 Q(x)=0}은 P를 의미합니다 . P ( x) {displaystyle P (x)}가 0일 때마다 해당 용어의 기여도는 @cotra 0으로 해석됩니다. Kullback-Leibler 발산은 이전 분포에서 후방 분포로 이동하는 정보 이득의 척도로 사용될 수 있습니다: p (x) → p (x+I) {디스플레이 스타일 p(x)\to p(xmid I)} 몇 가지 새로운 사실 Y = y {displaystyle Y =y}가 발견되면 x {displaystyle X}에 대한 후부 분포를 p (x+I) {displaystyle p (xmid I)}에서 새 후방 분포 p (x x y , I) {displaystyle p(xmid Y)로 업데이트하는 데 사용할 수 있습니다. ,I)} 베이즈 의 정리를 사용하여 : KL 발산은 우리가 정규 분포에서 잠재 변수를 샘플링 할 수 있도록 정규 분포로 잠재 변수의 분포를 강제로 사용된다. 이와 같이, KL 발산은 잠복 변수의 분포와 정규 분포 사이의 유사성을 향상시키기 위해 손실 함수에 포함된다. 베이지안 추론의 언어로 표현되는 D KL (P_Q) {디스플레이 스타일 D_{text{KL}}}}}는 이전 확률 분포 Q {displaystyle Q}에서 사후에 대한 자신의 신념을 수정할 때 얻은 정보의 척도입니다. 확률 분포 P {디스플레이 스타일 P} . 즉, Q {displaystyle Q}를 사용하여 P {디스플레이 스타일 P}를 근사화할 때 손실되는 정보의 양입니다.

[6] 응용 프로그램에서 P {displaystyle P}는 일반적으로 데이터, 관측값 또는 정확하게 계산된 이론 분포의 “true” 분포를 나타내고 Q {displaystyle Q}는 일반적으로 이론, 모델, 설명 또는 근사치를 나타냅니다. P {디스플레이 스타일 P} . P {displaystyle P}에 가장 가까운 분포 Q {displaystyle Q}를 찾기 위해 KL 발산을 최소화하고 정보 프로젝션을 계산할 수 있습니다. 1951년 솔로몬 쿨백과 리처드 리블러가 두 분포의 방향성 차이로 도입되었다. Kullback은 차별 정보라는 용어를 선호했습니다. [3] 이견은 쿨백의 1959년 도서, 정보 이론 및 통계에서 논의된다. [2] 특별한 경우, 그리고 변형 추론의 일반적인 수량은 대각선 다변량 법선과 표준 정규 분포 사이의 KL 발산입니다: 우리는 이 확장을 조금 후에 사용하여 교차 엔트로피의 차이를 설명할 것입니다. 그리고 KL은 기계 학습의 차이를 가지고 있습니다.

Posted in Uncategorized