واگرایی کولبک-لیبلر

در آمار ریاضی از واگرایی کولبک-لیبلر یا انتروپی نسبی به عنوان معیاری برای اندازه‌گیری واگرایی یک توزیع احتمال از یک توزیع احتمال ثانویه، یاد می‌شود.^[1]^[2] از جمله کاربردهای این مفهوم شامل توصیف انتروپی نسبی (shannon) در سیستم‌های اطلاعاتی، میزان تصادفی‌بودن در سری‌های زمانی پیوسته و بهره اطلاعاتی در زمانی که به مقایسه با مدلهای آماری استنباطی می‌پردازیم، می‌باشد. برخلاف تنوع اطلاعات، این معیار، یک معیار نامتقارن می‌باشد و در نتیجه نمی‌توان آن را به عنوان یک معیار پراکندگی معرفی کرد. به عبارت دیگر، مقدار $0$ برای واگرایی کولبک-لیبلر نشان می‌دهد که ما می‌توانیم انتظار رفتار مشابهی (نه دقیقاً یکسان) از دو توزیع داشته باشیم در حالی که مقدار $1$ برای این معیار نشان می‌دهد که دو توزیع رفتارهای متضادی دارند.

عبارت واگرایی کولبک-لیبلر در اصل توسط Solomon Kullback و Richard Leibler در سال ۱۹۵۱ به عنوان واگرایی جهت‌دار بین دو توزیع معرفی گردید؛ هرچند که Kullback خودش نام تمییز اطلاعات را بیشتر ترجیح می‌داد.^[3] در Kullback's historic text, Information Theory and Statistics، این معیار مورد بحث قرار گرفته است.

واگرایی کولبک-لیبلر توزیع $Q$ نسبت به $P$ اغلب به صورت $D_{KL}(P||Q)$ نوشته می‌شود.

یادگیری ماشین

در حوزه یادگیری ماشین از $D_{KL}(P||Q)$ عموماً به نام بهره اطلاعاتی حاصل به شرطی که به جای توزیع $P$ از توزیع $Q$ استفاده شود، یاد می‌شود. از منظر تئوری اطلاعات، این مسئله انتروپی نسبی از توزیع $P$ با توجه به توزیع $Q$ نامیده می‌شود.

کدگذاری

در حوزه نظریه کدگذاری، $D_{KL}(P||Q)$ می‌تواند به عنوان معیاری برای اندازه‌گیری متوسط تعداد بیت‌های اضافی مورد نیاز به منظور کد کردن نمونه‌ای از توزیع $P$ با استفاده از یک کد بهینه‌سازی شده برای توزیع $Q$ ، به جای استفاده از کد بهینه‌سازی شده برای $P$ می‌باشد.

استنتاج بیزی

از منظر استنتاج بیزی $D_{KL}(P||Q)$ ، یک معیار اندازه‌گیری اطلاعات کسب شده هنگامی که یک اصلاح باورهای از توزیع پیشین احتمال $Q$ به توزیع پسین احتمال $P$ رخ دهد. به عبارت دیگر، مقداری از اطلاع است که به واسطه تقریب زدن $P$ در هنگامی که از $Q$ برای آن استفاده می‌شود، می‌باشد.^[4] در عمل، $P$ به‌طور معمول نشان دهنده توزیع «صحیح» داده‌ها، مشاهدات یا یک توزیع تئوری است که دقیق محاسبه شده است؛ در حالی که $Q$ به‌طور معمول نشان دهنده یک نظریه، مدل، توصیف یا تقریبی از $P$ می‌باشد. به منظور پیدا کردن یک توزیع $Q$ که نزدیکترین توزیع به $P$ باشد، می‌توان به دنبال محاسبه توزیعی گشت که معیار واگرایی $KL$ را کمینه می‌کند.

هندسه اطلاعات

در کاربردها، $P$ معمولا توزیع صحیح داده‌ها را نشان می‌دهد و $Q$ یک فرضیه،‌ مدل یا تخمینی از $P$ را نشان می‌دهد. برای اینکه بهترین تخمین توزیع $Q$ از توزیع $P$ را بدست بیاوریم می‌توانیم واگرایی کولبک-لیبلر این دو توزیع را کمینه کنیم و سپس پرجکشن اطلاعات را بدست بیاوریم.

با اینکه انتروپی نسبی یک فاصله آماری به شمار می‌رود اما یک متریک نیست. بلکه یک معیار واگرایی است. چرا که این معیار متقارن نیست، یعنی $D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q\|P)$ و همچنین نامساوی مثلث در مورد آن صادق نیست. واگرایی برخلاف متریک که فاصله خطی را تعمیم می‌دهد،‌ تعمیمی از مربع فاصله است. فرم بی‌نهایت‌کوچک انتروپی نسبی و به‌طور خاص هسین آن، یک تنسور متریک می‌هد.

انتروپی نسبی یک حالت خاص از یک کلاس گسترده‌تر از واگرایی‌های آماری به نام واگرایی f و همچنین کلاس واگرایی‌های برگمن است، و این تنها واگرایی روی توزیع‌های احتمالاتی است که در هر دو کلاس قرار می‌گیرد.

اقتصاد

یک بازیکن را در یک بازی عادلانه با نتیجه متقابلا مجزا در نظر بگیرید. برای مثال یک شخص که در مسابقه اسب‌سواری که جمع شانس‌های رسمی برد یک است سرمایه‌گذاری می‌کند. نرخ سود مورد انتظار این سرمایه‌گذار برابر است با انتروپی نسبی احتمالاتی که وی براساس آنها سرمایه‌گذاری می‌کند و مقادیر رسمی شانس برد.^[5]

برای توزیعهای احتمالاتی گسسته $P$ و $Q$ معیار واگرایی کولبک-لیبلر واگرایی از $Q$ به $P$ ، به صورت زیر تعریف می‌شود^[6]

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\,\log {\frac {P(i)}{Q(i)}}.

به عبارت دیگر، امید تفاوت لگاریتمی بین احتمالات $P$ و $Q$ در جایی که امید با استفاده از توزیع $P$ به دست آمده باشد، می‌باشد. معیار واگرایی کولبک-لیبلر تنها در صورتی که $Q(i)=0$ نتیجه دهد $P(i)=0$ تعریف شده است. هر زمان که $P(i)$ برابر صفر گردد سهم $i$ مین جمله صفر تفسیر می‌شود و این بخاطر $\lim _{x\to 0}x\log(x)=0$ می‌باشد. برای توزیعهای $P$ و $Q$ از یک متغیر تصادفی پیوسته، معیار واگرایی کولبک-لیبلر به صورت انتگرال زیر تعریف می‌شود:^[7]

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\,\log {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!

به‌طوریکه در آن $p$ و $q$ به معنی چگالی احتمال $P$ و $Q$ می‌باشد. به‌طور کلی، اگر $P$ و $Q$ احتمال‌هایی تعریف شده بر روی یک مجموعه X باشند و $P$ اکیداً پیوسته نسبت به $Q$ باشد، آنگاه معیار واگرایی کولبک-لیبلر از $Q$ به $P$ به صورت زیر تعریف می‌گردد:

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P,\!

در این تعریف، ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ مشتق Radon–Nikodym از $P$ نسبت به $Q$ می‌باشد و می‌تواند به صورت زیر بازنویسی شود:

D_{\mathrm {KL} }(P\|Q)=\int _{X}\log \!\left({\frac {{\rm {d}}P}{{\rm {d}}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,

که ما آن را به عنوان آنتروپی نسبی $P$ نسبت به $Q$ می‌شناسیم. در ادامه در این مورد، اگر $\mu$ هر اندازه‌گیری بر روی $X$ باشد که در آن $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ و $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ برقرار باشد (به این معنی که $p$ و $q$ اکیداً نسبت به $\mu$ ) آنگاه معیار واگرایی کولبک-لیبلر از $Q$ به $P$ ، به صورت زیر می‌باشد

D_{\mathrm {KL} }(P\|Q)=\int _{X}p\,\log {\frac {p}{q}}\,{\rm {d}}\mu .\!

در صورتی که اطلاعات با واحد بیت اندازه‌گیری شده باشد لگاریتمها در مبنای $2$ می‌باشند و در صورتی که از واحد nats برای سنجش اطلاعات استفاده شده باشد، پایه لگاریتم‌ها $e$ خواهد بود.

قراردادهای مختلفی برای اشاره به $D_{KL}(P||Q)$ به صورت لفظی وجود دارد. اغلب از آن به عنوان اختلاف بین توزیع‌های $P$ و $Q$ یاد می‌شود;در حالی که این توصیف با خاصیت نامتقارن بودن فرمول (یعنی واگرایی توزیع $P$ از $Q$ با میزان واگرایی توزیع $Q$ از $P$ لزوماً برابر نیست) در تعارض است. از این رو برخی مواقع، همان‌طور که در این مقاله هم از آن یاد شد، از آن به عنوان واگرایی توزیع $P$ از یا نسبت به توزیع $Q$ یاد می‌کنند.

Arthur Hobson ثابت کرد که معیار واگرایی کولبک-لیبلر تنها معیار تفاوت بین توزیعهای احتمالی است که برخی از خواص مورد نظر را در خود دارد.^[8] و نتیجتاً، اطلاعات متقابل نیز تنها معیار وابستگی متقابل میان متغیرهای تصادفی است که یکسری شرایط خاص را دارا می‌باشد، چرا که آن می‌تواند از منظر معیار واگرایی مورد نظر نیز تعریف گردد.

در این‌جا به برخی از خصوصیات معیار واگرایی کولبک-لیبلر اشاره می‌کنیم:

انتروپی نسبی همیشه نامنفی است،‌ در نتیجه

$D_{\text{KL}}(P\parallel Q)\geq 0$ که به عنوان نامساوی گیبز شناخته می‌شود. همچنین داریم $D_{\text{KL}}(P\parallel Q)=0$ اگر و تنها اگر $P=Q$ .

اثبات: حالت گسسته را درنظر بگیرید. حکم بالا را می‌توان با استفاده از نامساوی ینسن و نامساوی جمع لگاریتم اثبات کرد. از آنجایی که لوگاریتم یک تابع محدب است داریم: $\sum _{i}P(i)\log {\frac {Q(i)}{P(i)}}\leq \log \sum _{i}P(i){\frac {Q(i)}{P(i)}}=\log \sum _{i}Q(i)\leq 0$ نامساوی اول از ینسن نتیجه می‌شود و نامساوی دوم از تابع احتمالاتی بودن $Q$ . همچنین از آنجایی که لوگاریتم اکیدا محدب است،‌ بنابر نابرابری ینسن تساوی زمانی رخ می‌دهد که ${\frac {Q(1)}{P(1)}}={\frac {Q(2)}{P(2)}}=\cdots ={\frac {Q(n)}{P(n)}}$ و $\sum _{i}Q(i)=1$ . فرض کنید این نسبت برابر با $r$ باشد. در این صورت: $1=\sum _{i}Q(i)=\sum _{i}rP(i)=r$ پس تساوی زمانی رخ می‌دهد که $P=Q$ .

به‌طور کلی برای واگرایی کولبک-لیبلر کران بالایی وجود ندارد. با این حال، نشان داده شده است که اگر $P$ و $Q$ دو توزیع احتمال گسسته باشند که با توزیع یک مقدار گسسته ساخته شده‌اند، آن‌گاه حداکثر مقدار $D_{\text{KL}}(P\parallel Q)$ به‌دست می‌آید.^[9]
انتروپی نسبی تقریباً مانند انتروپی شانون برای توزیع‌های مستقل جمعی است. اگر $P_{1},P_{2}$ توزیع‌های مستقلی باشند و $P(dx,dy)=P_{1}(dx)P_{2}(dy)$ و به‌طور مشابه $Q(dx,dy)=Q_{1}(dx)Q_{2}(dy)$ برای توزیع‌های مستقل $Q_{1},Q_{2}$ آنگاه $D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).$
انتروپی نسبی $D_{\text{KL}}(P\parallel Q)$ برای جفت توزیع‌های احتمالی $(P,Q)$ محدب است. یعنی اگر $(P_{1},Q_{1})$ و $(P_{2},Q_{2})$ دو جفت تابع احتمال باشند آنگاه $D_{\text{KL}}(\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2})\leq \lambda D_{\text{KL}}(P_{1}\parallel Q_{1})+(1-\lambda )D_{\text{KL}}(P_{2}\parallel Q_{2}){\text{ for }}0\leq \lambda \leq 1.$

در تئوری اطلاعات، قضیه Kraft–McMillan بیان می‌کند که هر شمای کدگذاری قابل دیکد کردنی برای کد کردن یک پیام به‌طوریکه بتوان مقدار x_i را از مجموعه تمامی مقادیر ممکن $X$ به صورت مستقیم کدگشایی کند نیاز تا احتمال نمایش هر مقدار را به صورت توزیع احتمال $q(x_{i})=2^{-l_{i}}$ در نظر گرفته شود که در آن l_i، طول کد برای x_i در واحد بیت می‌باشد. بنابراین، معیار واگرایی کولبک لیبلر را می‌توان به عنوان امید مقدار طول پیام اضافی به ازای هر داده دانست که در صورتی که اگر از یک کد که برای توزیع $Q$ بهینه است (توزیع ناصحیح) برای انتقال آن استفاده گردد، باید به صورت اضافی (نسبت به حالتی که از یک کد بهینه برای توزیع صحیح استفاده شود) مخابره گردد.

{\begin{matrix}D_{\mathrm {KL} }(P\|Q)&=&-\sum _{x}p(x)\log q(x)&+&\sum _{x}p(x)\log p(x)\\[0.5em]&=&H(P,Q)&-&H(P)\,\!\end{matrix}}

در اینجا $H(P,Q)$ آنتروپی مشترک توزیعهای $P$ و $Q$ می‌باشد و $H(P)$ نیز آنتروپی توزیع $P$ می‌باشد.

همچنین توجه داشته باشید که یک رابطه میان معیار واگرایی Kullback–Leibler و «تابع نرخ» در نظریه انحراف بزرگ وجود دارد.^[10]^[11]

بسیاری از کمیت‌های دیگر نظریه اطلاعات را می‌توان به عنوان کاربردهای انتروپی نسبی در موارد خاص تفسیر کرد.

اطلاعات متقابل

اطلاعات متقابل با تعریف ${\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\[5pt]&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\[5pt]&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}$ انتروپی نسبی ضرب $P(X)P(Y)$ دو احتمال حاشیه‌ای توزیع توأم $P(X,Y)$ است. به عبارت دیگر تعداد بیت های اضافی مورد انتظار که باید برای شناسایی $X$ و $Y$ ارسال شوند، اگر به جای توزیع توأم تنها با استفاده از توزیع حاشیه‌ایشان کدگذاری شده باشند.

انتروپی شنون

انتروپی شنون با تعریف برای توزیع با الفبای شمارا ${\begin{aligned}\mathrm {H} (X)&=\operatorname {E} \left[\operatorname {I} _{X}(x)\right]=\log(N)-D_{\text{KL}}\left(p_{X}(x)\parallel P_{U}(X)\right)\end{aligned}}$ و توزیع پیوسته $\lim _{N\rightarrow \infty }H_{N}(X)=\log(N)-\int p(x)\log {\frac {p(x)}{m(x)}}dx$ برابر است با $\log(N)-D_{\text{KL}}(p(x)||m(x))$

Akaike Information Criterion
بیزی اطلاعات معیار
Bregman واگرایی
Cross-entropy
انحراف معیار اطلاعات
آنتروپی ارزش در معرض خطر
آنتروپی قدرت نابرابری
به دست آوردن اطلاعات در درخت‌های تصمیم‌گیری
اطلاعات به دست آوردن نسبت
اطلاعات تئوری و نظریه اندازه‌گیری
جنسن–Shannon واگرایی
کوانتومی آنتروپی نسبی
جزایر Kullback و ریچارد Leibler

[1]
Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 0039968.
[2]
Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons.
[3]
Kullback, S. (1987). "Letter to the Editor: The Kullback–Leibler distance". The American Statistician. 41 (4): 340–341. doi:10.1080/00031305.1987.10475510. JSTOR 2684769.
[4]
Burnham K.P. , Anderson D.R. (2002), Model Selection and Multi-Model Inference (Springer). (2nd edition), p.51
[5]
Soklakov, Andrei N. (2020-08). "Economics of Disagreement—Financial Intuition for the Rényi Divergence". Entropy (به انگلیسی). 22 (8): 860. doi:10.3390/e22080860. ISSN 1099-4300. {{cite journal}}: Check date values in: |date= (help)
[6]
MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (First ed.). Cambridge University Press. p. 34.
[7]
Bishop C. (2006).
[8]
Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 0-677-03240-4.
[9]
Bonnici, Vincenzo (2020-12-10). "Kullback-Leibler divergence between quantum distributions, and its upper-bound". arXiv:2008.05932 [quant-ph].
[10]
Sanov, I.N. (1957). "On the probability of large deviations of random magnitudes". Matem. Sbornik. 42 (84): 11–44.
[11]
Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall).

[1] [1]
Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86. doi:10.1214/aoms/1177729694. MR 0039968.

[Kullback2-2] [2]
Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons.

[3] [3]
Kullback, S. (1987). "Letter to the Editor: The Kullback–Leibler distance". The American Statistician. 41 (4): 340–341. doi:10.1080/00031305.1987.10475510. JSTOR 2684769.

[4] [4]
Burnham K.P. , Anderson D.R. (2002), Model Selection and Multi-Model Inference (Springer). (2nd edition), p.51

[5] [5]
Soklakov, Andrei N. (2020-08). "Economics of Disagreement—Financial Intuition for the Rényi Divergence". Entropy (به انگلیسی). 22 (8): 860. doi:10.3390/e22080860. ISSN 1099-4300. {{cite journal}}: Check date values in: |date= (help)

[6] [6]
MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (First ed.). Cambridge University Press. p. 34.

[7] [7]
Bishop C. (2006).

[8] [8]
Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 0-677-03240-4.

[9] [9]
Bonnici, Vincenzo (2020-12-10). "Kullback-Leibler divergence between quantum distributions, and its upper-bound". arXiv:2008.05932 [quant-ph].

[Sanov2-10] [10]
Sanov, I.N. (1957). "On the probability of large deviations of random magnitudes". Matem. Sbornik. 42 (84): 11–44.

[Novak2-11] [11]
Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

واگرایی کولبک-لیبلر

یادگیری ماشین

کدگذاری

استنتاج بیزی

هندسه اطلاعات

اقتصاد

اطلاعات متقابل

انتروپی شنون

Wikiwand in your browser!

واگرایی کولبک-لیبلر

یادگیری ماشین

کدگذاری

استنتاج بیزی

هندسه اطلاعات

اقتصاد

اطلاعات متقابل

انتروپی شنون

Wikiwand in your browser!

ریشه‌شناسی

تفسیر

تعریف

خصوصیات

انگیزه

رابطه با سایر کمیت‌ها در نظریه اطلاعات

جستارهای وابسته

منابع