بررسی Mean field approximation

مقدمه[ویرایش]

mean field روشی برای تخمین زدن یک میدان های تصادفی مارکوف (به انگلیسی: Markov Random Fields) پیچیده است.[۱]

برای یک توزیع احتمال شرطی، با یک گراف پیچیده،محاسبه ی احتمال حاشیه (به انگلیسی: Marginal) متغیر تصادفی دلخواه، کاری بسیار دشوار و غیر قابل حل است.

در یادگیری ماشین های مدرن، استنتاج تنوع (بیزی) (به انگلیسی: Bayes variation) اغلب برای استنتاج کردن توزیع های شرطی برای متغیرهای پنهان با توجه به مشاهدات (و پارامترها) استفاده می شوند. همچنین به عنوان توزیع پیشین متغیرهای پنهان نیز شناخته شده است. توزیع پیشین به صورت زیر تعریف می‌شود:

$p(z|x,a)=p(x,z|a)$ / $\int _{K}^{}p(z,x|a)\,dx$

برای توزیع های شرطی اغلب از روش های استنتاج های تقریبی استفاده می شود، چرا که محاسبه ی مستقیم احتمالات پیشین برای بسیاری از مدل ها امکان پذیر نیست.[۲] ایده‌ی اصلی پشت این کار، انتخاب یک گروه از توزیع‌ها روی متغیرهای پنهان (zها) است. هر کدام از z ها مجموعه‌ای از variational parameter های مربوط به خود را دارد. سپس پارامترهایی که قابل تخمین زدن باشند و حاصل را به توزیع‌های پیشین نزدیک می‌کنند محاسبه می‌شوند. برای این کار از الگوریتم‌های بهینه‌سازی استفاده می‌شود. در واقع استنتاج احتمالاتی به‌عنوان یک مسئله‌ی بهینه‌سازی در نظر گرفته می‌شود:

$F^{*}=argmax_{f}F(f)$

که در آن f یک توزیع احتمال قابل ردیابی یا راه‌حلی برای نمایش برخی از پرسمان‌های احتمالاتی، است.

پدیده کولبک-لیبلر[ویرایش]

نزدیک بودن دو توزیع را با کولبک لیبر (به انگلیسی: Kullback-Leibler) اندازه‌گیری می‌کنند و به صورت زیر تعریف می‌شود:

$KL(q||p)=\int _{z}^{}q(z)log(q(z)/p(z|x))\,dz=E[log(q(z)/p(z|x))]$

در اینجا 3 حالت اهمیت زیادی دارند:

اگر p و q هر دو زیاد باشند‌، واگرایی کم است و این اتفاق خوبی است.
اگر q زیاد باشد و p کم، واگرایی بالا است و در هر حال باید هزینه‌ای پرداخت شود.
اگر q کم باشف، واگرایی پایین است و از p صرف نظر می‌شود.

عموما منطقی‌تر است تا (KL(p||q در نظر گرفته شود، اما به دلایل محاسباتی این کار انجام نمی‌شود.

مدارک پایین‌تر[ویرایش]

برای انجام استنتاج تنوع، به‌دنبال به حداقل رساندن واگرایی KL بین q و p هستند. در اینجا p توزیع پیشین اصلی و q مقدار تقریب زده‌ی آن است.با این حال نمی‌توان مستقیما این مقدار را به حداقل رساند. اما می‌توان تابعی معادل با آن را به کمترین مقدار خود رساند. این تابع به‌عنوان مدارک پایین‌تر (به انگلیسی: Evidence Lower Bound) یا ELBO شناخته می‌شود. برای بدست آوردن ELBO، نابرابری یانسیس (به انگلیسی: Jansens) برای نتغیر تصادفی X به صورت زیر تعریف می‌شود:

$f(E[x])\geq E[f(x)]$

نابرابری یانسیس بر روی لگاریتم احتمال حاشیه‌ای مشاهدات برای بدست آوردن ELBO، اعمال می‌شود:

$\log p(x)=\log \int _{z}^{}p(x,z)\,dz$ $=\log \int _{z}^{}p(x,z){\dfrac {q(z)}{q(z)}}\,dz$ $=\log(E_{q}{\dfrac {p_{(x,z)}}{q_{(z)}}})\geq E_{q}[\log(x,z)]-E[\log q(z)]$

با کمک روابط فوق، نتیجه که حاصل می‌شود یک رابطه برای یک مدل احتمالاتی مثل (p(x,z و تقزیب (q(z از توزیع پیشین، است:

$E_{q}[\log(x,z)]-E[\log q_{(z)}]$

مقدار حاصل از این رابطه‌، کوچکتر و یا مساوی شاهد(به انگلیسی: evidence) که همان لگاریتم احتمال حاشیه‌ای مشاهدات است می‌شود. این رابطه نسبت به q_z بهینه می‌شود تا یک تقریب مطلوب حاصل شود. حائز اهمیت است که:

برای انجام محاسبات لازم است تا یک گروه از توزیع‌های متنوع انتخاب شوند.
یکی دیگر از معیارهای سنجش نظریه‌ی اطلاعات، آنتروپی است.
در استنتاج تنوع (به انگلیسی: variational inference)، پارامترهایی پیدا می‌شوند که ELBO که را به حداقل می‌رسانند.

میدان متوسط[ویرایش]

میدان متوسط (به انگلیسی: mean field) یکی از الگوریتم‌ها برای تقریب استنتاج احتمالات است. در این نوع از استنتاج فرض می شود که توزیع تنوع (به انگلیسی: Bayes variation) در متغیرهای پنهان به صورت زیر فاکتوریزه میشوند:

q(z₁,...,z_m)= $\prod _{i=1}^{N}q(z_{j})$

در این رابطه به (q(z تقریب تنوع (به انگلیسی: variational approximate) برای یک متغیر و یا "تقریب تنوع محلی" می‌گویند. این تنظیم نسبتا عمومی است، اما می‌توان متغیرهای پنهان z₁,...,z_m را به R تا گروه z_G1,...,z_Gr تقسیم کرد و از تقریب استفاده کرد:

$q(z_{1},...,z_{m})=q(z_{G1},...,z_{Gr})=\prod _{r=1}^{R}q(z_{Gr})$

از آنجایی که متغیرهای پنهان به‌ هم وابسته هستند، عموما این تقریب مقدار دقیق توزیع پیشین را نمی‌دهد. به طور مثال در بیزین‌ها (ترکیبی از چندین مدل گوسی) همه‌ی برچسب‌های خوشه‌ها به یکدیگر وابسته هستند.

بهینه‌سازی مدارک پایین‌تر در میدان متوسط[ویرایش]

در مرحله‌ی بینه‌سازی در ابتدا هر (q(z تخمین زده می‌شود، این در حالی است که بقیه‌ی متغیرها ثابت فرض شده‌اند. برای تخمین معموا از روش بهینه‌سازی هم‌پایه‌ی صعودی (به انگلیسی: coordinate ascent optimization) استفاده می‌شود. اما می‌توان از روش‌های دیگری مانند گرادیان نزولی نیز استفاده کرد. برای این کار باید مراحل زیر انجام شود:

1-محاسبه احتمالات به کمک قاعده‌ی زنجیره‌ای (به انگلیسی: chain rule) :

$p(z_{1:m},x_{1:m})=p(x_{1n})\prod _{j=1}^{m}p(z_{j}|z_{1(j_{1})},x_{1n})$

2-تجزیه‌ی آنتروپی ELBO به کمک متوسط تقریبی تغییرات زمینه (به انگلیسی: mean field variational approximation):

$E_{q}[\log(q_{1:m})]=\sum _{j=1}^{m}E_{qj}[\log q_{j}]$

3-با استفاده از دو رابطه‌ی فوق می‌توان $\ell \;$ ELBO را به صورت زیر تجزیه کرد:

$E_{q}[\log p(x,z)]-E_{q}[\log q(z)]$

$\ell \;=\log p(x_{1:n})+\sum _{j=1}^{m}E_{q}[\log p(z_{j}|z_{1:(j-1),x_{1:n}})]-E_{qj}[\log q(z_{j})]$

معرفی چند اصطلاح

رابطه‌ی زیر احتمال شرطی برای متغیرهای پنهان را نشان می‌دهد. در این رابطه (-j) نشان دهنده‌ی همه‌ی شاخص‌ها به جز j است.

$p(z_{j}|z_{1},...,z_{j-1},z_{j},...,z_{m},x)=p(z_{j}|z_{-j},x)$

این رابطه در واقع نشان‌دهنده‌ی احتمال پیشین z_j به شرط همه‌ی متغیرهای پنهان و مشاهدات است.
احتمال پیشین شرطی در میدان متوسط بسیار مهم است و همچنین در الگوریتم‌های استنتاجی که از آن استفاده می‌کنند (مانند نمونه‌برداری گیبز (به انگلیسی: Gibbs sampling)) نیز اهمیت زیادی دارد.

قدم بعدی بهینه کردن $\ell \;$ است. در این مرحله، قسمت‌هایی که به q_(zj) وابسته نیستند، حذف می‌شوند:

$argmax_{qj}(\int _{}^{}q_{(zj)}E_{q-j}[\log p(z_{j}|z_{-j},x)]\,dz_{j}-\int _{}^{}q(z_{j})\log q(z_{j})\,dz_{j})$

برای بدست آوردن بیشینه‌ی این عبارت با استفاده از لاگرانژ ضرب کننده (به انگلیسی: Lagrange multipliers) از آن نسبت به (q(zj مشتق گرفته می‌شود و جواب حاصل را برابر با صفر قرار داده می‌شود:

${\frac {d\ell \;_{j}}{d_{q}(z_{j})}}=E_{q-j}[\log p(z_{j}|z_{-j},x)]-\log q(z_{j})-1=0$

مرحله‌ی بعدی به روزرسانی است:

$q^{*}(z_{j})\propto exp(E_{q-j}[\log p(z_{j}|z_{-j},x)])$

از آنجایی که معین کننده‌ی شرطی (به انگلیسی: denominator of the conditional) به zj وابسته نیست می‌توان آن را به صورت زیر نوشت:

$q^{*}(z_{j})\propto exp(E_{q-j}[\log p(z_{j},z_{-j},x)])$

نتیجه‌ی حاصل از این بهینه‌سازی می‌تواند به بهینه‌ی محلی همگرا شود.^[۱]

منابع[ویرایش]

This article "بررسی Mean field approximation" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:بررسی Mean field approximation. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.