مدل مخلوط گوسی
اگر
،
داده مستقل از یک توزیع مخلوط گاوسی با بُعد
باشد و
متغیرهای پنهانِ مسئله باشد که نشان میدهد هر بار داده از کدام یک از توزیعهای گاوسی آمده است، آنگاه رابطه
با
به این شکل خواهد بود (برای سادگی کار تعداد توزیعهای مخلوط گاوسی دو در نظر گرفته شده):[۲]
و
و
و 
هدف یادگیری پارامترهای این دو توزیع و نحوه مخلوط کردن آنهاست یعنی
، تابع درست نمایی برابر است با ;\mathbf {x} )=\prod _{i=1}^{n}\sum _{j=1}^{2}\tau _{j}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})}
.
حال اگر مقادیر متغیرهای پنهان مشخص بود تابع درست نمایی با عبارت پایین برابر میشد:
;\mathbf {x} ,\mathbf {z} )=p(\mathbf {x} ,\mathbf {z} \vert \theta )=\prod _{i=1}^{n}\prod _{j=1}^{2}\ [f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})\tau _{j}]^{\mathbb {I} (z_{i}=j)}}
![{\displaystyle L(\theta ;\mathbf {x} ,\mathbf {z} )=p(\mathbf {x} ,\mathbf {z} \vert \theta )=\prod _{i=1}^{n}\prod _{j=1}^{2}\ [f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})\tau _{j}]^{\mathbb {I} (z_{i}=j)}}](//wikimedia.org/api/rest_v1/media/math/render/svg/5458149fd81e8fd4ae0de612f0f77b8fc849c5fc)
و اگر این عبارت را بسط دهیم به این معادله میرسیم:
;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\}}
![{\displaystyle L(\theta ;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\}}](//wikimedia.org/api/rest_v1/media/math/render/svg/76b4c54295635824a7bb757e6ec2ff3d9bd2db22)
تابع چگالی احتمال توزیع گاوس است و
تابع مشخصه است. در معادله خط قبلی برای هر
دقیقا یک تابع مشخصه یک است و دیگری صفر، یعنی دقیقا برای یکی از
ها
برابر با یک خواهد بود.
مرحله امید ریاضی (E)
طبق قضیه بیز
که همان احتمال شرطی
است به این شکل محاسبه میشود: 
همچنین تابع
الگوریتم به شکل ذیل بدست میآید:
;\mathbf {x} ,\mathbf {Z} )]\\&=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,\mathbf {\theta } ^{(t)}}[\log \prod _{i=1}^{n}L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,\mathbf {\theta } ^{(t)}}[\sum _{i=1}^{n}\log L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\sum _{i=1}^{n}\operatorname {E} _{\mathbf {Z_{i}} |\mathbf {X} ;\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}P(Z_{i}=j|X_{i}=\mathbf {x} _{i};\theta ^{(t)})\log L(\theta _{j};\mathbf {x} _{i},\mathbf {z} _{i})\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\end{aligned}}}
![{\displaystyle {\begin{aligned}Q(\theta |\theta ^{(t)})&=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} ,\mathbf {Z} )]\\&=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,\mathbf {\theta } ^{(t)}}[\log \prod _{i=1}^{n}L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,\mathbf {\theta } ^{(t)}}[\sum _{i=1}^{n}\log L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\sum _{i=1}^{n}\operatorname {E} _{\mathbf {Z_{i}} |\mathbf {X} ;\mathbf {\theta } ^{(t)}}[\log L(\theta ;\mathbf {x} _{i},\mathbf {z} _{i})]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}P(Z_{i}=j|X_{i}=\mathbf {x} _{i};\theta ^{(t)})\log L(\theta _{j};\mathbf {x} _{i},\mathbf {z} _{i})\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\end{aligned}}}](//wikimedia.org/api/rest_v1/media/math/render/svg/39c5c2bcc2b487c9ddc47e807c9a1903d522c862)
امید ریاضی ;\mathbf {x} _{i},\mathbf {z} _{i})}
در معادله بالا نسبت به توزیع احتمال مشروط
یعنی
گرفته می شود. این احتمال برای هر
میتواند مقداری متفاوت داشته باشد.
مرحله بیشینهسازی (M)
![{\displaystyle {\begin{aligned}{\boldsymbol {\tau }}^{(t+1)}&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ Q(\theta |\theta ^{(t)})\\&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ \left\{\left[\sum _{i=1}^{n}T_{1,i}^{(t)}\right]\log \tau _{1}+\left[\sum _{i=1}^{n}T_{2,i}^{(t)}\right]\log \tau _{2}\right\}\end{aligned}}}](//wikimedia.org/api/rest_v1/media/math/render/svg/e33a45f0e2590812a2187f95bb704a9290be4978)


بر طبق برآورد درست نمایی بیشنه توزیع گاوسی، مقادیر میانگین و کوواریانس را به این شکل محاسبه میکنیم:
و
و
و 
پایان الگوریتم
مراحل E و M را بهصورت متناوب آنقدر اجرا میکنیم تا جایی که میزان افزایش تابع امید ریاضی مشروط از یک حد از پیش تعیین شدهای مانند
بیشتر نشود، به زبان ریاضی یعنی زمانی که نابرابری پایین صدق کند.
![{\displaystyle E_{Z|\theta ^{(t)},\mathbf {x} }[\log L(\theta ^{(t)};\mathbf {x} ,\mathbf {Z} )]\leq E_{Z|\theta ^{(t-1)},\mathbf {x} }[\log L(\theta ^{(t-1)};\mathbf {x} ,\mathbf {Z} )]+\epsilon }](//wikimedia.org/api/rest_v1/media/math/render/svg/86a3839d8b68da6b41cc07955e4432f9ff2b8a8a)