MatlabTips

320 viewsRohola Zandie, 22:55

فرض کنید مجموعه از نقاط به شکل بالا داریم که داده های ما هستند. این داده ها دارای یک متغیر مستقل یعنی x و یک متغیر وابسته یعنی y هستند. این داده ها از چه مدلی یا توزیعی پیروی میکنند؟ می توان سه حالت در نظر گرفت. حالت اول یک فرضیه بسیار ساده است. یعنی فرض کنیم که داده ها از یک رابطه خطی بین متغیر اول و دوم آمده باشند(شکل اول سمت چپ). و عدم تبعیت هم صرفا یک نویز است. اما مشاهده میکنید که خطای این مدل خیلی بالاست. حالت دوم یک مدل بسیار پیچیده است. در این حالت خطا صفر است! اما این مدل آنقدر پیچیده شده که با دیدن داده های جدید نمی تواند آن را توضیح دهد و نیاز دارد که باز هم داستان جدید برای آن درست کند. در نهایت شکل سوم از سمت چپ یک مصالحه بین پیچیدگی و دقت انجام داده است.
پیچیدگی در این حالت می تواند به طول کوتاه ترین برنامه تعبیر شود که یک چند جمله ای را تولید میکند. طول این برنامه متناظر با درجه چند جمله ای است. حالت اول خطی است پس یک پارامتر دارد. حالت دوم درجه بالایی دارد(مثلا ۲۰) و سومی میانه است(درجه چهارم).
در هر کدام از حالت ها فرضیه به ما کمک میکند تا داده ها را فشرده تر توضیح دهیم. اگر شما یک پارامتر داشته باشید می توانید قدری داده ها را فشرده تر توضیح دهید اما با بیست پارامتر توضیح داده ها بسیار فشرده تر می شود اما مشکل، بزرگ شدن خود مدل است. پس ما دو اندازه داریم که میخواهیم همزمان کوچک کنیم:
۱- طول داده ها به کمک فرضیه (L(D|H
۲- طول فرضیه L(H)
که در اینجا L تابعی است که طول داده یا فرضیه را به بیت محاسبه می کند D داده و H‌ فرضیه است. فرضیه ای که مطابقت خوبی با داده ها داشته باشد به ما کمک می کند که داده ها را بیشتر فشرده کنیم. مثلا فرضیه ای که می گوید حروف زبان همه با یک احتمال ظاهر می شود یک فرضیه فوق العاده ساده(L(H) کوتاه) ولی بدون قدرت فشرده سازی است(L(D|H) بسیار بلند) اما فرضیه اینکه حروف زبان دارای توزیع مشخصی هستند که در ان "آ" دارای بیشترین احتمال و "ژ" دارای کمترین احتمال است، به ما کمک کرد که داده ها را فشرده تر کنیم. و درنهایت مدلی که در ذهن یک انسان از زبان وجود دارد دارای بیشترین قدرت فشرده سازی است!

در مثال بالا برای خط، L(H1) کوتاه است (یک فرضیه ساده با یک پارامتر) ولی L(D|H1)‌ بلند است! چون فقط با این فرضیه نمی توان خیلی در مورد داده توضیح داده و آن را فشرده کرد.
برای دومین فرضیه L(H3) بسیار طولانی است(یک فرضیه پیچیده با تعداد زیادی پارامتر) اما L(D|H3) کوتاه است. این فرضیه کاملا بر داده های مشاهداتی منطبق است. اما دقت کنید این باعث می شود مدل نتواند داده های جدید را خوب توضیح دهد! انگار مدل فقط داده های موجود را به خاطر سپرده است.
و برای سومین حالت L(H2) و L(D|H2) هر دو متوسط هستند

331 viewsRohola Zandie, 22:56