فایل ورد کامل جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی


در حال بارگذاری
10 جولای 2025
پاورپوینت
17870
3 بازدید
۷۹,۷۰۰ تومان
خرید

توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد

این مقاله، ترجمه شده یک مقاله مرجع و معتبر انگلیسی می باشد که به صورت بسیار عالی توسط متخصصین این رشته ترجمه شده است و به صورت فایل ورد (microsoft word) ارائه می گردد

متن داخلی مقاله بسیار عالی، پر محتوا و قابل درک می باشد و شما از استفاده ی آن بسیار لذت خواهید برد. ما عالی بودن این مقاله را تضمین می کنیم

فایل ورد این مقاله بسیار خوب تایپ شده و قابل کپی و ویرایش می باشد و تنظیمات آن نیز به صورت عالی انجام شده است؛ به همراه فایل ورد این مقاله یک فایل پاور پوینت نیز به شما ارئه خواهد شد که دارای یک قالب بسیار زیبا و تنظیمات نمایشی متعدد می باشد

توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل می باشد و در فایل اصلی فایل ورد کامل جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی،به هیچ وجه بهم ریختگی وجود ندارد

تعداد صفحات این فایل: ۲۶ صفحه


بخشی از ترجمه :

چکیده

یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.

 

۸- جمع بندی
ما استفاده از برنامه ریزی مونته کارلو برای حل کردن یادگیری تقویتی بیزی به صورت آنلاین را بررسی کردیم.. استفاده از شبیه سازی های مونته کارلو ، مانع ایجاد شدن یک منبع عدم قابلیت ردگیری در حالت آفلاین میشود. روش های یادیگری تقویت بایزی – رشد نمایی نماینده ی تابع مقدار با افق مسئله دیده میشود. ما علاوه بر این پیشنهاد میکنیم که از ترکیب های تو در تو مدل های پیوسته به عنوان یک روش برای افزایش مقاومت در روش ، زمانی که ساختار فضای پارامتر ها به خوبی مشخص نیست، استفاده شود. نتایج در این زمینه نشان میدهد که این روش عملکرد بهتری دارد و به صورت محسوس مقیاس پذیری را نسبت به حل کننده های فعلی، بهبود یدهد.
ما همچنین استفاده از روش MDP های یادگیری را بررسی کرده ایم. توسعه ی این روش برای یادگیری های POMDP ها بسیار جالب میباشد. کمبود نمایش باور های فشرده، به نظر برای توسعه ی روش های ما بر روی POMDP یک مانع میباشد. ممکن است بررسی روش های تخمینی ماند فیلتر های ذرات برای نمایش باور ها در این مسئله، از نظر مطالعات آتی میتواند جذاب باشد.

عنوان انگلیسی:Monte-Carlo tree search for Bayesian reinforcement learning~~en~~

Abstract

Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.

 

۸ Conclusion

We examined the use of partially observable Monte-Carlo planning for online solving of Bayesian reinforcement learning problems. The use of online Monte-Carlo simulation avoids one source of intractability in offline Bayesian reinforcement learning methods—the exponential growth of the value function representation with time horizon. We further propose the use of a nested mixture of tied models as a method for increasing the robustness of the method when the structure of the parameter space is not known well. Experiments show that the method performs well and substantially increases the scalability of current solvers. We have only studied the use of the method for learning MDPs. It would be interesting to extend the method to learning POMDPs. The lack of a compact representation of beliefs appears to be one obstacle for extending the method to POMDPs. It may be interesting to examine approximate methods such as particle filters for belief representation in these problems.

$$en!!

  راهنمای خرید:
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.