پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint
توجه : این فایل به صورت فایل power point (پاور پوینت) ارائه میگردد
پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint دارای ۸۶ اسلاید می باشد و دارای تنظیمات کامل در PowerPoint می باشد و آماده ارائه یا چاپ است
شما با استفاده ازاین پاورپوینت میتوانید یک ارائه بسیارعالی و با شکوهی داشته باشید و همه حاضرین با اشتیاق به مطالب شما گوش خواهند داد.
لطفا نگران مطالب داخل پاورپوینت نباشید، مطالب داخل اسلاید ها بسیار ساده و قابل درک برای شما می باشد، ما عالی بودن این فایل رو تضمین می کنیم.
توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل می باشد و در فایل اصلی پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint،به هیچ وجه بهم ریختگی وجود ندارد
بخشی از مطالب داخلی اسلاید ها
پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint
اسلاید ۴: ۴مقایسه RL با یادگیری با ناظرپاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint از دو جنبه با یادگیری با ناظر تفاوت دارد:مثالهائی یادگیری بصورت زوج >ورودی/ خروجی< مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود.عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم با عمل یادگیری بطور همزمان صورت می پذیرد.
اسلاید ۵: ۵Supervised Learning:Example ClassReinforcement Learning:Situation RewardSituation Reward…مقایسه RL با یادگیری با ناظر
اسلاید ۶: یادگیری با ناظرSupervised Learning SystemInputsOutputsTraining Info = desired (target) outputsError = (target output – actual output)6
اسلاید ۷: پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPointRLSystemInputsOutputs (“actions”)Training Info = evaluations (“rewards” / “penalties”)هدف: جمع کردن حداکثر پاداش ممکنهیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست.حالت بعدی از روی عمل فعلی تعیین میشود.یادگیری مبتنی بر سعی و خطاست. ۷
اسلاید ۸: مشخصه های اصلی پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPointبه یادگیر گفته نمی شود که چه عملی را باید انجام دهدجستجو بر اساس سعی و خطا انجام میشود. یادگیر سعی میکند اعمالی را یادبگیرد که بیشترین پاداش را تولید میکنند.پاداش از نوع تاخیری است: از اینرو دست آوردهای کوتاه مدت فدای مزایای بلند مدت تر میشوند.باید بین کاوش موارد جدید و استفاده از دانش قبلی تناسب ایجاد نمود. explore or exploitمسئله را بصورت یک عامل هدفمند که با یک محیط نامعین در ارتباط است می بیند.۸
اسلاید ۹: ساختار کلی مسئله پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPointدر یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم:عاملکه قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار بایداعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.محیطبرای محیط باید مشخصه های زیر تعیین شوند:وضعیتپاداشعامل میتواند از طریق ورودیهایش تشخیص دهد که در چه وضعیتی قرار دارد. عامل در وضعیت St عمل at را انجام میدهد. اینکار باعث میشود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل سیگنال reinforcement و یا پاداش rt+1 را از محیط دریافت می نماید.عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر از محیط گردد.۹سیاست
اسلاید ۱۰: ۱۰محیطدر RLعامل یادگیر بطور سعی و خطا با یک محیط پویا درگیر شده و یاد می گیرد که برای هر موقعیت چه عملی را انجام دهد.این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد. (partially observable) مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد.در حالت ایده ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا اغلب تئوریهای مربوطه بر اساس این فرض بنا شده اند.
اسلاید ۱۱: ۱۱محیطمحیط مجموعه ای از S حالت ممکن است.در هر لحظه t عامل میتواند یکی از A عمل ممکن را انجام دهد.عامل ممکن است در مقابل عمل و یا مجموعه ای از اعمالی که انجام میدهد پاداش r را دریافت کند. این پاداش ممکن است مثبت و یا منفی )تنبیه(باشد.در حالت کلی محیط میتواند غیر قطعی (non deterministic) باشد. یعنی انجام یک عمل مشابه در یک وضعیت یکسان به وضعیت بعدی یکسان و یا مقدار پاداش یکسانی منجر نشود.با این وجود محیط بصورت stationary فرض میشود. یعنی احتمال تغییر وضعیت و یا دریافت پاداش در طول زمان یکسان فرض میشود.s9s5s4s2………s3+50-1-1+3r9r5r4r1s1a9a5a4a2…a3a1
اسلاید ۱۲: ۱۲رفتار عاملعامل در محیط حرکت کرده و حالتها و پاداشهای مربوطه را به خاطر می سپارد.عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.s9s5s4s2………s3+50-1-1+3r9r5r4r1s1a9a5a4a2…a3a1
اسلاید ۱۳: ۱۳The Reinforcement Functionدر RLوقتی عامل در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید.یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement functionمناسب با اهداف عامل است. اینکار به طرق مختلف انجام میشود.
اسلاید ۱۴: پاداشاگر دنباله ای از پاداش ها بصورت زیر موجود باشند:عامل باید سعی نماید تا پاداشی را که از محیط دریافت میکند حد اکثر نماید. در واقع امید ریاضی پاداش را به حداکثر میرساند.در بسیاری از مسایل تعامل با محیط بصورت اپیزودی انجام میشود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه می یابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی ( خاتمه اپیزود یادگیری) ST بدست می آید برابر است با:
اسلاید ۱۵: ۱۵در نظر گرفتن پاداشهای آیندهاگر پاداش Rt مجموع پاداشی باشد که عامل با شروع از زمانt میتواند جمع کند به طرق مختلف میتوان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداشهای نزدیکتر ارزش بیشتری داده میشود.+۵۰-۱-۱+۳r9r5r4r1
اسلاید ۱۶: ۱۶مدلهای عملکرد بهینهیکی از نکات مهم در انتخاب عمل نحوه لحاظ کردن رخداد های آینده در تصمیم فعلی عامل است. برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در انتخاب عمل مناسب برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است: finite horizonساده ترین مدل این است که عامل برای انتخاب عمل مقادیر پاداشی را که در h مرحله بعد میگیرد محاسبه نموده و عملی را انتخاب نماید که مجموع پاداش را حداکثر نماید.(discounted cumulative reward) infinite horizonدر این روش بجای h مرحله، پاداش درازمدت دریافتی در نظر گرفته میشود. این روش بسیار مرسوم بوده و به پاداشهائی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداشهای فوری داده میشود.
اسلاید ۱۷: ۱۷مدلهای عملکرد بهینهaverage rewardدر این روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نمیشود.
اسلاید ۱۸: ۱۸خط مشی یا سیاستفرض می کنیم که اعمال عامل از قانونی مثل p تبعیت میکند که آنرا خط مشی و یا policy می نامیم.از آنجائیکه Rt یک متغیر تصادفی است لذا امید ریاضی آن تحت یک خط مشی خاص و برای یک حالت معین برابر خواهد بود با:هدف پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint این است که یک خط مشی بهینه ای مثل p* پیدا نماید به نحویکه مقدار امید ریاضی فوق را برای تمامی حالات ماکزیمم کند.
اسلاید ۱۹: یادگیری خط مشی یا سیاستدر واقع RL سعی دارد عامل را وادار کند در اثر تجربه با محیط سیاست خود را تغییر داده و طوری رفتار نماید که در دراز مدت پاداش بیشتری کسب نماید.
اسلاید ۲۰: الگوریتم کلی پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPointInitialise learner’s internal stateDo forever (!):Observe current state sChoose action a using some evaluation functionExecute action a Let r be immediate reward, s’ new stateUpdate internal state based on s,a,r,s’
اسلاید ۲۱: مثالهدف: پرهیز از افتادنافتادن یعنی:افزایش زاویه میله از یک حد مشخصبرخورد میله با زمینیک اپیزود یادگیری با افتادن میله خاتمه یافته و باید اپیزود بعدی را شروع نمود.reward = +1 for each step before failure-> return = number of steps before failure
اسلاید ۲۲: برخی کاربردهای برتر پاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPointTD-Gammon and Jellyfish Tesauro, DahlWorlds best backgammon playerElevator Control Crites & Barto(Probably) worlds best down-peak elevator controllerJob-Shop Scheduling Zhang & DietterichWorld’s best scheduler of space-shuttle payload processingDynamic Channel Assignment Singh & Bertsekas, Nie & HaykinWorlds best assigner of radio channels to mobile telephone calls22
اسلاید ۲۳: ۲۳فرق پاداش و هدفآیا یک سیگنال عددی میتواند نشاندهنده دقیقی از یک هدف باشد؟ممکن است نباشد! اما در عمل بطرز شگفت آوری خوب عمل کرده است.هدف باید خارج از کنترل عامل باشد.هدف باید آنچه که میخواهیم به آن برسیم را مشخص نماید و اطلاعاتی در مورد نحوه رسیدن به آن را نداشته باشد.عامل باید قادر به اندازه گیری میزان موفقیت خود باشد.
اسلاید ۲۴: ۲۴Dynamic Programmingپاورپوینت کامل یادگیری تقویتی ۸۶ اسلاید در PowerPoint با ترکیب تکنیک Dynamic Programming با یادگیری با کمک ناظر به حل مسئله میپردازد.
اسلاید ۲۵: ۲۵Dynamic programmingبطور کلی کاری که Dynamic programming انجام میدهد عبارت است ازحل یک مسئله چند متغیره از طریق حل مجموعه ای مسائل تک متغیرهمبنای dynamic programming بر پایه اصل بهینگی Bellman بنا شده استRichard Bellman’s Principle of Optimalityاین اصل بسادگی بیان میکند که یک
- همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
- ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
- در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.
مهسا فایل |
سایت دانلود فایل 