دانلود پاورپوینت یادگیری تقویتی
نوع فایل:power point
قابل ویرایش:23 اسلاید
قسمتی از اسلایدها:
یادگیری تقویتی میتواند کار بسیار سختی باشدزیرا عامل در مقابل کاری که انجام میدهد پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.
برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را هدایت نماید در هر لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید، عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
در اینجا Dynamic Programming با معرفی دو اصل ساده سعی در ارائه راه حل مینماید:
اگر عملی انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل باید یاد بگیرد که در دفعات بعدی در حالت مشابه آن عمل را تکرار نکند.لذا عامل باید از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
اگر عملی در یک موقعیت خاص منجر به نتیجه بدی شد، باید از قرار گرفتن در آن موقعیت پرهیز نمود.بنا بر این اگر قرار گرفتن در جهت و موقعیت خاصی منجر به سقوط هواپیما میشود، عامل یاد میگیرد که از انجام عملیاتی که منجر به قرار گرفتن هواپیما در چنین شرائطی میگردند پرهیر نماید.
فهرست مطالب واسلایدها:
یادگیری تقویتی
مقایسه RL با یادگیری با ناظر
Dynamic Programming
اجزا یک سیستم یادگیری تقویتی
The Environment
Markov Decision Processes (MDPs)
مدلهای عملکرد بهینه
یادگیری خط مشی
Value Function
مثال
Approximating the Value Function
نوع فایل:power point
قابل ویرایش:23 اسلاید
قسمتی از اسلایدها:
یادگیری تقویتی میتواند کار بسیار سختی باشدزیرا عامل در مقابل کاری که انجام میدهد پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.
برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را هدایت نماید در هر لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید، عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
در اینجا Dynamic Programming با معرفی دو اصل ساده سعی در ارائه راه حل مینماید:
اگر عملی انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل باید یاد بگیرد که در دفعات بعدی در حالت مشابه آن عمل را تکرار نکند.لذا عامل باید از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
اگر عملی در یک موقعیت خاص منجر به نتیجه بدی شد، باید از قرار گرفتن در آن موقعیت پرهیز نمود.بنا بر این اگر قرار گرفتن در جهت و موقعیت خاصی منجر به سقوط هواپیما میشود، عامل یاد میگیرد که از انجام عملیاتی که منجر به قرار گرفتن هواپیما در چنین شرائطی میگردند پرهیر نماید.
فهرست مطالب واسلایدها:
یادگیری تقویتی
مقایسه RL با یادگیری با ناظر
Dynamic Programming
اجزا یک سیستم یادگیری تقویتی
The Environment
Markov Decision Processes (MDPs)
مدلهای عملکرد بهینه
یادگیری خط مشی
Value Function
مثال
Approximating the Value Function