loading...
فایلینا
عباس بازدید : 171 جمعه 07 خرداد 1395 نظرات (0)
دانلود پروژه مطالعاتی درس یادگیری ماشین با عنوان یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل
دسته بندی مهندسی نرم افزار
   
فرمت فایل doc
حجم فایل 651 کیلو بایت
تعداد صفحات فایل 37

دانلود پروژه مطالعاتی درس یادگیری ماشین

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

چکیده :
حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف ، از خود نشان می دهند.آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند.آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

•با ناظر
•بی ناظر
•تقویتی
در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود.در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا ... بازسازی کند.و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.
کلمات کلیدی:

یادگیری ماشین

یادگیری تقویتی

الگوریتم های یادگیری

مسائل یادگیری تقویتی

مقدمه:
در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را بری رسیدن به هدف انتخاب نمید
یادگیری تقویتی از ینرو مورد توجه است که راهی بری آموزش عاملها بری انجام یک عمل از طریق دادن پاداش و تنبیه است
بدون ینکه لازم باشد نحوه انجام عمل را بری عامل مشخص نمائیم.
دو استراتژی اصلی بری ینکار وجود دارد:
•1.یکی استفاده از الگوریتم هی ژنتیکی
•2.و دیگری استفاده از روشهی آماری و dynamic programming
محیط مجموعه ی از S حالت ممکن است.
در هر لحظه t عامل میتواند یکی از A عمل ممکن را انجام دهد.
عامل ممکن است در مقابل عمل و یا مجموعه ی از اعمالی که انجام میدهد پاداش r را دریافت کند. ین پاداش ممکن است مثبت و یا منفی )تنبیه(باشد
عامل در محیط حرکت کرده و حالتها و پاداشهی مربوطه را به خاطر می سپارد.
عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نمید.
پاداش Rt مجموع پاداشی است که عامل با گذشت زمانt جمع کرده است.
فهرست مطالب

•معرفی یادگیری تقویتی

•برنامه نویسی پویا

•اجزا یک سیستم یادگیری تقویتی

oمحیط
oتابع پاداش
oتابع مقدار
•Q-Learning
oمعرفی
oالگوریتم یادگیری
oمثالی از یک عامل
oاثبات همگرایی
oیادگیری Q برای MDP غیرقطعی

•روش های مونت کارلو در یادگیری تقویتی

oویژگیها

oسیاست first visit MC

oکنترل مونت کارلو

oهمگرایی مونت کارلو

oon line policy و off line policy
•منابع
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • آرشیو
    آمار سایت
  • کل مطالب : 1201
  • کل نظرات : 24
  • افراد آنلاین : 18
  • تعداد اعضا : 5
  • آی پی امروز : 128
  • آی پی دیروز : 73
  • بازدید امروز : 226
  • باردید دیروز : 158
  • گوگل امروز : 0
  • گوگل دیروز : 2
  • بازدید هفته : 621
  • بازدید ماه : 621
  • بازدید سال : 20,485
  • بازدید کلی : 492,503
  • کدهای اختصاصی