[صفحه اصلی ]    
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش و اطلاعیه دفاعیه ها::
امور فرهنگی::
امور پژوهشی::
اخبار و رویدادهای دانشکده::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
تماس با ما::
::
ورود به سایت دروس
دانشجویان روزانه و پردیس
دانشجویان مرکز آموزش الکترونیکی
..
اطلاعیه ها
 اطلاعیه های آموزشی
..
فراخوان ها
فراخوان های همکاری با صنعت و سازمان ها
..
دفاعیه‌ها

دفاعیه های دکتری


دفاعیه های کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: بهزاد غضنفری - 23/12/90 ::
 | تاریخ ارسال: 1390/12/16 | 

AWT IMAGE

آقای بهزاد غضنفری دانشجوی کارشناسی ارشد جناب آقایان دکتر ناصر مزینی و دکتر محمدرضا جاهد مطلق روز سه شنبه 23/12/90 ساعت8 صبح در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان استفاده از زیراهداف برای بهبود یادگیری تقویتی در سیستم های چندعامله دفاع خواهند نمود.

 

  چکیده پایان نامه:

یادگیری تقویتی(RL) را می­توان به این شکل تعریف کرد کهعامل بر اساس آزمایش و خطا درصدد است که چه اقدام­هایی را انجام دهد به گونه­ای که مجموع سیگنال­های پاداش عددی که دریافت می­کند، ماکزیمم شود. دو مشخصه «جستجوی مبتنی بر آزمایش و خطا، و پاداش تأخیر یافته» از مهم‌ترین ویژگی­های متمایز کننده یادگیری تقویتی از سایر روش­هاییادگیری هستند.

یادگیری تقویتی دارای مشکل مقیاس پذیری در محیط­های با ابعاد بالا است به عبارت دیگر برای عامل یادگیری تقویتی مسئله نفرین ابعاد (معضل ابعاد بالا) وجود دارد. یکی از راهکار­های مقابله با این چالش استفاده از یادگیری تقویتی سلسله مراتبی و چارچوب SMDP است. یک مسئله اصلی در یادگیری تقویتی سلسله مراتبی ایجاد اقدامات بسط داده شده زمانی یا چگونگی شکستن وظیفه اصلی به زیر وظایف به صورت اتوماتیک است. برای ایجاد اقدامات گسترش داده شده زمانی نیاز به تعیین زیر اهداف داریم. اینکه زیر اهداف به صورت اتوماتیک در مسائل مختلف تعیین شوند، یک چالش جدی برای یادگیری تقویتی است. تشخیص دقیق آن‌ها نقش بسزایی در بالا بردن سرعت همگرایی به خط مشی بهینه و کارایی انتقال دانش را دارد.

برای استخراج گذرگاه­ها در یادگیری تقویتی تاکنون روش‌های گوناگونی مطرح شده است. این روش‌هاعموماً دارای پیچیدگی زمانی بالا و هم چنین نیازمند دانش طراح هستند تا بتوانند گذرگاه‌ها را استخراج کنند. علاوه بر این، برای اینکه بتوانند گذرگاه‌ها را استخراج کنند نیازمند رعایت شرط‌هایی در محیط هستند. در یادگیری تقویتی از آنجایی که تاکید زیادی بر ناشناخته بودن محیط و کمک نگرفتن از طراح وجود دارد سعی بر این است که تا حد ممکن نیاز به دانش قبلی را کاهش دهیم (خود مختاری عامل را تقویت کنیم). علاوه بر این، هر چه وابستگی الگوریتم به نوع و خواص محیط کاهش پیدا کند، الگوریتم‌های مقاومی را در حقیقت ایجاد کرده‌ایم.

تعداد محدودی از روش‌هایی که تاکنون ارائه شده‌اند قادر به استخراج هر دو نوع گذرگاه­های ارزش و ساختار در شیوه های غیر همزمان و همزمان هستند. روش ارائه شده با پیش فرض‌هایی بر روی خواص حالات محیط و تأثیر اقدامات عامل-الگوی مشابهی برای فضای حالت در تأثیر اقدامات عامل وجود داشته باشد- کاهش قابل ملاحظه ای در پیچیدگی محاسباتی و بالا بردن دقت تشخیص گذرگاه­ها موجب می‌شود. تأثیرات دقت تشخیص در نمودارهایی با بعضی از روش‌های مطرحی که تاکنون ارائه شده‌اند، نشان داده شده است. منطقی به نظر می‌رسد نیاز به رعایت این پیش­فرض با ارائه الگوریتم‌هایی که این خاصیت را در حالت‌ها ارزیابی و استنتاج می‌کنند، می‌تواند رفع شود. زیر اهداف استخراج شده در گام بعد در سیستم‌های چند عاملی همکار مورد استفاده قرار می‌گیرند و نقش آن‌ها در سرعت همگرایی و کاهش تعداد اقدامات مورد نیاز برای عامل بررسی می­شود.

Abstract:

This thesis proposes a new method for automatically creating temporally extended actions for improving reinforcement learning through an agent’s interactions with its environment. The agent extracts specific objects as landmarks and creates a map of environment which constitutes of objects in multi-level abstraction via clustering and hierarchical object recognition. Bottlenecks are considered as the states between landmarks if landmarks have a close distance in action space. The proposed method is inspired by animal navigation and their behaviour. The concept of detecting bottlenecks is carried out in an automatic manner.Effectiveness using the extracted temporally extended actions are checked in single agent and multiagent systems. Experimental results show a considerable improvement in reinforcement learning process in comparison with other similar methods.

 

  ارائه­دهنده:

بهزاد غضنفری

  اساتید راهنما:

  دکتر ناصر مزینی - دکتر محمدرضا جاهد مطلق

  استاد ممتحن داخلی : دکتر محمدرضا کنگاوری

  استاد ممتحن خارجی :دکتر نیلی

  زمان : سه شنبه 23 اسفندماه

  ساعت 8 صبح

  مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- دفاعیه

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

دفعات مشاهده: 4115 بار   |   دفعات چاپ: 821 بار   |   دفعات ارسال به دیگران: 70 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
data
Persian site map - English site map - Created in 0.18 seconds with 55 queries by YEKTAWEB 4709