
آقای بهزاد غضنفری دانشجوی کارشناسی ارشد جناب آقایان دکتر ناصر مزینی و دکتر محمدرضا جاهد مطلق روز سه شنبه 23/12/90 ساعت8 صبح در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان استفاده از زیراهداف برای بهبود یادگیری تقویتی در سیستم های چندعامله دفاع خواهند نمود. چکیده پایان نامه: یادگیری تقویتی(RL) را میتوان به این شکل تعریف کرد کهعامل بر اساس آزمایش و خطا درصدد است که چه اقدامهایی را انجام دهد به گونهای که مجموع سیگنالهای پاداش عددی که دریافت میکند، ماکزیمم شود. دو مشخصه «جستجوی مبتنی بر آزمایش و خطا، و پاداش تأخیر یافته» از مهمترین ویژگیهای متمایز کننده یادگیری تقویتی از سایر روشهاییادگیری هستند. یادگیری تقویتی دارای مشکل مقیاس پذیری در محیطهای با ابعاد بالا است به عبارت دیگر برای عامل یادگیری تقویتی مسئله نفرین ابعاد (معضل ابعاد بالا) وجود دارد. یکی از راهکارهای مقابله با این چالش استفاده از یادگیری تقویتی سلسله مراتبی و چارچوب SMDP است. یک مسئله اصلی در یادگیری تقویتی سلسله مراتبی ایجاد اقدامات بسط داده شده زمانی یا چگونگی شکستن وظیفه اصلی به زیر وظایف به صورت اتوماتیک است. برای ایجاد اقدامات گسترش داده شده زمانی نیاز به تعیین زیر اهداف داریم. اینکه زیر اهداف به صورت اتوماتیک در مسائل مختلف تعیین شوند، یک چالش جدی برای یادگیری تقویتی است. تشخیص دقیق آنها نقش بسزایی در بالا بردن سرعت همگرایی به خط مشی بهینه و کارایی انتقال دانش را دارد. برای استخراج گذرگاهها در یادگیری تقویتی تاکنون روشهای گوناگونی مطرح شده است. این روشهاعموماً دارای پیچیدگی زمانی بالا و هم چنین نیازمند دانش طراح هستند تا بتوانند گذرگاهها را استخراج کنند. علاوه بر این، برای اینکه بتوانند گذرگاهها را استخراج کنند نیازمند رعایت شرطهایی در محیط هستند. در یادگیری تقویتی از آنجایی که تاکید زیادی بر ناشناخته بودن محیط و کمک نگرفتن از طراح وجود دارد سعی بر این است که تا حد ممکن نیاز به دانش قبلی را کاهش دهیم (خود مختاری عامل را تقویت کنیم). علاوه بر این، هر چه وابستگی الگوریتم به نوع و خواص محیط کاهش پیدا کند، الگوریتمهای مقاومی را در حقیقت ایجاد کردهایم. تعداد محدودی از روشهایی که تاکنون ارائه شدهاند قادر به استخراج هر دو نوع گذرگاههای ارزش و ساختار در شیوه های غیر همزمان و همزمان هستند. روش ارائه شده با پیش فرضهایی بر روی خواص حالات محیط و تأثیر اقدامات عامل-الگوی مشابهی برای فضای حالت در تأثیر اقدامات عامل وجود داشته باشد- کاهش قابل ملاحظه ای در پیچیدگی محاسباتی و بالا بردن دقت تشخیص گذرگاهها موجب میشود. تأثیرات دقت تشخیص در نمودارهایی با بعضی از روشهای مطرحی که تاکنون ارائه شدهاند، نشان داده شده است. منطقی به نظر میرسد نیاز به رعایت این پیشفرض با ارائه الگوریتمهایی که این خاصیت را در حالتها ارزیابی و استنتاج میکنند، میتواند رفع شود. زیر اهداف استخراج شده در گام بعد در سیستمهای چند عاملی همکار مورد استفاده قرار میگیرند و نقش آنها در سرعت همگرایی و کاهش تعداد اقدامات مورد نیاز برای عامل بررسی میشود.
Abstract: This thesis proposes a new method for automatically creating temporally extended actions for improving reinforcement learning through an agent’s interactions with its environment. The agent extracts specific objects as landmarks and creates a map of environment which constitutes of objects in multi-level abstraction via clustering and hierarchical object recognition. Bottlenecks are considered as the states between landmarks if landmarks have a close distance in action space. The proposed method is inspired by animal navigation and their behaviour. The concept of detecting bottlenecks is carried out in an automatic manner.Effectiveness using the extracted temporally extended actions are checked in single agent and multiagent systems. Experimental results show a considerable improvement in reinforcement learning process in comparison with other similar methods. ارائهدهنده: بهزاد غضنفری اساتید راهنما: دکتر ناصر مزینی - دکتر محمدرضا جاهد مطلق استاد ممتحن داخلی : دکتر محمدرضا کنگاوری استاد ممتحن خارجی :دکتر نیلی زمان : سه شنبه 23 اسفندماه ساعت 8 صبح مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- دفاعیه از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |