خانم زهرا جلالیان دانشجوی دکترای آقای دکتر محسن شریفی روز یکشنبه مورخ 1401/08/22 ساعت 18:30 از رساله دکتری خود با عنوان "زمانبندی خودمختار وظایف در سامانههای توزیعی پردازش سریع دادهها
"دفاع خواهند نمود. |
ارائه دهنده:
زهرا جلالیان
استاد راهنما:
دکتر
محسن شریفی
هیات داوران:
دکتر ناصر یزدانی ؛ دکتر میرمحسن پدرام؛ دکتربهروز مینایی؛ دکتر محمد عبدالهی ازگمی
زمان : 22 آبان ماه 1401
ساعت 18:30
چکیده پایان نامه :
با توجه به رشد سریع تولید و انتشار دادههای حجیم از منابع مختلف، ناگزیر سرعت پردازش دادهها نیز باید افزایش یابد. در سیستمهای توزیعی پردازش دادههای حجیم مانند محاسبات ابری، تخصیص مجموعه بزرگی از وظایف گوناگون به تعداد زیادی از گرههای محاسباتی )که ممکن است ناهمسان هم باشند) به عهده زمانبند وظایف است. انتخاب گره محاسباتی توسط زمانبند جهت ارسال و اجرای وظیفه، باید درراستای تامین اهداف متعددی (مانند بهرهوری منابع، کاهش زمان اجرای مجموعهای از وظایف، کاهش تبادل داده بین گرههای پردازشی و تعادل بار بین گرههای محاسباتی) صورت پذیرد. امروزه تلاش میشود که زمانبندها به قسمت اعظمی از این اهداف دست یابند. راهبردهای زمانبندی که سعی دارند در یک مرحله به این اهداف دست یابند، عملکرد ضعیفتری نسبت به راهبردهای چند مرحلهای دارند. دراین رساله یک طرح پردازش سریع دادههای حجیم، به منظور دستیابی به عملکرد بهتر درجهت نیل به اهداف ذکرشده ارائه میشود. با استفاده از منابع مورد نیاز وظایف که در اجراهای قبلی به دست آمده و الگوریتم خوشه بندیk-means درکنار یک معادله تعادل بار برای افزایش کارایی منابع در مرحله اول، و سپس با بکارگیری الگوریتم تکامل تفاضلی برای کاهش زمان اجرای خوشهها، یک طرح زمانبند وظیفه چند منظوره سلسله مراتبی پیشنهاد میگردد. به منظور بهرهوری بهتر منابع، از حالت پویای گرههای محاسباتی جهت ارسال خوشه وظایف استفاده میشود. همچنین با ارسال وظایف متوالی مرتبط به یک گره محاسباتی، از انتقال دادهها بین گرههای محاسباتی خودداری میشود. طرح پیشنهادی در نرمافزارCloudsim، شبیهسازی و مورد آزمایش قرار گرفته است. در این آزمایشات طرح پیشنهادی در مقایسه با رویکرد یادگیری تقویت کننده Mai و روش اجرای موازی Bugerya، تقریباً 10% کاهش زمان اجرای مجموعه وظایف و 4% افزایش کارایی پردازشگر را نشان می دهد. هزینه انتقال اطلاعات بین وظایف متوالی نیز در مقایسه با دیگر روشها 10% کاهش داشتهاست. با توجه به نتایج حاصل و این واقعیت که طرح زمانبندی وظایف پیشنهادی که از روش iHadoop برای اجرای موازی الهام گرفته، برای استفاده در سیستم های توزیعی پردازش دادههای حجیم مناسبتر است. اطلاعات مربوط به اجرای قبلی وظایف و وضعیت فعلی گره های محاسباتی، در نگاشت کارآمد وظایف به گرههای محاسباتی بسیار تأثیرگذار است. در ادامه طرح پیشنهادی، پیشبینی میزان منابع مورد نیاز وظایف جهت اجرا و ظرفیتهای موجود در گرههای محاسباتی می تواند در انتخاب بهینه گرههای محاسباتی و در نتیجه پردازش سریعتر دادهها مفید باشد.
Abstract:
The rapid growth of the production and dissemination of big data from various sources indicates the need for increased speed of data processing. In big data processing distribution systems such as cloud computing, assigning an immense set of various tasks to an enormous number of computing nodes (which may be heterogeneous) is the responsibility of the task scheduler. The selection of the computing node by the scheduler to send and execute the task should be aimed at fulfilling several goals (e.g., resource efficiency, reducing the time of executing a set of tasks, reducing data exchange between processing nodes, and balancing the load between computing nodes). Nowadays, achieving as many of the mentioned goals by the schedulers is developers’ biggest challenge. Scheduling strategies trying to achieve these goals in one step have significantly weaker performance than multi-step strategies. The main purpose of this dissertation is to present a scheme for fast big data processing in order to achieve better performance in fulfilling the mentioned goals. A scheme hierarchical multitasking scheduler is proposed by assessing the required resources of the tasks obtained in the previous executions, the k-means clustering algorithm, along with a load balance equation to increase the efficiency of the resources in the first stage, and then by using the differential evolution algorithm to reduce the execution time of the clusters. In order to improve the efficiency of resources, the dynamic status of computing nodes is used to send clusters of tasks. Additionally, by sending consecutive tasks related to a computing node, data transfer between computing nodes is avoided. The proposed scheme has been implemented and tested in Java programming language, and later on, employed in the CloudSim software. In our tests, the proposed scheme showed approximately a 10% reduction in task set execution time and a 4% increase in processor efficiency, in comparison with Mai's reinforcement learning approach and Bugerya's parallel execution method. The cost of transferring information between consecutive tasks also decreased by 10% compared to other methods. According to the results, the proposed task scheduling scheme inspired by the iHadoop method for parallel execution is more suitable for use in big data processing distribution systems. The information regarding the previous execution of the tasks and the current status of the computing nodes is crucially effective in the efficient mapping of the tasks to the computing nodes. In the continuation of the proposed scheme, predicting the number of resources required for the execution of the tasks and the available capacities in the computing nodes can be beneficial in the optimal selection of computing nodes and as a result, faster data processing.
Keywords: Fast big data processing, task scheduling, task clustering, optimal tasks assignment.
محل برگزاری:
اتاق دفاع طبقه سوم
|