
آقای علی هادیان دانشجوی کارشناسی ارشد جناب آقای دکتر بهروز مینایی روز سه شنبه 30/8/91 ساعت 10 در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان شناسایی و حذف صفحات هرز به صورت شخصی شده دفاع خواهند نمود. چکیده پایان نامه: شناسایی صفحات هرز یکی از مهمترین مسائل مطرح برای موتورهای جستجو است. این صفحات با هدف فریب الگوریتمهای رتبهبندی موتورهای جستجو و حضور در لیست اولین نتایج آن طراحی شدهاند. از این رو، وجود پالایه هرزیاب در موتورهای جستجو میتواند کیفیت نتایج جستجو را به نحو موثری بهبود داده و از هدر رفتن منابع جلوگیری کند. در این پروژه، یک سامانه برای پالایش موثر صفحات هرز در موتور جستجو پیشنهاد شده است. این پالایه میتواند پس از دریافت هر صفحه بر روی آن اعمال شود و از این رو کاملاً مقیاسپذیر است. در ابتدا، فرآیند تهیه دادگان اولیه با برچسبگذاری صفحات هرز و غیر هرز از بین نتایج جستجوهای کاربران انجام میشود. این کار باعث میشود که دادههای آموزشی حتیالامکان به دادههای مورد ارزیابی نزدیک باشند. همچنین به منظور بهبود کیفیت مجموعه آموزشی و عملکرد کاربران، یک روش سریع برای حذف نتایج تقریباً مشابه از لیست نتایج با پردازش متن اسنیپت پیشنهاد شده است. در ادامه، یک پالایه دو مرحلهای برای شناسایی صفحات هرز ارائه شده است. در این پالایه، مناسبترین روشهای مطرح در این حوزه انتخاب شده و به عنوان ردهبندهای پایه مورد استفاده قرار گرفتهاند. سپس یک مدل تجمیعی برای ادغام نتایج این ردهبندها و اعلام پیشبینی نهایی پیشنهاد شده است. خروجی نهایی این سامانه در مقایسه با مدلهای پایه افزایش قابل توجهی داشته است. با توجه به کیفیت متفاوت نظرات کاربران، جمعآوری مجموعه آموزشی برای سامانه هرزیاب، سختترین مرحله کار محسوب میشود. مشابه کارهای قبلی، در این پروژه نیز کیفیت همه نمونهها در دادگان اولیه مناسب نبود. از این رو یک روش مبتنی بر سنجش اشخاص (شخصیسازی) برای ساخت دادگان با کیفیت بهتر پیشنهاد شده است. به همین منظور، از ضریب کاپای کوهن برای سنجش میزان توافق کاربران با یکدیگر در برچسبگذاری صفحات بهره جسته و از میانگین مقدار این ضریب برای هر کاربر به عنوان تخمینی برای کیفیت خروجی آن کاربر استفاده شده است. با حذف کاربرانی که کمترین توافق را با سایر کاربران داشتهاند، کیفیت عملکرد سیستم در مقایسه با حالت قبلی (سامانه پیشنهادی در حالت پایه) بهبود قابل توجهی داشته است. واژههای کلیدی: بازیابی خصمانه اطلاعات، شناسایی صفحات هرز، شخصیسازی
: Abstract Web spam detection is a major challenge for search engines. Spam pages are designed to deceive ranking algorithms in search engines and appear among the top search results. Therefore, having a spam filter can effectively improve the quality of results, and prevent wasting of resources. In this project, a system is proposed to effectively filter the spam pages in search engines. This filter can be applied to a page after the page is downloaded, making it very scalable. At first, a dataset is made by labeling spam and non-spam pages in the results of some queries. It will make the trainint set instances to be similar to the evaluated test pages. Also, a fast near-duplicate detection method using snippet text is proposed to remove duplicated results and improve the quality of labels. In the next phase, a two-stage filter is proposed for spam filtering. This filter makes use of state-of-the-art methods in the literature as the base classifiers. Then, an ensemble model is proposed to merge the classifier outputs and generate final prediction. The quality of the system is improved, comparing to the base classifiers. Due to the various qualities of user labels, preparing a training set is the hardest part of this task. Similar to previous works, not all of the labels had enough quality. In order to make cleaner training data, a personalized method is proposed. Cohen’s kappa coefficient is used to evaluate the inter-rater agreement among the labeling users, and the average of this coefficient for each user is introduced to estimate the quality of the user. By removing the lables assigned by low-kappa users, the overall results have improved, comparing to the system that is trained by all non-filtered dataset. Keywords: Adversarial Information Retrieval, Web Spam Detection, Personalization. ارائهدهنده: علی هادیان مهندسی کامپیوتر- نرم افزار استاد راهنما: دکتر بهروز مینایی استاد ممتحن داخلی : دکتر احمد اکبری استاد ممتحن خارجی :دکتر مسعود رهگذر زمان : سه شنبه 30 آبان ساعت 10 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق دفاعیه از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |