دانشگاه علم و صنعت ایران - دانشکده مهندسی کامپیوتر

دانشکده مهندسی کامپیوتر- دفاعیه ارشد

علی هادیان - 30/8/91

حذف تصاویر و رنگ‌ها | تاریخ ارسال: 1391/8/29 |

AWT IMAGE

آقای علی هادیان دانشجوی کارشناسی ارشد جناب آقای دکتر بهروز مینایی روز سه شنبه 30/8/91 ساعت 10 در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان شناسایی و حذف صفحات هرز به صورت شخصی شده دفاع خواهند نمود.

چکیده پایان نامه:

شناسایی صفحات هرز یکی از مهم‌ترین مسائل مطرح برای موتورهای جستجو است. این صفحات با هدف فریب الگوریتم‌های رتبه‌بندی موتورهای جستجو و حضور در لیست اولین نتایج آن طراحی شده‌اند. از این رو، وجود پالایه هرزیاب در موتورهای جستجو می‌تواند کیفیت نتایج جستجو را به نحو موثری بهبود داده و از هدر رفتن منابع جلوگیری کند.

در این پروژه، یک سامانه برای پالایش موثر صفحات هرز در موتور جستجو پیشنهاد شده است. این پالایه می‌تواند پس از دریافت هر صفحه بر روی آن اعمال شود و از این رو کاملاً مقیاس‌پذیر است.

در ابتدا، فرآیند تهیه دادگان اولیه با برچسب‌‌گذاری صفحات هرز و غیر هرز از بین نتایج جستجو‌های کاربران انجام می‌شود. این کار باعث می‌شود که داده‌های آموزشی حتی‌الامکان به داده‌های مورد ارزیابی نزدیک باشند. همچنین به منظور بهبود کیفیت مجموعه آموزشی و عملکرد کاربران، یک روش سریع برای حذف نتایج تقریباً مشابه از لیست نتایج با پردازش متن اسنیپت پیشنهاد شده است.

در ادامه، یک پالایه دو مرحله‌ای برای شناسایی صفحات هرز ارائه شده است. در این پالایه، مناسب‌ترین روش‌‌های مطرح در این حوزه انتخاب شده و به عنوان رده‌بندهای پایه مورد استفاده قرار گرفته‌اند. سپس یک مدل تجمیعی برای ادغام نتایج این رده‌بند‌ها و اعلام پیش‌بینی نهایی پیشنهاد شده است. خروجی نهایی این سامانه در مقایسه با مدل‌‌های پایه افزایش قابل توجهی داشته است.

با توجه به کیفیت متفاوت نظرات کاربران، جمع‌آوری مجموعه آموزشی برای سامانه هرزیاب، سخت‌ترین مرحله کار محسوب می‌شود. مشابه کارهای قبلی، در این پروژه نیز کیفیت همه نمونه‌ها در دادگان اولیه مناسب نبود. از این رو یک روش مبتنی بر سنجش اشخاص (شخصی‌سازی) برای ساخت دادگان با کیفیت بهتر پیشنهاد شده است. به همین منظور، از ضریب کاپای کوهن برای سنجش میزان توافق کاربران با یکدیگر در برچسب‌گذاری صفحات بهره جسته و از میانگین مقدار این ضریب برای هر کاربر به عنوان تخمینی برای کیفیت خروجی آن کاربر استفاده شده است. با حذف کاربرانی که کمترین توافق را با سایر کاربران داشته‌اند، کیفیت عملکرد سیستم در مقایسه با حالت قبلی (سامانه پیشنهادی در حالت پایه) بهبود قابل توجهی داشته است.

واژه‌های کلیدی: بازیابی خصمانه اطلاعات، شناسایی صفحات هرز، شخصی‌سازی

: Abstract

Web spam detection is a major challenge for search engines. Spam pages are designed to deceive ranking algorithms in search engines and appear among the top search results. Therefore, having a spam filter can effectively improve the quality of results, and prevent wasting of resources.

In this project, a system is proposed to effectively filter the spam pages in search engines. This filter can be applied to a page after the page is downloaded, making it very scalable.

At first, a dataset is made by labeling spam and non-spam pages in the results of some queries. It will make the trainint set instances to be similar to the evaluated test pages. Also, a fast near-duplicate detection method using snippet text is proposed to remove duplicated results and improve the quality of labels.

In the next phase, a two-stage filter is proposed for spam filtering. This filter makes use of state-of-the-art methods in the literature as the base classifiers. Then, an ensemble model is proposed to merge the classifier outputs and generate final prediction. The quality of the system is improved, comparing to the base classifiers.

Due to the various qualities of user labels, preparing a training set is the hardest part of this task. Similar to previous works, not all of the labels had enough quality. In order to make cleaner training data, a personalized method is proposed. Cohen’s kappa coefficient is used to evaluate the inter-rater agreement among the labeling users, and the average of this coefficient for each user is introduced to estimate the quality of the user. By removing the lables assigned by low-kappa users, the overall results have improved, comparing to the system that is trained by all non-filtered dataset.

Keywords: Adversarial Information Retrieval, Web Spam Detection, Personalization.

ارائهدهنده:

علی هادیان

مهندسی کامپیوتر- نرم افزار

استاد راهنما:

دکتر بهروز مینایی

استاد ممتحن داخلی : دکتر احمد اکبری

استاد ممتحن خارجی :دکتر مسعود رهگذر

زمان : سه شنبه 30 آبان

ساعت 10 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق دفاعیه

از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://www.iust.ac.ir/find-14.11064.26470.fa.html
برگشت به اصل مطلب