ارائه دهنده:
محمد نظری
استاد راهنما:
دکتر
حسین رحمانی
هیات داوری:
دکتر عین اله خنجری
دکتر محمود نشاطی
زمان:
۱۴۰۱/۰۶/۲۰
ساعت ۱۷:۳۰
دانشجو محمد نظری دانشجوی کارشناسی ارشد آقای دکتر حسین رحمانی روز یکشنبه مورخ ۲۰ شهریور ماه ساعت ۱۷:۳۰ از پروژه کارشناسی ارشد خود تحت عنوان "ردهبندی اسناد با استفاده از مدل موضوع آگاه از زمینه" دفاع خواهند نمود.
چکیده پایان نامه:
حجم دادههای موجود در جهان به صورت روزانه در حال افزایش است. جستجو، فیلتر و پیدا کردن مطالب مورد علاقه کاربران در این فضای عظیم، امری دشوار و چالش برانگیز است. ردهبندی میتواند با کوچککردن فضای جستجو و دستهبندی موضوعات در این زمینه بسیار مفید باشد. امروزه به خصوص با پیشرفتهای اخیر در پردازش زبانهای طبیعی، بسیاری از محققان، اکنون علاقهمند به توسعه برنامههایی هستند که از روشهای ردهبندی متن استفاده میکنند. روشهای مختلفی تا کنون برای ردهبندی اسناد معرفی شده است که میتوان به روشهای سنتی و روشهای مبتنی بر شبکههای عصبی اشاره کرد. در روشهای سنتی به علت بالا بودن ابعاد و تنک بودن بردارهای بازنمایی اسناد، هزینه محاسبات ردهبندها بالا و دقت آنها پایین است. علاوه بر آن در روشهای سنتی ارتباط معنایی بین کلمات در نظر گرفته نمیشود. در روشهای مبتنی بر شبکههای عصبی که به تعبیه کلمات معروف هستند، هر کلمه در ابعاد ثابت بازنمایی میشود. روشهای مبتنی بر تعبیه کلمات و جملات، هنگامی که طول اسناد زیاد باشد، به علت نزدیک شدن بردارها به یکدیگر، تفکیک اسناد با استفاده از معیارهای شباهت دشوار است. از طرف دیگر در این روشها به صورت محلی به کلمات نگاه میکنند و ارتباط سراسری بین کلمات در نظر گرفته نمیشود. بنابراین، ما در این پژوهش یک روش برای ردهبندی اسناد با استفاده از ترکیب LDA و Word۲vec به منظور در نظر گرفتن هر دو ویژگی محلی و هم سراسری کلمات در متن معرفی میکنیم. سپس دادهها را به صورت گراف مدل میکنیم و بعد با استفاده از خودرمزگذار گرافی به ردهبندی دادهها میپردازیم. ما در این پژوهش از مجموعهدادهی خلاصه طرح فیلمها استفاده کردیم تا آنها را براساس ژانرهایشان ردهبندی کنیم. نتایج حاصل از ردهبندی و بررسیهای انجام شده بر روی گراف ساختهشده نشان از برتری مدل معرفی شده نسبت به روشهای قبلی دارد. به طور کلی میتوان گفت که نتایج حاصل از ردهبندی نشان از افزایش ۷ درصدی دقت نسبت به کارهای پیشین دارد. ما همچنین با استفاد از مدل معرفی شده در سیستمهای توصیهگر فیلم باعث رفع مشکل شروع سرد در آنها شدیم.
واژههای کلیدی: متنکاوی، ردهبندی، گراف شباهت، استخراج ویژگی از متن، مدل موضوعی، LDA، Word۲vec
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|