
آقای سید امین منعیان دانشجوی کارشناسی ارشد جناب آقای دکتر بهروز مینایی، روز دوشنبه 18/7/90 ساعت 18 در اتاق 304 واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان خلاصه سازی متون فارسی با استفاده از تحلیل مفهوم نهفته و فاصله نرمال شده گوگلی دفاع خواهند نمود. چکیده پایان نامه: با رشد و گسترش سریع دنیای وب و سرویسهای اطلاعاتی برخط، دادهها و اطلاعات بسیار زیادی در محدوده دسترسی قرار دارند. این رشد بسیار زیاد، منجر به معضل انباشته شدن حجم عظیم اطلاعات شده است. پر واضح است که زمان محدود کاربران برای دسترسی به اطلاعات مورد نیاز، همواره یکی از مسائل مورد توجّه برای تسریع در دستیابی به اطّلاعات به شمار میرود . با درک حساسیت این موضوع، تحقیقات و توسعه دادن سیستمهایی برای خلاصهسازی متون به صورت خودکار، امری است که موجبات تمرکز و سرمایهگذاری بخشهای قابل ملاحظهای هم در بخش تحقیقات و هم در بخش تجاری را رقم زده است. در این پایاننامه سعی داریم با بررسی برخی روشها و راهکارهای موجود در امر خلاصهسازی، به ارائهی روشی نوین در امر خلاصهسازی خودکار متون فارسی و همچنین طراحی و پیادهسازی آن بپردازیم. بدین منظور، ابتدا با انجام عملیات پیشپردازش متن مانند حذف کلمات بازدارنده و نیز تشخیص جملات، متن ورودی را برای انجام عملیات آماده مینماییم. همچنین با استفاده از یک مجموعه عظیم مستندات برای بهدست آوردن اهمّیت عبارات، مهمترین عبارتهای موجود در متن را شناسایی میکنیم و با تمرکز بر روش تحلیل مفهوم نهفته به عنوان یکی از متداولترین تکنیکهای استفاده شده در حوزهی پردازش زبانهای طبیعی، معیارهای مختلف برای اندازه گیری میزان ارتباط کلمات را بررسی خواهیم کرد و نشان خواهیم داد که معیار فاصله نرمالشده گوگلی به عنوان یک معیار تأثیرگذار در امر خلاصهسازی متون میتواند کانون توجّه ویژه قرار گیرد. با پر کردن ماتریس مربوط به روش تحلیل مفهوم نهفته، و اعمال تجزیهی مقادیر تکین بر روی آن، مهمترین واحدهای متنی را استخراج میکنیم. آزمایشها حاکی از موفقیتِ نسبی خلاصهسازی مستندات در زبان فارسی، با این روش پیشنهادی است. واژههای کلیدی: خلاصهسازی متن، تحلیل مفهوم نهفته، روشهای آماری، کاهش بعد، معیار شباهت، فاصله نرمالشده گوگلی : Abstract The rapid growth and development of the World Wide Web and online information services have made large pieces of data in hand, and this information burst has led to the accumulation of data. The short time available for the users to access the data is obviously one of the main concerns of researchers. The process of research and development for automatic text summarizing systems has culminated in considerable spending, both in academic and commercial fields. In this thesis, after reviewing a number of methods in summarization, we propose, design and implement a novel approach for summarizing Farsi texts automatically. To this end, we firstly identify the most important expressions of the text by conducting a pre-process of the text and using a large collection of documents to find the importance of expressions. We then consider different criteria for measuring the relevance of words by concentrating on the method of Latent Semantic Analysis, which is one of the most common techniques in natural language processing. We show that Google normalized distance, as an important meter in summarizing texts, deserves special notice. The experiments reveal the success of our proposed method in summarizing the documents in Farsi. Keywords: Text Summarization, Latent Semantic Analysis (LSA), Dimension Reduction, Similarity Measures, Normalized Google Distance (NGD)
ارائهدهنده: سید امین منعیان اساتید راهنما: دکتر بهروز مینایی استاد ممتحن داخلی : دکتر مرتضی آنالویی استاد ممتحن خارجی :دکتر شهرام خدیوی زمان : دوشنبه 18مهر1390 ساعت18 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق 304 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |