
آقای خلیل علیجانی ممقانی دانشجوی کارشناسی ارشد جناب آقای دکتر مصطفی حق روز روز یکشنبه 8 /8/90 ساعت 11:30 در اتاق 304 واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان ارائه الگوریتمی برای مرحله ادغام نتایج در بازیابی اطلاعات توزیع شده دفاع خواهند نمود. چکیده پایان نامه: بازیابی اطلاعات به تکنیکهایی جهت یافتن اطلاعات ( معمولا اسناد ) اطلاق میشود به طوریکه اطلاعات مرتبط با نیاز کاربر در رتبههای بالاتری قرار گیرند. افزایش روزافزون اطلاعات، سیستمهای متمرکز را برای بازیابی کارای اطلاعات ناتوان کرده است، از اینرو برای غلبه بر این نقص از سیستمهای بازیابی اطلاعات توزیع شده استفاده میشود. فرآیند بازیابی اطلاعات توزیع شده به صورت واسطی عمل میکند تا توانایی جستجوی همزمان اسناد را از چندین سیستم بازیابی اطلاعات مستقل ( مجموعههای راه دور ) برای کاربر فراهم کند. این فرآیند از سه مرحلهی اصلی تشکیل شده است : نمایش مجموعهها به صورت برون خطی انجام میشود، با ورود هر پرس و جو انتخاب مجموعهها به صورت برخط صورت گرفته و سپس در مرحلهی ادغام نتایج، جوابهای برگردانده از این مجموعهها ادغام شده و به کاربر نشان داده میشود. به دلیل وجود خاصیت توزیع شدگی، این فرآیند با چالشهایی در هر کدام از این مراحل روبروست که باعث کاهش رقم دقت در هرکدام از این مراحل و در نتیجه کاهش دقت کلی بازیابی میشود. مرحلهی اول بازیابی اطلاعات توزیع شده ، ایجاد اطلاعاتی در مورد مجموعهها میباشد. این اطلاعات پس از جمعآوری از مجموعهها ( که به آن نمونهگیری گفته میشود ) در یک شاخص نگهداری شده و در دو مرحلهی بعد با استفاده از اطلاعات این شاخص، مجموعهها انتخاب و نتایج برگردانده شده از آنها ترکیب میشوند. بدیهیست که کیفیت اطلاعات شاخص به اطلاعات جمعآوری شده از مجموعهها بستگی دارد که علاوه بر سربار حافظه، سربار زمانی در دو مرحلهی انتخاب مجموعهها و ادغام نتایج ایجاد می کند. در این پایاننامه روشی برای ادغام نتایج ارائه میشود که نیازی به استفاده از شاخص نمونهگیری شده ندارد. از آنجا که ادغام نتایج به انتخاب مجموعهها نیز بستگی دارد روشی هم برای مرحلهی انتخاب مجموعهها ارائه میشود. در روش ارائه شده برای مرحلهی ادغام نتایج به جای امتیاز سندها، دلیل امتیازدهی به سندها (مانند موقعیت کلمهها در سند) از مجموعهها درخواست میشود. با استفاده از این دلیل، امتیازی به هر سند داده میشود و به این ترتیب نتایج برگردانده شده از مجموعهها با استفاده از این امتیاز ادغام میشوند. به منظور ارزیابی روش ارائه شده برای مرحله ی ادغام نتایج، محیط های آزمایش را با استفاده از اسناد پیکرهی همشهری ایجاد کرده و آزمایشها را روی سیستم بازیابی اطلاعات توزیع شدهای که چندین سیستم بازیابی اطلاعات مستقل ( با مدلهای بازیابی متفاوت ) را مدیریت می کند، اجرا می کنیم. نتایج ارزیابیها نشان میدهد که روش ارائه شده برای مرحلهی ادغام نتایج در محیطهای آزمایش مختلف، دقت بازیابی را افزایش میدهد. واژههای کلیدی: بازیابی اطلاعات توزیع شده، نمایش مجموعه، انتخاب مجموعه، ادغام نتایج، مدل های بازیابی اطلاعات، موقعیت واژهها، دقت بازیابی Abstract: Information Retrieval is defined as a set of techniques to search and find pieces of information (usually in the form of document) in a way that user`s needs come first automatically. Daily increase of bulk of information resulted in unhability of central information systems to retrieve information efficiently. In an effort to resolve such difficulties, Distributed Information Retrieval systems have been widely opted for. This system acts like an intermediate to ease the operation of retrieving information from a number of sources simoltainiously. The mentiond process is comprised of three steps as follows: Source Representaion is off-line, and by entering each new user`s query Source Selection is outlined as on-line. In Result Merging, all the returened result from selected collections are merged and shown. Due to distribution features, the process is challenged in each phase. This might concequently result in lack of precision in Source Selection phase and finally in the final result supplied. The first phase of Distributed Information Retrieval is to create information for the Sources. The information is indexed after being sampled. The Index is then used to select the sources and to merge the results. Needless to say that quality of the information in the Index depends a great deal on the collected (sampled) data. This even can result in data or time overhead at times in the second and third phases. The presented thesis argues a methodology for Result Merging in which there`s no needs of Index. Since merging the results depends on Source Selection, the thesis also proposes a new methodology for Source Selection as well. In Result Merging`s method, reasoning used to score the documents replaces the document`s score that returned from sources. The returned results are then merged employing the new scoring system. In order to evaluate the proposed method, for merging the results, a test environment is created taking of advantage of Hamshahri corpus. Then the Distributed Information Retrival system comprising of a lot of sources of information is tested. The results reveal that the proposed methodology can indeed increase retrival precision. Keywords: Distributed Information Retrieval, Source Representation, Source Selection, Result Merging, Information Retrieval Models, Terms Position, Retrieval Precision ارائهدهنده: خلیل علیجانی ممقانی اساتید راهنما: دکتر مصطفی حق جو استاد ممتحن داخلی : دکتر بهروز مینایی استاد ممتحن خارجی :دکتر مسعود رهگذر زمان : یکشنبه 8 آبان ماه ساعت11:30 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق 304 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |