
خانم معصومه مشایخی دانشجوی کارشناسی ارشد جناب آقایان دکترمرتضی آنالویی و دکتر بهروز مینایی روز شنبه 15/10/90 ساعت15:45در اتاق 304 واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان معرفی معیارهایی برای ارزیابی پیکره های فارسی - انگلیسی هم تراز شده در سطح جمله دفاع خواهند نمود.
چکیده پایان نامه: پیکره های دوزبانه یکی از منابع مهم برای کارها و تحقیقات در زمینهی پردازش زبان طبیعی است . کیفیت پیکرههای دوزبانه میتواند در نتایج تحقیقات و کارهایی که از آنها به عنوان منبع استفاده میکنند، تأثیر بگذارد . بنابراین بررسی کارایی پیکره ها یکی از ملزومات اساسی برای کار با آن هاست . یکی از روش های مورد وثوق استاندارد ایزو، ارزیابی نرم افزار یا منبع براساس ویژگی های خود آن است . در این پروژه سعی بر این است که پیکرههای دوزبانه براساس ویژگیهای اصلی پیکره مورد ارزیابی قرار گیرند . برای این منظور، ویژگیهایی از پیکره معرفی شدهاند که میتوانند گویای کیفیت پیکره از نقطه نظر خصوصیات اصلی پیکره باشند . سپس با بکارگیری روشهایی، این ویژگیها در پیکره کمی شدهاند . برای به دست آوردن یک نتیجه کلی، این ویژگیها به عنوان ورودیهای یک سیستم استنتاج فازی در نظر گرفته شده است . با اعمال روش های پیشنهادی بر روی بخشی از پیکره که کیفیت آن مورد اعتماد بود، متغیرهای زبانی تعریف شد . در نهایت با استفاده از یک پایگاه قواعد با حدود 1600 قاعده، نتیجه نهایی ارزیابی برای بخشی از پیکرهی یک میلیون جمله ای انگلیسی - فارسی همتراز شده در سطح جمله به دست آمد . برای این بخش از پیکره که حدود چهارصد هزار جمله داشت ، کیفیت نهایی در حدود 72/ 625 درصد حاصل شد واژه های کلیدی : ارزیابی، پیکره های دوزبانه، پیکره های هم تراز شده، همترازی کلمه ،ترجمه ی ماشینی Abstract: Bilingual corpus is one of the most important resources for NLP applications and researches. The quality of bilingual corpora can influence the result of researches that used it as a resource. So evaluating the quality of corpora is useful for wotking with them. One way for evaluating software or resources in ISO is evaluating its own features. In this dissertation, evaluating the bilingual corpus quality is based on verifying main principles of corpus. So some features are introduced that can show the corpus quality. Then with some methods, these features are extracted from the corpus and used as inputs of a fuzzy inference system. The linguistic terms for fuzzy inference are introduced by implementing methods on a confident part of corpus. Using a Rule-Base with about 1600 rule, the final result for a one millionsentence English-Persian corpus is obtained. The final result shows that percentage of quality for this corpus is 72.625. Keywords: Evaluation, Bilingual Corpora, Aligned Corpora, Parallel Corpora, Machine Translation, Translation Model ارائهدهنده: معصومه مشایخی اساتید راهنما: دکتر مرتضی آنالویی دکتر بهروز مینایی استاد ممتحن داخلی : دکتر محمدرضا کنگاوری استاد ممتحن خارجی :دکتر هشام فیلی زمان : شنبه 15 دی ماه ساعت 15:45 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق 304 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |