
آقای شهاب جلالوند دانشجوی کارشناسی ارشد جناب آقای دکتر احمد اکبری روزچهارشنبه 3/12/90 ساعت 16:30 در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان بهبود روش های تطبیق مدل آکوستیکی به منظور استفاده در بازشناسی گفتار فارسی دفاع خواهند نمود. چکیده پایان نامه: تنوع لهجه در میان گویندگان مختلف، یکی از مهمترین عوامل کاهش دقت در یک سامانه بازشناسی گفتار است. از این رو، فعالیتهای بسیاری در جهت ساخت سامانههای مقاوم در برابر لهجه صورت گرفته است. دو فاز بسیار مهم که بمنظور تعدیل اثر لهجه به سامانه بازشناسی گفتار اضافه میشوند عبارتند از فاز تطبیق مدل آکوستیکی با لهجه و فاز شناسایی لهجه. در فاز تطبیق مدل آکوستیکی با لهجه، سعی میکنیم به تعداد لهجههای موجود در دادگان، مدل آکوستیکی تطبیقیافته برای آن لهجهها تولید نماییم و در فاز شناسایی لهجه، به تعیین لهجه یک جمله یا یک گوینده میپردازیم تا در مرحله بازشناسی بتوانیم مدل آکوستیکی تطبیق یافته مناسب را برای آن نمونه انتخاب کنیم. در این پایاننامه قصد داریم با بهبود عملکرد روشهای شناسایی لهجه، روند تطبیق را بگونهای مؤثرتر دنبال نماییم. در این راه، ابتدا با استفاده از الگوریتم تطبیق بیشترین احتمال پسین ( MAP )، مدلهای آکوستیکی تطبیق یافته را تولید میکنیم و سپس با استفاده از یک روش پیشنهادی مبتنی بر گروهبندی دوبهدو، به شناسایی لهجه نمونههای آزمون میپردازیم. در روش پیشنهادی، ابتدا مجموعه دادگان آموزش را به دو مجموعه مجزا با نامهای مجموعه آموزش1 و مجموعه آموزش2 تقسیم میکنیم. سپس با استفاده از دادگان آموزش1، ردهبندهای پایه آموزش داده میشوند. هر ردهبند پایه، یک ردهبند دودویی است که از دو مدل مخلوط گاوسی تشکیل شده و مسئول شناسایی یک جفت از لهجههای موجود در دادگان است. هر مدل گاوسی متعلق به یکی از لهجهها میباشد . برای ساخت این مدلها، میتوان از ویژگیهایی چون MFCC ، انرژی، فرمانتها و SDC ( Shifted Delta Cepstral ) استفاده نمود . پس از ساخت ردهبندهای پایه، بمنظور آموزش ردهبند ترکیبکننده، از دادگان مجموعه آموزش2 استفاده میشود. هر یک از ردهبندهای پایه، نظر خود را در مورد لهجه نمونههای موجود در این مجموعه اعلام میکند. نظراتی که در مورد یک نمونه اعلام شدهاند در کنار یکدیگر بردار ویژگی جدیدی را تشکیل میدهند که برای آموزش ردهبند ترکیبکننده مورد استفاده قرار میگیرد. فاز آزمون برای یک نمونه تستی بدین ترتیب است که ابتدا این نمونه به تمامی ردهبندهای پایه داده میشود تا هر یک نظر خود را در مورد لهجه آن اعلام کنند. این نظرات توسط ردهبند ترکیبکننده مورد ارزیابی قرار میگیرد و تصمیم نهایی در مورد لهجه جمله مذکور اتخاذ میشود. در آزمایشات، از ردهبندها و تکنیکهای مختلفی چون درخت تصمیم، ماشین بردار پشتیبان و رأی اکثریت بعنوان ترکیبکننده استفاده شده است. نتایج روی 7 لهجه از مجموعه دادگان گفتاری TIMIT و 5 لهجه از مجموعه دادگان گفتاری FARSDAT ، نشان میدهند که در صورت استفاده از ویژگیهای MFCC و محاسبات SDC برای آموزش ردهبندهای پایه و بکارگیری تکنیک رأی اکثریت بعنوان ترکیبکننده ، روش پیشنهادی عملکرد بهتری نسبت به سایر روشهای ردهبندی لهجه خواهد داشت. ضمناً، با بررسی اثر بکارگیری روش پیشنهادی شناسایی لهجه بر روی فرآیند تطبیق، مشاهده میشود که این روش نه تنها دقت بازشناسی واج را کاهش نمیدهد، بلکه در مورد برخی لهجهها این مقدار تا حد قابل توجهی افزایش مییابد. واژههای کلیدی: بازشناسی گفتار خودکار مقاوم در برابر لهجه، شناسایی لهجه، تطبیق مدل آکوستیکی با لهجه، بیشترین احتمال پسین، گروهبندی دوبهدو. Abstract: The challenge of Accent variation is one of the main reasons of decreasing the accuracy of an Automatic Speech Recognition system. Accent Classification and Accent Adaptation are two main steps embedded in an ASR system to alleviate the effect of accent variation. In Accent adaptation, we use an adaptation method to adapt the parameters of an accurate and reference acoustic model to speech data of an accent and produce an adapted acoustic model for that accent. In Accent Classification, we use a classifier to identify the accent of an utterance or speaker. In this thesis, we intend to improve the performance of accent classification. This makes the adaption process more effective. In this way, we first make the adapted acoustic models using Maximum A Posteriori (MAP) adaptation technique. Then, we utilize our proposed classification method based on pair wise coupling to identify the accent of a test utterance. In the proposed method, we first divide the training set into two isolated sets: training set 1 and training set 2. Using the utterances from training set 1, we train the base classifiers. Each base classifier is a binary classifier consisting of two Gaussian Mixture Models (GMM). Each GMM corresponds to one accent. MFCC, Energy, Formants and SDC features are extracted from speech signals to train these GMMs. In order to train the combiner, we use the utterances from training set2. The votes of the base classifiers on the training set2 instances are used to construct new feature vectors. Using these vectors, we train a combiner which can be an SVM, an ANN or a decision tree. At the test phase, each test utterance is given to all base classifiers. The base classifiers declare their result of classification. Then, the combiner processes the results and makes the final decision. The results on 7 accents of TIMIT dataset and 5 accents of FARSDAT indicate that if we use MFCC and SDC features to train the base classifiers and use Majority Vote as the combiner, we will obtain highest results among all previous methods for multiple regional accent classification. On the other hand, we investigate the effect of using proposed accent classification method on the adaptation procedure. The experiments show if we identify the accent of the test utterance and then choose the proper adapted acoustic model, we can obtain higher phone recognition accuracy for some accents.. Keywords: Speech recognition system robust to accent, accent classification, accent adaptation, maximum a posteriori, pair wise coupling ارائهدهنده: شهاب جلالوند اساتید راهنما: دکتر احمد اکبری استاد ممتحن داخلی : دکتر محمدرضا جاهد مطلق استاد ممتحن خارجی :دکتر جهان شاه کبودیان زمان : چهارشنبه 3/12/90 ساعت 16:30 مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق دفاعیه از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |