[صفحه اصلی ]    
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش و اطلاعیه دفاعیه ها::
امور فرهنگی::
امور پژوهشی::
اخبار و رویدادهای دانشکده::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
تماس با ما::
::
ورود به سایت دروس
دانشجویان روزانه و پردیس
دانشجویان مرکز آموزش الکترونیکی
..
اطلاعیه ها
 اطلاعیه های آموزشی
..
فراخوان ها
فراخوان های همکاری با صنعت و سازمان ها
..
دفاعیه‌ها

دفاعیه های دکتری


دفاعیه های کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: شهاب جلالوند-3/12/90 ::
 | تاریخ ارسال: 1390/11/26 | 

 

AWT IMAGE

 

  آقای شهاب جلالوند دانشجوی کارشناسی ارشد جناب آقای دکتر احمد اکبری روزچهارشنبه 3/12/90 ساعت 16:30 در اتاق دفاعیه واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان بهبود روش های تطبیق مدل آکوستیکی به منظور استفاده در بازشناسی گفتار فارسی دفاع خواهند نمود.

 

  چکیده پایان نامه:

 

  تنوع لهجه در میان گویندگان مختلف، یکی از مهمترین عوامل کاهش دقت در یک سامانه بازشناسی گفتار است. از این رو، فعالیت‏های بسیاری در جهت ساخت سامانه‏های مقاوم در برابر لهجه صورت گرفته است. دو فاز بسیار مهم که بمنظور تعدیل اثر لهجه به سامانه بازشناسی گفتار اضافه می‏شوند عبارتند از فاز تطبیق مدل آکوستیکی با لهجه و فاز شناسایی لهجه. در فاز تطبیق مدل آکوستیکی با لهجه، سعی می‏کنیم به تعداد لهجه‏های موجود در دادگان، مدل آکوستیکی تطبیق‏یافته برای آن لهجه‏ها تولید ‏نماییم و در فاز شناسایی لهجه، به تعیین لهجه یک جمله یا یک گوینده می‏پردازیم تا در مرحله بازشناسی بتوانیم مدل آکوستیکی تطبیق یافته مناسب را برای آن نمونه انتخاب کنیم. در این پایان‏نامه قصد داریم با بهبود عملکرد روش‏های شناسایی لهجه، روند تطبیق را بگونه‏ای مؤثرتر دنبال نماییم. در این راه، ابتدا با استفاده از الگوریتم تطبیق بیشترین احتمال پسین ( MAP )، مدل‏های آکوستیکی تطبیق یافته را تولید می‏کنیم و سپس با استفاده از یک روش پیشنهادی مبتنی بر گروه‏بندی دو‏به‏دو، به شناسایی لهجه نمونه‏های آزمون می‏پردازیم.

  در روش پیشنهادی، ابتدا مجموعه دادگان آموزش را به دو مجموعه مجزا با نام‏های مجموعه آموزش1 و مجموعه آموزش2 تقسیم می‏کنیم. سپس با استفاده از دادگان آموزش1، رده‏بندهای پایه آموزش داده می‏شوند. هر رده‏بند پایه، یک رده‏بند دودویی است که از دو مدل مخلوط گاوسی تشکیل شده و مسئول شناسایی یک جفت از لهجه‏های موجود در دادگان است. هر مدل‏ گاوسی متعلق به یکی از لهجه‏ها می‏باشد . برای ساخت این مدل‏ها، می‎توان از ویژگی‏هایی چون MFCC ، انرژی، فرمانت‏ها و SDC ( Shifted Delta Cepstral ) استفاده نمود .

  پس از ساخت رده‏بندهای پایه، بمنظور آموزش رده‏بند ترکیب‏کننده، از دادگان مجموعه آموزش2 استفاده می‏شود. هر یک از رده‏بندهای پایه، نظر خود را در مورد لهجه نمونه‏های موجود در این مجموعه اعلام می‏کند. نظراتی که در مورد یک نمونه اعلام شده‏اند در کنار یکدیگر بردار ویژگی جدیدی را تشکیل می‏دهند که برای آموزش رده‏بند ترکیب‏کننده مورد استفاده قرار می‏گیرد.

  فاز آزمون برای یک نمونه تستی بدین ترتیب است که ابتدا این نمونه به تمامی رده‏بندهای پایه داده می‏شود تا هر یک نظر خود را در مورد لهجه آن اعلام کنند. این نظرات توسط رده‏بند ترکیب‏کننده مورد ارزیابی قرار می‏گیرد و تصمیم نهایی در مورد لهجه جمله مذکور اتخاذ می‏شود. در آزمایشات، از رده‏بندها و تکنیک‏های مختلفی چون درخت تصمیم، ماشین بردار پشتیبان و رأی اکثریت بعنوان ترکیب‏کننده استفاده شده است. نتایج روی 7 لهجه از مجموعه دادگان گفتاری TIMIT و 5 لهجه از مجموعه دادگان گفتاری FARSDAT ، نشان می‏دهند که در صورت استفاده از ویژگی‏های MFCC و محاسبات SDC برای آموزش رده‏بندهای پایه و بکارگیری تکنیک رأی اکثریت بعنوان ترکیب‏کننده ، روش پیشنهادی عملکرد بهتری نسبت به سایر روش‏های رده‏بندی لهجه خواهد داشت. ضمناً، با بررسی اثر بکارگیری روش پیشنهادی شناسایی لهجه بر روی فرآیند تطبیق، مشاهده می‏شود که این روش نه تنها دقت بازشناسی واج را کاهش نمی‏دهد، بلکه در مورد برخی لهجه‏ها این مقدار تا حد قابل توجهی افزایش می‏یابد.

 

  واژه‌های کلیدی: بازشناسی گفتار خودکار مقاوم در برابر لهجه، شناسایی لهجه، تطبیق مدل آکوستیکی با لهجه، بیشترین احتمال پسین، گروه‏بندی دوبه‏دو. 

 

  Abstract:

 

  The challenge of Accent variation is one of the main reasons of decreasing the accuracy of an Automatic Speech Recognition system. Accent Classification and Accent Adaptation are two main steps embedded in an ASR system to alleviate the effect of accent variation. In Accent adaptation, we use an adaptation method to adapt the parameters of an accurate and reference acoustic model to speech data of an accent and produce an adapted acoustic model for that accent. In Accent Classification, we use a classifier to identify the accent of an utterance or speaker. In this thesis, we intend to improve the performance of accent classification. This makes the adaption process more effective. In this way, we first make the adapted acoustic models using Maximum A Posteriori (MAP) adaptation technique. Then, we utilize our proposed classification method based on pair wise coupling to identify the accent of a test utterance.

  In the proposed method, we first divide the training set into two isolated sets: training set 1 and training set 2. Using the utterances from training set 1, we train the base classifiers. Each base classifier is a binary classifier consisting of two Gaussian Mixture Models (GMM). Each GMM corresponds to one accent. MFCC, Energy, Formants and SDC features are extracted from speech signals to train these GMMs.

  In order to train the combiner, we use the utterances from training set2. The votes of the base classifiers on the training set2 instances are used to construct new feature vectors. Using these vectors, we train a combiner which can be an SVM, an ANN or a decision tree. At the test phase, each test utterance is given to all base classifiers. The base classifiers declare their result of classification. Then, the combiner processes the results and makes the final decision. The results on 7 accents of TIMIT dataset and 5 accents of FARSDAT indicate that if we use MFCC and SDC features to train the base classifiers and use Majority Vote as the combiner, we will obtain highest results among all previous methods for multiple regional accent classification.

  On the other hand, we investigate the effect of using proposed accent classification method on the adaptation procedure. The experiments show if we identify the accent of the test utterance and then choose the proper adapted acoustic model, we can obtain higher phone recognition accuracy for some accents..

 

  Keywords: Speech recognition system robust to accent, accent classification, accent adaptation, maximum a posteriori, pair wise coupling

 

 

 

  ارائه­دهنده:

  شهاب جلالوند

  اساتید راهنما:

  دکتر احمد اکبری

  استاد ممتحن داخلی : دکتر محمدرضا جاهد مطلق

  استاد ممتحن خارجی :دکتر جهان شاه کبودیان

  زمان : چهارشنبه 3/12/90

  ساعت 16:30

  مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق دفاعیه

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

 

دفعات مشاهده: 3120 بار   |   دفعات چاپ: 968 بار   |   دفعات ارسال به دیگران: 37 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
data
Persian site map - English site map - Created in 0.18 seconds with 55 queries by YEKTAWEB 4709