[صفحه اصلی ]    
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش::
امور فرهنگی::
امور پژوهشی::
اخبار و رویدادها::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
تماس با ما::
::
ورود به سایت دروس
دانشجویان روزانه و پردیس
دانشجویان مرکز آموزش الکترونیکی
..
اطلاعیه ها
 اطلاعیه های آموزشی
..
فراخوان ها
فراخوان های همکاری با صنعت و سازمان ها
..
دفاعیه‌ها

دفاعیه های دکتری

۱۴۰۰/۱۲/۴ - محبوبه ریاحی مدوار
۱۴۰۰/۱۱/۳ - راضیه روستائی


دفاعیه های کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: محمدرضا عین اللهی ::
 | تاریخ ارسال: 1401/3/23 | 

ارائه­ دهنده:

محمدرضا عین اللهی

  اساتید راهنما:

 استاد راهنما: دکتر احمد اکبری
استاد مشاور: دکتر بابک ناصر شریف
هیات داوری: 
دکتر سید صالح اعتمادی
استاد داور خارجی: دکتر فرشاد الماس گنج

زمان:
 ۱۴۰۱/۰۳/۰۹

ساعت ۱۶:۳۰
 

آقای محمدرضا عین اللهی دانشجوی کارشناسی ارشد آقایان دکتر احمد اکبری روز چهارشنبه مورخ  ۲۵ خرداد ماه ساعت ۱۹:۰۰ از پروژه کارشناسی ارشد خود تحت عنوان "بهبود عملکرد سیستم‌های بازشناسی گفتار در زبان‌های با منابع محدود با استفاده از روش‌های مبتنی بر داده افزاییدفاع خواهند نمود.

چکیده پایان نامه:
چکیده
امروزه توسعه سیستم‌های بازشناسی خودکار گفتار با استفاده از رویکرد‌های یادگیری عمیق در مقایسه با روش‌های سنتی پیشرفت‌های قابل توجهی را نشان می‌دهد. این مدل‌ها برای آموزش به مقادیر زیادی جفت داده گفتاری و متن زیرنویس نیاز دارند. با این وجود، اکثر زبان‌های زنده دنیا فاقد دادگان گفتاری مناسب برای آموزش مدل‌های صوتی هستند. همچنین جمع‌آوری دادگان مناسب کاری بسیار دشوار و بعضا غیرممکن است. یکی از روش‌های حل این تولید دادگان آموزشی مصنوعی با استفاده از روش‌های داده افزایی است.
ما در این پژوهش تاثیرات روش‌های داده افزایی، در بازتنظیم بلوک‌های رمزگذار مدل Wav۲Vec۲ پایه با استفاده از تابع هزینه CTC (و بدون استفاده از مدل زبانی) برای ASR را بر روی سی درصد دادگان آموزشی TIMIT بررسی می‌کنیم. ابتدا روش‌های داده افزایی به دو نوع روش‌های داده افزایی بر روی دادگان آموزشی و روش‌های داده افزایی در فضای ویژگی تقسیم شده‌اند. سپس تاثیرات روش‌های داده افزایی بر عملکرد مدل برای هر دسته به صورت جداگانه، در فضای زمان و فرکانس بررسی شده است.
نتایج آزمایشهای نشان می‌دهد که تمامی روش‌های داده افزایی در بهبود عملکرد مدل ASR در بازشناسی گفتار در سطح کلمات موفق بوده‌اند. با این حال زمانی که داده افزایی (در هر دو فضای ویژگی و سطح دادگان آموزشی) در حوزه زمان یا زمان-فرکانس اعمال می‌شود، عملکرد مدل بسیار بهتر از زمانی است که عمل داده افزایی صرفا در حوزه فرکانسی اعمال شود. در کار ما، بهترین عملکرد مدل زمانی حاصل شد که داده‌ افزایی در فضای ویژگی و در حوزه زمان-فرکانس اعمال شده بود. در این حالت WER از ۲۵٪ به ۲۳٪ کاهش یافت. پس از آن استفاده از روش‌های داده افزایی در فضای ویژگی و رویکردهای داده افزایی پوشش زمان-فرکانس و کشش زمانی مبتنی بر افزایش دادگان به ترتیب و با عملکرد نسبت مشابه در رده‌های بعدی قرار دارند. در مقابل، ضعیف‌ترین عملکرد نیز متعلق به مدلی است که با داده افزایی در حوزه فرکانس در فضای ویژگی آموزش دیده است. در ادامه با بازتنظیم بلوک‌های رمزگذار مدل پایه بر روی تمامی دادگان مجموعه داده TIMIT (بیش از ۳ برابر داده آموزشی) از صحت نتیجه اطمینان حاصل شد و عملکرد مدل با اعمال داده افزایی در حوزه زمان-فرکانس در فضای ویژگی نسبت به مدل پایه، WER از ۱۹٪ به ۱۸٪ کاهش یافته است. البته این مدل و مدلی که بدون داده افزایی آموزش دید، هر دو عملکرد بهتری از مدل QCNN که در شاخص TIMIT با WER ۱۹.۶۴٪ در رده نوزدهم قرار دارد، بدست آورده‌اند.
واژه‌های کلیدی: بازشناسی خودکار گفتار، منابع محدود، داده افزایی، یادگیری انتقالی، یادگیری بازنمایی



دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

 
دفعات مشاهده: 196 بار   |   دفعات چاپ: 3 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان

مطالب مشابه


Persian site map - English site map - Created in 0.24 seconds with 55 queries by YEKTAWEB 4414