ارائه دهنده:
محمدرضا عین اللهی
اساتید راهنما:
استاد راهنما: دکتر احمد اکبری
استاد مشاور: دکتر بابک ناصر شریف
هیات داوری:
دکتر سید صالح اعتمادی
استاد داور خارجی: دکتر فرشاد الماس گنج
زمان:
۱۴۰۱/۰۳/۰۹
ساعت ۱۶:۳۰
آقای محمدرضا عین اللهی دانشجوی کارشناسی ارشد آقایان دکتر احمد اکبری روز چهارشنبه مورخ ۲۵ خرداد ماه ساعت ۱۹:۰۰ از پروژه کارشناسی ارشد خود تحت عنوان "بهبود عملکرد سیستمهای بازشناسی گفتار در زبانهای با منابع محدود با استفاده از روشهای مبتنی بر داده افزایی" دفاع خواهند نمود.
چکیده پایان نامه:
چکیده
امروزه توسعه سیستمهای بازشناسی خودکار گفتار با استفاده از رویکردهای یادگیری عمیق در مقایسه با روشهای سنتی پیشرفتهای قابل توجهی را نشان میدهد. این مدلها برای آموزش به مقادیر زیادی جفت داده گفتاری و متن زیرنویس نیاز دارند. با این وجود، اکثر زبانهای زنده دنیا فاقد دادگان گفتاری مناسب برای آموزش مدلهای صوتی هستند. همچنین جمعآوری دادگان مناسب کاری بسیار دشوار و بعضا غیرممکن است. یکی از روشهای حل این تولید دادگان آموزشی مصنوعی با استفاده از روشهای داده افزایی است.
ما در این پژوهش تاثیرات روشهای داده افزایی، در بازتنظیم بلوکهای رمزگذار مدل Wav۲Vec۲ پایه با استفاده از تابع هزینه CTC (و بدون استفاده از مدل زبانی) برای ASR را بر روی سی درصد دادگان آموزشی TIMIT بررسی میکنیم. ابتدا روشهای داده افزایی به دو نوع روشهای داده افزایی بر روی دادگان آموزشی و روشهای داده افزایی در فضای ویژگی تقسیم شدهاند. سپس تاثیرات روشهای داده افزایی بر عملکرد مدل برای هر دسته به صورت جداگانه، در فضای زمان و فرکانس بررسی شده است.
نتایج آزمایشهای نشان میدهد که تمامی روشهای داده افزایی در بهبود عملکرد مدل ASR در بازشناسی گفتار در سطح کلمات موفق بودهاند. با این حال زمانی که داده افزایی (در هر دو فضای ویژگی و سطح دادگان آموزشی) در حوزه زمان یا زمان-فرکانس اعمال میشود، عملکرد مدل بسیار بهتر از زمانی است که عمل داده افزایی صرفا در حوزه فرکانسی اعمال شود. در کار ما، بهترین عملکرد مدل زمانی حاصل شد که داده افزایی در فضای ویژگی و در حوزه زمان-فرکانس اعمال شده بود. در این حالت WER از ۲۵.۹٪ به ۲۳.۷٪ کاهش یافت. پس از آن استفاده از روشهای داده افزایی در فضای ویژگی و رویکردهای داده افزایی پوشش زمان-فرکانس و کشش زمانی مبتنی بر افزایش دادگان به ترتیب و با عملکرد نسبت مشابه در ردههای بعدی قرار دارند. در مقابل، ضعیفترین عملکرد نیز متعلق به مدلی است که با داده افزایی در حوزه فرکانس در فضای ویژگی آموزش دیده است. در ادامه با بازتنظیم بلوکهای رمزگذار مدل پایه بر روی تمامی دادگان مجموعه داده TIMIT (بیش از ۳ برابر داده آموزشی) از صحت نتیجه اطمینان حاصل شد و عملکرد مدل با اعمال داده افزایی در حوزه زمان-فرکانس در فضای ویژگی نسبت به مدل پایه، WER از ۱۹.۳٪ به ۱۸.۷٪ کاهش یافته است. البته این مدل و مدلی که بدون داده افزایی آموزش دید، هر دو عملکرد بهتری از مدل QCNN که در شاخص TIMIT با WER ۱۹.۶۴٪ در رده نوزدهم قرار دارد، بدست آوردهاند.
واژههای کلیدی: بازشناسی خودکار گفتار، منابع محدود، داده افزایی، یادگیری انتقالی، یادگیری بازنمایی
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|