پژوهشگران دانشگاه صنعتی امیرکبیر با استفاده از صوت و تصویر روشی را برای بهبود گفتار در سامانه‌های هوشمند مانند همراه و رایانه‌های بدون ماوس عرضه کردند. به گزارش مهر، کامران قاصدی، مجری طرح با اشاره به اهمیت بازشناسی گفتار در حوزه ارتباطات هوشمند رایانه و انسان، افزود: بازشناسی گفتار به دلیل کاربردهای فراوان در فناوری‌های جدید و نقش اساسی آنها در حوزه ارتباطات هوشمند رایانه و انسان یکی از موضوعات مهم و مورد توجه محققان است. وی با اشاره به وجود برخی از عناصر مزاحم در ارتباطات هوشمند، خاطر نشان کرد: از این رو سامانه‌های بازشناسی خودکار گفتار برای انجام ماموریت‌های مورد نظر بسیار ضروری است.

قاصدی با بیان اینکه برای حل این مشکل تاکنون روش‌های مختلفی ارائه شده است، اظهار کرد: در این راستا پروژه‌ای در قالب پایان نامه دوره کارشناسی ارشد، با عنوان «بازشناسی گفتار مستقل از فرد با استفاده از تلفیق اطلاعات صوتی و تصویری» اجرایی شد. مجری طرح بازشناسی صوتی و تصویری گفتار را مستلزم استخراج ویژگی‌های تصویری ذکر کرد و ادامه داد: برای این منظور با استفاده از یک مدل شبکه عصبی، فضای رنگی جدیدی به دست آمده، تا تمایز بیشتری میان پیکسل‌های لب و غیرلب ایجاد شود. سپس ویژگی‌های مورد نظر از سیگنال تصویری استخراج شده است. وی یادآور شد: در این تحقیق علاوه بر ویژگی‌های صوتی از ویژگی‌های تصویری نیز برای بازشناسی گفتار استفاده شد و در نهایت موفق به بهبود بازشناسی به‌ویژه در شرایط نویزی شدیم.