امکان استخراج صدای افراد از همهمه با پیکسل پلیر
بهتازگی محققان مرکز تحقیقاتی Idiap در سوئیس با همکاری گوگل راهحلی برای این مشکل یافتهاند. آنها با طراحی دو شبکه عصبی مبتنی بر هوشمصنوعی و ترکیب کارکردهای آنها با یکدیگر استخراج صدای فرد هدف در یک جمع بزرگ و پرسروصدا را ممکن کردهاند. از دو شبکه عصبی طراحیشده یکی وظیفه شناسایی صدای تکتک افراد و دیگری وظیفه استخراج آنها را بر عهده دارد. تلاش برای طراحی این سیستم از ابتدای سالجاری میلادی آغاز شده و آزمایش آن با موفقیت در آزمایشگاه هوش مصنوعی و علوم رایانه دانشگاه امایتی انجام گرفته است. این سیستم که پیکسل پلیر نام دارد، با دریافت ویدئوهایی از یوتیوب توانسته صدای تکتک افراد هدف را از آنها استخراج کند. تغذیه این سیستم و افزایش توان یادگیری آن از طریق تغذیه آن با استفاده از انبوهی از نمونههای صدا صورت گرفته که تعداد آنها بالغ بر ۳۴ میلیون مورد است. میزان خطای این سیستم در ابتدا حدود ۹/ ۵۵ درصد بوده که بعد از مدتی به ۴/ ۲۳ درصد کاهش یافته است.
ارسال نظر