صداساز دیجیتالی با هوش مصنوعی صداها را تقلید میکند
فارنت: صدای انسان با تمام زیروبمها و لطافتش ثابت کرده که یکی از سختترین چیزها برای شبیهسازی در کامپیوتر است. یک استارتآپ هوش مصنوعی جدید که در مونترال شکلگرفته، شبیهساز صدایی را تولید کرده که قادر به تقلید از صدای تقریبا هر انسانی است. حتی میتواند اوج و فرود صدای شخص را هم تقلید کند. فعلا این سیستم بینقص نیست، اما خبر از آیندهای میدهد که در آن از صدای انسانها هم مثل عکسهایشان، بهسادگی تقلید میشود. وقتی دستیار هوشمند سیری، الکسا یا حتی جیپیاس نقشه با ما سخن میگوید، کاملا مشخص است که از طرف یک ماشین مورد خطاب قرارگرفتهایم.
فارنت: صدای انسان با تمام زیروبمها و لطافتش ثابت کرده که یکی از سختترین چیزها برای شبیهسازی در کامپیوتر است. یک استارتآپ هوش مصنوعی جدید که در مونترال شکلگرفته، شبیهساز صدایی را تولید کرده که قادر به تقلید از صدای تقریبا هر انسانی است. حتی میتواند اوج و فرود صدای شخص را هم تقلید کند. فعلا این سیستم بینقص نیست، اما خبر از آیندهای میدهد که در آن از صدای انسانها هم مثل عکسهایشان، بهسادگی تقلید میشود. وقتی دستیار هوشمند سیری، الکسا یا حتی جیپیاس نقشه با ما سخن میگوید، کاملا مشخص است که از طرف یک ماشین مورد خطاب قرارگرفتهایم. علت این است که تمام سیستمهای تبدیل نوشتار به گفتار موجود در بازار، بر کلمات، عبارات و گفتههای از پیش ضبطشده گویندگان متکی هستند. درنهایت صداهای ضبطشده در کنار هم قرار داده میشوند و کلمات و جملات کامل را میسازند. نتیجه این کار صدایی کاملا مصنوعی، روباتیک و حتی گاهی خندهدار است. با این روش تولید صدای انسان، همواره لحن تکراری و خستهکنندهای را از دستگاهها میشنویم. در تلاشی برای افزودن اندکی حس زندگی به صداهایی که از اپلیکیشنهایمان بیرون میآید، استارتآپ هوش مصنوعی Lyrebird الگوریتم تقلید صدایی را نوشته است که میتواند صدای هر انسانی را شبیهسازی کرده و هر متنی را با لحن و حس از پیش تعریفشده بخواند. جالب است بدانید که این الگوریتم، بعد از پردازش صدای از پیش ضبطشده شخص تنها به مدت چند ده ثانیه، میتواند از صدا و طرز حرف زدن وی تقلید کند. Lyrebird برای تبلیغ این ابزار جدید خود، چند نمونه از صدای باراک اوباما، دونالد ترامپ و هیلاری کلینتون را تولید کرده است.
دموهای Lyrebird کاتالوگی بیپایان از صداهای مجازی را هم به نمایش میگذارد. سیستم آنها میتواند جملهای تکراری را با لحنهای متفاوت بیان کند. تمام اینها به کمک استفاده از شبکههای عصبی مصنوعی ممکن شده است که کاری شبیه به شبکه عصبی بیولوژیکی در مغز انسان انجام میدهند. به بیان ساده، الگوریتم الگوهای صحبت فرد را شناسایی کرده و بعد همان الگوها را در صدایی که شبیهسازی میکند، بهکار میگیرد. «خوزه سوتلو» یکی از اعضای تیم و متخصص تبدیل متن به گفتار میگوید: «ما مدلهای خود را از مجموعه دادههای عظیم از صدای اشخاص تولید میکنیم. سپس برای تولید گفتار جدید، اطلاعات فرد را در کلید کوچکی که عملا DNA صدای اوست، ذخیره میکنیم. درنهایت نیز از این کلید برای تولید جملات جدید استفاده میکنیم.» فعلا نتیجه ابدا بینقص نیست. نمونهها هنوز آثاری از صداهای دیجیتالی دارند، چندان واضح نیستند و تفاوتهایی محسوس با صدای واقعی انسان دارند؛ اما با شنیدن صدا میتوان تشخیص داد قرار بوده صدای چه کسی شبیهسازی شود. شیوه تلفظ و زیروبم شدن صدا نیز کاملا واضح است. محصول Lyrebird برخلاف سایر سیستمها، به اطلاعات کمتری از هر شخص برای تولید صدای جدید نیاز دارد و بهصورت بلادرنگ کار میکند. کمپانی تصمیم گرفته محصول خود را به شرکتهایی که به شبیهسازی صدا نیاز دارند بفروشد.
او میگوید: «فعلا در حال افزایش بودجه و گسترش تیم مهندسی خود هستیم. در حال حاضر بر بهبود کیفیت صدا تمرکز کردهایم تا کمتر روباتیک و مصنوعی به نظر برسد و امیدواریم که بهزودی وارد فاز تست بتای برنامه بشویم.» شبیهسازی صدای انسان با مشکلات اخلاقی و نگرانیهای امنیتی نیز همراه است. درنهایت نسخه پیشرفتهای از این سیستم میتواند صدای اشخاص را با دقت بالا تولید کند. روزی فرا خواهد رسید که صدای صحبت افراد درست مانند عکسهای ویرایش شده در فتوشاپ دستکاری میشوند و ما بهسادگی قادر به تشخیص آن نخواهیم بود. افراد سودجو میتوانند با تغییر دادن لحن صحبتهای سیاستمداران، معنای غیرمستقیم جدیدی به گفتار آنها بدهند. هکرها میتوانند از شبیهسازی گفتار افراد، برای مهندسی اجتماعی استفاده کنند و حتی محتاطترین متخصصان امنیت را هم فریب بدهند.
همانطور که متوجه شدید، راههای سوءاستفاده از این تکنولوژی تقریبا بیپایان هستند. تیم Lyrebird نیز به این موارد سوءاستفاده احتمالی آگاه است؛ اما امید دارد که از این تکنولوژی برای اهداف خوب و سازنده استفاده شود؛ مثلا برای کمک به بیمارانی که صدا و توانایی سخن گفتن خود را ازدست دادهاند. تیم باور دارد که کار درست، پخش عمومی این تکنولوژی و آگاه کردن مردم است. تا نهایتا استفاده از آن بهعنوان مدرک متوقف شود. در آینده تنها با شنیدن صداهای ضبطشده قادر به تشخیص اعتبار آنها نخواهیم بود؛ اما میتوانیم سیستمهایی را توسعه دهیم که صحت و ساختگی نبودن صداها را تشخیص بدهند. شاید بتوان انسان را با صدای دیجیتالی گول زد، اما کامپیوترها فریب نمیخورند؛ حداقل نه به این زودی. بهعنوانمثال تشخیص نبود صداهای پسزمینه، وجود فضای آکوستیک مصنوعی یا صدای محیط افزوده برای یک ماشین، کار آسانی خواهد بود.
ارسال نظر