فارنت: صدای انسان با تمام زیروبم‌ها و لطافتش ثابت کرده که یکی از سخت‌ترین چیزها برای شبیه‌سازی در کامپیوتر است. یک استارت‌آپ هوش مصنوعی جدید که در مونترال شکل‌گرفته، شبیه‌ساز صدایی را تولید کرده که قادر به تقلید از صدای تقریبا هر انسانی است. حتی می‌تواند اوج و فرود صدای شخص را هم تقلید کند. فعلا این سیستم بی‌نقص نیست، اما خبر از آینده‌ای می‌دهد که در آن از صدای انسان‌ها هم مثل عکس‌هایشان، به‌سادگی تقلید می‌شود. وقتی دستیار هوشمند سیری، الکسا یا حتی جی‌پی‌اس نقشه با ما سخن می‌گوید، کاملا مشخص است که از طرف یک ماشین مورد خطاب قرارگرفته‌ایم. علت این است که تمام سیستم‌های تبدیل نوشتار به گفتار موجود در بازار، بر کلمات، عبارات و گفته‌های از پیش ضبط‌شده گویندگان متکی هستند. درنهایت صداهای ضبط‌شده در کنار هم قرار داده می‌شوند و کلمات و جملات کامل را می‌سازند. نتیجه این کار صدایی کاملا مصنوعی، روباتیک و حتی گاهی خنده‌دار است. با این روش تولید صدای انسان، همواره لحن تکراری و خسته‌کننده‌ای را از دستگاه‌ها می‌شنویم. در تلاشی برای افزودن اندکی حس زندگی به صداهایی که از اپلیکیشن‌هایمان بیرون می‌آید، استارت‌آپ هوش مصنوعی Lyrebird الگوریتم تقلید صدایی را نوشته است که می‌تواند صدای هر انسانی را شبیه‌سازی کرده و هر متنی را با لحن و حس از پیش تعریف‌شده بخواند. جالب است بدانید که این الگوریتم، بعد از پردازش صدای از پیش ضبط‌شده شخص تنها به مدت چند ده ثانیه، می‌تواند از صدا و طرز حرف زدن وی تقلید کند. Lyrebird برای تبلیغ این ابزار جدید خود، چند نمونه از صدای باراک اوباما، دونالد ترامپ و هیلاری کلینتون را تولید کرده است.

دموهای Lyrebird کاتالوگی بی‌پایان از صداهای مجازی را هم به نمایش می‌گذارد. سیستم آنها می‌تواند جمله‌ای تکراری را با لحن‌های متفاوت بیان کند. تمام اینها به کمک استفاده از شبکه‌های عصبی مصنوعی ممکن شده است که کاری شبیه به شبکه عصبی بیولوژیکی در مغز انسان انجام می‌دهند. به بیان ساده، الگوریتم الگوهای صحبت فرد را شناسایی کرده و بعد همان الگوها را در صدایی که شبیه‌سازی می‌کند، به‌کار می‌گیرد. «خوزه سوتلو» یکی از اعضای تیم و متخصص تبدیل متن به گفتار می‌گوید: «ما مدل‌های خود را از مجموعه داده‌های عظیم از صدای اشخاص تولید می‌کنیم. سپس برای تولید گفتار جدید، اطلاعات فرد را در کلید کوچکی که عملا DNA صدای اوست، ذخیره می‌کنیم. درنهایت نیز از این کلید برای تولید جملات جدید استفاده می‌کنیم.» فعلا نتیجه ابدا بی‌نقص نیست. نمونه‌ها هنوز آثاری از صداهای دیجیتالی دارند، چندان واضح نیستند و تفاوت‌هایی محسوس با صدای واقعی انسان دارند؛ اما با شنیدن صدا می‌توان تشخیص داد قرار بوده صدای چه کسی شبیه‌سازی شود. شیوه تلفظ و زیروبم شدن صدا نیز کاملا واضح است. محصول Lyrebird برخلاف سایر سیستم‌ها، به اطلاعات کمتری از هر شخص برای تولید صدای جدید نیاز دارد و به‌صورت بلادرنگ کار می‌کند. کمپانی تصمیم گرفته محصول خود را به شرکت‌هایی که به شبیه‌سازی صدا نیاز دارند بفروشد.

او می‌گوید: «فعلا در حال افزایش بودجه و گسترش تیم مهندسی خود هستیم. در حال حاضر بر بهبود کیفیت صدا تمرکز کرده‌ایم تا کمتر روباتیک و مصنوعی به نظر برسد و امیدواریم که به‌زودی وارد فاز تست بتای برنامه بشویم.» شبیه‌سازی صدای انسان با مشکلات اخلاقی و نگرانی‌های امنیتی نیز همراه است. درنهایت نسخه پیشرفته‌ای از این سیستم می‌تواند صدای اشخاص را با دقت بالا تولید کند. روزی فرا خواهد رسید که صدای صحبت افراد درست مانند عکس‌های ویرایش شده در فتوشاپ دستکاری می‌شوند و ما به‌سادگی قادر به تشخیص آن نخواهیم بود. افراد سودجو می‌توانند با تغییر دادن لحن صحبت‌های سیاستمداران، معنای غیرمستقیم جدیدی به گفتار آنها بدهند. هکرها می‌توانند از شبیه‌سازی گفتار افراد، برای مهندسی اجتماعی استفاده کنند و حتی محتاط‌ترین متخصصان امنیت را هم فریب بدهند.

همان‌طور که متوجه شدید، راه‌های سوءاستفاده از این تکنولوژی تقریبا بی‌پایان هستند. تیم Lyrebird نیز به این موارد سوءاستفاده احتمالی آگاه است؛ اما امید دارد که از این تکنولوژی برای اهداف خوب و سازنده استفاده شود؛ مثلا برای کمک به بیمارانی که صدا و توانایی سخن گفتن خود را ازدست داده‌اند. تیم باور دارد که کار درست، پخش عمومی این تکنولوژی و آگاه کردن مردم است. تا نهایتا استفاده از آن به‌عنوان مدرک متوقف شود. در آینده تنها با شنیدن صداهای ضبط‌شده قادر به تشخیص اعتبار آنها نخواهیم بود؛ اما می‌توانیم سیستم‌هایی را توسعه دهیم که صحت و ساختگی نبودن صداها را تشخیص بدهند. شاید بتوان انسان را با صدای دیجیتالی گول زد، اما کامپیوترها فریب نمی‌خورند؛ حداقل نه به این زودی. به‌عنوان‌مثال تشخیص نبود صداهای پس‌زمینه، وجود فضای آکوستیک مصنوعی یا صدای محیط افزوده برای یک ماشین، کار آسانی خواهد بود.