جادوی فرمان‌های صوتی

ندا لهردی: «آرتور سی کلارک» نویسنده بریتانیایی داستان‌های علمی- تخیلی معتقد است که هر تکنولوژی پیشرفته‌ای به سختی از سحر و جادو قابل تشخیص است. تکنولوژی پردازش صوتی که به سرعت در حال رشد و رواج یافتن است، اعتقاد کلارک را ثابت می‌کند. استفاده از این تکنولوژی درست شبیه به وردخواندن است؛ چند کلمه‌ای را در هوا می‌گویی و دستگاهی در فاصله نه لزوما نزدیک می‌تواند به تو پاسخ بگوید و آرزویت را برآورده کند!

کامپیوتر استوانه‌ای و مبتنی بر تکنولوژی فرمان صوتی Echo شرکت آمازون در گوشه‌ای از اتاق نشسته و به کمک دستیار صوتی هوشمند الکسا می‌تواند درخواست‌ها و فرمان‌های مختلف از اجرای فایل موسیقی، روشن کردن رادیو، تعریف کردن جک و طنز و پاسخگویی به سوالات بی اهمیت گرفته تا کنترل لوازم خانگی هوشمند را انجام دهد. این محصول آنقدر سریع در میان مردم به محبوبیت رسید که تا پیش از فصل تعطیلات کریسمس در خانه حدود ۴درصد از آمریکایی‌ها وجود داشت. دستیارهای صوتی هوشمند در موبایل‌های هوشمند هم در حال توسعه و تکثیر هستند. دستیار سیری شرکت اپل بیش از ۲ میلیارد فرمان در هفته را انجام می‌دهد و ۲۰ درصد از جست‌وجوهای گوگل روی موبایل‌های اندرویدی در سراسر آمریکا با فرمان صوتی انجام می‌شود. دیکته کردن ایمیل‌ها و پیام‌های متنی حالا آنقدر خوب و مطمئن انجام می‌شود که به کاری رایج و مفید تبدیل شده است. وقتی می‌توانیم حرف بزنیم، چرا باید تایپ کنیم؟

این تغییر بزرگی است. هرچند ممکن است ساده به نظر برسد اما صدا با ارائه یک ابزار طبیعی برای تعامل کردن، قدرت تغییر شکل آینده دنیای کامپیوتر را دارد. ویندوز، آیکون‌ها و منوها و در نهایت نمایشگرهای لمسی معمولا ملموس‌ترین راه‌های تعامل با کامپیوترها نسبت به کیبوردهای پیچیده بوده‌اند. با این حال توانایی صحبت کردن با کامپیوترها، نیاز به موانع یک رابط کاربری را به کلی از بین می‌برد. درست همان‌طور که حالا گوشی‌های موبایل بیشتر از تلفن‌های ثابت و خودروها بیشتر از کالسکه‌ها هستند، بنابراین کامپیوترهای بدون صفحه‌نمایش و کیبورد هم پتانسیل مفیدتر، کاربردی‌تر و قدرتمندتر شدن نسبت به انسان‌های امروزه را دارند.

صدا به‌طور کلی جایگزین دیگر اشکال ورود و خروج اطلاعات نخواهد شد. این ابزار اغلب برای تعامل با یک ماشین راحت‌تر از تایپ کردن است. حالا شرکت آمازون اعلام کرده که در حال کار روی یک دستگاه Echo مجهز به نمایشگر است. با این حال اما انتظار می‌رود صدا سهم بزرگ و رو به رشدی از تعاملات افراد با تکنولوژی‌های اطرافشان را دارد، از ماشین لباسشویی‌هایی که به شما اطلاعات مربوط به چرخه‌های باقیمانده فرآیند شست‌وشو از طریق یک دستیار مجازی هوشمند را می‌دهند گرفته تا لوازم و ابزارهای هوشمند دیگر. اگرچه برای رسیدن به حداکثر پتانسیل تکنولوژی فرمان‌های صوتی، این تکنولوژی باید پیشرفت‌های بیشتری بکند و بتواند علاوه بر راحتی، رعایت حریم خصوصی کاربران را هم در بر بگیرد.

الکسا! یادگیری عمیق چیست؟

سیستم‌های دیکته کردن برای کامپیوتر سال‌ها است که وجود دارند. اما این سیستم‌ها قابل اعتماد نبوده و به آموزش طولانی‌مدت برای یادگیری صدای یک کاربر خاص نیاز دارند. توانایی جدید کامپیوترها برای تشخیص صدای تقریبا هر شخصی آن هم بدون آموزش، آخرین بروز قدرت «یادگیری عمیق» است. یادگیری عمیق یک روش هوش مصنوعی است که در آن یک سیستم نرم‌افزاری با استفاده از میلیون‌ها مثال و نمونه جمع‌‌آوری شده از اینترنت، آموزش داده می‌شود. با استفاده از یادگیری عمیق حالا ماشین‌ها در زمینه‌های مختلف دقت در رونویسی و سیستم‌های ترجمه کامپیوتری که به سرعت با سیستم‌های تبدیل حرف به متن جلو می‌روند، تقریبا با انسان‌ها برابری می‌کنند. به‌طور خلاصه، کامپیوترها در روند مدیریت زبان طبیعی به اشکال مختلف آن بسیار بهتر شده‌اند.

هرچند یادگیری عمیق به معنای آن است که ماشین‌ها توانایی شناسایی صدا به شکلی مطمئن‌تر و کمتر تغییر لحن یافته را دارند، اما هنوز معنی زبان را نمی‌فهمند. این سخت‌ترین وجه این مشکل است و اگر رایانش مبتنی بر فرمان‌های صوتی واقعا در حال رشد است، باید بر این مشکل غلبه کند. کامپیوترها باید توانایی درک متن برای حفظ یک گفت‌وگوی منسجم را درباره یک موضوع داشته باشند تا اینکه مانند چیزی که امروز رایج است، فقط به فرمان‌‌های صوتی ساده پاسخ بگویند. محققان در دانشگاه‌ها و شرکت‌های بزرگ و کوچک در حال کار روی روبات‌های پیچیده‌ای هستند که می‌تواند گفت‌وگوهای دارای جزئیات دقیق را درباره وظایف پیچیده‌تر یاد بگیرد؛ از بازیابی اطلاعات و گرفتن وام بانکی گرفته تا انجام هماهنگی‌های لازم برای مسافرت. در همین راستا شرکت آمازون یک جایزه یک میلیون دلاری را برای طراحی و ساخت روباتی با توانایی انجام گفت‌وگوی منسجم و موثر تا ۲۰ دقیقه تعیین کرده است.

وقتی ورد خواندن جایگزین دیکته کردن می‌شود

مصرف‌کنندگان و قانون‌گذاران هم نقش مهمی در تعیین شیوه توسعه و پیشرفت رایانش صوتی دارند. حتی در حال حاضر و در شکل اولیه، این تکنولوژی در شرایط تنگنا قرار دارد. سیستم‌های مبتنی بر فرمان صوتی در حال شخصی‌سازی شده مفیدترین ابزار هستند و دسترسی گسترده‌ای به منابع اطلاعاتی از قبیل تقویم‌ها، ایمیل‌ها و دیگر اطلاعات حساس را فراهم می‌آورند. این موضوع نگرانی‌های جدی درباره امنیت و حریم خصوصی را ایجاد کرده است. در موارد پیچیده‌تر، بسیاری از دستگاه‌های مبتنی بر فرما‌ن‌های صوتی و دستیارهای صوتی هوشمند همیشه در حال گوش کردن بوده و منتظر فعال شدن هستند. بعضی افراد در حال حاضر نگران پیامد‌های میکروفن‌های مرتبط با اینترنت هستند که حالا از طریق موبایل‌های هوشمند در هر اتاقی وجود دارند. همه صداها به فضای رایانش ابری ارسال نمی‌شوند، چون دستیارهای صوتی هوشمند با عباراتی خاص مانند الکسا، اوکی گوگل، هی کورتانا یا هی سیری فعال می‌شوند. صداها تنها در حالتی که برای ارسال یک درخواست یا فرمان استفاده شوند، می‌توانند در فضای ابری ذخیره شوند.

این روزها پلیس جنایی در تحقیقات برای پرونده یک قتل در آرکانزاس که از طریق بلندگوی هوشمند Echo آمازون شنیده و گزارش شده است، از این شرکت خواسته تا به هر فرمان صوتی که ممکن است این بلندگو ذخیره کرده باشد دسترسی پیدا کند. آمازون این درخواست را به دلیل حفظ حریم خصوصی کاربرانش رد کرده است. این وضعیت درست مشابه شرایطی است که اپل در سال ۲۰۱۶ در مقابل درخواست اف‌بی‌آی برای باز کردن قفل گوشی آی‌فون یک تروریست داشت. هر دو این موارد نیاز به وضع قوانین دقیق را برای مشخص شدن اینکه چه وقت و چگونه باید به حریم خصوصی افراد برای حفظ امنیت نفوذ کرد، روشن می‌کند. کاربران و مصرف‌کنندگان حتی با وجود حل نشدن این ابهامات همچنان دستگاه‌‌های مبتنی بر تکنولوژی‌های هوشمند صوتی را می‌خرند. در بسیاری از موارد صداها چندان واضح و قابل تشخیص نیستند، چون کاربران ممکن است در حال انجام کارهای دیگری مانند آشپزی یا رانندگی، فرمان‌های صوتی خود را ارسال کنند. در نهایت ورود نمایشگرهای لمسی تغییر بزرگی در شیوه تعامل انسان با کامپیوترها بود که پیچیدگی‌هایی را هم با خود به همراه داشت، حالا جهش به سمت تکنولوژی‌های هوشمند صوتی احتمالا مسائل پیچیده‌تری را با خود می‌آورد.

منبع: اکونومیست