چطور تکنولوژی صدا، دنیای کامپیوتر را تغییر میدهد؟
جادوی فرمانهای صوتی
ندا لهردی: «آرتور سی کلارک» نویسنده بریتانیایی داستانهای علمی- تخیلی معتقد است که هر تکنولوژی پیشرفتهای به سختی از سحر و جادو قابل تشخیص است. تکنولوژی پردازش صوتی که به سرعت در حال رشد و رواج یافتن است، اعتقاد کلارک را ثابت میکند. استفاده از این تکنولوژی درست شبیه به وردخواندن است؛ چند کلمهای را در هوا میگویی و دستگاهی در فاصله نه لزوما نزدیک میتواند به تو پاسخ بگوید و آرزویت را برآورده کند!
کامپیوتر استوانهای و مبتنی بر تکنولوژی فرمان صوتی Echo شرکت آمازون در گوشهای از اتاق نشسته و به کمک دستیار صوتی هوشمند الکسا میتواند درخواستها و فرمانهای مختلف از اجرای فایل موسیقی، روشن کردن رادیو، تعریف کردن جک و طنز و پاسخگویی به سوالات بی اهمیت گرفته تا کنترل لوازم خانگی هوشمند را انجام دهد.
ندا لهردی: «آرتور سی کلارک» نویسنده بریتانیایی داستانهای علمی- تخیلی معتقد است که هر تکنولوژی پیشرفتهای به سختی از سحر و جادو قابل تشخیص است. تکنولوژی پردازش صوتی که به سرعت در حال رشد و رواج یافتن است، اعتقاد کلارک را ثابت میکند. استفاده از این تکنولوژی درست شبیه به وردخواندن است؛ چند کلمهای را در هوا میگویی و دستگاهی در فاصله نه لزوما نزدیک میتواند به تو پاسخ بگوید و آرزویت را برآورده کند!
کامپیوتر استوانهای و مبتنی بر تکنولوژی فرمان صوتی Echo شرکت آمازون در گوشهای از اتاق نشسته و به کمک دستیار صوتی هوشمند الکسا میتواند درخواستها و فرمانهای مختلف از اجرای فایل موسیقی، روشن کردن رادیو، تعریف کردن جک و طنز و پاسخگویی به سوالات بی اهمیت گرفته تا کنترل لوازم خانگی هوشمند را انجام دهد. این محصول آنقدر سریع در میان مردم به محبوبیت رسید که تا پیش از فصل تعطیلات کریسمس در خانه حدود ۴درصد از آمریکاییها وجود داشت. دستیارهای صوتی هوشمند در موبایلهای هوشمند هم در حال توسعه و تکثیر هستند. دستیار سیری شرکت اپل بیش از ۲ میلیارد فرمان در هفته را انجام میدهد و ۲۰ درصد از جستوجوهای گوگل روی موبایلهای اندرویدی در سراسر آمریکا با فرمان صوتی انجام میشود. دیکته کردن ایمیلها و پیامهای متنی حالا آنقدر خوب و مطمئن انجام میشود که به کاری رایج و مفید تبدیل شده است. وقتی میتوانیم حرف بزنیم، چرا باید تایپ کنیم؟
این تغییر بزرگی است. هرچند ممکن است ساده به نظر برسد اما صدا با ارائه یک ابزار طبیعی برای تعامل کردن، قدرت تغییر شکل آینده دنیای کامپیوتر را دارد. ویندوز، آیکونها و منوها و در نهایت نمایشگرهای لمسی معمولا ملموسترین راههای تعامل با کامپیوترها نسبت به کیبوردهای پیچیده بودهاند. با این حال توانایی صحبت کردن با کامپیوترها، نیاز به موانع یک رابط کاربری را به کلی از بین میبرد. درست همانطور که حالا گوشیهای موبایل بیشتر از تلفنهای ثابت و خودروها بیشتر از کالسکهها هستند، بنابراین کامپیوترهای بدون صفحهنمایش و کیبورد هم پتانسیل مفیدتر، کاربردیتر و قدرتمندتر شدن نسبت به انسانهای امروزه را دارند.
صدا بهطور کلی جایگزین دیگر اشکال ورود و خروج اطلاعات نخواهد شد. این ابزار اغلب برای تعامل با یک ماشین راحتتر از تایپ کردن است. حالا شرکت آمازون اعلام کرده که در حال کار روی یک دستگاه Echo مجهز به نمایشگر است. با این حال اما انتظار میرود صدا سهم بزرگ و رو به رشدی از تعاملات افراد با تکنولوژیهای اطرافشان را دارد، از ماشین لباسشوییهایی که به شما اطلاعات مربوط به چرخههای باقیمانده فرآیند شستوشو از طریق یک دستیار مجازی هوشمند را میدهند گرفته تا لوازم و ابزارهای هوشمند دیگر. اگرچه برای رسیدن به حداکثر پتانسیل تکنولوژی فرمانهای صوتی، این تکنولوژی باید پیشرفتهای بیشتری بکند و بتواند علاوه بر راحتی، رعایت حریم خصوصی کاربران را هم در بر بگیرد.
الکسا! یادگیری عمیق چیست؟
سیستمهای دیکته کردن برای کامپیوتر سالها است که وجود دارند. اما این سیستمها قابل اعتماد نبوده و به آموزش طولانیمدت برای یادگیری صدای یک کاربر خاص نیاز دارند. توانایی جدید کامپیوترها برای تشخیص صدای تقریبا هر شخصی آن هم بدون آموزش، آخرین بروز قدرت «یادگیری عمیق» است. یادگیری عمیق یک روش هوش مصنوعی است که در آن یک سیستم نرمافزاری با استفاده از میلیونها مثال و نمونه جمعآوری شده از اینترنت، آموزش داده میشود. با استفاده از یادگیری عمیق حالا ماشینها در زمینههای مختلف دقت در رونویسی و سیستمهای ترجمه کامپیوتری که به سرعت با سیستمهای تبدیل حرف به متن جلو میروند، تقریبا با انسانها برابری میکنند. بهطور خلاصه، کامپیوترها در روند مدیریت زبان طبیعی به اشکال مختلف آن بسیار بهتر شدهاند.
هرچند یادگیری عمیق به معنای آن است که ماشینها توانایی شناسایی صدا به شکلی مطمئنتر و کمتر تغییر لحن یافته را دارند، اما هنوز معنی زبان را نمیفهمند. این سختترین وجه این مشکل است و اگر رایانش مبتنی بر فرمانهای صوتی واقعا در حال رشد است، باید بر این مشکل غلبه کند. کامپیوترها باید توانایی درک متن برای حفظ یک گفتوگوی منسجم را درباره یک موضوع داشته باشند تا اینکه مانند چیزی که امروز رایج است، فقط به فرمانهای صوتی ساده پاسخ بگویند. محققان در دانشگاهها و شرکتهای بزرگ و کوچک در حال کار روی روباتهای پیچیدهای هستند که میتواند گفتوگوهای دارای جزئیات دقیق را درباره وظایف پیچیدهتر یاد بگیرد؛ از بازیابی اطلاعات و گرفتن وام بانکی گرفته تا انجام هماهنگیهای لازم برای مسافرت. در همین راستا شرکت آمازون یک جایزه یک میلیون دلاری را برای طراحی و ساخت روباتی با توانایی انجام گفتوگوی منسجم و موثر تا ۲۰ دقیقه تعیین کرده است.
وقتی ورد خواندن جایگزین دیکته کردن میشود
مصرفکنندگان و قانونگذاران هم نقش مهمی در تعیین شیوه توسعه و پیشرفت رایانش صوتی دارند. حتی در حال حاضر و در شکل اولیه، این تکنولوژی در شرایط تنگنا قرار دارد. سیستمهای مبتنی بر فرمان صوتی در حال شخصیسازی شده مفیدترین ابزار هستند و دسترسی گستردهای به منابع اطلاعاتی از قبیل تقویمها، ایمیلها و دیگر اطلاعات حساس را فراهم میآورند. این موضوع نگرانیهای جدی درباره امنیت و حریم خصوصی را ایجاد کرده است. در موارد پیچیدهتر، بسیاری از دستگاههای مبتنی بر فرمانهای صوتی و دستیارهای صوتی هوشمند همیشه در حال گوش کردن بوده و منتظر فعال شدن هستند. بعضی افراد در حال حاضر نگران پیامدهای میکروفنهای مرتبط با اینترنت هستند که حالا از طریق موبایلهای هوشمند در هر اتاقی وجود دارند. همه صداها به فضای رایانش ابری ارسال نمیشوند، چون دستیارهای صوتی هوشمند با عباراتی خاص مانند الکسا، اوکی گوگل، هی کورتانا یا هی سیری فعال میشوند. صداها تنها در حالتی که برای ارسال یک درخواست یا فرمان استفاده شوند، میتوانند در فضای ابری ذخیره شوند.
این روزها پلیس جنایی در تحقیقات برای پرونده یک قتل در آرکانزاس که از طریق بلندگوی هوشمند Echo آمازون شنیده و گزارش شده است، از این شرکت خواسته تا به هر فرمان صوتی که ممکن است این بلندگو ذخیره کرده باشد دسترسی پیدا کند. آمازون این درخواست را به دلیل حفظ حریم خصوصی کاربرانش رد کرده است. این وضعیت درست مشابه شرایطی است که اپل در سال ۲۰۱۶ در مقابل درخواست افبیآی برای باز کردن قفل گوشی آیفون یک تروریست داشت. هر دو این موارد نیاز به وضع قوانین دقیق را برای مشخص شدن اینکه چه وقت و چگونه باید به حریم خصوصی افراد برای حفظ امنیت نفوذ کرد، روشن میکند. کاربران و مصرفکنندگان حتی با وجود حل نشدن این ابهامات همچنان دستگاههای مبتنی بر تکنولوژیهای هوشمند صوتی را میخرند. در بسیاری از موارد صداها چندان واضح و قابل تشخیص نیستند، چون کاربران ممکن است در حال انجام کارهای دیگری مانند آشپزی یا رانندگی، فرمانهای صوتی خود را ارسال کنند. در نهایت ورود نمایشگرهای لمسی تغییر بزرگی در شیوه تعامل انسان با کامپیوترها بود که پیچیدگیهایی را هم با خود به همراه داشت، حالا جهش به سمت تکنولوژیهای هوشمند صوتی احتمالا مسائل پیچیدهتری را با خود میآورد.
منبع: اکونومیست
ارسال نظر