دنیای اقتصاد: یک نفر از یک سمت اتاق یک توپ برای شما پرتاب می‌کند و شما آن را می‌گیرید. ساده است نه؟ در حقیقت این پروسه یکی از پیچیده‌ترین پروسه‌هایی است که تا به‌حال سعی کرده‌ایم از منظر روباتیک آن را درک کنیم، چه برسد که بخواهیم مراحل آن را دوباره‌سازی کنیم! اختراع و ساخت دستگاهی که مانند انسان‌ها قدرت بینایی داشته باشد کار بسیار سختی است، نه فقط به‌ این علت که به کامپیوتر دستور بدهیم آن را انجام دهد، بلکه هنوز چگونگی انجام این کار در قدم اول را هم بلد نیستیم. پروسه‌ای که رخ می‌دهد تقریبا به این شکل است: تصویر توپ از چشم شما عبور می‌کند و با شبکیه چشم شما برخورد می‌کند و شبکیه پس از انجام چند آنالیز اولیه آن را به مغز ارسال می‌کند و قشر بینایی آنالیزهای عمیق‌تری روی آن انجام می‌دهد.

پس تصاویر را به بخش‌های دیگر قشر بینایی انتقال می‌دهد تا در آنجا تصویر را با هرآنچه که تا حالا مغز شناخته است، مقایسه ‌کند و سپس با توجه به ابعاد و ظاهر شیء، آن را دسته‌بندی می‌کند و تشخیص می‌دهد که آن جسم چیست، حدودا چقدر وزن دارد و در ادامه مغز تصمیم به انجام کاری (واکنشی) می‌گیرد: دستتان را بلند می‌کنید و توپ را می‌گیرید. این عکس‌العمل به‌صورت ناخودآگاه و در پروسه دوم اتفاق می‌افتد و هیچ‌وقت خطایی در آن رخ نمی‌دهد. بنابراین شبیه‌سازی مراحل دیدن تصاویر از سوی انسان مشکل اصلی نیست، بلکه مشکل مجموعه‌ این مراحل است که عملکرد هرکدام به بخش دیگری وابسته است.تا به‌حال کسی این مراحل را ساده تلقی نکرده است. البته به‌جز «ماروین مینسکی» نابغه‌ تکنولوژی Al (هوش مصنوعی) که در سال ۱۹۶۶ به یک دانش‌آموز دیپلمه چگونگی اتصال دوربین به کامپیوتر را آموزش داد و از او خواست که مراحل را شرح دهد. آن نوجوان امروز ۵۰ سال سن دارد و می‌گوید هنوز درحال کارکردن روی آن موضوع است! مطالعات جدی در این زمینه از دهه ۵۰ و در سه بخش کلید خورد: ساخت چشم (سخت)، ساخت غشای بصری (خیلی سخت) و ساخت دیگر مراحل مغز (سخت‌ترین مرحله‌ای که تا به‌حال دیده شده).

دیدن

خلق یک چشم جدید، مرحله‌ای‌ است که بیشترین پیشرفت را در آن داشته‌ایم. در طول چند دهه گذشته، سنسورها و پردازشگرهای تصویری را خلق کرده‌ایم که به شکلی با توانایی‌های انسان قابل رقابت است. با وجود لنزهای اپتیکال بی‌نقص‌ و پیکسل‌های ساخته شده با دقت نانومتری، دقت و حساسیت دوربین‌های جدید را باید شگفت‌انگیز بنامیم. دوربین‌های جدید قادرند هزاران تصویر را در کسری از ثانیه ثبت کنند و فاصله را با دقت بالایی تشخیص دهند. به‌رغم وضوح بالای خروجی‌های این دوربین‌ها، هنوز تفاوت چشمگیری نسبت به دوربین‌های سوراخ سوزنی قرن ۱۹ مشاهده نمی‌کنیم. بهترین سنسور دوربین شناخته شده قادر به تشخیص یک توپ نبود، چه برسد به ارسال دستور برای گرفتن آن. به معنای دیگر سخت‌افزار بدون نرم‌افزار کاملا محدود است. این مساله خود مشکل بزرگ‌تری به حساب می‌آید. اما به لطف تکنولوژی دوربین‌های مدرن، سیستم غنی و انعطاف‌پذیری برای انجام کارهایمان فراهم شده‌است.

توضیح دادن

اینجا جای مناسبی برای توضیح و کالبدشکافی اعصاب نیست، اما کافی است که بگوییم بیشتر قسمت‌های مغز برای مراحل دیدن استفاده می‌شود و مغز انسان با دیدن و صحبت کردن تکامل پیدا می‌کند البته این ویژگی شامل سلول‌ها نیز می‌شود. میلیاردها سلول وظیفه دارند که الگوها را از سیگنال‌های شلوغ و بهم ریخته‌ شبکیه خارج کنند. در صورت وجود کنتراست در طول یک خط یا زاویه خاص یا حرکت سریع اشیا در جهت خاص، حسگرهای چشم تحریک می‌شوند. شبکه‌های نرونی سطح بالاتر، این الگوها را مانند حلقه‌ درحال حرکت به سمت بالا به الگوهای بزرگ‌تری تبدیل می‌کنند. سپس شبکه‌ دیگری از نرون‌ها نیز با آنها هماهنگ می‌شود. این حلقه به رنگ سفید و دارای خط‌هایی به رنگ قرمز است و تصاویر با جزئیات کامل‌تری از این مواد اولیه به‌وجود می‌آیند.

این فرمول برای چند شیء در فضای تحت کنترل قابل اجرا بود. اما تصور کنید که می‌خواهید تمام اشیای اطرافتان را به این شکل تعریف کنید، با زوایای مختلف با درجه نوردهی و حرکت متغیر و صدها ویژگی متفاوت دیگر. واضح است برای رسیدن به نوپا ترین درجه از این نوع شناخت، نیازمند حجم عظیمی از داده‌ها هستیم. نگرش «ساخت از ابتدا تا انتها» با تقلید از آنچه در مغز یافته شده، امیدوارکننده‌تر است. یک کامپیوتر قادر به اجرای یکسری تغییرات روی تصویر است و می‌تواند لبه‌های جسم را تشخیص دهد و همچنین روی اشیایی تغییر ایجاد کند که در یک تصویر آن را مشخص کرده‌ایم. این مراحل شامل مقدار عظیمی از معادلات ریاضی و آمار است که در کامپیوتر به اطلاعات تبدیل می‌شوند. کامپیوتر اشیایی را که مشاهده می‌کند با اشکالی که برای شناسایی در اختیار دارد تطبیق می‌دهد. به روشی که مغز ما همین پروسه را انجام می‌دهد.

دانشمندان درحال کار روی اسمارت‌فون‌ها هستند که آنها را قادر سازند اشیایی که از دریچه دوربین دیده می‌شوند را تشخیص دهند و این کار را با نمایش دادن اسامی اشیای درون محیط، روی تصویر انجام می‌دهند. در اینجا نمونه تصویری از یک خیابان با لیبل‌های به شکل نمونه اولیه داریم. در سال‌های اخیر به دلیل نیاز به حجم عظیمی از محاسبات، ساخت و به‌کارگیری شبکه‌های عصبی مصنوعی غیرعملی شده‌است و همچنین شاهد پیشرفت‌های جدی در زمینه محاسبات موازی بوده‌ایم و در این سال‌ها هجوم دانشمندان به سمت استفاده از سیستم‌های تقلیدی مشابه سیستم مغز انسان افزایش یافته است. مراحل شناسایی الگوها نیز هر روز در حال سرعت گرفتن است و همواره شاهد پیشرفت‌هایمان در این زمینه هستیم.

درک کردن

شما می‌توانید سیستمی طراحی کنید که هر نوع سیبی را در هر زاویه‌ای، درحال حرکت یا ثابت تشخیص دهد حتی به شکل گاز گرفته شده، اما این سیستم قادر به تشخیص پرتغال نخواهد بود! به همین دلیل سیستم نمی‌تواند به شما بگوید سیب چیست؟ آیا قابل خوردن است؟ سایز آن چقدر است؟ یا اینکه چه کاربردی خواهد داشت؟ مشکل اینجا است که نرم‌افزارها و سخت‌افزارها بدون داشتن سیستم‌عامل، کاربرد زیادی برای شما نخواهند داشت. این سیستم‌عامل برای ما، همان بخش باقیمانده مغزمان است که شامل حافظه کوتاه‌مدت و بلندمدت، ورودی‌های به‌دست آمده از حواس مختلف، توجه و شناخت و میلیاردها درس مختلف به‌دست آمده از تریلیون‌ها تعامل شکل گرفته با دنیا است که با الگویی غیرقابل فهم نوشته شده‌اند. این بخش‌ها جهت استفاده شبکه متصل و پیچیده نورون‌های عصبی تشکیل شده‌اند که خود این شبکه نورون‌ها پیچیده‌تر از هرچیزی است که تا به‌ حال با آن برخورد کرده‌ایم. ما در مرز علم کامپیوتر و به‌طور عمومی‌تر، در مرز علم هوش مصنوعی قرار داریم که متاسفانه تنها در حال چرخیدن به دور خودمان هستیم.

با وجود دانشمندان کامپیوتر، مهندسان، روانشناسان و دانشمندان علوم اعصاب، به سختی می‌توانیم تعریف ساده‌ای از کاربرد مغزمان داشته‌ باشیم و بدتر اینکه حتی قادر به شبیه‌سازی آن هم نیستیم اما این به آن معنا نیست که علم در بن‌بست قرار گرفته‌ باشد. آینده بینایی کامپیوتر در ساخت سیستم‌های قوی و تخصصی است که از طریق سیستم‌های گسترده‌تری که تمرکز خود را روی مفاهیم پیچیده‌ای همچون «درک مفهوم»، «تمرکز» و «عمل کردن» قرار داده‌اند، به وجود می‌آیند. با این وجود، بینایی کامپیوتر حتی در ابتدایی‌ترین مرحله خود، باز هم خارق‌العاده عمل می‌کند. در دوربین‌ها، قادر به تشخیص چهره و لبخند است. در ماشین‌های بدون سرنشین، قادر به خواندن علائم ترافیکی و دیدن رهگذران است. در روبات‌های موجود در کارخانه‌ها، قادر به نظارت بر دستگاه‌ها و حرکت در میان کارکنان کارخانه است. برای رساندن سطح بینایی کامپیوترها به سطح و کیفیت انسانی، راه بسیار طولانی در پیش داریم، اما با توجه به حجم عظیم و پیچیدگی این تکنولوژی، همین که کامپیوترها تا به امروز قابلیت دیدن دارند جای شگفتی دارد.

روبات‌ها چگونه می‌بینند؟