داده‏‏‌های بزرگ بد؟!

بر این ‌‌‌اساس، بهتر است که دنیای پر از تلاطم و دگرگونی امروز به‌‌‌جای افزودن بر پیچیدگی الگوریتم‌‌‌ها و بزرگ‌‌‌تر کردن داده، به دنبال کاهش پیچیدگی‌‌‌ها و داده‌‌‌های مورد استفاده برای حل مسائل برود و از این طریق پیش‌‌‌بینی‌‌‌های دقیق‌‌‌تری داشته باشد. همچنین بهتر است در برخی موارد هر آنچه را که در گذشته‌‌‌های دور رخ‌‌‌ داده نادیده گرفت و به‌‌‌جای آن بر آنچه اخیرا اتفاق افتاده تمرکز کرد. علاوه ‌‌‌بر آن، استفاده از هوش‌مصنوعی روان‌‌‌شناسانه به حل مسائل پیچیده کمک می‌‌‌کند. این نوع هوش‌مصنوعی نه‌‌‌تنها ضعیف‌‌‌تر از الگوریتم‌‌‌های پیچیده یادگیری ماشین نیست، بلکه در بسیاری موارد قدرتمندتر و موثرتر از آنها نیز عمل می‌‌‌کند و می‌‌‌تواند با استفاده از داده‌‌‌هایی محدود و مختصر کارهایی را انجام دهد که الگوریتم‌‌‌های پیچیده و شبکه‌‌‌های عمیق با استفاده از داده‌‌‌های بزرگ قادر به انجام آنها نیستند.

مثال روندهای آنفلوآنزای گوگل تنها یکی از نمونه‌‌‌های ناتوانی الگوریتم‌‌‌های پیشرفته و داده‌‌‌های بزرگ برای پیش‌‌‌بینی آینده و اثربخش‌‌‌ بودن محسوب می‌‌‌شود که در آنها پیچیدگی بیش از حد الگوریتم‌‌‌ها و داده‌‌‌های بزرگ چاره‌‌‌ساز نبوده و در مقابل، روش‌‌‌های ساده و سریع بهتر جواب داده‌‌‌اند. می‌‌‌توان به نمونه‌‌‌های پرشماری مانند پیش‌‌‌بینی خریدهای مصرفی، تکرار جرائم، حملات قلبی، نتایج ورزشی و نتایج انتخابات اشاره کرد. در همه اینها الگوریتم‌‌‌های پیچیده و داده‌‌‌های بزرگ نتوانسته‌‌‌اند عملکرد مطلوبی داشته باشند، در حالی که روش‌‌‌های ساده مبتنی بر رویدادهای اخیر و هوش مصنوعی روان‌‌‌شناسانه بسیار مؤثر بوده و به ما امکان پیش‌‌‌بینی درست و دقیق آینده را داده‌‌‌اند. در واقع آنچه باعث ناتوانی و به خطا رفتن الگوریتم‌‌‌های پیشرفته وابسته به داده‌‌‌های بزرگ می‌‌‌شود این است که سه پیش‌‌‌نیاز برای موفقیت آنها وجود دارد: وجود یک تئوری خوب، وجود داده‌‌‌های معتبر و از همه مهم‌‌‌تر وجود یک‌‌‌ دنیای ثابت و بدون تغییر. این پیش‌‌‌نیاز سوم که مهم‌‌‌ترین پیش‌‌‌نیاز هم هست در دنیای پرتلاطم امروز وجود ندارد و به پاشنه آشیل الگوریتم‌‌‌های پیچیده و داده‌‌‌های بزرگ برای حل مسائل دنیای ما تبدیل شده است.

 نتایج اشتباه براساس داده‌های اشتباه

یکی از ژورنالیست‌‌‌های شاغل در مجله فوربس مدتی پیش یک ایمیل تبلیغاتی دریافت کرد که به افراد بازنشسته مربوط می‌‌‌شد و محتوای آن به درد کسانی می‌‌‌خورد که یا در آستانه بازنشستگی هستند یا اینکه بازنشست شده‌‌‌اند. علت تعجب و غافلگیر شدن او بابت دریافت این ایمیل تبلیغاتی این بود که او فقط ۳۵ سال سن داشت و سالیان طولانی تا بازنشست شدن فاصله داشت. تکرار شدن ارسال‌‌‌ این نوع ایمیل‌‌‌ها برای او باعث افزایش تعجب و البته نگرانی او شد، به ‌‌‌طوری‌‌‌که او تصمیم گرفت در مورد علت دریافت چنین ایمیل‌‌‌هایی تحقیق کند. او پس از مدتی تحقیق و کنکاش در این زمینه فهمید که پروفایل‌‌‌های شخصی و کاری او توسط «دلالان داده» به سرقت رفته و در اختیار موسسات تبلیغاتی قرار گرفته است.  بزرگ‌‌‌ترین دلالان داده در آمریکا که کمتر کسی در مورد آنها چیزی می‌‌‌داند «آکسیوم»(Axiom) و «اوراکل دیتا کلود» (Oracle data cloud) نام دارند که پروفایل صدها میلیون نفر در سراسر جهان را در اختیار دارند و آنها را در اختیار شرکت‌‌‌های تبلیغاتی و سایر شرکت‌‌‌ها و موسسات قرار می‌‌‌دهند.

دلالان داده با استفاده از اطلاعات استخراج شده از کوکی‌‌‌ها، رفتار جست‌‌‌وجوی افراد در اینترنت، و سایر منابع اطلاعاتی به پروفایل و داده‌‌‌های مرتبط با کاربران دست می‌‌‌یابند و آنها را در اختیار شرکت‌‌‌هایی مانند فیس‌‌‌بوک قرار می‌‌‌دهند که بر پایه تبلیغات استوار هستند و به‌‌‌شدت به دنبال این هستند که درباره کاربرانشان بیشتر بدانند و راه‌‌‌های جدیدی را برای نفوذ و تاثیرگذاری بر آنها بیابند.

ژورنالیست فوربس هم با آکسیوم و هم اوراکل تماس گرفت و در کمال تعجب متوجه شد که در بانک اطلاعاتی هر دو این شرکت‌‌‌ها او به‌‌‌عنوان فردی ۶۵ ساله، متأهل و کسی که مقدار بسیار زیادی پوشک بچه و غذای بچه و مواد غذایی وارداتی خریداری کرده معرفی شده است. هیچ‌‌‌کدام از این اطلاعات درست نبود. وقتی که او از این دو شرکت در مورد مرجع جمع‌‌‌آوری این اطلاعات درباره خود جویا شد با مخفی‌‌‌کاری آنها مواجه شد و هر دو شرکت‌‌‌ها به او گفتند که این جزو اسرار تجاری آنهاست و در نتیجه جواب درستی در این مورد به او ندادند. کمی بعد او در گفت‌‌‌وگو با یکی از خبرنگاران رویترز متوجه شد که پروفایل آن خبرنگار نیز توسط همین دو شرکت به سرقت رفته و در اختیار شرکت‌‌‌های مختلفی قرار گرفته است، درحالی‌‌‌ که اطلاعات نادرستی در مورد او در آن گنجانده شده بود. خبرنگار رویترز مدعی بود که به او گفته شده بخش قابل ‌‌‌توجهی از اطلاعاتی که به‌‌‌عنوان پروفایل او در بانک اطلاعاتی این شرکت‌‌‌ها گنجانده شده، بر اساس حدس‌‌‌هایی شکل‌‌‌ گرفته‌‌‌اند که هوش مصنوعی با توجه ‌‌‌به داده‌‌‌های قبلی مرتبط با او پیشنهاد داده است.

تحقیقات میدانی متعددی درخصوص بروز اشتباهاتی شبیه به آنچه در بالا اشاره شد نیز انجام شده که به نتایج جالب ‌‌‌توجهی منتهی شده است. یکی از این تحقیقات در خصوص میزان دقت و اعتبارسنجی عملکرد دلالان داده برای رساندن تبلیغات به دست مخاطبان هدف انجام گرفت. مخاطبان هدف در این تحقیق مردان گروه سنی ۲۵ سال تا ۵۴ سال بودند که تقریبا ۲۷‌درصد جمعیت مردان را تشکیل می‌‌‌دادند. قرار بود پیام‌‌‌های تبلیغاتی مربوط به یک کمپین خیریه از طریق پلتفرم‌‌‌های خرید تبلیغات و دلالان داده برای این افراد فرستاده شود. در این تحقیق، عملکرد ۱۹ شرکت دلال داده و شش پلتفرم تبلیغاتی مورد بررسی قرار گرفت و مشخص شد که میانگین دقت پیام‌‌‌های ارسالی و رسیدن آنها به مخاطبان هدف درست فقط ۵۹درصد بوده است. این عدد نسبتا پایینی است و معنای ضمنی آن این است که ۴۱درصد از پیام‌‌‌ها برای زنان یا بچه‌‌‌ها و کسانی که جزو جامعه هدف این کمپین نبوده‌‌‌اند ارسال شده است. وقتی هم به عملکرد تک تک این پلتفرم‌ها نگاه می‌‌‌کنیم می‌‌‌بینیم که میزان دقت بهترین آنها ۷۲ درصد و میزان دقت بدترین آنها ۴۰درصد بوده است که این آمار و ارقام به هیچ عنوان مطلوب و امیدوارکننده به نظر نمی‌‌‌رسد.

منبع: کتاب The age of AI: and our human future