دادههای بزرگ بد؟!
بر این اساس، بهتر است که دنیای پر از تلاطم و دگرگونی امروز بهجای افزودن بر پیچیدگی الگوریتمها و بزرگتر کردن داده، به دنبال کاهش پیچیدگیها و دادههای مورد استفاده برای حل مسائل برود و از این طریق پیشبینیهای دقیقتری داشته باشد. همچنین بهتر است در برخی موارد هر آنچه را که در گذشتههای دور رخ داده نادیده گرفت و بهجای آن بر آنچه اخیرا اتفاق افتاده تمرکز کرد. علاوه بر آن، استفاده از هوشمصنوعی روانشناسانه به حل مسائل پیچیده کمک میکند. این نوع هوشمصنوعی نهتنها ضعیفتر از الگوریتمهای پیچیده یادگیری ماشین نیست، بلکه در بسیاری موارد قدرتمندتر و موثرتر از آنها نیز عمل میکند و میتواند با استفاده از دادههایی محدود و مختصر کارهایی را انجام دهد که الگوریتمهای پیچیده و شبکههای عمیق با استفاده از دادههای بزرگ قادر به انجام آنها نیستند.
مثال روندهای آنفلوآنزای گوگل تنها یکی از نمونههای ناتوانی الگوریتمهای پیشرفته و دادههای بزرگ برای پیشبینی آینده و اثربخش بودن محسوب میشود که در آنها پیچیدگی بیش از حد الگوریتمها و دادههای بزرگ چارهساز نبوده و در مقابل، روشهای ساده و سریع بهتر جواب دادهاند. میتوان به نمونههای پرشماری مانند پیشبینی خریدهای مصرفی، تکرار جرائم، حملات قلبی، نتایج ورزشی و نتایج انتخابات اشاره کرد. در همه اینها الگوریتمهای پیچیده و دادههای بزرگ نتوانستهاند عملکرد مطلوبی داشته باشند، در حالی که روشهای ساده مبتنی بر رویدادهای اخیر و هوش مصنوعی روانشناسانه بسیار مؤثر بوده و به ما امکان پیشبینی درست و دقیق آینده را دادهاند. در واقع آنچه باعث ناتوانی و به خطا رفتن الگوریتمهای پیشرفته وابسته به دادههای بزرگ میشود این است که سه پیشنیاز برای موفقیت آنها وجود دارد: وجود یک تئوری خوب، وجود دادههای معتبر و از همه مهمتر وجود یک دنیای ثابت و بدون تغییر. این پیشنیاز سوم که مهمترین پیشنیاز هم هست در دنیای پرتلاطم امروز وجود ندارد و به پاشنه آشیل الگوریتمهای پیچیده و دادههای بزرگ برای حل مسائل دنیای ما تبدیل شده است.
نتایج اشتباه براساس دادههای اشتباه
یکی از ژورنالیستهای شاغل در مجله فوربس مدتی پیش یک ایمیل تبلیغاتی دریافت کرد که به افراد بازنشسته مربوط میشد و محتوای آن به درد کسانی میخورد که یا در آستانه بازنشستگی هستند یا اینکه بازنشست شدهاند. علت تعجب و غافلگیر شدن او بابت دریافت این ایمیل تبلیغاتی این بود که او فقط ۳۵ سال سن داشت و سالیان طولانی تا بازنشست شدن فاصله داشت. تکرار شدن ارسال این نوع ایمیلها برای او باعث افزایش تعجب و البته نگرانی او شد، به طوریکه او تصمیم گرفت در مورد علت دریافت چنین ایمیلهایی تحقیق کند. او پس از مدتی تحقیق و کنکاش در این زمینه فهمید که پروفایلهای شخصی و کاری او توسط «دلالان داده» به سرقت رفته و در اختیار موسسات تبلیغاتی قرار گرفته است. بزرگترین دلالان داده در آمریکا که کمتر کسی در مورد آنها چیزی میداند «آکسیوم»(Axiom) و «اوراکل دیتا کلود» (Oracle data cloud) نام دارند که پروفایل صدها میلیون نفر در سراسر جهان را در اختیار دارند و آنها را در اختیار شرکتهای تبلیغاتی و سایر شرکتها و موسسات قرار میدهند.
دلالان داده با استفاده از اطلاعات استخراج شده از کوکیها، رفتار جستوجوی افراد در اینترنت، و سایر منابع اطلاعاتی به پروفایل و دادههای مرتبط با کاربران دست مییابند و آنها را در اختیار شرکتهایی مانند فیسبوک قرار میدهند که بر پایه تبلیغات استوار هستند و بهشدت به دنبال این هستند که درباره کاربرانشان بیشتر بدانند و راههای جدیدی را برای نفوذ و تاثیرگذاری بر آنها بیابند.
ژورنالیست فوربس هم با آکسیوم و هم اوراکل تماس گرفت و در کمال تعجب متوجه شد که در بانک اطلاعاتی هر دو این شرکتها او بهعنوان فردی ۶۵ ساله، متأهل و کسی که مقدار بسیار زیادی پوشک بچه و غذای بچه و مواد غذایی وارداتی خریداری کرده معرفی شده است. هیچکدام از این اطلاعات درست نبود. وقتی که او از این دو شرکت در مورد مرجع جمعآوری این اطلاعات درباره خود جویا شد با مخفیکاری آنها مواجه شد و هر دو شرکتها به او گفتند که این جزو اسرار تجاری آنهاست و در نتیجه جواب درستی در این مورد به او ندادند. کمی بعد او در گفتوگو با یکی از خبرنگاران رویترز متوجه شد که پروفایل آن خبرنگار نیز توسط همین دو شرکت به سرقت رفته و در اختیار شرکتهای مختلفی قرار گرفته است، درحالی که اطلاعات نادرستی در مورد او در آن گنجانده شده بود. خبرنگار رویترز مدعی بود که به او گفته شده بخش قابل توجهی از اطلاعاتی که بهعنوان پروفایل او در بانک اطلاعاتی این شرکتها گنجانده شده، بر اساس حدسهایی شکل گرفتهاند که هوش مصنوعی با توجه به دادههای قبلی مرتبط با او پیشنهاد داده است.
تحقیقات میدانی متعددی درخصوص بروز اشتباهاتی شبیه به آنچه در بالا اشاره شد نیز انجام شده که به نتایج جالب توجهی منتهی شده است. یکی از این تحقیقات در خصوص میزان دقت و اعتبارسنجی عملکرد دلالان داده برای رساندن تبلیغات به دست مخاطبان هدف انجام گرفت. مخاطبان هدف در این تحقیق مردان گروه سنی ۲۵ سال تا ۵۴ سال بودند که تقریبا ۲۷درصد جمعیت مردان را تشکیل میدادند. قرار بود پیامهای تبلیغاتی مربوط به یک کمپین خیریه از طریق پلتفرمهای خرید تبلیغات و دلالان داده برای این افراد فرستاده شود. در این تحقیق، عملکرد ۱۹ شرکت دلال داده و شش پلتفرم تبلیغاتی مورد بررسی قرار گرفت و مشخص شد که میانگین دقت پیامهای ارسالی و رسیدن آنها به مخاطبان هدف درست فقط ۵۹درصد بوده است. این عدد نسبتا پایینی است و معنای ضمنی آن این است که ۴۱درصد از پیامها برای زنان یا بچهها و کسانی که جزو جامعه هدف این کمپین نبودهاند ارسال شده است. وقتی هم به عملکرد تک تک این پلتفرمها نگاه میکنیم میبینیم که میزان دقت بهترین آنها ۷۲ درصد و میزان دقت بدترین آنها ۴۰درصد بوده است که این آمار و ارقام به هیچ عنوان مطلوب و امیدوارکننده به نظر نمیرسد.
منبع: کتاب The age of AI: and our human future