در حصار کلان‌داده‌ها

سمیرا دردشتی

امروزه ما در جهانی زندگی می‌کنیم که اطرافش سرشار از داده‌های مختلف است. همه ما هر روز بدون آنکه متوجه شویم اطلاعاتی از خود به دیگران می‌دهیم. هر کنش اقتصادی، سیاسی، اجتماعی و حتی فردی ما می‌تواند داده‌هایی را ایجاد کند که در یک فرآیند پس از تجزیه و تحلیل بار دیگر بر زندگی و کنش آتی ما اثر گذار باشد. در این گفت‌وگو با دکتر هومن تصدیقی پژوهشگر و استاد دانشگاه شماری از تاثیرات کلان داده‌ها بر زندگی افراد را مورد بررسی قرار داده‌ایم. دکتر تصدیقی دکترای مدیریت نوین را از دانشگاه شیزوکا در ژاپن اخذ کرده است و در شمار زیادی از دانشگاه‌های دولتی و پژوهشگاه‌های خصوصی سابقه تدریس دارد. وی همچنین پژوهش‌های متعددی در رابطه با شبکه، برنامه نویسی صفحات وب و مدیریت بانک‌های اطلاعاتی داشته است و چندین بار به‌عنوان استاد نمونه انتخاب شده است.

به‌عنوان نخستین پرسش ممکن است به ما بفرمایید که کلان داده‌ها چیست و چه اهمیتی در دنیای امروز دارند؟

ما یک تعریف خیلی رسمی از کلان داده‌ها داریم که با چندتاV نشان داده می‌شود. V اول Volume است یعنی حجم زیادی از داده‌ها باید در آن باشد. V دوم به Variety برمی گردد یعنی در کلان داده‌ها تنوع وجود دارد و سومین V به معنای Velocity است که نشان می‌دهد داده‌ها با سرعت بالایی تغییر یا رشد می‌کنند. به علاوه اینکه ما با حجم زیادی از داده‌ها و... سعی می‌کنیم چشم‌اندازی به دست آوریم که این چشم‌انداز آینده یک صنعت یا حوزه است؛ اما تعریف غیر‌رسمی آن اینگونه است که معمولا شما هرکجا که حجم زیادی از داده‌ها را دارید و به تنوع و فرمت آن چندان توجهی ندارید، شما در حال استفاده از Big data هستید. در مورد کاربرد آن باید گفت که شما برای هر تصمیم‌گیری باید داده جمع کنید. در مدل‌های مختلف اساس تصمیم‌گیری آگاهی از محیط و جمع‌آوری داده است. این داده‌ها به نسبت پیچیده‌تر شدن محیط افزایش می‌یابد؛ بنابراین Big data به زمانی مربوط می‌شود که شما داده‌های مربوط به آمار سازمان خودتان، تفکیک مشتریانتان، آمار اقتصادی و... را جمع می‌کنید و درون این Big data شروع به کنکاش به منظور کسب اطلاعات می‌کنید.

کلان داده‌ها چه مزایایی دارند و چه معایب و خطراتی در رابطه با آنها وجود دارد؟

ابتدا به خطرات احتمالی آن اشاره می‌کنم، برخی اوقات یکپارچه کردن داده‌ها در یک جا می‌تواند این خطر را داشته باشد که دزدیده شود. مانند هر دارایی دیگری داده‌ها را نیز اگر در جاهای مختلف پراکنده کنیم، احتمال دزدیده شدن همه آنها به‌صورت یکجا کمتر می‌شود. داده‌ها در کشور ما در سازمان‌های مختلف پراکنده است و این خطر دزدیده شدن آن را به طور کامل کاهش می‌دهد. پس هر میزان داده‌ها را کنار هم قرار دهیم، باید سیستم امنیتی خود را بالاتر ببریم که احتمال نفوذ و دزدیده شدن داده‌ها کاهش یابد.

دومین خطر و مشکل کلان داده‌ها آن است که ما ممکن است داده‌های بی‌کیفیت را در کنار هم جمع‌آوری کنیم و در این صورت دردسر تازه‌ای که ایجاد می‌شود آن است که پیش‌تر تصور می‌شد که داده‌ای نداریم، اما در وضعیت جدید حس کاذبی ایجاد می‌شود که داده داریم اما توجه نمی‌کنیم که داده‌های بی‌کیفیت را کنار هم جمع کرده‌ایم.

بنابراین نمی‌توان براساس چنین داده‌های فاقد کیفیتی تصمیم درستی گرفت اما در مجموع مزایای این امر بیش از معایب آن است. به این صورت که ما انتظار داریم با جمع‌آوری داده‌های درست، تصمیم‌گیری‌های درستی انجام دهیم. در بسیاری از نقاط جهان از جمله در کشور خودمان اگرچه ما در داده غرق هستیم اما به طور همزمان دچار فقر داده نیز هستیم. یعنی حجم وسیعی داده در اطراف ما وجود دارد ولی ما آنها را ثبت نمی‌کنیم. یعنی چند رفتار نامناسب در برخورد با داده‌ها داریم.

۱) به داده‌ها بی‌توجه هستیم و آنها را ثبت نمی‌کنیم.

۲) گاهی به آنها توجه داریم و حتی آنها را ثبت می‌کنیم، اما داده‌های بی‌کیفیت را انتخاب می‌کنیم و آنها را اشتباهی ثبت می‌کنیم.

۳) اشتباه بعدی آن است که داده‌ها را ثبت می‌کنیم، ولی پراکنده است. به‌طور مثال اطلاعات مربوط به اوضاع بانکی در یکجا جمع شده، اطلاعات سازمان ثبت اسناد و املاک در جای دیگری و...

۴) گاهی اوقات این پراکندگی موجب اتصال غلط داده‌ها به یکدیگر می‌شود ولی اگر تمام این موارد را درست انجام دهیم، به عمده ترین مزیت کلان داده‌ها می‌رسیم که همان امکان تصمیم‌گیری درست و مناسب است. آن هم نه تصمیم‌گیری واکنشی بلکه شما براساس این داده‌ها تقریبا توان تشخیص آن چه پیش رو هست را خواهید داشت. این داده‌ها امکان پیش‌بینی مشکل را به ما می‌دهد، یعنی ما می‌توانیم پیش‌بینی کنیم یک مشکل در حال شکل‌گیری است. مثلا نسبت تقاضا برای مسکن نسبت به ساخت مسکن در حال ازدیاد است. یعنی هنوز با مشکل مسکن مواجه نیستیم، ولی می‌توان پیش‌بینی کرد اگر با همین روند پیش برویم در چند سال آتی با کمبود مسکن مواجه خواهیم شد.آگاهی از این امر در سایر بخش‌ها هم با در دست داشتن داده‌های مربوط به آن میسر می‌شود، اما اگر از این داده‌ها استفاده نکنیم و آنها را درست جمع‌آوری نکنیم ناچار به تصمیم‌گیری درون بحران هستیم که احتمالا تصمیمات مناسبی هم نخواهد بود.

یکی از محل‌های عمده‌ای که کلان داده‌ها درون آن جمع‌آوری می‌شوند، اینترنت است، آیا کلان داده‌ها برای کاربران عادی اینترنت به‌ویژه در شبکه‌های اجتماعی خطری دارد؟

خطر که می‌تواند داشته باشد، اما یک چیز را نباید فراموش کنیم و آن توجه به این امر است که یک فرد یا گروهی از افراد آنقدر اهمیت داشته باشند که داده‌های آنها آنالیز شود. ما اصطلاحی تحت عنوان منبع داده (data source) داریم که هریک از این شبکه‌های اجتماعی یک منبع داده به حساب می‌آیند. ما پیش از پدید آمدن این شبکه‌ها بقچه مغزمان را معمولا نزد دیگران باز نمی‌کردیم، اما در حال حاضر نادانسته و عامدانه بهترین زمان‌های خود را به نوشتن اطلاعات در این شبکه‌ها اختصاص می‌دهیم اما چون این اطلاعات پراکنده است ما متوجه نمی‌شویم. مثلا در یک سایتی وارد می‌شویم و نام خود را وارد می‌کنیم، جای دیگری علاقه‌مندی‌های خود را می‌نویسیم و در جای دیگری بر روی برخی از ابزارها کلیک می‌کنیم. به این ترتیب اگر کسی اینها را به هم وصل (connect) کند، به مشخصاتی از ما پی می‌برد.

هر کدام از این منابع داده در اینترنت در دست یک شرکت مستقل است، ساز و کار اتصال آنها به چه صورت است؟

معمولا اگر کسی این data source‌های مختلف را کنار هم داشته باشد می‌تواند آنها را connect کند. ما یک رفتار حداقلی در فضای اینترنت از خود بروز می‌دهیم که به نظر خطری هم ندارد، ولی مجموع اینها زمانی که به هم متصل می‌شوند اطلاعات مهمی را پدید می‌آورد. برای مثال شما به خاطر دارید عاقبت وایبر چه شد؟ بعد از مدتی مالکان وایبر آن را به یک شرکت ژاپنی به نام راکوتن فروختند. این شرکت با پرداخت سی برابر قیمتی که صاحبان وایبر صرف کرده بودند به آنها، کل داده‌های وایبر را خریداری کرد؛ بنابراین تک‌تک اطلاعات موجود از کاربران وایبر به آنها واگذار شد. رفتار راکوتن را که مشاهده می‌کنید متوجه می‌شوید که تنها این شرکت را خریداری نکرده بلکه در مالزی، سنگاپور، چین و دیگر کشورها نیز تعدادی از data source‌ها را خریداری کرده است.

به این ترتیب این شرکت توانسته مالک تمامی آنها شود. یعنی از اول این کلان داده‌ها به هم متصل نبوده است اما این گروه با جمع‌آوری data source‌ها توانسته است به بخش زیادی از آنها دسترسی پیدا کند. یک تست ساده برای این کار به این صورت است که به سایتwww.pipl.com مراجعه کنید و نامی را در آن جا وارد کنید. در این جا شما می‌توانید افرادی را که به این نام در بخش‌های مختلف داده‌هایی از خود بر روی اینترنت گذاشته اند، مشاهده کنید. یعنی هر بخش از اطلاعات اگرچه در فیسبوک، گوگل مپ یا لینکدین به‌طور پراکنده وارد شده اما در این جا به یکدیگر متصل شده و به شما تحویل داده می‌شود. امروزه گفته می‌شود شما اگر از فردی ۳ فیلد اطلاعاتی داشته باشید تا ۸۰ درصد اطلاعات او را به دست آورده‌اید. این در مورد افراد شاید اهمیت چندانی نداشته باشد، اما امکان رصد رفتار جمعی را فراهم می‌کند.

کلان داده‌ها در انتخابات آمریکا به نحو ویژه‌ای مطرح شدند و گفته شد که استفاده از این امکان بود که به ترامپ کمک کرد تا در برابر کلینتون و بنگاه‌های بزرگ خبری حامی او، پیروز انتخابات باشد. به نظر شما این امر تا چه میزان امکان‌پذیر است و اساسا کلان داده‌ها چه تاثیری می‌توانند بر آینده کنش‌های سیاسی داشته باشند؟

من چندان با این قضیه موافق نیستم یعنی فکر نمی‌کنم کلان داده‌ها عامل اصلی این پیروزی باشند. احتمالا شما قضیه پروفسور لیچمن را شنیده اید. او توانسته است با ۱۳ پارامتری که مطرح می‌کند پیروزی ترامپ را پیش‌بینی کند. زمانی که شما به این پارامترها نگاه می‌کنید، برخی از آنها مربوط به عملکرد بد جناح مقابل یا آثار رفتار آنها و مواردی از این دست است یعنی الزاما همه آنها Big data نیست؛ بنابراین من چندان نمی‌توانم با این قضیه موافق باشم اما چیزی که قابل انکار نیست آن است که این جامعه و جوامع مشابه به آن در زمینه Big data زیاد کار می‌کنند. یکی از کارهایی که ما می‌توانیم به کمک Big data انجام دهیم، تحلیل عقاید (Sentiment Analysis/ opinion analysis) است. شما زیاد می‌شنوید که ظاهر نسخه جدید فلان شرکت موبایل یا طراحی جدید فلان ماشین لو رفت. بعد از این اتفاق، مردم شروع می‌کنند با هشتگ‌ها در مورد اینها نظرات خودشان را در اینترنت می‌نویسند. اگر یک میکروفن به‌دست می‌گرفتیم و از تک‌تک آدم‌ها نظرشان را در مورد یک محصول می‌پرسیدیم، چون بحث ضبط شدن اسم و صدا و تصویر مطرح بود امکان داشت از آن محصول تقدیر و تشکر کنند، اما وقتی دیگر فضا «شفاهی» verbal نیست و «غیرشفاهی» nonverbal می‌شود، افراد تحت فشار خاصی نیستند و روراست نظرات خود را می‌نویسند.

پس از اینکه این حجم مطالب جمع می‌شود، آنها را درون ابزاری می‌ریزند و تحلیل می‌کنند؛ بنابراین بسیاری از این شرکت‌ها نه سهوی بلکه به‌صورت عمدی تلاش می‌کنند که طراحی جدیدشان بین جامعه مخاطب افشا شود و جامعه مخاطب در مورد آن نظر بدهد تا اگر قرار است محصولی تولید شود با نظر جامعه مخاطب یکسان باشد. همین کار را می‌توان در مورد فیلم‌های سینمایی و یک منتخب سیاسی هم صورت داد. مثلا ترامپ نوعی، در مورد چیزی صحبت می‌کند و نظر جامعه مخاطب را به‌دست می‌آورد و صحبت‌های خود را براساس واکنش‌هایی که نسبت به آن صورت می‌گیرد تنظیم می‌کند و در نهایت می‌تواند حجم زیادی از داده‌ها را به دست آورد و از درون آن نظر غالب را استخراج کند و بفهمد که مردم هر ایالت به چه امری حساس هستند و در نتیجه حتی اگر حرف‌ها در مجموع متضاد باشد، در هر ایالت متناسب با نوع انتظاری که هست، سخن بگوید. به این ترتیب در هر منطقه حرفی زده می‌شود که مردم دوست دارند البته من مطمئن نیستم برای ترامپ تا چه میزان این کار صورت گرفته است.

کلان داده در اقتصاد به چه صورت می‌تواند اثرگذار باشد؟ یعنی شرکت‌ها چگونه می‌توانند سلیقه مخاطب را دریافت کنند؟ آیا آنها هم به این منابع داده دسترسی دارند؟

برخی از شرکت‌ها این منابع را می‌سازند. همین شرکت راکوتن که به آن اشاره کردم، یک شرکت امنیتی و اطلاعاتی نیست؛ بلکه این شرکتی است که کار آن فروش انواع محصولات آن‌لاین است. علت خرید اینdata source به‌وسیله راکوتن دقیقا تحلیل داده به منظور فروش محصولات بود. یکی از رایج‌ترین کارهایی که در این زمینه انجام می‌شود basket analysis نام دارد.

مثال ساده این امر آن است که افرادی را که به یک فروشگاه مراجعه می‌کنند برای مدت معینی رصد و هرچه را که در سبد آنها خریداری می‌شود یادداشت می‌کنند. پس از مدتی حجم این داده‌ها که افزایش یافت، می‌توان تشخیص داد که افراد، چه موادی را خریداری می‌کنند و به ارتباط آنها پی برد؛ بنابراین می‌توانیم به سراغ این امر برویم که مواد مربوط را در فروشگاه در یک ردیف قرار دهیم، یا آنها را در کدام بخش فروشگاه جای گذاری کنیم و برای یک مورد تخفیف قائل شویم و دیگری را در انتهای فروشگاه بگذاریم که مردم برای پیدا کردن آن تا انتهای فروشگاه بروند. این می‌تواند ساده‌ترین مثال باشد. مثال دیگر این است که ما می‌توانیم الگوی رفتاری افرادی که برای خرید یک کالا به فروشگاه می‌روند را مورد تجزیه و تحلیل قرار دهیم و حتی می‌شود الگوی رفتاری همه مردم یک کشور را نسبت به یک کالا یا محصول به دست بیاوریم. این امر همان کاربرد کلان داده‌ها بر حوزه‌های اقتصادی است، اما چیزی که پژوهشگران به آن اشاره می‌کنند آن است که استفاده از ابزارهای تحلیل داده و Big data یک بازی با حاصل جمع صفر است. یعنی برای مدتی (مثلا ده یا بیست سال) کسب و کارها می‌توانند مردم را رصد کنند و الگوی رفتاری آنها را استخراج کنند. بعد از مدتی افراد هم یاد می‌گیرند رفتار کسب‌و‌کارها را رصد کنند و به آنها اطلاعات درست ندهند.

در حصار کلان‌داده‌ها