گفتوگو با هومن تصدیقی در رابطه با جایگاه کلاندادهها در جهان امروز
در حصار کلاندادهها
سمیرا دردشتی
امروزه ما در جهانی زندگی میکنیم که اطرافش سرشار از دادههای مختلف است. همه ما هر روز بدون آنکه متوجه شویم اطلاعاتی از خود به دیگران میدهیم. هر کنش اقتصادی، سیاسی، اجتماعی و حتی فردی ما میتواند دادههایی را ایجاد کند که در یک فرآیند پس از تجزیه و تحلیل بار دیگر بر زندگی و کنش آتی ما اثر گذار باشد. در این گفتوگو با دکتر هومن تصدیقی پژوهشگر و استاد دانشگاه شماری از تاثیرات کلان دادهها بر زندگی افراد را مورد بررسی قرار دادهایم. دکتر تصدیقی دکترای مدیریت نوین را از دانشگاه شیزوکا در ژاپن اخذ کرده است و در شمار زیادی از دانشگاههای دولتی و پژوهشگاههای خصوصی سابقه تدریس دارد.
سمیرا دردشتی
امروزه ما در جهانی زندگی میکنیم که اطرافش سرشار از دادههای مختلف است. همه ما هر روز بدون آنکه متوجه شویم اطلاعاتی از خود به دیگران میدهیم. هر کنش اقتصادی، سیاسی، اجتماعی و حتی فردی ما میتواند دادههایی را ایجاد کند که در یک فرآیند پس از تجزیه و تحلیل بار دیگر بر زندگی و کنش آتی ما اثر گذار باشد. در این گفتوگو با دکتر هومن تصدیقی پژوهشگر و استاد دانشگاه شماری از تاثیرات کلان دادهها بر زندگی افراد را مورد بررسی قرار دادهایم. دکتر تصدیقی دکترای مدیریت نوین را از دانشگاه شیزوکا در ژاپن اخذ کرده است و در شمار زیادی از دانشگاههای دولتی و پژوهشگاههای خصوصی سابقه تدریس دارد. وی همچنین پژوهشهای متعددی در رابطه با شبکه، برنامه نویسی صفحات وب و مدیریت بانکهای اطلاعاتی داشته است و چندین بار بهعنوان استاد نمونه انتخاب شده است.
بهعنوان نخستین پرسش ممکن است به ما بفرمایید که کلان دادهها چیست و چه اهمیتی در دنیای امروز دارند؟
ما یک تعریف خیلی رسمی از کلان دادهها داریم که با چندتاV نشان داده میشود. V اول Volume است یعنی حجم زیادی از دادهها باید در آن باشد. V دوم به Variety برمی گردد یعنی در کلان دادهها تنوع وجود دارد و سومین V به معنای Velocity است که نشان میدهد دادهها با سرعت بالایی تغییر یا رشد میکنند. به علاوه اینکه ما با حجم زیادی از دادهها و... سعی میکنیم چشماندازی به دست آوریم که این چشمانداز آینده یک صنعت یا حوزه است؛ اما تعریف غیررسمی آن اینگونه است که معمولا شما هرکجا که حجم زیادی از دادهها را دارید و به تنوع و فرمت آن چندان توجهی ندارید، شما در حال استفاده از Big data هستید. در مورد کاربرد آن باید گفت که شما برای هر تصمیمگیری باید داده جمع کنید. در مدلهای مختلف اساس تصمیمگیری آگاهی از محیط و جمعآوری داده است. این دادهها به نسبت پیچیدهتر شدن محیط افزایش مییابد؛ بنابراین Big data به زمانی مربوط میشود که شما دادههای مربوط به آمار سازمان خودتان، تفکیک مشتریانتان، آمار اقتصادی و... را جمع میکنید و درون این Big data شروع به کنکاش به منظور کسب اطلاعات میکنید.
کلان دادهها چه مزایایی دارند و چه معایب و خطراتی در رابطه با آنها وجود دارد؟
ابتدا به خطرات احتمالی آن اشاره میکنم، برخی اوقات یکپارچه کردن دادهها در یک جا میتواند این خطر را داشته باشد که دزدیده شود. مانند هر دارایی دیگری دادهها را نیز اگر در جاهای مختلف پراکنده کنیم، احتمال دزدیده شدن همه آنها بهصورت یکجا کمتر میشود. دادهها در کشور ما در سازمانهای مختلف پراکنده است و این خطر دزدیده شدن آن را به طور کامل کاهش میدهد. پس هر میزان دادهها را کنار هم قرار دهیم، باید سیستم امنیتی خود را بالاتر ببریم که احتمال نفوذ و دزدیده شدن دادهها کاهش یابد.
دومین خطر و مشکل کلان دادهها آن است که ما ممکن است دادههای بیکیفیت را در کنار هم جمعآوری کنیم و در این صورت دردسر تازهای که ایجاد میشود آن است که پیشتر تصور میشد که دادهای نداریم، اما در وضعیت جدید حس کاذبی ایجاد میشود که داده داریم اما توجه نمیکنیم که دادههای بیکیفیت را کنار هم جمع کردهایم.
بنابراین نمیتوان براساس چنین دادههای فاقد کیفیتی تصمیم درستی گرفت اما در مجموع مزایای این امر بیش از معایب آن است. به این صورت که ما انتظار داریم با جمعآوری دادههای درست، تصمیمگیریهای درستی انجام دهیم. در بسیاری از نقاط جهان از جمله در کشور خودمان اگرچه ما در داده غرق هستیم اما به طور همزمان دچار فقر داده نیز هستیم. یعنی حجم وسیعی داده در اطراف ما وجود دارد ولی ما آنها را ثبت نمیکنیم. یعنی چند رفتار نامناسب در برخورد با دادهها داریم.
۱) به دادهها بیتوجه هستیم و آنها را ثبت نمیکنیم.
۲) گاهی به آنها توجه داریم و حتی آنها را ثبت میکنیم، اما دادههای بیکیفیت را انتخاب میکنیم و آنها را اشتباهی ثبت میکنیم.
۳) اشتباه بعدی آن است که دادهها را ثبت میکنیم، ولی پراکنده است. بهطور مثال اطلاعات مربوط به اوضاع بانکی در یکجا جمع شده، اطلاعات سازمان ثبت اسناد و املاک در جای دیگری و...
۴) گاهی اوقات این پراکندگی موجب اتصال غلط دادهها به یکدیگر میشود ولی اگر تمام این موارد را درست انجام دهیم، به عمده ترین مزیت کلان دادهها میرسیم که همان امکان تصمیمگیری درست و مناسب است. آن هم نه تصمیمگیری واکنشی بلکه شما براساس این دادهها تقریبا توان تشخیص آن چه پیش رو هست را خواهید داشت. این دادهها امکان پیشبینی مشکل را به ما میدهد، یعنی ما میتوانیم پیشبینی کنیم یک مشکل در حال شکلگیری است. مثلا نسبت تقاضا برای مسکن نسبت به ساخت مسکن در حال ازدیاد است. یعنی هنوز با مشکل مسکن مواجه نیستیم، ولی میتوان پیشبینی کرد اگر با همین روند پیش برویم در چند سال آتی با کمبود مسکن مواجه خواهیم شد.آگاهی از این امر در سایر بخشها هم با در دست داشتن دادههای مربوط به آن میسر میشود، اما اگر از این دادهها استفاده نکنیم و آنها را درست جمعآوری نکنیم ناچار به تصمیمگیری درون بحران هستیم که احتمالا تصمیمات مناسبی هم نخواهد بود.
یکی از محلهای عمدهای که کلان دادهها درون آن جمعآوری میشوند، اینترنت است، آیا کلان دادهها برای کاربران عادی اینترنت بهویژه در شبکههای اجتماعی خطری دارد؟
خطر که میتواند داشته باشد، اما یک چیز را نباید فراموش کنیم و آن توجه به این امر است که یک فرد یا گروهی از افراد آنقدر اهمیت داشته باشند که دادههای آنها آنالیز شود. ما اصطلاحی تحت عنوان منبع داده (data source) داریم که هریک از این شبکههای اجتماعی یک منبع داده به حساب میآیند. ما پیش از پدید آمدن این شبکهها بقچه مغزمان را معمولا نزد دیگران باز نمیکردیم، اما در حال حاضر نادانسته و عامدانه بهترین زمانهای خود را به نوشتن اطلاعات در این شبکهها اختصاص میدهیم اما چون این اطلاعات پراکنده است ما متوجه نمیشویم. مثلا در یک سایتی وارد میشویم و نام خود را وارد میکنیم، جای دیگری علاقهمندیهای خود را مینویسیم و در جای دیگری بر روی برخی از ابزارها کلیک میکنیم. به این ترتیب اگر کسی اینها را به هم وصل (connect) کند، به مشخصاتی از ما پی میبرد.
هر کدام از این منابع داده در اینترنت در دست یک شرکت مستقل است، ساز و کار اتصال آنها به چه صورت است؟
معمولا اگر کسی این data sourceهای مختلف را کنار هم داشته باشد میتواند آنها را connect کند. ما یک رفتار حداقلی در فضای اینترنت از خود بروز میدهیم که به نظر خطری هم ندارد، ولی مجموع اینها زمانی که به هم متصل میشوند اطلاعات مهمی را پدید میآورد. برای مثال شما به خاطر دارید عاقبت وایبر چه شد؟ بعد از مدتی مالکان وایبر آن را به یک شرکت ژاپنی به نام راکوتن فروختند. این شرکت با پرداخت سی برابر قیمتی که صاحبان وایبر صرف کرده بودند به آنها، کل دادههای وایبر را خریداری کرد؛ بنابراین تکتک اطلاعات موجود از کاربران وایبر به آنها واگذار شد. رفتار راکوتن را که مشاهده میکنید متوجه میشوید که تنها این شرکت را خریداری نکرده بلکه در مالزی، سنگاپور، چین و دیگر کشورها نیز تعدادی از data sourceها را خریداری کرده است.
به این ترتیب این شرکت توانسته مالک تمامی آنها شود. یعنی از اول این کلان دادهها به هم متصل نبوده است اما این گروه با جمعآوری data sourceها توانسته است به بخش زیادی از آنها دسترسی پیدا کند. یک تست ساده برای این کار به این صورت است که به سایتwww.pipl.com مراجعه کنید و نامی را در آن جا وارد کنید. در این جا شما میتوانید افرادی را که به این نام در بخشهای مختلف دادههایی از خود بر روی اینترنت گذاشته اند، مشاهده کنید. یعنی هر بخش از اطلاعات اگرچه در فیسبوک، گوگل مپ یا لینکدین بهطور پراکنده وارد شده اما در این جا به یکدیگر متصل شده و به شما تحویل داده میشود. امروزه گفته میشود شما اگر از فردی ۳ فیلد اطلاعاتی داشته باشید تا ۸۰ درصد اطلاعات او را به دست آوردهاید. این در مورد افراد شاید اهمیت چندانی نداشته باشد، اما امکان رصد رفتار جمعی را فراهم میکند.
کلان دادهها در انتخابات آمریکا به نحو ویژهای مطرح شدند و گفته شد که استفاده از این امکان بود که به ترامپ کمک کرد تا در برابر کلینتون و بنگاههای بزرگ خبری حامی او، پیروز انتخابات باشد. به نظر شما این امر تا چه میزان امکانپذیر است و اساسا کلان دادهها چه تاثیری میتوانند بر آینده کنشهای سیاسی داشته باشند؟
من چندان با این قضیه موافق نیستم یعنی فکر نمیکنم کلان دادهها عامل اصلی این پیروزی باشند. احتمالا شما قضیه پروفسور لیچمن را شنیده اید. او توانسته است با ۱۳ پارامتری که مطرح میکند پیروزی ترامپ را پیشبینی کند. زمانی که شما به این پارامترها نگاه میکنید، برخی از آنها مربوط به عملکرد بد جناح مقابل یا آثار رفتار آنها و مواردی از این دست است یعنی الزاما همه آنها Big data نیست؛ بنابراین من چندان نمیتوانم با این قضیه موافق باشم اما چیزی که قابل انکار نیست آن است که این جامعه و جوامع مشابه به آن در زمینه Big data زیاد کار میکنند. یکی از کارهایی که ما میتوانیم به کمک Big data انجام دهیم، تحلیل عقاید (Sentiment Analysis/ opinion analysis) است. شما زیاد میشنوید که ظاهر نسخه جدید فلان شرکت موبایل یا طراحی جدید فلان ماشین لو رفت. بعد از این اتفاق، مردم شروع میکنند با هشتگها در مورد اینها نظرات خودشان را در اینترنت مینویسند. اگر یک میکروفن بهدست میگرفتیم و از تکتک آدمها نظرشان را در مورد یک محصول میپرسیدیم، چون بحث ضبط شدن اسم و صدا و تصویر مطرح بود امکان داشت از آن محصول تقدیر و تشکر کنند، اما وقتی دیگر فضا «شفاهی» verbal نیست و «غیرشفاهی» nonverbal میشود، افراد تحت فشار خاصی نیستند و روراست نظرات خود را مینویسند.
پس از اینکه این حجم مطالب جمع میشود، آنها را درون ابزاری میریزند و تحلیل میکنند؛ بنابراین بسیاری از این شرکتها نه سهوی بلکه بهصورت عمدی تلاش میکنند که طراحی جدیدشان بین جامعه مخاطب افشا شود و جامعه مخاطب در مورد آن نظر بدهد تا اگر قرار است محصولی تولید شود با نظر جامعه مخاطب یکسان باشد. همین کار را میتوان در مورد فیلمهای سینمایی و یک منتخب سیاسی هم صورت داد. مثلا ترامپ نوعی، در مورد چیزی صحبت میکند و نظر جامعه مخاطب را بهدست میآورد و صحبتهای خود را براساس واکنشهایی که نسبت به آن صورت میگیرد تنظیم میکند و در نهایت میتواند حجم زیادی از دادهها را به دست آورد و از درون آن نظر غالب را استخراج کند و بفهمد که مردم هر ایالت به چه امری حساس هستند و در نتیجه حتی اگر حرفها در مجموع متضاد باشد، در هر ایالت متناسب با نوع انتظاری که هست، سخن بگوید. به این ترتیب در هر منطقه حرفی زده میشود که مردم دوست دارند البته من مطمئن نیستم برای ترامپ تا چه میزان این کار صورت گرفته است.
کلان داده در اقتصاد به چه صورت میتواند اثرگذار باشد؟ یعنی شرکتها چگونه میتوانند سلیقه مخاطب را دریافت کنند؟ آیا آنها هم به این منابع داده دسترسی دارند؟
برخی از شرکتها این منابع را میسازند. همین شرکت راکوتن که به آن اشاره کردم، یک شرکت امنیتی و اطلاعاتی نیست؛ بلکه این شرکتی است که کار آن فروش انواع محصولات آنلاین است. علت خرید اینdata source بهوسیله راکوتن دقیقا تحلیل داده به منظور فروش محصولات بود. یکی از رایجترین کارهایی که در این زمینه انجام میشود basket analysis نام دارد.
مثال ساده این امر آن است که افرادی را که به یک فروشگاه مراجعه میکنند برای مدت معینی رصد و هرچه را که در سبد آنها خریداری میشود یادداشت میکنند. پس از مدتی حجم این دادهها که افزایش یافت، میتوان تشخیص داد که افراد، چه موادی را خریداری میکنند و به ارتباط آنها پی برد؛ بنابراین میتوانیم به سراغ این امر برویم که مواد مربوط را در فروشگاه در یک ردیف قرار دهیم، یا آنها را در کدام بخش فروشگاه جای گذاری کنیم و برای یک مورد تخفیف قائل شویم و دیگری را در انتهای فروشگاه بگذاریم که مردم برای پیدا کردن آن تا انتهای فروشگاه بروند. این میتواند سادهترین مثال باشد. مثال دیگر این است که ما میتوانیم الگوی رفتاری افرادی که برای خرید یک کالا به فروشگاه میروند را مورد تجزیه و تحلیل قرار دهیم و حتی میشود الگوی رفتاری همه مردم یک کشور را نسبت به یک کالا یا محصول به دست بیاوریم. این امر همان کاربرد کلان دادهها بر حوزههای اقتصادی است، اما چیزی که پژوهشگران به آن اشاره میکنند آن است که استفاده از ابزارهای تحلیل داده و Big data یک بازی با حاصل جمع صفر است. یعنی برای مدتی (مثلا ده یا بیست سال) کسب و کارها میتوانند مردم را رصد کنند و الگوی رفتاری آنها را استخراج کنند. بعد از مدتی افراد هم یاد میگیرند رفتار کسبوکارها را رصد کنند و به آنها اطلاعات درست ندهند.
ارسال نظر