عصر طلایی دادهها
آنهایی که دستی بر آتش دارند میدانند که در یک پروژه تحلیل داده، هر چه تعداد دادهها بیشتر باشد، پیشبینی رفتار دقیقتر خواهد بود. اما تحلیل تعداد زیادی داده توسط مغز انسان امری غیر ممکن است. در نتیجه این، رد پای کامپیوترها ظاهر شد. روشهای تحلیلهای بر پایه رگرسیون که از مبانی آمار استنتاج میشوند، سالها مبنای پیشبینی وقایع پیشرو بود. اما اصلیترین مساله در این علم که شاید همین ویژگی است که مانع میشود همگان بتوانند از مزایای آن در زندگی روزمره خود استفاده کنند، مساله جمعآوری دادههاست. این فاز که فاز اولیه کار هم هست، بسیار دقیق، کند و دشوار پیش میرود. دادهها باید با روشهای گوناگون که صحت آنها را تایید کنند جمعآوری شوند تا پیشبینی دقیقتر انجام شود. اما جای نگرانی نیست چون شرکتهای بسیاری این کار را برای شما انجام میدهند. از شرکتهای مطالعه بازار گرفته تا وبسایتهایی که از کاربران خود اطلاعات دریافت میکنند، همه در حال جمعآوری دادهها برای استفادههای بعدی هستند. درنتیجه به راحتی میتوان بهدلیل امپراتوری شرکتهایی مانند اوراکل، گوگل و فیسبوک را در عصر طلایی دادهها که در حال حاضر در آن زندگی میکنیم پی برد.
شاید نام اوراکل برای کاربران عادی اینترنت چندان شناخته شده نباشد، اما کسانی که کسب و کاری داشته باشند که بخشی از آن به آیتی مرتبط باشد خواه ناخواه با این نام آشنا هستند. اوراکل غول جمعآوری داده است که دادههای بیش از ۹۰۰ میلیون کاربر اینترنت را وارد دیتابیس خود میکند و سپس به مشتریان خود میفروشد. گوگل نیز با سرویسهای کاربردی خود مانند موتور جستوجوی محبوبش دائم در حال جمعآوری داده از هر کدام از کاربرهاست. خدمات دیگر این شرکت مانند مپس (maps) جابهجاییهای شما را رصد میکند، کلندر (calender) برنامههای پیشرو و قرارهای شما را ذخیره میکند، بوکس (books) کتابهای خوانده شده یا علاقهمندیهای شما را درمییابد و حتی سرویسی مانند گوگل فیت (Google Fit) درجه تناسب اندام و هدفگذاریها را جمعآوری میکند. با داشتن اطلاعات جامع از علاقهمندیهایی که حدود یک میلیارد نفر هر روز آنها را در موتور جستوجوی گوگل جستوجو میکنند تا ایمیلها و جابهجاییها و بقیه اطلاعاتی که گفته شد، گوگل قادر است تمام نیازهای حال و آینده شما را پیشبینی کند، تبلیغات هدفدار را به شما وقتی در حال استفاده از مرورگر کروم هستید ارائه دهد و به شرکتهای بیشمار استارتآپی اطلاعاتی ارزشمند را بفروشد تا آنها بتوانند با استفاده از این اطلاعات بازار خود را گسترش دهند. فیسبوک نیز در این بین با داشتن چیزی در حدود ۲ میلیارد کاربر که اطلاعات و علاقهمندیهای خود را وارد این وبسایت کردهاند همین کار را انجام میدهد. وقتی این قدرت را درک کنیم برایمان عجیب نخواهد بود که چرا مارک زاکربرگ تنها شخصی در دنیاست که در عرض یک سال از یک میلیونر به یک میلیاردر تبدیل شد. توانایی او در برنامهنویسی بر کسی پوشیده نیست اما هنر او در این بود که توانست در زمان کمی، دادههای با ارزشی از میلیونها انسان را در پایگاه داده خود ذخیره کند. این روزها این غول عرصه فناوری، اینستاگرام و واتساپ را نیز جزو امپراتوری خود کرده تا بیش از پیش به سبک زندگی و دغدغه انسانها دسترسی داشته باشد. در حالی که یک روی سکه این است که این خدمات و اپلیکیشنهای ارزشمند اسباب سرگرمی و رفاه بسیاری را فراهم کردهاند روی دیگر سکه قدرتی است که فیسبوک و گوگل در اثر در اختیار داشتن این اطلاعات به دست آوردهاند.
وقتی دادهها توسط ابزارهای گوناگون جمعآوری شد، فاز بعدی تحلیل آنهاست. همانطور که گفته شد روشهای سنتی آماری مانند تحلیلهای رگرسیونی با یک داده ورودی یا چند داده ورودی روند کلی دادهها را پیدا و نتایج جدید را با دقتی مناسب پیشبینی میکنند. اما این روشها در بیشتر مواقع زمانی راهگشا هستند که ارتباط دادهها با هم از سیری نزولی یا صعودی تبعیت کنند. حال اگر ارتباط بین دادهها خطی نباشد چطور؟ اینجاست که کامپیوتر و هوش مصنوعی به کار میآیند. هوش مصنوعی به پیدا کردن الگویی برای ارتباط بین دادهها میپردازد و نهایتا الگویی با کمترین خطا را پیدا میکند. این الگو الزاما از هیچ کدام از قوانینی که برای ذهن ما قابل فهم باشد پیروی نمیکند اما قادر است در ازای هر ورودی جدید یک خروجی با رعایت الگوی بیندادهها گزارش دهد. البته که این پیشبینی مانند هر پیشبینی دیگری که توسط آمار و احتمالات انجام میشود الزاما دچار خطا هم میشود، ولی مساله این است که هوش مصنوعی قابلیت یادگیری دارد و با افزایش تعداد دادههای ورودی قابلیت پیشبینی و الگویابی آن دقیقتر میشود. در نهایت میتوان گفت علم دادهها ابزاری بسیار قدرتمند در دستان کسانی است که به قدرت آن پی بردهاند و در نتیجه تلاش میکنند دادههای موجود در اطرافشان را بهتر ببینند و آنها را جایی ذخیره کنند. شاید پر بیراه نباشد که بگوییم در عصر حاضر، هر شخص یا شرکتی که دادههای بیشتری داشته باشد قدرت بیشتری نیز خواهد داشت.