آنهایی که دستی بر آتش دارند می‌دانند که در یک پروژه تحلیل داده، هر چه تعداد داده‌ها بیشتر باشد، پیش‌بینی رفتار دقیق‌تر خواهد بود. اما تحلیل تعداد زیادی داده توسط مغز انسان امری غیر ممکن است. در نتیجه این، رد پای کامپیوترها ظاهر شد. روش‌های تحلیل‌های بر پایه رگرسیون که از مبانی آمار استنتاج می‌شوند، سال‌ها مبنای پیش‌بینی وقایع پیش‌رو بود.  اما اصلی‌ترین مساله در این علم که شاید همین ویژگی است که مانع می‌شود همگان بتوانند از مزایای آن در زندگی روزمره خود استفاده کنند، مساله جمع‌آوری داده‌هاست. این فاز که فاز اولیه کار هم هست، بسیار دقیق، کند و دشوار پیش می‌رود. داده‌ها باید با روش‌های گوناگون که صحت آنها را تایید کنند جمع‌آوری شوند تا پیش‌بینی دقیق‌تر انجام شود. اما جای نگرانی نیست چون شرکت‌های بسیاری این کار را برای شما انجام می‌دهند. از شرکت‌های مطالعه بازار گرفته تا وب‌سایت‌هایی که از کاربران خود اطلاعات دریافت می‌کنند، همه در حال جمع‌آوری داده‌ها برای استفاده‌های بعدی هستند.  درنتیجه به راحتی می‌توان به‌دلیل امپراتوری شرکت‌هایی مانند اوراکل، گوگل و فیس‌بوک را در عصر طلایی داده‌ها که در حال حاضر در آن زندگی می‌کنیم پی برد.

شاید نام اوراکل برای کاربران عادی اینترنت چندان شناخته شده نباشد، اما کسانی که کسب و کاری داشته‌ باشند که بخشی از آن به آی‌تی مرتبط باشد خواه ناخواه با این نام آشنا هستند. اوراکل غول جمع‌آوری داده است که داده‌های بیش از ۹۰۰ میلیون کاربر اینترنت را وارد دیتابیس خود می‌کند و سپس به مشتریان خود می‌فروشد. گوگل نیز با سرویس‌های کاربردی خود مانند موتور جست‌وجوی محبوبش دائم در حال جمع‌آوری داده از هر کدام از کاربرهاست. خدمات دیگر این شرکت مانند مپس (maps) جابه‌جایی‌های شما را رصد می‌کند، کلندر (calender) برنامه‌های پیش‌رو و قرارهای شما را ذخیره می‌کند، بوکس (books) کتاب‌های خوانده شده یا علاقه‌مندی‌های شما را درمی‌یابد و حتی سرویسی مانند گوگل فیت (Google Fit) درجه تناسب اندام و هدف‌گذاری‌ها را جمع‌آوری می‌کند. با داشتن اطلاعات جامع از علاقه‌مندی‌هایی که حدود یک میلیارد نفر هر روز آنها را در موتور جست‌وجوی گوگل جست‌وجو می‌کنند تا ایمیل‌ها و جابه‌جایی‌ها و بقیه اطلاعاتی که گفته شد، گوگل قادر است تمام نیازهای حال و آینده شما را پیش‌بینی کند، تبلیغات هدفدار را به شما وقتی در حال استفاده از مرورگر کروم هستید ارائه دهد و به شرکت‌های بی‌شمار استارت‌آپی اطلاعاتی ارزشمند را بفروشد تا آنها بتوانند با استفاده از این اطلاعات بازار خود را گسترش دهند. فیس‌بوک نیز در این بین با داشتن چیزی در حدود ۲ میلیارد کاربر که اطلاعات و علاقه‌مندی‌های خود را وارد این وب‌سایت کرده‌اند همین کار را انجام می‌دهد. وقتی این قدرت را درک کنیم برایمان عجیب نخواهد بود که چرا مارک زاکربرگ تنها شخصی در دنیاست که در عرض یک سال از یک میلیونر به یک میلیاردر تبدیل شد. توانایی او در برنامه‌نویسی بر کسی پوشیده نیست اما هنر او در این بود که توانست در زمان کمی، داده‌های با ارزشی از میلیون‌ها انسان را در پایگاه داده خود ذخیره کند.  این روزها این غول عرصه فناوری، اینستاگرام و واتس‌اپ را نیز جزو امپراتوری خود کرده تا بیش از پیش به سبک زندگی و دغدغه انسان‌ها دسترسی داشته باشد. در حالی که یک روی سکه این است که این خدمات و اپلیکیشن‌های ارزشمند اسباب سرگرمی و رفاه بسیاری را فراهم کرده‌اند روی دیگر سکه قدرتی است که فیس‌بوک و گوگل در اثر در اختیار داشتن این اطلاعات به دست آورده‌اند.

وقتی داده‌ها توسط ابزارهای گوناگون جمع‌آوری شد، فاز بعدی تحلیل آنهاست. همان‌طور که گفته شد روش‌های سنتی آماری مانند تحلیل‌های رگرسیونی با یک داده ورودی یا چند داده ورودی روند کلی داده‌ها را پیدا و نتایج جدید را با دقتی مناسب پیش‌بینی می‌کنند. اما این روش‌ها در بیشتر مواقع زمانی راهگشا هستند که ارتباط داده‌ها با هم از سیری نزولی یا صعودی تبعیت کنند. حال اگر ارتباط بین داده‌ها خطی نباشد چطور؟ اینجاست که کامپیوتر و هوش مصنوعی به کار می‌آیند. هوش مصنوعی به پیدا کردن الگویی برای ارتباط بین داده‌ها می‌پردازد و نهایتا الگویی با کمترین خطا را پیدا می‌کند. این الگو الزاما از هیچ کدام از قوانینی که برای ذهن ما قابل فهم باشد پیروی نمی‌کند اما قادر است در ازای هر ورودی جدید یک خروجی با رعایت الگوی بین‌داده‌ها گزارش دهد. البته که این پیش‌بینی مانند هر پیش‌بینی دیگری که توسط آمار و احتمالات انجام می‌شود الزاما دچار خطا هم می‌شود، ولی مساله این است که هوش مصنوعی قابلیت یادگیری دارد و با افزایش تعداد داده‌های ورودی قابلیت پیش‌بینی و الگویابی آن دقیق‌تر می‌شود. در نهایت می‌توان گفت علم داده‌ها ابزاری بسیار قدرتمند در دستان کسانی است که به قدرت آن پی برده‌اند و در نتیجه تلاش می‌کنند داده‌های موجود در اطرافشان را بهتر ببینند و آنها را جایی ذخیره کنند. شاید پر بیراه نباشد که بگوییم در عصر حاضر، هر شخص یا شرکتی که داده‌های بیشتری داشته باشد قدرت بیشتری نیز خواهد داشت.