سرعت پردازش دادهها هر سال ۲۰درصد افزایش مییابد
دادهکاوی در خدمت کشف دانش
ما با الهامگیری حداقلی از این جمله چنین مینویسیم «اگر موضوعی به درستی تحلیل آماری شود، دیگر نیازی به تفسیر ندارد و نمودارها و جداول همهچیز را خواهند گفت.» یک مشخصه بنیادین دنیای ما کمیتی بهنام «داده (Data)» است که واحد اندازهگیری آن در حساب متداول بیت است. منظور از حساب متداول تمام محاسباتی هستند که توسط پردازندهای مبتنی بر منطق دوجملهای صورت میپذیرند. هشت بیت در کنار هم یک بایت را به وجود میآورند. در علم اطلاعات یک اگزابایت داده یعنی ۱۰۱۸ بایت داده که تقسیم ریزتر آن به این شرح است که هر اگزا شامل هزار پتا و هر پتا شامل هزار ترا که هر ترا شامل هزار گیگا و هر گیگا شامل هزار مگا است. در سال ۲۰۱۷ روزانه ۵/ ۲ اگزابایت داده در اینترنت تولید شده است.
برای نشان دادن این حجم داده خوب است به کتابخانه کنگره آمریکا فکر کنید. این کتابخانه که در شهر واشنگتن دی.سی قرار دارد دارای ظرفیت محتوایی برابر ۱۰ ترابایت داده مکتوب است (در حالحاضر ۳۰ میلیون کتاب در ۴۷۰ زبان مختلف) حال اگر بخواهیم ۵/ ۲ اگزابایت داده تولید شده در روز (آن هم سال ۲۰۱۷) را در این کنگره جاسازی کنیم باید ۲۵۰هزار ساختمان مشابه با آن را بسازیم تا فقط داده تولید شده در روز را در آنها قرار دهیم. چنین روندی منجر به شکلگیری مفهومی بهنام «کلان داده (Big Data)» شده، مفهومی که امروزه به وفور در جنبههای مختلفی از زندگی بشر استفاده میشود. بهرهگیری از کلان داده قطعا مستلزم توان محاسباتی بسیاری است که تمایل به کسب چنین توانی را به خوبی میتوان در افزایش هرساله سرعت (نرخ زمانی) CPU مشاهده کرد به گونهای که از سال ۱۹۸۰ تاکنون سرعت پردازش داده تقریبا هر سال ۲۰درصد افزایش داشته است.
بهعنوان نمونه در سال ۱۹۹۲، متوسط سرعت پردازشگر کامپیوتر برابر با ۰۵/ ۰گیگاهرتز بوده و این در حالی است که در سال ۲۰۰۵، این عدد چیزی حدود ۶/ ۳ گیگاهرتز شده و در سال ۲۰۱۷ به ۱۶ گیگاهرتز هم رسیده است. متخصصان حوزه محاسبات بر این نکته اتفاقنظر دارند که کلید تبدیل کلان داده به دانش در حوزهای به نام داده کاوی (Data Mining) نهفته است. این حوزه از سه قسمت اساسی مهندسی داده و ذخیرهسازی (Data Engineering and Storage)، تحلیلداده (Data analysis) و یادگیری ماشین (Machine learning) تشکیل شده است. موضوع داده کاوی بهقدری رواج یافته که بسیاری آن را معادل فرآیند کشف دانش (Knowledge Discovery Process) در نظر میگیرند حال آنکه در واقعیت اینگونه نیست و داده کاوی (DM) فقط قسمتی از فرآیند کشف دانش (KDP) است. فرآیند کشف دانش (KDP) شامل گامهای زیر است:
- استخراج داده (Data Extraction): در این مرحله دادهها در سطحی عظیم و از منابعی متنوع استخراج میشوند.
- گزینش داده (Data Selection): دادههای مربوط به مساله مورد نظر انتخاب میشوند.
- پیش پردازش داده(Data Pre-processing): در این گام دادهها پیشپردازش میشوند یعنی دادههای مبهم، ناقص، پرت و ناسازگار حذف میشوند.
- تبدیل داده (Data Transformation): در این گام، دادهها ترکیب و به شکلی تبدیل میشوند که بتوان روی آنها تحلیل عمیقتری انجام داد. بهعنوان نمونه یک پایگاه دادهای وجود دارد که تعدادی از متغیرهای (فیلد) آن دارای همبستگی معنادار هستند که میتوان این متغیرها را به یک متغیر مرکب (Composite) تبدیل و دادهها را فشردهسازی (Compression) کرد.
- دادهکاوی (Data mining): در این مرحله الگوریتمهای دادهکاوی برای استخراج الگو از دل دادهها بهکار گرفته میشوند.
- ارزیابی الگو (Pattern Evaluation): در این مرحله با استفاده از روشهای خاص الگوی داده (ساختار آماری) آن بررسی میشود.
- ارائه دانش (Knowledge presentation): در این مرحله با بهرهگیری از روشهای بصریسازی (Data visualization) داده، دانش استخراجشده به متقاضیان ارائه میشود.
ارسال نظر