چرا از پتابایت‌ها می‌ترسیم؟

کالیو لیتراو - فوربس
مترجم: امیر نیری

یکی از چیزهایی که همواره درباره علم اطلاعات خارج از محدوده سیلیکون ولی به ذهنم خطور می‌کند، ترس مردم از مجموعه داده‌های عظیم است. در حقیقت، روزی نیست که نشنوم افراد درگیر با داده‌ها به‌ویژه افراد فعال در دانشگاه که به مراکز HPC و اعداد محاسباتی قابل توجه دسترسی دارند، درباره صدها گیگابایت، چه برسد به ترابایت، شکایت نکنند. آنها همواره می‌گویند که تحلیل و دسترسی به این داده‌ها از توانایی آنها خارج است. چطور ممکن است وقتی مهندسان گوگل5 سال پیش توانستند 5پتابایت داده را دسته‌بندی کنند و سه سال پیش فیس‌بوک به مرز 4پتابایت دیتای جدید در روز رسید و شرکت‌ها آرشیوهای صد پتابایتی را در پلت‌فرم BigQuery گوگل نگهداری می‌کنند، هنوز بعضی از دانشمندان درباره آنالیز چند ترابایت داده به‌عنوان پشت سر گذاشتن مرز‌های غیرممکن علم سخن می‌گویند؟

به‌عنوان کسی که نزدیک به یک دهه در دنیای ابرکامپیوترها فعالیت داشته و فعالیت خود را از دبیرستان به‌عنوان کارآموز آغاز کرده و سپس به‌عنوان کارمند وابسته به مرکز کامپیوترها شروع به فعالیت کرده است، همواره شاهد دلبستگی و تمایل دنیای آکادمیک به قدرت پردازش بیشتر از قابلیت‌های ذخیره‌سازی بوده‌ام. حداقل می‌دانیم که در ایالات متحده، ابرکامپیوترهای دانشگاهی برای اجرای شبیه‌سازی‌های علمی که به معنی تاکید بر قدرت پردازش است، طراحی شده بودند. زمانی که گوگل در حال دسته‌بندی اطلاعات با حجم پتابایت بود، ما در حال تلاش برای ذخیره‌سازی چند ترابایت داده در کامپیوترهای دانشگاهی بودیم و گاهی اوقات می‌دیدیم که سرعت هارد چیزی کمتر از 5 مگابایت برثانیه بود، چون سیستم طوری طراحی شده بود که اجازه انتقال همزمان فایل‌های سنگین به روی هارددیسک را نمی‌داد. امروز و پس از گذشت 18 سال، هنوز فضای ذخیره‌سازی و سرعت ورود و خروج داده‌ها بزرگ‌ترین محدودیت‌ها در دنیای آکادمیک به شمار می‌آید. 10 سال پیش زمانی که همکاری نزدیک خود را با سیلیکون ولی آغاز کردم برایم بسیار شگفت‌انگیز بود که برای اولین بار در دوران کاری حرفه‌ای می‌دیدم که مفهوم داده‌های پتابایتی و تحلیل آنها از طریق ده‌ها هزار پردازشگر به سادگی تعریف و انجام می‌شود و اصلا رویایی دوردست در آینده‌های دور به شمار نمی‌آمد.

حال یک سوال بسیار جالب در این میان مطرح می‌شود، چرا در دنیای امروز که در حال غرق شدن در حجم عظیم دیتاها است، تحلیل داده‌های پتابایتی تا این حد کمیاب و محدود است؟ احتمالا بزرگ‌ترین دلیل آن هزینه این کار است. سفارش یک هارد 8 ترابایتی 125 دلاری از وب‌سایت آمازون به شما فضایی در حدود یک هارد دیسک پتابایتی را می‌دهد، اما برای محافظت از اطلاعاتتان از طریق RAID5 با RAID6، نیازمند فضای بیشتری خواهید بود. در ضمن امکان اتصال هارد اکسترنالUSB 125 دلاری به یک دستگاه کامپیوتر خانگی برای ساخت یک پارتیشن یک پتابایتی تقریبا غیر ممکن خواهد بود و حتی اگر راهی برای انجام این کار پیدا کنید، استفاده و اجرای آن بدون وجود دستگاه‌های مختلف برای انتقال اطلاعات غیر ممکن است. حتی اگر این کار را هم انجام بدهید، اگر هر کدام از درایوها نیز به خوبی وظیفه خود را اجرا کنند و شما کامپیوترهای کافی برای اشباع کامل درایوها خریداری کنید و حتی اگر دستگاه قابلیت خواندن اطلاعات با سرعت پایدار 180 مگابایت بر ثانیه را داشته باشد، احتمالا برای اسکن کامل تمامی اطلاعات به یک نصف روز زمان نیاز خواهید داشت و با وجود این حجم از دیتای خوانده شده، بعید به نظر می‌رسد که قدرت CPU کافی برای انجام تغییرات کافی روی اطلاعات را داشته باشید.

به نظر در آینده نزدیک و حتی امروزه در دورانی که هاردهای اکسترنال 10ترابایتی مورد استفاده قرار می‌گیرد، تولید محصولی با ظرفیت یک پتابایت که دوام و سرعت بالایی داشته باشد، تقریبا غیرممکن است و هزینه نگهداری و تعمیر و سیستم خنک‌کننده مورد نیاز برای چنین سیستمی، حاکی ازآن است که چنین سیستمی فعلا چیزی نیست که بتوان از آن در گوشه‌ اتاق خواب به‌عنوان وسیله سرگرمی استفاده کرد. سطحی از «صرفه‌جویی به مقیاس» غیرقابل تصوری که شرکت‌هایی مانند گوگل، آمازون و دیگر شرکت‌های ارائه‌دهنده سرویس کلود به آن دست پیدا کرده‌اند، به آنها این اجازه را داده که دستگاه‌های ذخیره‌سازی با مقیاس پتابایت را تولید کنند. سرویس Coldline شرکت گوگل که با قیمت ماهانه 7هزار دلار برای هر پتابایت قابل استفاده است، به کاربران امکان دسترسی سریع به اطلاعات و دانلود امن اطلاعات در هر نقطه‌ای از جهان را می‌دهد. علاوه بر این، این هزینه تنها صرف سخت‌افزار نگه‌دارنده این حجم از اطلاعات نمی‌شود، بلکه برای برق، سیستم خنک‌کننده و بهترین مهندسان و متصدیان دنیا که وظیفه سالم نگه داشتن کل مجموعه را بر عهده دارند، صرف خواهد شد. همچنین، به خاطر داشته باشید که گوگل و شرکت‌های ارائه‌دهنده سرویس‌های کلود با گرفتن کپی‌های متعدد از اطلاعات شما، به این درجات امنیت، پایداری و سودمندی می‌رسند.

یعنی در ظاهر شما برای نگهداری یک پتابایت اطلاعات ماهانه 7هزار دلار پرداخت می‌کنید، اما در حقیقت شما در حال استفاده از چند پتابایت حجم فیزیکی واقعی برای به دست آوردن دوام و امنیت مورد نیاز برای اطلاعات‌تان هستید. کاربران حتی قادرند اطلاعات‌شان را از طریق مجموعه‌ای از موتورهای محاسبه‌گر مورد آنالیز قرار دهند. در پایان، برای مشتریانی که نیازی به دسترسی مستقیم به اطلاعاتشان ندارند، سرویس Glacier شرکت آمازون، سرویسی ارزان قیمت (در مقایسه با سرویس‌های دیگر) با دوام و افزونگی فوق‌العاده را با قیمت 4هزار دلار ماهانه ارائه می‌دهد. نگهداری یک پتابایت دیتا در سرویس کلود کاری بدیهی است اما آنالیز آن چطور؟ کافی است وارد دنیای نوظهور پلت‌فرم تحلیلی برپایه کلود و مقیاس پتابایت BigQuery ارائه شده از سوی گوگل شوید. BigQuery مجموعه تجزیه و تحلیل‌های عظیم در زیرساخت‌های سرویس کلود جهانی شرکت گوگل را تسریع می‌کند و به کاربران اجازه می‌دهد با بهره‌گیری از هزاران یا حتی ده‌ها هزار پردازشگر به اطلاعاتشان دسترسی سریع داشته باشند. هزینه ذخیره‌سازی اطلاعات در BigQuery در دوره‌های بلندمدت چیزی معادل 10هزار دلار به ازای هر یک پتابایت در ماه خواهد بود.

برخی از مشتریان تجاری گوگل بیش از یکصد پتابایت دیتا را در این سرویس ذخیره‌سازی کرده‌اند و هر روز به مقدار آن می‌افزایند. در حال حاضر، سرویس‌هایی مانند BigQuery در زمینه پیشرفت و گسترش سرویس کلود به منظور نگهداری از این حجم از اطلاعات، می‌درخشند. در مورد BigQuery، باید گفت که یک خط دستوری SQL می‌تواند در مدت 7/ 3 دقیقه حجمی بالغ بر یک پتابایت را اسکن کند. بنابراین آنالیز آرشیو 15 پتابایتی کل اینترنت می‌تواند در کمتر از 56 دقیقه انجام بگیرد. مهم‌تر از همه، از آنجا که BigQuery یک مجموعه ضرورتا تخصصی با قدرت تحلیل در ثانیه است، آنالیز پتابایتی داده‌ها نیازمند خرید سخت‌افزارهای دائمی یا استفاده از مجموعه سیستم‌های تحلیلی کلود نخواهد بود و کاربران با آسانی و با اجاره مقدار نیروی کامپیوتری مورد نیاز و چندهزار پردازشگر کافی برای پردازش داده‌ها برای چند دقیقه، می‌توانند یک پتابایت از اطلاعات را در زمان 7/ 3 دقیقه مورد تحلیل و بررسی قرار دهند. با نگاهی کلی به تمام این قضایا، می‌بینیم که سیلیکون ولی نه تنها دستگاه‌های با ظرفیت پتابایت تولید کرده، بلکه با توسعه فراتر از تصور دیتا سنترها، امکان آنالیز دیتاهای عظیم با مقیاس پتابایتی را نیز به حقیقت تبدیل کرده است. با نگاهی به آینده خواهیم دید دانشمندانی که آنالیزهای خود را به داده‌های کوچک محدود می‌کنند، خود را بسیار عقب‌تر از دنیایی می‌بینند که در آن تجزیه و تحلیل حجم پتابایتی داده‌ها در چند دقیقه انجام می‌شود. به زودی، از طریق سرویس قدرتمند کلود، به‌عنوان متخصصان دیتا دیگر ترسی از دیتاهای پتابایتی نخواهیم داشت.