کیمیاگری مدرن و مدیریت دادههای فاقد ساختار
مترجم: فریبا ولیزاده
پردازشهای موردنیاز برای آمادهسازی دادههای بدون ساختار برای تجزیه و تحلیل میتواند فرآیندی دستوپا گیر و نیز مستعد خطا باشد، به همین دلیل سازمانها باید برای سازماندهی اطلاعات خود حتی پیش از اقدام به جمعآوری آنها اقداماتی را مدنظر داشته باشند. دادههای فاقد ساختار به اطلاعاتی اطلاق میشود که به صورت از پیش تعریف شده سازمان یافته نیستند و امروزه به صورت گسترده در دسترس هستند اما بهمنظور استفاده از این اطلاعات در فرآیندهای تجزیه و تحلیل سازمانی که به معنی پردازشهای خاص است، باید آنها را تحت ساختار مشخصی سازماندهی کرد.
مترجم: فریبا ولیزاده
پردازشهای موردنیاز برای آمادهسازی دادههای بدون ساختار برای تجزیه و تحلیل میتواند فرآیندی دستوپا گیر و نیز مستعد خطا باشد، به همین دلیل سازمانها باید برای سازماندهی اطلاعات خود حتی پیش از اقدام به جمعآوری آنها اقداماتی را مدنظر داشته باشند.دادههای فاقد ساختار به اطلاعاتی اطلاق میشود که به صورت از پیش تعریف شده سازمان یافته نیستند و امروزه به صورت گسترده در دسترس هستند اما بهمنظور استفاده از این اطلاعات در فرآیندهای تجزیه و تحلیل سازمانی که به معنی پردازشهای خاص است، باید آنها را تحت ساختار مشخصی سازماندهی کرد. این پردازش میتواند مشکلساز باشد.
فرآیندهای تجزیه و تحلیل امروزی نیز در حالحاضر اطلاعات فاقد ساختار را به کمک کیمیاگری مدرن به ارزشی برای کسبوکار تبدیل میکنند. سیستمهای امروزی هرجا که باشند هر داده قابل تصوری را مورد استفاده و پایش قرار میدهند. فناوریهایی نظیر Hadoop وNoSQL این گنجینههای اطلاعاتی را بهراحتی در همان شکل بدون ساختارشان ذخیره میکنند. پردازشگرهای زبان طبیعی، استخراج ویژگی و تشخیص گفتار اکنون به صورت روزمره مقادیر عظیمی از متون بدون ساختار، تصاویر، اطلاعات صوتی و تصویری مختلف را برای تجزیه و تحلیل آماده میکنند. این فرآیندها بسیار شگفتآور بوده و با هدف ایجاد نظم در دل بینظمیها انجام میشوند.متاسفانه درحالیکه مراحل مختلف این پردازشها قابلتوجه هستند، نمیتوان آنها را عاری از خطا هم تصور کرد. به جرات میتوان گفت بهترین جایگزین برای چنین مواردی اجتناب از نیاز به پردازشهای جامع و عظیم است. ما همه به خوبی میدانیم که چگونه هر مرحله از پردازش، اطلاعات را دچار خدشه میکند. با انجام اشتباهات حتی کوچک تحریف اطلاعاتی گسترش پیدا کرده و عدم اطمینان به سرعت در لایههای مختلف گسترش پیدا میکند.
سازمانها درگیر بازی گسترده اطلاعاتی هستند و دادههای فاقد ساختار این بازی را بسیار پیچیده و دشوارتر میکند. در شرایطی که فعالیتهای مصرف کننده ۵۰ الی ۸۰ درصد از دادههای کمیاب را مصرف میکند، هر مرحله از فرآیند پردازش مستلزم دقت، تلاش و زمان بیشتری از سوی سازمان است و این در حالی است که معدودی از سازمانها این سه مولفه را در اختیار دارند.هر مرحله از فرآیند پردازش میتواند هزینه توسعه و نگهداری بالایی برای سازمان دربر داشته باشد اما گسترش اهمیت به اشتراکگذاری اطلاعات میان سازمانها یکی از مهمترین دغدغههای عصر حاضر بهشمار میرود. در گزارشی که اخیرا توسط MIT منتشر شده است، موضوع ارزش کسبوکار و اهمیت به اشتراکگذاری اطلاعات میان سازمانها در قالب اینترنت اشیا مورد بررسی قرار گرفته است. مطالعات دیگر حاکی از نتایج مشابه در زمینههای گستردهتر تجزیه و تحلیلهای اطلاعاتی است. در واقع با هر بار انتقال داده، فرآیندهای توسعه و نگهداری بیشتری موردنیاز خواهد بود.حذف واسطهها از جمله راهکارهایی است که با حذف مراحل میانی مراحلی را پشتسر میگذارد که شاید در دورهای ارزش افزودهای دربر داشته است اما هماکنون ارزشی ایجاد نمیکنند. سازمانها میتوانند به دو روش واسط فرآیندهای اطلاعاتی خود را حذف کنند.
• ساختار یافتهتر کردن اطلاعات از طریق یک رابط نرمافزاری رسمی: با ارائه اطلاعاتی که فرمتهای سادهای دارند، سازمان میتواند در میزان تلاشهایی که صرف پیادهسازی این فرآیند میکند، صرفهجویی کند.
• ساختاربخشی به اطلاعات در مبدا: با رشد فناوریهای ذخیره دادههای فاقد ساختار، ذخیره این دست از اطلاعات بسیار آسانتر شده است. طراحی فرآیندهایی که از این فناوریها بهمنظور ذخیره اطلاعات بدون ساختار استفاده میکنند با ایده امکان سازماندهی در آینده بسیار وسوسه انگیز است اما هرچه داده بیشتری از مبدا جمعآوری شود، امکان سازماندهی مطلوب کاهش پیدا خواهد کرد.
جان هورتون در تجربه کاری خود در oDesk متوجه این موضوع شد که سیستمهایی که اصولا به افراد اجازه به اشتراکگذاری اطلاعات میدهند از ورودیهای فاقد ساختار بهره میبرند، در نتیجه کاربران این سیستمها بیش از صدهزار ورودی لغوی مجزا با اشتباهات متعدد ایجاد کردند (مثلMS Powerpoint Microsoft Power Point). هرچند حدود ۱۴ درصد از ورودیهای سیستم بیش از یکبار استفاده شده بودند اما بسیاری از موارد تکراری بودند و در واقع منظور یک ورودی واحد بوده است. بدتر اینکه هر سازمان یا سیستمی که از این اطلاعات استفاده میکرد مجبور به ایجاد فرآیندهایی بود تا منظور کاربر را تفسیر کند. به این ترتیب oDesk با طراحی مجدد نحوه ورود اطلاعات به سیستم خود لیستی سازماندهی شده فراهم کرد که به طرز شگفتآوری فرآیندهای داخلی شرکت برای تحلیل اطلاعات و فرآیندهای مورد نیاز سازمانها در استفاده از سیستم oDesk را به مراتب بهبود بخشیده است. بهطور قطع، مهارتهای جمعی ما در سازماندهی اطلاعات فاقد ساختار در هر مرحله از فرآیند تحلیل موثر بوده و بهبودهایی را در پی داشته است. اما این کیمیاگری مدرن کاری دشوار است و مستلزم صرف تلاش، هزینه و زمان بسیار است.
منبع: sloanreview.mit
ارسال نظر