سگمنتیشن یکی از ابزارهای پرکاربرد در تحلیل داده است. برای روشن‌تر شدن بحث،‌ می‌خواهم از اینجا به بعد با یک مثال پیش برویم؛ فکر کنید ما یک شرکت بیمه آنلاین داریم که هدف کلی‌اش در سال جاری افزایش فروش ۵۰ درصدی است. تحقق این هدف همکاری تمام تیم‌ها را طلب می‌کند. ما می‌خواهیم مشتریان شرکت را از لحاظ ریسک تصادف به ۳ دسته مشتری‌های کم‌ریسک، مشتری‌های با ریسک متوسط و مشتری‌های پرریسک دسته‌بندی کنیم. قبل از هر دسته‌بندی یا هر تحلیل داده‌ای،‌ آنچه حیاتی است این است که بدانیم برای چه هدفی این کار را انجام می‌دهیم.

ولی چرا دسته‌بندی می‌کنیم؟ جواب این سوال لیست عریض و طویلی از کاربرد‌های دسته‌بندی است!‌ سعی می‌کنم با کمک مثال بالا به چند مورد خیلی کاربردی و مهم آن اشاره کنم هرچند کاربردهایی که اشاره خواهم کرد محدود به مثال بالا نیستند و می‌توان تصور کرد در بسترهای متفاوت کارکرد‌های مشابهی داشته باشند.

۱- مارکتینگ (سیستم‌های توصیه‌گر):  تصور کنید که در همان شرکت بیمه مثال ما، تیم مارکتینگ تصمیم دارد کمپینی برای مشتری‌های کم‌ریسک خود طراحی کند و می‌خواهد بداند که مشتریان کم‌ریسک، چه محصولات دیگری را نیز خریداری کرده‌اند، تا بتواند در طراحی کمپین از این خروجی کمک بگیرد.

۲- تخصیص منابع انسانی: تصور کنید که تیم اجرایی شرکت نیاز دارد بداند کدام مشتری‌ها (از لحاظ ریسک) ارزش مالی بیشتری دارند تا سرمایه‌گذاری زمانی بیشتری روی آنها داشته باشد. به‌عنوان مثال تعداد تماس‌های کال سنتر (مرکز تلفن) شرکت با چه اولویتی به مشتری‌ها برسد و...

۳- طراحی (سایت یا اپلیکیشن): تصور کنید با دسته‌بندی‌ای که روی مشتری‌ها انجام داده‌ایم و تحلیل اطلاعاتی که از مدل وب‌گردی همین مشتری‌ها روی سایت  اپلیکیشن شرکت به دست آورده‌ایم (حرکت موس و مدل کلیک‌ها و بازدید صفحه‌های سایت)، مشخص شده است که هر دسته از مشتری‌ها، بیشتر چه قسمت‌هایی از سایت را می‌بینند و به آن سر می‌زنند. این موضوع برای طراحی سایت به ما کمک می‌کند تا:

الف) کدام دکمه‌ها یا صفحه‌ها را کنار هم بچینیم که برای یک گروه خاص بهتر دیده شوند (اگر محتوای وب‌سایت ما برای هر مشتری به‌صورت خاصی نمایش داده شود، ‌این اطلاعات تاثیر بسزایی در فروش بیشتر خواهد داشت.)

ب) ما حتی می‌توانیم از مدل تعامل هر شخصی با سایت خودمان، تشخیص دهیم که این شخص می‌تواند تبدیل به کدام دسته از مشتری‌های ما بشود و بر این اساس برای او محصولاتی را نمایش دهیم که امکان فروش بهتری داشته باشد!

در هر سه مورد اشاره شده، ما در واقع از نتیجه دسته‌بندی (گروه‌بندی بر اساس ریسک) برای گرفتن تصمیم‌های حیاتی برای تجارت خود استفاده کرده‌ایم که در راستای ارضای هدف کلی شرکت تعیین شده‌اند. لازم است این نکته را پررنگ کنم که این فقط و فقط یک دسته‌بندی و تنها سه مورد از کاربردهای همین دسته‌بندی است!‌ و می‌شود تصور کرد که دسته‌بندی‌های بیشتر با کاربرد‌های متفاوت‌تر تا چه اندازه می‌تواند به ما قدرت تصمیم‌گیری و گزینه‌های متنوع‌تری برای انتخاب استراتژی بدهد.

اما اصولا سگمنتیشن چگونه انجام می‌شود؟ دسته‌بندی یکسری ورودی، یک تابع و یک خروجی دارد. اگر دسته‌بندی را یک تابع فرض کنیم که تعدادی ورودی می‌گیرد و یک خروجی تحویل می‌دهد، ورودی‌های دسته‌بندی را «ویژگی» می‌نامیم. این ویژگی‌ها در کاربردهای مختلف طبیعتا متفاوتند. در مورد مثال ما این ویژگی‌ها می‌تواند: سن،‌ تاهل، سال اخذ گواهینامه، محل سکونت و... باشد.

۱- تعداد ویژگی‌ها:

الف) اینکه در مساله دسته‌بندی از چه تعداد ویژگی استفاده کنیم، بسته به پیچیدگی مساله ما دارد: هرچند نمی‌توان با قطعیت گفت اما هرچه پیچیدگی مساله ما بیشتر باشد - در واقع تصمیم ما تابعی از نه یک یا دو،‌ بلکه از چند ویژگی متفاوت باشد - تعداد ویژگی‌های بیشتری برای رسیدن به پاسخ دقیق نیاز داریم.

ب) توجه به این نکته بسیار مهم است که گاهی حتی در مسائل خیلی پیچیده، تعداد زیاد ویژگی /  فاکتور‌های ورودی تاثیر منفی در خروجی دسته‌بندی ما دارد، پس تنظیم تعداد این ویژگی‌ها برای رسیدن به پاسخ درست حیاتی است.

ج) ابزارهای مختلفی وجود دارند که به ما کمک می‌کنند تا ویژگی‌ها را دسته‌بندی کنیم یا آنهایی را که از اهمیت بیشتری برخوردارند شناسایی کنیم و بعضی‌ها را که خیلی مهم نیستند یا قدرت جداسازی کمی دارند، قبل از دسته‌بندی حذف کنیم.

۲-خواص ویژگی‌ها:

الف) ویژگی‌هایی که ما انتخاب می‌کنیم نباید با هم مرتبط (همبسته باشند). به‌عنوان مثال یکی از ویژگی‌ها نباید تابعی از ویژگی دیگری باشد. اگر غیر از این باشد، در خروجی ما که منجر به تصمیم‌گیری خواهد شد تاثیر منفی زیادی می‌گذارد.

ب) ویژگی‌ها باید گویا و قابل توصیف باشند و به خودی خود از پیچیدگی کمی برخوردار باشند (به‌عنوان مثال سن و تاهل ویژگی‌های خوبی برای مثال ما هستند چون ساده‌اند و گویا.)

۳- تابع دسته‌بندی (الگوریتم)

الف) به‌صورت کلی الگوریتم‌های دسته‌بندی به دو گونه یادگیری با نظارت و یادگیری بدون نظارت دسته‌بندی می‌شوند. بسته به شرایط و داده باید یکی از مدل‌ها را انتخاب کنیم و ویژگی‌ها به‌عنوان ورودی به الگوریتم داده شود.

۴-توصیف خروجی‌ها:

الف) گاهی خروجی یک سگمنتیشن با توجه به الگوریتمی که از آن برای این منظور استفاده کرده‌ایم، خروجی خوانایی نیست. این به آن معناست که با نگاه کردن به ویژگی‌های هر گروه، افراز درستی به‌صورتی که بتوان نتایج را به راحتی توصیف کرد، نداریم.

- تصور کنید که در مثال ما و در دسته‌بندی ۳ گروهی که انجام دادیم، خروجی دسته‌بندی مرز‌بندی درستی با توجه به ویژگی‌های ورودی به ما ندهد.

- مثال مرز‌بندی درست و افراز خوب: مرد‌های بین ۱۸ تا ۲۶ سال سن غیرمتاهل: مشتری پرریسک

- مثال مرزبندی نامشخص و بد: مرد/  زن بین ۱۸ تا ۳۶ سال سن: مشتری با ریسک متوسط!

پر واضح است که در مورد دوم ما نه برای نیازهای تیم مارکتینگ و نه برای تخصیص منابع انسانی و نه برای تیم طراحی سایت به تصمیم درستی نخواهیم رسید. چون این‌طور که به نظر می‌رسد (اگر فرض کنیم که تنها ۴ ویژگی ورودی داریم)، تنها یک ویژگی: سن،‌ مشتری با ریسک متوسط ما را افراز می‌کند و این موضوع شک‌برانگیز است!

ب) اگر خروجی سگمنتیشن خوانا نیست، باید قبل از همه به داده‌ها نگاه کرد تا اگر همبستگی دارند یا داده‌ای اشتباه وارد شده است تصحیح شود، سپس مراحل از ابتدا تکرار شود.

در این مقاله سعی شد با یک مثال ساده،‌ چیستی، چرایی و چگونگی دسته‌بندی به‌صورت خیلی ساده، توضیح داده شود و قطعا برای تسلط بیشتر به بحث نیاز به مطالعات جانبی است.