شناخت اجمالی از دانش داده‎کاوی

برگرفته شده از کتاب داده‎کاوی آقای دکتر جمال شهرابی

داده‎کاوی چیست؟

داده‎کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده‎­ها به منظور کشف الگوها و قوانین پنهان و معنی‎دار درون داده‎ها اطلاق می‎شود. اگرچه به جهت ایجاد درکی آسان‎تر، مثال‎ها و نمونه‎های عملی ذکر شده در این متن از مقولۀ بازاریابی و مدیریت ارتباط با مشتریان انتخاب شده است و فرض حاضر این است که هدف داده‎کاوی، قادر ساختن یک شرکت به بهبود بازاریابی، فروش و عملکردهای پشتیبانی از مشتریان از طریق درک بهتر مشتریانش می‎باشد؛ ولی پرواضح است که ابزارها و تکنیک‎های داده‎کاوی بیان شده در این متن، در همۀ زمینه‎های دیگر نیز بصورت یکسان و توانمند عمل می‎کنند و کافی است شما آن را به موضوعات حوزه کاری و تخصصی خود مرتبط سازید. بر اساس اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده‎کاوی متصور نبوده و مرز آن را از اعماق اقیانوس‎ها تا بیکران فضا می‎دانند. بعبارت دیگر کاربرد دانش داده‎کاوی در تمامی حوزه‎های برخوردار از داده بوده و تنها محدودیت دانش داده‎کاوی، نبود داده است.
در حقیقت هیچ کدام از الگوریتم‎های داده‎کاوی، در ابتدا با کاربردهای تجاری در ذهن به وجود نیامدند. داده‎کاوهای تجاری از یک سری تکنیک­‎های وام گرفته شده از آمار و علوم کامپیوتر استفاده می‎کنند. انتخاب مجموعه‎ای از تکنیک‎ها برای بکارگیری در موقعیت خاص بستگی به سه عامل “ماهیت عمل داده‎­کاوی”، “ماهیت داده‎های موجود” و “مهارت‎­ها و ترجیحات داده‎کاوان” دارد.
داده‎کاوی در دو نوع هدایت شده و غیرهدایت شده ظاهر می‎شود. داده‎کاوی هدایت شده، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص می‎گردد در حالی که هدف داده‎کاوی غیرهدایت شده، یافتن الگوها یا تشابهات بین گروه‎هایی از اطلاعات، بدون داشتن متغیر هدفی خاص و یا مجموعه‎­ای از دسته‎­ها و الگوهای از پیش تعیین شده می‎باشد. هر دو نوع داده‎­کاوی در فصول بعدی تشریح خواهد شد.
داده‎کاوی عمدتاً با ساختن مدل‎ها مرتبط است. یک مدل اساساً به الگوریتم یا مجموعه‎ای از قوانینی گفته می‎شود که مجموعه‎ای از ورودی‎ها را (معمولاً به شکل زمینه‎هایی در پایگاه داده‎های سازمان) با هدف یا مقصد خاصی مرتبط می‎نماید. تکنیک‎های داده‎کاوی برای مدل‎سازی هستند. یک مدل تحت شرایط درست می‎تواند منجر به بینش درست شود. به طور مثال از مدل‎ها برای ایجاد امتیازها استفاده می‎­شود. امتیاز، نوعی بیان یافته‎های یک مدل به صورت عددی است. از امتیازها می‎توان برای تهیۀ فهرستی از مشتریان از محتمل‎­ترین تا کم احتمال‎­ترین فرد در پاسخ به تبلیغات یک محصول جدید و یا از محتمل‎­ترین تا کم احتمال­‎ترین فرد برای عدم بازپرداخت وام استفاده کرد.
حال سؤال اینجاست که با داد‎ ­کاوی چه کارهایی می­‎توان انجام داد؟ داد‎ ­کاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که می‎توان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند:

  1. دسته‎بندی
  2. تخمین
  3. پیش‎بینی
  4. گروه‎بندی شباهت
  5. خوشه‎بندی
  6. توصیف و نمایه‎سازی

 

سه مورد اول همگی داده‎­کاوی هدایت شده هستند که هدف آن‎ها یافتن ارزش یک متغیر هدف خاص است. گروه‎بندی شباهت و خوشه‎­بندی جزو داده‎­کاوی غیر هدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون داده‎ها بدون توجه به یک متغیر هدف خاص است. نمایه­‎سازی عملی توصیفی است که می­‎تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به هر کدام به صورت مختصر پرداخته می‎شود.

دسته‎بندی

به نظر می­‎رسد دسته‎بندی که یکی از معمول­‎ترین کارکردهای داده‎­کاوی است، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دسته‎بندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه دربارۀ دنیا، بطور مداوم دسته‎­بندی، طبقه‎­بندی و درجه‎بندی می‎کنیم. ما موجودات زنده را به شاخه‎­ها و گونه‎­ها، مواد را به عناصر، حیوانات و انسان را به نژادها تقسیم می­‎کنیم.
دسته‎بندی شامل بررسی ویژگی‎های یک شی جدید و تخصیص آن به یکی از مجموعه‎­های از قبل تعیین شده می­‎باشد. عمل دسته‎بندی با تعریف درستی از دسته‎ها و مجموعه‎­ای از ویژگی‎­ها که حاوی موارد از پیش دسته‎­بندی شده هستند مشخص می‎گردد؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دسته­‎بندی کردن داده‎­های دسته­‎بندی نشده، استفاده نمود. اشیایی که باید دسته‎بندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه داده‎ها یا یک فایل ارائه می‎شوند و عمل دسته‎بندی شامل افزودن ستون جدیدی با کد دسته­‎بندی خاصی است. مثال‎­هایی از دسته‎­بندی که با استفاده از تکنیک‎­های توصیف شده در این کتاب به دست آمده­‎اند، در زیر ارائه شده است:

  • دسته‎بندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر
  • انتخاب محتویات یک صفحۀ وب برای قرار دادن در شبکۀ اینترنت
  • تعیین شماره تلفن­‎های متصل به دستگاه‎­های فکس
  • تشخیص مدعیان غیرواقعی دریافت خسارت از بیمه

 

در همۀ این مثال‎ها تعداد محدود و از پیش تعیین شده‎ای از دسته­‎ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آن‎ها تخصیص دهیم. تکنیک­‎های درخت تصمیم و نزدیکترین همسایه از جمله تکنیک‎های دسته‎بندی می‎باشند؛ شبکه‎­های عصبی و تحلیل پیوند نیز در شرایط خاصی عمل دسته‎بندی را انجام می ­دهند.

تخمین

تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شده‎­اند، سروکار دارد. در تخمین، داده‎­های ورودی در قالب متغیرهای ورودی مختلف به سیستم داده می‎­شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می‎باشد.
در عمل، تخمین اغلب برای انجام دسته‎بندی استفاده می‎­شود. یک شرکت کارت‎های اعتباری که مایل است یک فضای تبلیغاتی را در پاکت‎های صورت­حساب به یک تولید کنندۀ پوتین اسکی بفروشد، باید مدل دسته‎بندی تهیه کند که همۀ دارندگان کارت‎­ها را در یکی از دو دستۀ اسکی­باز یا غیر اسکی­باز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارندۀ کارت، یک امتیاز تمایل به اسکی تخصیص می­‎دهد؛ این ارقام می‎تواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکی­باز بودن یا نبودن دارندۀ کارت است. عمل دسته‎بندی، اکنون به ایجاد امتیازی آستانه‎ای منجر می‎گردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکی­باز قلمداد می­‎شود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد، اسکی­باز محسوب نمی‎گردد.
روش تخمین فواید زیادی دارد که مهم‎ترین آن این است که در آن اطلاعات را می‎توان مطابق تخمین به دست آمده مرتب نمود. برای پی‎­بردن به اهمیت آن فرض کنید که شرکت تولید پوتین‎های اسکی، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه‎ریزی نموده است. فرض کنید از روش دسته‎بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده‎اند، پس به راحتی می‎توان به صورت تصادفی، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالیکه اگر مدل تخمین، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصدهزار از محتمل‎ترین کاندیداها فرستاد. پرواضح است که احتمال پاسخ‎گیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می‎باشد. برخی دیگر از مثال‎های تخمین در زیر آمده است:

  • تخمین تعداد فرزندان در یک خانواده
  • تخمین درآمد کل یک خانواده
  • تخمین دوره عمر یک مشتری
  • تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمۀ عمر

مدل‎های رگرسیون و شبکه‎های عصبی از جمله تکنیک‎های مناسب داده‎کاوی برای تخمین می‎­باشند.

پیش‎بینی

پیش‎بینی مانند دسته‎­بندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیش­‎بینی شدۀ آینده یا ارقام تخمین ­زدۀ آینده دسته‎بندی می­‎شوند. در عمل پیش‎­بینی، تنها روش برای بررسی صحت دسته‎­بندی، انتظار دیدن آینده است.

هر یک از تکنیک‎­های استفاده شده در دسته‎­بندی و تخمین را می‎توان برای استفاده در پیش‎­بینی تطبیق داد، جایی که متغیری که باید پیش‎­بینی شود از قبل معلوم است و داده‎های پیشین برای آن وجود دارد. از داده‎­های پیشین برای تهیۀ یک مدل که بیانگر رفتار مشاهده شدۀ کنونی است استفاده می‎شود؛ وقتی این مدل برای ورودی‎های کنونی به کار رفت؛ نتیجۀ کار، پیش‎بینی رفتار آینده خواهد بود. مثال‎هایی از پیش‎­بینی که از طریق تکنیک‎های داده‎­کاوی بحث شده در این کتاب به آنها پرداخته می‎­شود، از این قرارند:

  • پیش‎­بینی اینکه کدام مشتریان در طول ۶ ماه آینده، بازار محصول ما را ترک خواهند کرد.
  • پیش‎بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمۀ سه جانبه یا پیغام ­گیر خواهند شد.

بیشتر تکینک‎های داده­‎کاوی که در این کتاب بیان شده‎­اند در صورت وجود داده‎­های مناسب، برای استفاده در پیش‎بینی مناسب‎اند. انتخاب تکنیک به ماهیت داده‎­های ورودی و نوع متغیری که باید پیش‎بینی شود بستگی دارد.

گروه‎بندی شباهت یا قوانین وابستگی

عمل گروه‎بندی شباهت برای تعیین ویژگی‎­های هم‎زمانی هستند که در وقوع یک پدیده رخ می‎­دهند. بعبارت دیگر عمل گروه‎بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‎ها را تعیین می‎نماید. بعبارت ساده‎تر عمل گروه‎بندی شباهت تعیین می‎کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می‎گیرد، چیزی که آن را تحلیل سبد بازار می­‎نامیم. فروشگاه‎های زنجیره‎­ای خرده‎­فروشی می‎توانند از گروه‎بندی شباهت برای تعیین چیدمان کالاها در قفسه‎های فروشگاه، در یک کاتالوگ و یا صفحه وب فروش اینترنتی استفاده کنند، تا اقلامی که اغلب با هم خریده می‎شوند در کنار هم قرار گیرند. از گروه‎بندی شباهت می­توان برای تعیین شرایط فروش‎­های متقابل و هم‎زمان و همچنین برای طراحی بسته‎بندی‎های جذاب و یا دسته‎بندی محصولات و خدمات استفاده کرد.
گروه‎بندی شباهت یک روش ساده برای ایجاد قوانین از داده‎­هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می‎­توان دو قانون وابستگی ایجاد کرد:

  • افرادی که شیر خشک نوزاد می­‎خرند همچنین با احتمال P1 پوشک نوزاد را هم می‎خرند.
  • افرادی که پوشک نوزاد می­‎خرند همچنین با احتمال P2 شیر خشک نوزاد را هم می‎خرند.

قوانین وابستگی در فصول کتاب به صورت مفصل مورد بحث قرار می‎­گیرد.

خوشه‎­بندی

خوشه‎بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه‎ها یا خوشه‎­های همگن گفته می‎شود. وجه تمایز خوشه‎بندی از دسته‎بندی این است که خوشه‎بندی به دسته‎­های از پیش تعیین شده تکیه ندارد. در دسته‎­بندی بر اساس یک مدل هر کدام از داده‎­ها به دسته‎ای از پیش تعیین شده اختصاص می‎یابد؛ این دسته‎­ها یا از ابتدا در طبیعت وجود داشته‎­اند (مثل جنسیت، رنگ پوست و مثال­‎هایی از این قبیل) یا از طریق یافته‎­های پژوهش‎های پیشین تعیین گردیده‎­اند.

در خوشه­‎بندی هیچ دستۀ از پیش تعیین شده‎­ای وجود ندارد و داده­‎ها صرفاً براساس تشابه گروه‎­بندی می­‎شوند و عناوین هر گروه نیز توسط کاربر تعیین می‎گردد. به طور مثال خوشه‎های علائم بیماری‎ها ممکن است بیماری‎­های مختلفی را نشان دهند و خوشه‎های ویژگی‎های مشتریان ممکن است حاکی از بخش‎های مختلف بازار باشد.
خوشه‎بندی معمولاً به عنوان پیش درآمدی برای بکارگیری سایر تحلیل‎­های داده‎کاوی یا مدل‎­سازی به کار می‎­رود. به عنوان مثال، خوشه‎بندی ممکن است اولین گام در تلاش برای تقسیم‎بندی بازار باشد؛ برای ایجاد یک قانون که در همۀ موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می‎دهند اول باید مشتریان را به خوشه‎­های متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می‎­کند. به تکنیک‎های یافتن خوشه‎ها در فصول بعدی به طور مفصل پرداخته می‎شود.

نمایه‎سازی

گاهی اوقات هدف داده‎­کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‎ای پیچیده درجریان است. نتایج نمایه‎­سازی درک ما را از مردم، محصولات یا فرآیندهایی که داده‎­ها را در مرحلۀ اول تولید کرده‎اند افزایش می‎­دهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان می­‎دهد چه زمانی می‎توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا، مثالی از این دست است که چگونه این توصیف ساده که “تعداد زنان حامی حزب دموکرات بیش از مردان است” می‎تواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه‎­نگاران، جامعه‎­شناسان، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند.
درخت‎های تصمیم ابزار مفیدی برای نمایه‎­سازی می­‎باشد؛ قوانین وابستگی و خوشه­‎بندی را نیز می‎­توان برای نمایه‎سازی‎ها استفاده نمود.

چرا حالا؟

بیشتر تکنیک‎های داده‎کاوی حداقل به عنوان الگوریتم‎­های آکادمیک از سال­‎ها یا دهه‎های قبل وجود داشته‎­اند. با این وجود، تنها در دهه اخیر است که داده‎­کاوی تجاری نقش عمده­‎ای را در جهان بازی کرده است؛ این مسئله به خاطر رخ دادن هم‎زمان عوامل زیر است:

داده‎ای که ایجاد شده است

داده‎کاوی هنگامی بیشترین معنی را پیدا می‎کند که داده‎­های زیادی وجود داشته باشد؛ در حقیقت، اغلب الگوریتم‎­های داده­‎کاوی برای تولید مدل­‎های دسته­‎بندی، تخمین، پیش­‎بینی و سایر کارکردهای داده‎کاوی نیازمند میزان زیادی از داده‎ها هستند.
صنایعی نظیر مخابرات و کارت‎های اعتباری، به مدت طولانی روابط تعاملی و اتوماتیک با مشتریان داشته‎اند و اطلاعات تعاملی زیادی را جمع‎آوری نموده‎اند، ولی داده‎های برگرفته از بیشتر صنایع، امروزه مرهون اتوماتیک شدن زندگی روزمره در تمامی زمینه‎ها است. در شرایط حاضر افزایش ثبت الکترونیکی فروش فروشگاه‎ها، ماشین‎های اتوماتیک سخن­گو، کارت‎های اعتباری، خرید آنلاین، انتقال پول الکترونیکی، پردازش‎های سفارش اتوماتیک، خرید بلیط الکترونیکی و سایر موارد مشابه، داده‎­ها را به صورت انبوه تولید کرده و به صورت بی‎نظیری آنها را جمع‎آوری می‎نماید.

داده‎ای که ذخیره شده است

در فرآیند ذخیره‎­سازی داده­، داده‎­ها از منابع بسیار متفاوت اما به شکل واحد و با تعاریف ثابت جمع‎آوری می‎گردد. انباره داده باید به صورت عمده به گونه‎­ای طراحی شود که عمل داده‎کاوی را تسهیل نماید.

توان محاسباتی بالایی که قابل دسترسی است

الگوریتم‎های داده‎کاوی معمولاً نیازمند عبور چندگانه از حجم عظیم داده‎هاست؛ بیشتر آن‎ها دارای محاسباتی زیاد و فشرده هستند. کاهش شدید و مداوم در قیمت کامپیوتر، انجام تکنیک­‎هایی را که زمانی فقط توسط کامپیوترهای بزرگ امکان‎پذیر بود، با کامپیوترهای معمولی عملی ساخته است.
ارائۀ موفق نرم‎افزارهای مدیریتی پایگاه داده‎ها از جانب تولیدکنندگان عمده مانند اوراکل، مایکروسافت، ترادیتا و آی­ بی­ ام، این توان را ایجاد کرده که فرآیندهای موازی در بسیاری از مراکز داده‎ای شرکت‎ها برای اولین بار انجام شود. این برنامۀ سرور پایگاه داده‎های موازی، فراهم کنندۀ محیطی عالی برای داده‎کاوی در مقیاس بزرگ می‎باشد.

پیچیده شدن محیط و نیاز و ضرورت انکارناپذیر به یافتن دانش پنهان

امروزه محیط اطراف ما روز به روز پیچیده تر شده و دیگر نمی‎توان با روش‎های ساده موضوعات را تحلیل نمود. بطور خاص در زمینه ارتباط مشتریان امروزه در طیف وسیعی از صنایع، شرکت‎ها به این بینش رسیده‎­اند که مشتریان برای سازمان حیاتی هستند و بالطبع اطلاعات تحلیلی دربارۀ آن‎­ها یکی از دارایی‎های اساسی سازمان می‎باشد. باید توجه داشت که پیچیدگی فضای کسب و کار و رقابت امروزه ضرورت بکارگیری دانش داده‎کاوی را بیش از پیش کرده است.
اگرچه در حوزه مدیریت روابط مشتریان، این ضرورت باعث رشد و توسعه دانش داده‎کاوی در حال حاضر شده است، ولی در سایر حوزه‎ها نیاز به یافتن دانش پنهان ضرورتی انکارناپذیر گشته است که یکی از عوامل رشد امروزی دانش داده‎کاوی محسوب می‎گردد.