الگوریتم‌های داده‌کاوی / الگوریتم های توصیفی / الگوریتم های پیشبینی کننده / الگوریتم های فراابتکاری

براساس ارتباط‌هایی که داده‌کاوی با علوم مختلف برقرار کرده است، از الگوریتم‌ها و روش‌های بسیار متنوعی بهره می‌برد. طبقه‌بندی‌های مختلفی برای الگوریتم‌ها ارائه شده است. بر اساس مشهورترین طبقه‌بندی‌ها، این الگوریتم‌ها را می‌توان به دو دسته الگوریتم‌های توصیفی و الگوریتم‌های پیش‌بینی‌کننده تفکیک کرد. بر این اساس، برخی از مهم‌ترین الگوریتم‌های توصیفی به شرح زیر هستند:

خوشه‌بندی داده‌ها (Clustering)

یکی از روش‌های بدون ناظر برای اکتشاف دانش از داده‌ها است که بدون پیش‌فرض، داده‌ها را براساس فاصله معنی‌دار تفکیک و دسته‌بندی می‌کند. اعضای درون یک خوشه شباهت‌های زیادی به یکدیگر دارند ولی اعضای هر خوشه با اعضای موجود در خوشه های دیگر شباهت کمتری دارند. الگوریتم‌هایی مانند K-Means، K-Medoids، AGNES، DIANA، DBSCAN و OPTICS از جمله الگوریتم‌های خوشه‌بندی به شمار می‌آیند. نمونه‌هایی از خوشه‌بندی داده‌ها به شرح زیر هستند:

  • بخش‌بندی بازار بر مبنای روند مراجعات و تماس مشتریان با سازمان
  • تعیین راهبردهای بازاریابی بر مبنای رفتار خرید مشتریان در خوشه‌های مختلف
  • تعیین انواع قراردادهای پیمانکاری بر اساس روند پرداخت وجه از سوی مشتریان
  • تقسیم‌بندی مشتریان بر اساس هزینه‌ها و درآمدهایی که برای سازمان ایجاد می‌کنند.

الگوریتم قواعد وابستگی (Association Rules)

قواعد وابستگی، یک روش مناسب و توانمند برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه‌های داده بزرگ است. بر اساس این روش، میزان وابستگی بین مشخصه‌ها یا فیلدهای داده به شکل یک مجموعه از قواعد شناسایی می‌شوند و به کمک این قواعد، امکان رخ دادن دو یا چند مشخصه در کنار یکدیگر تعیین می‌شود. برخی از الگوریتم‌های محاسبه قواعد وابستگی عبارتند از Apriori و FP-Growth. برای نمونه در تحلیل موارد زیر از قواعد وابستگی استفاده می‌شود:

  • تحلیل روند خرید مشتریان در سبدهای خرید جدید بر اساس خریدهای قبلی
  • یافتن رابطه بین خرابی ماشین‌آلات و قطعات و دلایل خرابی آن‌ها
  • تحلیل ارتباط فعالیت‌های بازاریابی و برندینگ شرکت با افزایش یا کاهش سرعت عکس‌العمل بازار نسبت به محصولات شرکت
  • هم‌گروهی یا Bundling محصولات یا خدمات بر اساس میزان علاقه مشتریان به خرید گروهی آن‌ها.
  • برقراری ارتباط میان کیفیت پاسخ‌گویی کارشناسان خدمات پس از فروش سازمان با نیاز مشتری بر اساس تخصص کارشناسان، نوع مشکلات محصول، بلوغ محصول مورد نظر و ویژگی‌های مشابه

مهم‌ترین الگوریتم‌های پیش‌بینی‌کننده را به شرح زیر می‌توان تفکیک کرد:

طبقه‌بندی داده‌ها (Classification) 

یکی از روش‌های یادگیری نظارت‌شده برای پیش‌بینی طبقه داده‌ها است که بر مبنای طبقات پیش‌فرض و از قبل مشخص‌شده، اقدام به شناسایی طبقه داده‌های جدید می‌کند. برخی از الگوریتم‌های طبقه‌بندی داده‌ها عبارتند از: Decision Tree, Navie Bayes و K-Nearest Neighbors. چند نمونه از کاربردهای طبقه‌بندی به شرح زیر است:

  • دسته‌بندی نمایندگی‌های فروش بر اساس قابلیت‌ها و توانمندی‌های فروش و بازاریابی 
  • درخت تصمیم برای تصمیم‌گیری درباره فرآیند و نحوه فروش به مشتریان بزرگ یا خاص
  • یادگیری انواع گروه‌بندی مشتریان بر اساس سوابق قراردادی، گارانتی یا پشتیبانی و تعیین رویکرد و نگرش سازمان نسبت مشتریان جدید پیش از آغاز دوره پشتیبانی یا گارانتی
  • تفکیک مشتریان جدید بر اساس مدت زمان و نوع خدمات یا محصول دریافتی با توجه به سوابق یادگرفته شده از مشتریان فعلی و مشتریان جداشده از سازمان

رگرسیون و سری‌های زمانی (Regression and Time Series Analysis)

در صورتی که داده‌های سازمان با گذشت زمان و بر اساس روند مشخصی ثبت شده باشند، امکان پیش‌بینی روند آینده سازمان بر اساس سری‌های زمانی و توابع رگرسیونی داده‌ها وجود خواهد داشت. رگرسیون یکی از ساده‌ترین روش‌هایداده‌کاوی است که بر اساس روند گذشته، تخمینی از مقادیر آینده ارائه می‌کند. چند نمونه از کاربردهای رگرسیون به شرح زیر است:

  • تحلیل تاثیر شاخص‌های اقتصادی بر روند افزایش یا کاهش قیمت سهام در بورس 
  • مقایسه عملکرد مالی شرکت در مقایسه با شرکت‌های مشابه در همان صنعت
  • تحلیل روند رشد درآمد‌ها بر مبنای سیاست‌های بازاریابی و فروش سازمان 
  • شناسایی عوامل و بازه‌های زمانی موثر بر نوسانات قیمتی سهام 
  • مقایسه میزان انطباق عملکرد خط تولید با سیاست‌ها و اهداف سازمان در سال‌های گذشته

شبکه های عصبی (Neural Networks)

شبکه‌های عصبی مصنوعی، مدل پیشرفته‌ای از رگرسیون‌های پیوسته قابل‌آموزش هستند که می‌توانند آینده را بر مبنای رویدادهای گذشته پیش‌بینی کنند. پیش‌بینی داده‌ها در این الگوریتم مشابه الگوریتم‌های طبقه بندی است با این تفاوت که در این روش، هدف پیش‌بینی مقادیر داده پیوسته (مانند مبلغ فروش، درآمد، سود یا قیمت سهام) است ولی در طبقه‌بندی، نتایج پیش‌بینی بر اساس طبقات فعلی که الگوریتم آن‌ها را آموزش دیده است، ارائه می شوند و خروجی دارای طیف گسسته است. (در حقیقت تعداد طبقات محدود به چند طبقه یا گروه خاص است و تنوع کمی دارد). برخی از انواع شبکه‌های عصبی عبارتند از شبکه‌های MLP، RBF، SVM، SOM و LVQ. نمونه‌هایی از کاربرد شبکه‌های عصبی به شرح زیر است:

  • یادگیری و پیش‌بینی رفتار مشتریان فعلی و آتی بر اساس بازخوردهای دریافتی از سیستم پیشنهادها
  • بهینه‌سازی ارسال و دریافت محصولات و قراردادهای پشتیبانی بر مبنای روندهای گذشته
  • تنظیم رویکرد فروشندگان نسبت به مشتریان بالقوه و جدید بر اساس یادگیری از رفتار مشتریان فعلی
  • درک نحوه و کیفیت کار کارکنان ممتاز در پاسخگویی به درخواست مشتریان و شناسایی علل عدم تبعیت رفتار آنها از الگوی نرمال و روزمره سازمان.
  • پیش‌بینی قیمت در پورتفوی سهام بر اساس شاخص‌های اقتصادی کشور و شاخص‌های مالی بورس و ارائه پیشنهاد برای خرید یا فروش سهام پورتفو به منظور بهینه‌سازی مجموع سود سهام.

در کنار الگوریتم‌های توصیفی و پیش‌بینی، مجموعه‌ای از الگوریتم های فراابتکاری (Meta-Heuristics) نیز ارائه شده‌اند که هدف آن‌ها دستیابی به پاسخ بهینه‌ی سوالات و مسائل مدیریتی و عملیاتی است. برخی از مهم‌ترین الگوریتم های فراابتکاری یا اصطلاحا تکاملی (Evolutionary) عبارتند از:

  • الگوریتم ژنتیک (Genetic Algorithm) 
  • بهینه‌سازی ازدحام ذرات (Particle Swarm Optimization)
  • بهینه‌سازی کلونی مورچگان (Ant Colony Optimization)
  • بهینه‌سازی کلونی زنبورهای عسل (Bees Colony Optimization)
  • الگوریتم کرم شب تاب (Firefly Algorithm)
  • جستجوی متوازن (Harmony Search)

در تمامی این الگوریتم‌ها، سعی در یافتن پاسخ بهینه از بین تعداد زیادی پاسخ، در کمترین زمان و با بیشترین دقت و کیفیت است. این الگوریتم‌ها زمانی به کار می‌روند که تعداد پاسخ‌های مساله بسیار زیاد و متنوع بوده و حل مساله با روش‌های معمول برای دستیابی به نتیجه قابل‌قبول، نیازمند صرف هزینه و زمان فوق العاده‌ای باشد که از توان اغلب کسب‌و‌کارها خارج است. برای حل مسائل کسب‌و‌کار، گاهی اوقات از الگوریتم‌های تکاملی در ترکیب با الگوریتم‌های توصیفی و پیش‌بینی‌کننده استفاده می‌شود تا کیفیت و دقت پاسخ‌ها افزایش یابد، هرچند که این نکته منجر به افزایش مدت زمان یادگیری و ساخت مدل‌های حل مساله خواهد شد.

در بسیاری از پروژه‌های داده‌کاوی، از ترکیب متنوعی از الگوریتم‌های اشاره شده  برای تحلیل داده و ساخت مدل‌های حل مساله استفاده می‌شود. این رویکرد باعث شده است تا میزان اعتبار و کیفیت تحلیل‌ها و تصمیم‌های اتخاذ شده بر مبنای خروجی داده‌کاوی بهبود یابد و به تدریج، به مدل‌های آموزش‌دیده و مبتنی بر واقعیت دست یابیم که با اهداف و فرآیندهای کسب‌و‌کار متناظر بوده و قادر به پیش‌بینی دقیق آینده کسب‌و‌کار هستند. 

داده‌کاوی (Data Mining) چیست و چه کاربردهایی دارد؟ / پیشنیازها

 داده‌کاوی عبارت است از فرآیند اکتشاف الگو و روندهای منظم و پنهان در داده‌های بزرگ و توزیع شده، با استفاده از مجموعه وسیعی از الگوریتم‌های مبتنی بر علوم ریاضی و آمار. این الگوریتم‌ها معمولا بروی مقادیر عددی و غیرمتنی اعمال می‌شوند و برای داده‌های متنی، از الگوریتم‌های متن‌کاوی استفاده می‌شود. داده‌کاوی از علومی مانند هوش مصنوعی، یادگیری ماشینی، آمار، پژوهش عملیاتی و مدیریت پایگاه‌های داده برای ساخت مدل‌ها و پاسخ به سوالات بهره می‌برد.

استخراج و تحلیل اطلاعات سازمان از داده‌های در دسترس توسط کارکنان، فرایندی است که برای‌ سال‌های متمادی انجام شده و وظیفه جدیدی در سازمان‌ها به شمار نمی‌آید. اولین الگوریتم‌های شناسایی روندهای منظم و الگوها در پایگاه داده، از علم آمار و نظریه‌های احتمال نشات گرفته‌اند. در سال‌های اخیر، با رشد روزافزون قدرت محاسباتی رایانه‌ها و امکان دستیابی به نتایج حاصل از محاسبات پیچیده در مدت زمان کوتاه، سبب شده است تا الگوریتم‌های پیشرفته ریاضی مورد توجه قرار بگیرند. این الگوریتم‌ها با درنظرگرفتن ابعاد مختلف داده‌، به پالایش و تحلیل آن پرداخته و الگوهای پیچیده و غیرقابل شناسایی توسط روش‌های قدیمی را استخراج و ارائه می‌کنند. رایانه‌ها کمک کرده‌اند تا فرآیند استخراج،پالایش، پیش پردازش و مدل‌سازی داده‌ها و همچنین  اعتبارسنجی یافته‌ها با دقت بیشتر و سرعتی بی‌نظیر انجام شود. 

پیش‌نیازهای داده کاوی

پیش از آغاز عملیات داده‌کاوی نیاز است که پیش پردازش کاملی روی داده‌ها انجام شود تا داده‌های غیرمفید و ناکارآمد از داده‌های مفید و کاربردی تفکیک شوند. در ادامه به برخی از مهم‌ترین روش‌های پیش‌پردازش داده می‌پردازیم:

  • بررسی و جایگزینی داده‌های مفقود شده (Missing Data): برای مواجه با داده‌های مفقود شده از روش‌هایی مانند حذف رکورد داده، جایگزینی داده‌های مفقود شده با میانگین یا میانه داده‌ها یا جایگزینی با نزدیک‌ترین مقدار محتمل استفاده می‌شود. در صورتی که هیچ‌یک از این موارد امکان پذیر نباشند، جایگزینی با یک عدد یا یک طبقه ثابت مدنظر قرار می گیرد تا عدم وجود یک عنصر داده، مشکلی در نتایج داده کاوی ایجاد نکند.
  • تشخیص و حذف داده‌های تکراری و اضافه (Redundant Data): در صورتی که بخشی از داده‌ها تکراری باشد یا از نظر  تصمیم‌گیری، زاید و غیرقابل استفاده تشخیص داده شود، باید تفکیک و حذف شود. 
  • تصمیم‌گیری درباره داده‌های خارج از محدوده یا دارای اختلال (Outlier Detection and Noise Reduction): گاهی اوقات، داده ها به‌طور کامل تهیه و آماده شده‌اند ولی برخی از مقادیر، دچار انحراف یا تمایز زیادی با بقیه عناصر هستند و اصطلاحا خارج از محدوده منطقی قرار داشته یا دچار اختلال هستند. این مقادیر می‌توانند الگوهای منظم قابل استخراج از داده‌ها را دچار انحراف کنند. به همین دلیل پیشنهاد می‌شود پیش از داده‌کاوی، این داده‌ها شناسایی و از مجموعه داده‌ها جداسازی یا اصلاح و بهینه‌سازی شوند. یکی از روش‌های تعیین داده‌های خارج از محدوده، خوشه‌بندی داده‌ها است که جزو روش‌های داده‌کاوی نیز محسوب می‌شوند. در تصویر زیر، نمونه‌ای از داده‌های خارج از محدوده ارائه شده‌اند که با روش خوشه‌بندی، از داده‌های دیگر تفکیک می‌شوند. (دایره‌های بزرگ خوشه‌های اصلی داده و دایره‌های کوچک، مقادیر خارج از محدوده هستند):
 
 
داده‌کاوی (Data Mining) چیست و چه کاربردهایی دارد؟
 
  • تبدیل داده‌های پیوسته به گسسته (Discretization): در صورتی که طیف اعداد ورودی بسیار متنوع باشد (برای نمونه داده‌های مربوط به حقوق کارکنان)، در این حالت می‌توان طبقه‌هایی را برای داده‌ها در نظر گرفت و برای هر طبقه، یک نام انتخاب کرد. (برای نمونه عبارت حقوق اندک برای افراد دارای حقوق کمتر از یک میلیون تومان). این طبقه‌ها می‌توانند جایگزین داده‌های پیوسته قبلی یا همان مبلغ حقوق شده و با یک طیف گسسته (حقوق اندک، حقوق متوسط، حقوق بالا)، همان داده‌ها را شبیه سازی کنند. این تبدیل پیوسته به گسسته، به الگوریتم‌ها کمک می‌کند تا با یک ساده‌سازی مختصر، با طیف محدودتری از داده‌ها مواجه باشند و از پیچیدگی‌های محاسبات داده‌کاوی کاسته شود.
  • تصمیم‌گیری درباره داده‌های متناقض و ناسازگار (Incomplete or Inconsistent Data): در صورتی که یک یا چند عنصر داده، با مقادیر غیرمتعارف تکمیل شده باشند (برای نمونه در فیلدی که مقادیر ۱ و ۲ برای مرد و زن استفاده شده است، از عبارت مرد به جای عدد ۱ استفاده شود)، این مقادیر باید به ساختاری تبدیل شوند که مشابه دیگر مقادیر همان فیلد باشند (در این نمونه، عبارت مرد باید به عدد ۱ تبدیل شود.)
  • تحلیل همبستگی داده‌ها (Correlation Analysis): در صورتی که همبستگی بالایی بین دو یا چند فیلد از داده‌ها وجود داشته باشد، به‌طور معمول یک یا چند فیلد همبسته را حذف می‌کنند. به این دلیل که وجود این فیلدها، تنها منجر به پیچیدگی بیشتر مدل داده‌کاوی می‌‌شود و اطلاعات جدیدی را در اختیار الگوریتم قرار نمی‌دهد. تحلیل همبستگی داده‌ها می‌تواند منجر به کاهش ابعاد داده (Dimension Reduction) و به دنبال آن کاهش پیچیدگی مدل شود.
  • ایجاد فیلد محاسباتی جدید (Pre-Calculated Field): در این حالت، دو یا چند فیلد اطلاعاتی به یک فیلد تبدیل می‌شوند که منجر به کاهش ابعاد و پیچیدگی داده‌ها می‌شود، مانند فیلد BMI که بر اساس قد و وزن افراد قابل محاسبه است. 
  • فشرده‌سازی داده‌ها (Data Compression): در برخی از مسائل داده‌کاوی، ابتدا داده‌ها فشرده‌سازی و سپس پردازش می‌شوند. این روش، تاثیری بر نتایج داده‌کاوی نخواهد داشت ولی سرعت پردازش را به شکل موثری افزایش می‌دهد. گاهی اوقات فشرده‌سازی داده‌ها، خود به عنوان یکی از خروجی‌های داده‌کاوی مطرح می‌شود.
  • نرمال‌سازی داده‌ها (Normalization): نرمال‌سازی عبارت است از تبدیل طیفی از مقادیر عددی به طیف صفر تا یک. این فعالیت در صورتی انجام می‌شود که فیلدهای مختلف در مجموعه‌ی داده، دارای مقادیر غیرهم‌سان باشند. برای نمونه یک فیلد شامل سن افراد بوده و مقادیر آن بین ۱ تا ۱۲۰ سال و فیلد دیگر شامل مبلغ حقوق باشد که دارای مقادیری با واحد میلیون تومان است. با توجه به فاصله بسیار زیاد مقادیر این دو فیلد، الگوریتم‌های داده‌کاوی قادر به ایجاد تمایز مناسب بین آن‌ها برای تهیه‌ی مدل و الگوی بهینه نیستند. به‌همین دلیل با تبدیل مقادیر هر دو فیلد به مقادیری بین صفر تا یک، این تناسب بین آن‌ها ایجاد شده و اثر کاذب یک فیلد بر فیلد دیگر از بین می‌رود.
  • کاهش ابعاد داده‌ها (Dimension Reduction): در بسیاری از پروژه‌های داده‌کاوی، امکان حذف فیلدهای اطلاعاتی وجود دارد، ولی تشخیص اینکه کدام فیلدها در اولویت حذف قرار می‌گیرند دشوار است. به همین منظور روش‌های مختلفی برای کاهش ابعاد داده (حذف فیلدهای اطلاعاتی غیرمفید و کم کاربرد) مطرح شده است. روش‌هایی همچون تحلیل عاملی اکتشافی (Exploratory Factor Analysis)، تحلیل عاملی تائیدی (Confirmatory Factor Analysis)، تحلیل همبستگی (Correlation Analysis) و تحلیل حساسیت (Sensitivity Analysis) در کاهش ابعاد داده‌ها کاربرد فراوانی دارند. همچنین یکی از روش‌های مهم کاهش ابعاد، شناسایی و انتخاب ویژگی (Feature Selection) است که به واسطه‌ی آن، ویژگی‌های غیر مهم و اضافه از مدل حذف می‌شوند.
  • نمونه‌گیری از داده‌ها (Data Sampling): در صورتی که حجم داده بسیار بالا باشد و نیازی به پیاده‌سازی الگوریتم‌های داده‌کاوی روی تمام داده‌ها نباشد، می‌توان «نمونه‌گیری» انجام داد. داده‌هایی که به این روش انتخاب می‌شوند باید نماینده قابل اطمینانی از کل داده‌ها باشند. در پروژه‌هایی که با داده‌های بزرگ (Big Data) کار می‌کنند، برخی موارد از این روش برای کاهش حجم داده‌ها استفاده می‌شود. 
  • یکپارچه‌سازی و تجمیع داده‌ها (Data Integration): در پروژه‌هایی که داده‌ها از منابع مختلف گردآوری می‌شوند، عملیات یکسان‌سازی ساختار داده‌ها (Data Format Unification) و تجمیع منابع داده‌ای (Data Source Integration) باید به‌طور دقیق انجام شود. پس از یکسان‌سازی ساختار داده‌ها، امکان آغاز فرآیند داده‌کاوی وجود خواهد داشت.

داده کاوی چیست و چرا مهم است؟ / data mining / بانکداری / بیمه / تولید / ارتباطی / آموزشی / پیشبینی

 

داده کاوی عبارت است از فرایند یافتن و استخراج اطلاعات پنهان، الگوها و روابط مشخص در حجم انبوهی از داده‌ها با هدف پیش‌بینی رویدادها و نتایج آتی. داده کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را برای کشف و استخراج، مورد تحلیل قرار می‌دهد.

در این روش، شما با بهره‌گیری از انواع تکنیک‌های گوناگون می‌توانید اطلاعات به دست آمده را برای نیل به اهدافی همچون افزایش درآمد، کاهش هزینه‌ها، بهبود ارتباط با مشتری، کاهش ریسک و غیره مورد استفاده قرار دهید.

در این نوشتار به بیان تاریخچه و اهمیت داده کاوی می‌پردازیم و علاوه بر شیوه‌های استفاده از آن، مشخص می‌کنیم که این تکنیک معمولاً در چه صنایعی کاربرد بیشتری دارد.

تاریخچه داده کاوی و پیشرفت‌های امروزی آن

کاوش اطلاعات با هدف کشف رابطه‌های مخفی و پیش‌بینی رویدادهای آتی، سابقه‌ای دراز دارد.
گاهی اوقات از این فرایند با عنوان «کشف دانش در پایگاه‌های داده» یاد می‌شود و امروزه به آن «داده کاوی» می‌گویند. البته اصطلاح داده کاوی در دهه سال ۹۰ میلادی ابداع شده است و چیز جدیدی به شمار می‌رود.

داده کاوی در محل تلاقی سه رشته علمی قرار گرفته است:
۱٫ آمار (مطالعه عددی روابط داده‌ها)
۲٫ هوش مصنوعی (هوش انسان‌ مانند که توسط نرم‌افزار و یا ماشین ظهور می‌یابد)
۳٫ یادگیری ماشین (الگوریتم‌هایی که می‌تواند با آموزش دیدن از داده‌ها، آینده را پیش‌بینی کند)

فناوری داده کاوی در حال رشد و پیشرفت است و به دنبال آن است که از پتانسیل نامحدودی که در کلان داده‌ها (بیگ دیتا) و توان پردازشی رایانه‌ها نهفته است کمال استفاده را ببرد.

در یک دهه اخیر، پیشرفت در سرعت و پردازش رایانه‌ها، این امکان را در اختیار ما گذاشته که به سمت تجزیه و تحلیل‌های خودکار، سریع و آسان حرکت کنیم و خود را از شیوه‌های دستی، وقت‌گیر و خسته‌کننده تحلیل اطلاعات آسوده سازیم.

هر چه مجموعه داده‌های گردآوری شده پیچیده‌تر شود، کشف بینش‌های مربوطه نیز دشوارتر خواهد شد.

شرکت‌های فعال در صنعت خرده‌فروشی، بانک‌ها، تولیدکنندگان، مراکز ارائه‌دهنده خدمات مخابراتی، بیمه‌گرها و غیره، از داده کاوی برای شناسایی روابط موجود میان همه چیز استفاده می‌کنند؛ از قیمت‌گذاری، تبلیغات و جمعیت‌شناسی مخاطبان گرفته تا درک این موضوع که چگونه اقتصاد، ریسک، رقابت و شبکه‌های اجتماعی می‌تواند بر مدل‌های کسب‌وکار، درآمدزایی و عملیات تجاری آنها اثرگذار باشد.

داده کاوی چیست

چرا داده کاوی مهم است؟

هر دو سال یک بار، حجم داده‌ها دو برابر می‌شود. ۹۰ درصد اطلاعات دنیای دیجیتال را داده‌های بدون ساختار (unstructured data) تشکیل می‌دهد. از سوی دیگر، اطلاعات بیشتر لزوماً به معنای دانش بیشتر نیست.

شما با داده کاوی می‌توانید:
۱٫ تمام داده‌های نامرتبط، بی‌فایده و تکراری را از مجموعه داده‌های‌تان حذف کنید.
۲٫ موارد مرتبط را شناسایی کرده و از آنها برای نیل به اهداف از پیش تعیین شده خود بهره ببرید.
۳٫ به فرایند تصمیم‌گیری آگاهانه سرعت ببخشید.

داده کاوی در عصر حاضر

امروزه داده کاوی به عنوان پایه و مبنای تحلیل‌ها محسوب می‌شود و به شما کمک می‌کند که مدل‌هایی توسعه دهید که قادر است از میان میلیون‌ها یا میلیاردها رکورد، روابط را شناسایی کند. داده کاوی در حال شکل دادن به جهانی است که در آن زندگی می‌کنیم.

چه کسانی از داده کاوی استفاده می کنند

چه کسانی از داده کاوی استفاده می‌کنند؟

داده کاوی به عنوان یک چارچوب تحلیلی، در صنایع و سازمان‌های بسیار گوناگونی کاربرد دارد که در ادامه به بخشی از آنها اشاره می‌شود.

شرکت‌های ارتباطی

در بازارهای شلوغ و پررقابت امروزی، معمولاً راهکارهای ارزشمند در «داده‌های مشتریان» نهفته است.

شرکت‌های مخابراتی و چندرسانه‌ای می‌توانند با مدل‌های تحلیلی، بینش‌های مناسب را از انبوه داده‌های مشتریان استخراج کنند تا با استفاده از آنها، به اموری همچون پیش‌بینی رفتار مشتری و ساخت کمپین‌های هدفمند و دقیق دست بزنند.

بیمه

شرکت‌های بیمه با استفاده از تکنیک‎های تحلیلی می‌توانند بر موضوعات چالشی همچون تقلب، مدیریت ریسک، تطبیق‌پذیری و خسارت مشتری فائق آیند.

در این صنعت، شرکت‌ها از تکنیک‌های داده کاوی برای قیمت‌گذاری محصولات و یافتن راه‌های نوینی برای عرضه محصولات رقابتی به پایگاه مشتریان فعلی خود استفاده می‌کنند.

آموزش

معلمان با استفاده از فرایند آموزشِ یکپارچه و داده‌محور خود می‌توانند عملکرد دانش‌آموزان را پیشاپیش برآورد کنند و استراتژی‌های مداخله‌گر برای آموزش بهتر به آنها عرضه نمایند.

آموزگاران با استفاده از داده کاوی می‌توانند میزان پیشرفت دانش‌آموزان را با دقت بالا پیش‌بینی کرده و متوجه شوند که کدام دانش‌آموز به توجه بیشتری نیاز دارد.

تولیدکنندگان

در حوزه تولید، هماهنگ کردن برنامه‌های عرضه با پیش‌بینی تقاضا یک ضرورت است. همچنین تشخیص زودهنگام مشکلات، تضمین کیفیت و نحوه سرمایه‌گذاری در ارزش برند نیز به نوبه خود اهمیت فراوانی دارد.

تولیدکنندگان می‌توانند با داده کاوی، امور مختلفی همچون هزینه‌های تولید و نگهداری را پیش‌بینی کنند و از این رهگذر، راندمان کار را به حداکثر برسانند.

بانکداری

الگوریتم‌های خودکار به بانک‌ها کمک می‌کند که درک بهتری از پایگاه مشتریان خود به دست آورند و دید آنها نسبت به میلیاردها تراکنشی که در سیستم مالی‌شان صورت می‌گیرد بازتر شود.

شرکت‌های فعال در حوزه مالی با داده کاوی، نگرش بهتری نسبت به ریسک‌های بازار به دست خواهند آورند، تقلبات را به گونه‌ای سریع‌تر تشخیص می‌دهند، تعهدات قانونی را به خوبی مدیریت می‌کنند و خروجی سرمایه‌گذاری‌های بازاریابی را بالا می‌ببرند.

خرده‌فروشی

بانک‌های اطلاعاتی بزرگ، اطلاعات ارزشمندی را در خود نهفته دارند که می‌توان از آنها برای بهبود روابط مشتری، بهینه‌سازی کمپین‌های تبلیغاتی و پیش‌بینی میزان فروش استفاده کرد.

شرکت‌های خرده‌فروش با بهره‌گیری از مدل‌های اطلاعاتی دقیق، قادرند کمپین‌های هدفمندتری عرضه نموده و پیشنهادهایی که تاثیر بیشتری بر مشتریان دارد، به آنها عرضه نمایند.

Michael Schrage کارشناس و تحلیلگر هاروارد می‎گوید: اگر داده کاوی و تحلیل‌های پیشگویانه (predictive analytics) به گونه‌ای درست و اصولی انجام شود، تحلیل‌ها فقط وسیله‌ای برای پیش‌بینی نیستند بلکه این پیش‎بینی‌ها به ابزاری برای به دست آوردن بینش‌های تحلیلی تبدیل خواهد شد.

داده کاوی چگونه کار میکند

داده کاوی چگونه کار می‌کند؟

داده کاوی به عنوان یک فرایند ترکیبی، شامل مجموعه‌ای از روش‌ها و تکنیک‌هایی است که برای تحلیل‌های گوناگون به کار می‌رود و می‌تواند پاسخگوی طیف وسیعی از نیازهای سازمانی باشد.
در داده کاوی از الگوریتم‌ها و شیوه‌های مختلفی استفاده می‌شود که برخی از آنها به این شرح است:

مدل‌سازی توصیفی

آشکارسازی موارد مشابه یا گروه‌های مشترک در داده‌های موجود، با هدف تشخیص دلایل موفقیت یا شکست؛ از قبیل دسته‌بندی مشتریان بر اساس ترجیحات محصول یا احساسات آنها.

برخی تکنیک‌های مورد استفاده در این روش عبارتند از:
خوشه‌بندی (Clustering): گروه‌بندی رکوردهای مشابه
کشف ناهنجاری (Anomaly detection): تشخیص الگوهای چندبعدی نامتعارف.
یادگیری قانون وابستگی (Association rule learning): شناسایی روابط میان رکوردها.
تحلیل مولفه‌های اصلی (Principal component analysis): شناسایی روابط میان متغیرها.
گروه‌بندی شباهت (Affinity grouping): گروه‌بندی افراد با علایق مشترک یا اهداف مشابه (مثال: مردمی که الف را می‌خرند، معمولاً ب را نیز می‌خرند و احتمال دارد که ج را نیز خرید کنند).

مدل‌سازی پیش‌بینانه

این مدل به گونه‌ای عمیق‌تر، به دسته‌بندی رویدادها در آینده می‌پردازد و می‌کوشد نتایج ناشناخته را پیشاپیش برآورد کند. به عنوان مثال، با استفاده از امتیاز اعتباری یک فرد، میزان احتمال بازپرداخت اقساط وام او را تخمین می‌زند.

مدل پیش‌بینانه همچنین در دستیابی به بینش‌های مرتبط با اموری همچون رویگردانی مشتری، پاسخ به کمپین یا افول اعتبار کمک می‌کند. برخی تکنیک‌های مورد استفاده در این روش عبارتند از:
رگرسیون (Regression): اندازه‌گیری شدت رابطه‌ی میان یک متغیر وابسته و مجموعه‌ای از متغیرهای مستقل
شبکه‌های عصبی (Neural networks): برنامه‌های رایانه‌ای که می‌تواند الگوها را شناسایی کند، دست به پیش‌بینی بزند و آموزش ببیند.
درخت‌های تصمیم‌گیری (Decision trees): نمودارهایی به شکل درخت که هر شاخه آن نشان‌دهنده یک رویداد احتمالی است.
ماشین‌های بردار پشتیبان (Support vector machines): مدل‌هایِ یادگیریِ تحت نظارت، در هماهنگی با الگوریتم‌های یادگیری.

مدل‌سازی تجویزی

پا به پای رشد داده‌های بدون ساختار در وب، فیلدهای اظهار نظر، کتاب‌ها، ایمیل‌ها، فایل‌های پی‌دی‌اف، منابع متنی و فایل‌های صوتی، متن کاوی (text mining) نیز که یکی از شاخه‌های داده کاوی محسوب می‌شود، افزایش قابل توجهی داشته است.

شما باید از تجزیه، پالایش و تبدیل داده‌های بدون ساختار برای استفاده از خروجی در مدل‌های پیشگویانه – جهت بالا بردن میزان دقت پیش‎بینی‌ها استفاده کنید.
در نهایت بیان این موضوع ضروری است که شما نباید به داده کاوی به عنوان یک فرایند جداگانه و مستقل بنگرید زیرا پیش‌پردازش (تهیه داده‌ها و اکتشاف داده‌ها) و پس‌پردازش (اعتبارسنجی مدل، امتیازدهی، نظارت بر عملکرد مدل) به یک اندازه مهم و ضروری هستند.

مدل‌سازی پیش‌بینانه به متغیرهای داخلی و خارجی نظر دارد و معمولاً یک یا دو پیشنهاد را مطرح می‌کند (مانند تعیین بهترین پیشنهاد بازاریابی برای ارسال به هر مشتری).

برخی تکنیک‌های مورد استفاده در این روش عبارتند از:
تحلیل‌های پیش‌بینانه به همراه قوانین مربوطه: توسعه‌ی قوانین اگر/سپس (if/then) از الگوها و پیش‌بینی نتایج.
بهینه‌سازی بازاریابی: شبیه‌سازی برترین رسانه‌های مفید برای کسب بالاترین نرخ بازگشت سرمایه (ROI)، به صورت بلادرنگ.

منبع: وب‌سایت SAS

داده کاوی چیست و چه فایده ای دارد؟ / استراتژی / data mining / بازاریابی و فروش

 

داده کاوی

 داده کاوی چیست و چه فایده ای دارد؟

داده کاوی (Data Mining) علم و فنی است که در سالهای اخیر و با گسترش استفاده از فناوری اطلاعات و سیستم های اطلاعاتی مورد توجه سازمان ها قرار گرفت. داده کاوی کاربردهای مختلفی برای سازمان ها دارد و می تواند برای شرکت ها در زمینه های مهمی مثل بازاریابی و فروش بسیار راهگشا و مفید باشد. در ادامه با مفهوم داده و اطلاعات آشنا میشویم و سپس با معنای داده کاوی و کاربردهای آن بیشتر آشنا خواهیم شد:

داده با اطلاعات چه فرقی دارد؟

بسیاری از مردم به اشتباه می پندارند که داده با اطلاعات تفاوت ندارد و عموما این دو واژه را به جای هم استفاده می کنند. داده (Data)  می تواند هر نوع از کاراکتر شامل متن، عدد، کلمه، صدا و تصویر باشد و در صورتی که توسط انسان مشاهده شود لزوما معنای خاصی هم در بر نخواهد داشت. داده ها عموما خام، دسته بندی و طبقه بندی نشده هستند و در صورتی که بخواهیم از آنها به صورت مستقیم استفاده کنیم عموما بی فایده خواهد بود.

حال آنکه پس از طبقه بندی، دسته بندی و ساختاردهی به داده ها اطلاعات (Information) به وجود می آید. می توان از داده ها برای تصمیم گیری و یا ایجاد دانش در مورد یک مقوله استفاده کرد. اطلاعات عموما برای کاربر مفهوم دارد و قابل استفاده است.

مثال: تاریخ دمای سراسر جهان در صد سال گذشته داده است، حال آنکه روند افزایش یا کاهش دما در این سالها یک اطلاعات است.

نمرات دانشجویان یک کلاس داده است، اما ترتیب نمرات، میانگین، و ارتباط نمره این درس با معدل دانشجو یا یک درس دیگر یک نمونه از اطلاعات است.

انبوه داده بلای جان سازمان ها

یک کسب و کار فرضی فعال در زمینه فروش را در نظر بگیرید، این سازمان هر روز صدها مورد فروش را از دهها مشتری ثبت می کند، تمام داده های مربوط به یک خرید از جمله نام و قیمت و دسته کالاها و اطلاعات مربوط به خریدار را ثبت می کند. پس از گذشت مدتی این سازمان انبوهی از داده ها بی معنا دارد که نمی تواند از آنها بهره ببرد. این سازمان اگر بخواهد بفهمد کدام مشتریان از چه کالایی بیشتر خوششان آمده راهی ندارد، نمی تواند بفهمد خریداران با هزینه بالا از چه کالایی خرید می کنند و خریداران با سبد قیمتی پایین چه کالایی را می پسندند؛ نمی داند کدام کالا فروش بهتری دارد، چه کالایی در انبار می ماند، چه کالایی حجم سرمایه سازمان را درگیر می کند و در یک کلام: از میان انبوه داده هیچ دانش مفیدی استخراج نمی کند.

داده کاوی

داده کاوی چیست؟

سازمان ها برای تصمیم گیری و برنامه ریزی به اطلاعات نیاز دارند، بخش مهمی از این اطلاعات از خود سازمان ناشی می شود، از داده های قبلی و الگوهای عملکرد سازمان استخراج می شوند، داده های خود سازمان نشان دهنده رفتار مشتریان و همکاران و بیان کننده موفقیت یا شکست سازمان در یک عمل خاص هستند.

برای استخراج اطلاعات مفید از میان انبوه حجم داده های ثبت شده باید از فن داده کاوی استفاده کرد.

داده کاوی فنی است که از میان پایگاه داده سازمان، به دنبال الگوهای پنهان در میان داده ها، ارتباط میان آنها، روند و الگوی آنها می گردد. داده کاوی از توابع و الگوریتم های پیشرفته ریاضی استفاده می کند تا ارتباط میان دو دسته از داده و امکان رخ دادن یک نتیجه را در آینده پیش بینی کند.

ویژگی های اصلی داده کاوی:
  • کشف اتوماتیک الگوها
  • پیش بینی احتمالی نتایج و خروجی ها
  • ایجاد اطلاعات اجرایی و مفید
  • تمرکز بر روی داده های بزرگ و مجموعه پایگاه های داده

داده کاوی چه کاری می تواند انجام دهد؟

داده کاوی عموما توسط سازمان های مشتری محور استفاده می شود، این سازمان ها (فروشگاه ها، تولید کنندگان، خرده فروشان و فروشگاه های اینترنتی) می توانند با استفاده از داده کاوی ارتباط میان اقدامات خود و عوامل درونی سازمان مثل قیمت کالاها، تخفیفات، هزینه تبلیغات و دیگر عوامل داخلی را با عوامل بیرونی مثل مشخصات مشتریان (سن، جنسیت، درآمد و محل سکونت)، رقبا و عوامل عمومی بازار (سطح درآمد جامعه، وضعیت رونق و رکود اقتصادی) را پیدا کنند. علاوه بر این می توان شاخص هایی مثل رضایت مشتری، درآمد و سود سازمان، مجموع سرمایه درگردش و هزینه های جاری و میزان افزایش و کاهش آنها در طول زمان را استخراج کند.

به طور مثال شرکت ویدئوی خانگی Blockbuster از داده های سابق مشتریان استفاده میکند و به انها ویدئوهایی پیشنهاد می دهد تا آنها را تماشا کنند. والمارت (بزرگترین خرده فروش زنجیره ای جهان) برای بهبود عمکلرد عرضه کنندگان خود از داده کاوی در مقیاسی وسیع استفاده کرده است. داده های ۲۹۰۰ فروشگاه در ۶ کشور برای این کار استفاده شده اند و در مجموع ۷٫۵ ترابایت داده مورد بررسی قرار گرفت. ۳۵۰۰ تامین کننده به داده های دسترسی پیدا کردند تا بتوانند الگوهای خرید مشتریان، عمکلرد یک کالا و محصول خاص را بررسی کنند و برنامه های خود را بر این پایه و اساس بهبود دهند.

داده کاوی

داده کای چه فایده ای دارد؟

  • شناخت مشتریان سودآور: می توانید مشتریانی که بیشترین سود شما از آنها حاصل شده را شناسایی کنید و برای حفظ وفاداری مشتری تلاش کنید.
  • بهینه سازی سبد محصول: شناخت محصولات پر فروش، محصولات سودآور محصولات زیان ده از دیگر فواید داده کاوی است. با این کار می توانید در بهتر کردن سبد محصول خود اقدام کنید.
  • شناخت مشتریان وفادار و قدیمی: می توانید بفهمید مشتریان قدیمی شما چه کسانی هستند و با چه برنامه ای خرید می کنند، چه کالایی را دوست دارند و چه کالایی باعث وفاداری آنها شده است.
  • بررسی طول عمر مشتری: با استفاده از داده کاوی می توانید طول عمر مشتری و چرخه آن، میزان سود حاصل عایده از هر مشتری در هر مرحله را بررسی کنید.
  • شناسایی رفتار مشتری: اگر شما بتوانید رفتار مشتریان خود را بشناسید و آن را با ویژگی های مشتری تطابق دهید می توانید در زمینه بخش بندی و قسمت بندی بازار موفق عمل کنید. اگر امروز بتوانید برای یک محصول خود به صورت مستند بخش بندی بازار انجام دهید در ادامه نیز در این امر موفق خواهید بود.
  • بررسی عمکلرد یک برنامه بازاریابی: اگر می خواهید بدانید یک برنامه بازاریابی و تبلیغاتی که انجام داده اید چه اثرات آشکار و پنهانی داشته و برای انتخاب آن در آینده تصمیم بگیرید بی شک داده کاوی بسیار مفید خواهد بود.
  • کشف الگو و روند: با استفاده از داده کاوی و بررسی میزان خرید مشتریان می توانید الگوهای فصلی خرید را استخراج کنید، روند کاهش و یا افزایش آن را تحلیل کنید و در صورت نیاز اقدام اصلاحی انجام دهید.
  • پیش بینی فروش: با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده ها و رونده می توانید فروش خود را در آینده پیش بینی کنید. روند فصلی فروش را بیابید و برای فروش یک محصول جدید برنامه ریزی کنید.

استراتژی و داده کاوی

صد البته کاربرد های داده کاوی بسیار زیاد است و می تواند در شرکت ها و سازمان ها مختلف متفاوت باشد. آنچه در بالا بیان شد خلاصه ای از کاربردهای داده کاوی در بخش فروش و بازاریابی بود. شما می توانید با استفاده از داده کاوی در حل مشکلات سازمان مفید واقع شوید. استراتژیست های بزرگ موفق برای مستدل و دقیق بودن استراتژی ها و برنامه ریزی های خود باید از داده کاوی و اطلاعات به دست آمده از آن حد اکثر استفاده را ببرند. در واقع برنامه ریزی استراتژیک بدون استفاده از داده کاوی مثل رانندگی با چشمان بسته است! اگر یک استراتژیست می خواهد در زمینه برنامه ریزی کاربردی و اجرایی موفق باشد باید از سلاح داده کاوی استفاده کند.

داده کاوی چیست؟! تعریف، چرایی و روش اجرا / data mining

 

داده کاوی چیست؟ چه کاربردهایی دارد و روش اجرای آن چگونه است؟! فلسفه ی داده کاوی این است که آینده بسیار به گذشته شبیه است. داده کاوی به شما کمک می کند تا رفتار کسب و کار خود در گذشته را دقیق بشناسید و بر اساس آن آینده را با تقریب بالاییپیش بینی کنید. داده کاوی فضای حاکم بر کسب و کار شما را شفاف می کند و شما را مجبور می کند واقع بینانه تصمیم بگیرید. 

 

داده کاوی چیست؟

داده کاوی چیست؟ چه کاربردهایی دارد و روش اجرای آن چگونه است؟! �داده کاوی� ترجمه ی عبارت �Data Mining� و به معنای �کاویدن معادن داده� است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده! کلمه ی Mining در معنای تحت الفظی خود یعنی �استخراج از معدن� بکار می رود و در واقع عبارت Data Mining نشان می دهد که حجم انبوه اطلاعات مانند یک معدن عمل می کند و از ظاهر آن مشخص نیست چه عناصر گرانبهایی در عمق این معدن وجود دارد. تنها با کند و کاو و استخراج این معدن است که می توان به آن عناصر گرانبها دست پیدا کرد.

تفاوت اصلی داده کاوی و علم آمار، در حجم داده های مورد تحلیل، روش مدلسازی داده ها و استفاده از هوش مصنوعی است. داده کاوی شاخه ی توسعه یافته و پیچیده ی علم آمار است. علم آمار به تنهایی برای صاحبان صنایع و شرکت ها بسیار اهمیت دارد. اما اهمیت داده کاوی فراتر از علم آمار می رود و امکاناتی در اختیار شما قرار می دهد که ساز و کارهایی آماری از انجام آنها ناتوان هستند.

تفاوت اصلی علم آمار با شاخه ی توسعه یافته ی خود یعنی داده کاوی، در حجم داده های مورد تحلیل و روش مدلسازی داده هاست. در بیشتر موارد حجم داده های اولیه ی مورد استفاده در داده کاوی آنقدر زیاد است که به یک چالش زمان بر و هزینه بر تبدیل می شود. اما مدلسازی داده های ورودی و دستیابی به اطلاعات پنهان و ارزشمند موجود در این حجم عظیم داده، با کمک هوش مصنوعی و شیوه های خودکار یادگیری انجام می شود که در بررسی های پایه ای آماری خبری از آن نیست.

وظیفه ی داده کاوی، کاویدن و استخراج دانش از منابع عظیم داده است تا اطلاعات گرانبهایی که در حجم انبوهی از اطلاعات سطحی پنهان شده است را آشکار سازد.

چرا داده کاوی سودآور است؟!

داده کاوی به دو دلیل سودآور است:

  • منجر به تصمیمات واقع بینانه می شود.
  • سبب تکرار تصمیمات سودآور رخ داده در گذشته می گردد.

با داده کاوی شما مجبور می شوید تصمیمات احساسی را فراموش کنید و بر اساس واقعیت ها تصمیم بگیرید. بنابراین ضرر های ناشی از نا آگاهی مدیران حذف می شود.

داده کاوی همچنین فضای سال های گذشته ی شرکت شما را بازبینی می کند و در نهایت نشان می دهد کدام تصمیمات منجر به سود شده است در حالی که شما از آن ها بی خبر هستید. شرکت ها و سازمان ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی شود و عواملی چون �فراموشی�، �تخلفات و تقلبات�، �اشکالات خط تولید�، �منافع شخصی� و �سیاست های اعمال نفوذ شده از جاهای دیگر� منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می شوند.

داده کاوی فضای حاکم بر کسب و کار شما را شفاف می‌کند و شما را مجبور می‌کند که واقع‌بینانهتصمیم بگیرید.

 

تصمیم گیری واقع بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره وری پایین و ضرر های ناشی از نا آگاهی است. بطور کلی فضای تصمیم گیری در یک کسب و کار شباهت بسیار زیادی به فضاهای تصمیم گیری اتفاق افتاده در ۱۰ سال گذشته ی آن مجموعه دارد. این شباهت در یاد تصمیم گیرندگان آن کسب و کار باقی نمی ماند و اغلب آشکار نیز نمی شود. داده کاوی فضای سال های گذشته ی کسب و کار شما را بازخوانی می کند و به شما می گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب و کار شده است.

بنابراین داده کاوی باعث می شود تصمیمات زیانده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید.

داده کاوی چگونه کار می کند؟

داده کاوی یک روش حل مسئله مبتنی بر داده های موجود است. تیم داده کاوی دایکه بر اساس استاندارد جهانی کریسپ دی ام (CRISP-DM) این فرایند حل مسئله را به اجرا می گذارد.

 در ابتدای فرایند، مشکلات شرکت یا سازمان شما پیدا خواهد شد و در پایان با کمک هوش مصنوعی، راهکارهایی برای حل آن مشکلات در اختیار شما قرار خواهد گرفت.

پس از یافتن مشکلات در ابتدای فرایند داده کاوی، اطلاعات ریز ثبت شده در شرکت یا خط تولید شما دریافت می شود.

بر اساس این اطلاعات، مکانیزم های مرتبط در کسب و کار شما مدلسازی می شود و سپس با کمک متدهای �یادگیری ماشین� راه حل هایی برای از بین بردن مشکلات شرکت شما در چارچوب گزارشات مستند و نرم افزار رایانه ای در اختیار شما قرار می گیرد.

بر اساس این استاندارد، فرایند حل مسئله با کمک داده کاوی در شش مرحله و در تعامل با کارفرما صورت می گیرد.

گام اول: درک کسب و کار

کارفرما مشکلی در کسب و کار خود دارد. مشکل خود را با متخصص داده کاوی مطرح می کند. این گام اول است. در حالت دیگر، کارفرما نمی تواند مشکلات کسب و کار خود را تشخیص دهد اما می داند سیستم کسب و کار وی دارای نقصان است. در این حالت طرح مسئله را نیز بر عهده ی متخصص داده کاوی می گذارد.

گام دوم: بررسی و درک داده ها

متخصص داده کاوی، داده های ثبت شده در کسب و کار کارفرما را از وی درخواست می کند و به بررسی داده ها می پردازد. متخصص داده کاوی با توجه به حجم و کیفیت داده ها مسئله ی طرح شده در مرحله ی قبل را تعدیل می کند تا نتیجه ی پروسه ی داده کاوی واقع بینانه تر بشود.

گام سوم: آماده سازی داده ها

در مرحله ی سوم عملیات آماده سازی داده ها توسط متخصص داده کاوی صورت می گیرد. آماده سازی داده ها شامل این موارد می شود:

  • یکی کردن انبارهای متفاوت داده در کسب و کار کارفرما
  • شناسایی و حذف داده های پرت و اشتباه
  • تغییر فرمت داده ها متناسب با مسئله ی تعدیل شده در مرحله ی دوم

گام چهارم: مدل سازی

قدم چهارم مدلسازی داده های آماده سازی شده است. با توجه به متدهای متفاوت، مدل های متفاوتی ساخته می شود و بهترین مدل ها از نظر متخصص داده کاوی انتخاب می شود.

گام پنجم: تست و ارزیابی مدل

مدل های ساخته شده تست و ارزیابی می شوند و بهترین مدل از نظر مسئله ی طرح شده در مرحله ی یک، انتخاب می شود. سپس در تبادل نظر با کارفرما، موثر بودن مدل انتخاب شده بررسی می شود. در صورتی که مدل انتخاب شده کمکی در حل مسئله نمی کند کل فرایند از مرحله ی یک دوباره انجام می شود.

گام ششم: توسعه مدل نهایی

در صورتی که ارزیابی ها رضایت بخش باشند راه حل هایی در قالب توسعه ی مدل نهایی ارائه می شوند که مشکلات مطرح شده در مرحله ی یک را برطرف می کنند. مدل نهایی به متخصص داده کاوی نشان می دهد که رفتار مجموعه ی کسب و کار کارفرما در مورد مشکلات مطرح شده در مرحله ی یک چگونه است.

این درک از رفتار کسب و کار، در قالب راه حل های عددی و چند فرمول یا راهکار عملی در اختیار کارفرما قرار می گیرد تا مشکلات مطرح شده در مرحله ی یک رفع گردد. همچنین متخصص داده کاوی می تواند در قالب گزارشات مستند مکانیزم رفتاری کسب و کار کارفرما را برای وی تشریح کند.

برای سادگی تعامل کارفرما با مدل نهایی، یک نرم افزار رایانه ای نوشته می شود که کار شبیه سازی رفتار کسب و کار کارفرما را برعهده دارد. بطوریکه کارفرما می تواند با وارد کردن برخی پارامترهای کنونی از کسب و کار خود، رفتار کارخانه و یا سودآوری کسب و کار خود را در آینده پیش بینی کند.