دریافت مقالات

زیرساخت

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت دوم

919 مشاهده ۱۰ تیر, ۱۳۹۶ 10

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن

با توجه به افزایش روزافزون حجم داده‌ها و تاثیر‌گذاری آن‌ها بر کسب‌ و کارها، انجام آنالیزهای دقیق و کاربردی اهمیت ویژه‌ای یافته است. با استفاده از داده‌کاوی (Data Mining) می‌توان مدل‌های مورد نظر خود را بر اساس داده‌های موجود ایجاد نمود. در قسمت اول از این سری مقالات به بررسی مفهوم Data Mining و مراحل ساخت مدل پرداختیم. در این مقاله که قسمت دوم از این سری مقالات می‌باشد، به بررسی ادامه مراحل ایجاد مدل داده‌کاوی می‌پردازیم.

آماده‌سازی داده‌ها

مطابق نمودار زیر، در مرحله دوم از روند داده‌کاوی (Data Mining) به تجمیع و پاک‌سازی داده‌هایی پرداخته می‌شود که در مرحله‌ی تعریف مسئله شناسایی شده‌اند.

شرکت امن پایه ریزان کارن APK نخستین شرکت دانش محور در اجرای پروژه های انفورماتیکی کشور تماس با کارشناسان 021-88539044-5

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن

این امکان وجود دارد که داده‌ها در سراسر سازمان توزیع شده و در قالب‌‌های مختلف ذخیره گردند و یا اینکه ممکن است شامل تناقضات و ناسازگاری‌هایی از جمله ورودی‌های نادرست یا از دست رفته باشند. برای مثال ممکن است داده‌ها نشان‌دهنده‌ی این موضوع باشند که خرید محصول توسط مشتری پیش از عرضه‌ی آن در بازار صورت می‌گیرد یا مشتری همواره از فروشگاهی خرید می‌کند که بیش از 3 کیلومتر از محل زندگی وی فاصله دارد.

فرآیند پاک‌سازی داده‌ها (Data Cleaning) تنها به حذف داده‌های نامناسب یا وارد کردن مقادیر از دست رفته خلاصه نمی‌شود، بلکه کشف روابط پنهان‌شده‌ی میان داده‌ها، شناسایی دقیق‌ترین منابع داده‌ و تعیین مناسب‌ترین ستون‌ها برای استفاده در آنالیز را نیز دربر می‌گیرد. برای مثال می‌توان به مواردی از این دست که از بین تاریخ ارسال محموله یا تاریخ دریافت سفارش، کدام یک مدنظر قرار گیرد و یا اینکه از میان دو پارامتر قیمت کل و تخفیف کدام یک به عنوان موثرترین عامل در افزایش‌ فروش به شمار می‌روند، اشاره نمود. لازم به ذکر است که داده‌های ناقص، داده‌های نادرست و داده‌های ورودی به ظاهر مجزا اما در حقیقت بسیار به‌هم‌پیوسته و مرتبط با یکدیگر، می‌توانند تاثیری فراتر از حد انتظار بر روی نتایج داشته باشند.

بنابراین پیش از اقدام به ایجاد مدل‌های داده‌کاوی (Mining Model) باید به شناسایی این مسائل و نحوه‌ی پاسخگویی به آنها پرداخته شود. با توجه به اینکه فرآیند داده‌کاوی معمولا برروی حجم بالایی از مجموعه داده‌ها انجام شده و امکان بررسی کیفیت داده‌ها برای هر تراکنش وجود ندارد، احتمالا استفاده از برخی روش‌های پروفایل نمودن داده‌ها و همچنین استفاده از ابزارهای پاک‌سازی و فیلترینگ خودکار آن‌ها ضرورت می‌یابد؛ به عنوان مثال می‌توان از محصولاتی همچون Integration Services ،Microsoft SQL Server 2012 Master Data Services و یا SQL Server Data Quality Services نام برد که قابلیت‌هایی جهت جستجوی داده‌ها و کشف تناقضات و ناهماهنگی‌ها فراهم می‌نمایند.

لازم به ذکر است که الزامی در رابطه با ذخیره‌ی داده‌های مورد استفاده در داده‌کاوی بر روی یک پایگاه‌داده‌ی Cube OLAP و یا پایگاه‌های داده‌ی رابطه‌ای (Relational Database) وجود ندارد، اگرچه می‌توان از هردوی آنها به عنوان منبع‌های داده‌‌ استفاده نمود. بنابراین فرآیند داده‌کاوی را می‌توان با استفاده از هر منبع داده‌ای که به عنوان منبع داده‌ی Analysis Services تعریف شده باشد، انجام داد. این منابع داده ممکن است شامل فایل‌های متنی (Text) و Workbook‌های Excel یا داده‌های سایر منابع خارجی باشد.

جستجوی داده‌ها     

مطابق نمودار زیر، جستجوی داده‌های آماده‌‌شده به عنوان سومین مرحله از روند داده‌کاوی محسوب می‌شود.

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن

کاربران برای اتخاذ تصمیم‌های مناسب در هنگام ایجاد مدل‌های داده کاوی باید به درک صحیحی از داده‌ها برسند. از جمله تکنیک‌های جستجو می‌توان به محاسبه‌ی حداقل و حداکثر مقادیر، محاسبه‌ی میانگین و انحراف معیار و توجه به توزیع داده‌ها اشاره نمود. به طور مثال، این امکان وجود دارد تا با بازنگری حداقل، حداکثر و میانگین مقادیر به این نتیجه‌گیری دست‌یافت که داده‌ها قادر به نمایش فرآیندهای مرتبط با مشتریان یا کسب‌و‌کار نبوده و از همین رو نیاز به کسب داده‌های متوازن‌تر یا بازنگری فرضیاتی است که انتظارات بر مبنای آن شکل گرفته است. با توجه به انحراف معیار و سایر مقادیر توزیعی می‌توان به اطلاعات مفیدی درباره‌ی ثبات و دقت نتایج دست یافت. انحراف معیار بالا ممکن است نشانه‌ی آن باشد که افزایش میزان داده‌ها می‌تواند به بهبود مدل کمک نماید. داده‌هایی که انحراف زیادی از توزیع استاندارد داشته باشند احتمالا خطا دارند، بدین معنا که تصویر دقیقی از یک مسئله در دنیای واقعی ارائه می‌دهند اما تناسب و هماهنگی مدل با داده‌ها را دشوار می‌نمایند.

با جستجوی داده‌ها بر اساس درک شخصی از مسائل کسب‌و‌کار می‌توان در مورد مجموعه داده‌های دارای داده‌های معیوب  تصمیم‌گیری نمود و سپس به تدوین یک استراتژی مناسب برای حل مساله یا درک عمیق‌تر از رفتارهای معمول در کسب‌و‌کار پراخت.

استفاده از ابزارهایی همچون Master Data Services این امکان را فراهم می‌کند تا منابع داده‌‌ی قابل‌دسترس کاملا بررسی گردیده و در خصوص دسترس‌پذیری آنها برای داده‌کاوی تصمیم‌گیری‌های لازم صورت پذیرد. با به‌کار گیری ابزارهایی همچون SQL Server Data Quality Services یا Data Profiler در Integration Services نیز می‌توان به بررسی توزیع داده‌ها و حل مشکلاتی همچون خطا یا داده‌های از دست رفته پرداخت.

پس از تعریف منابع باید با استفاده از Data Source View Designer در SQL Server Data Tools به ترکیب آنها در ساختار Data Source پرداخته ‌شود. این ابزار طراحی نیز به نوبه‌ی خود از ابزارهای متعددی بهره می‌برد که برای جستجوی داده‌ها و تایید قابلیت کاربرد آن برای ایجاد مدل به کار می‌رود.

نکته‌ی قابل‌توجه اینکه Analysis Service در هنگام طراحی مدل به صورت خودکار اقدام به ارائه‌ی خلاصه‌ها‌ی آماری از داده‌های موجود در مدل می‌نماید که بدین ترتیب کاربر می‌تواند برای ارائه گزارش یا آنالیز‌های بیشتر، Query خود را ارسال نماید.

ــــــــــــــ

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت اول

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت دوم

مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت سوم (پایانی)

مطلب مفید بود؟