دریافت مقالات

سرویس دهنده ها

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت اول

227 مشاهده ۲۲ شهریور, ۱۳۹۶ 4

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز

با اینکه مدل داده‌کاوی با به کارگیری یک الگوریتم بر روی داده‌ها ایجاد می‌شود، اما این فرآیند بیش از یک الگوریتم یا Metadata Container می‌باشد. مدل‌های داده‌کاوی شامل مجموعه‌ای از داده‌ها، اطلاعات آماری و الگوهایی است که جهت پیش‌بینی‌ و ارائه استنتاج‌های مختلف در مورد روابطِ داده‌های جدید به کار می‌روند.

در این مقاله به موضوعاتی از جمله مفهوم مدل داده‌کاوی یا Data Mining و کاربرد آن در معماریِ پایه‌ی‌ مدل‌ها و ساختارها، ویژگی‌های مدل‌ داده‌کاوی و روش‌های ایجاد و استفاده از  این مدل‌ها پرداخته می‌شود.

شرکت امن پایه ریزان کارن APK نخستین شرکت دانش محور در اجرای پروژه های انفورماتیکی کشور تماس با کارشناسان 021-88539044-5

معماری مدل‌های داده‌کاوی

مدل داده‌کاوی (Data Mining) در ابتدا به جمع‌آوری داده‌ها از ساختار داده‌کاوی پرداخته و سپس آن را با استفاده از یک الگوریتم داده‌کاوی آنالیز می‌کند. نکته مهم در این مورد آن است که ساختار داده‌کاوی و مدل داده‌کاوی دو مقوله مجزا می‌باشند؛ در واقع اطلاعات تعریف شده توسط منبع داده در ساختار داده‌کاوی ذخیره می‌شوند، اما مدل داده‌کاوی به ذخیره اطلاعاتی می‌پردازد که در نتیجه پردازش آماری داده‌ها ایجاد می‌شوند و به عنوان نمونه می‌توان از الگوهای ایجاد ‌شده در نتیجه آنالیز اشاره نمود.

لازم به ذکر است تا زمانی که پردازش و آنالیز داده‌های ارائه‌شده توسط ساختار داده‌کاوی انجام نشود، مدل داده‌کاوی فاقد اطلاعات خواهد بود. مدل داده‌کاوی پس از پردازش شامل مواردی همچون Metadata، نتایج و پیوندهایی در ارتباط با ساختار داده‌کاوی می‌شود.

Metadata به تعریف مدل و تعیین نام مدل و سروری می‌پردازد که در آن ذخیره شده است. تعریف مدل شامل ستون‌های به کار رفته از ساختار داده‌کاوی برای ارائه مدل، تعاریف هر یک از فیلترهای مورد استفاده در زمان پردازش مدل و الگوریتمِ به کاررفته برای آنالیز داده‌ها می‌باشد. تمامی این گزینه‌ها که شامل ستون‌های داده‌، انواع داده‌های آن، فیلترها و الگوریتم می‌باشند، تاثیر زیادی بر نتایج آنالیز دارند.

برای مثال می‌توان مدل‌های متعددی را با استفاده از الگوریتم Clustering، الگوریتم درخت تصمیم‌گیری و الگوریتم Naïve Bayes ایجاد نمود. هر یک از این مدل‌ها به ارائه مجموعه‌های مختلفی از الگوها، آیتم‌ها، قواعد و فرمول‌ها می‌پردازد که در مراحل بعدی می‌توان از آنها برای انجام پیش‌بینی‌ها استفاده نمود. به طور کلی هر الگوریتم می‌تواند داده‌ها را به نحوی متفاوت آنالیز نماید و در نتیجه آن، محتوای مدل حاصل از آنالیز در ساختارهای متفاوتی سازمان‌دهی ‌شود. در یکی از مدل‌ها ممکن است داده‌ها و الگوها در قالب کلاسترها گروه‌بندی شوند و در نوع دیگری از مدل‌ها نیز داده‌ها برای تقسیم‌بندی و تعریف  در قالب درخت‌ها، شاخه‌ها و قواعد سازماندهی شوند.

این مدل تحت‌تاثیر داده‌های مورد استفاده می‌باشد؛ ضمن اینکه در صورت فیلتر نمودن داده‌ها به صورت متفاوت یا استفاده از منابع مختلف در طول آنالیز ممکن است داده‌های حاصل از یک ساختار داده‌کاوی مشابه نیز نتایج متفاوتی را ارائه نمایند. بهرحال، داده‌های واقعی در مدل ذخیره نمی‌شوند، بلکه در ساختار داده‌کاوی استقرار یافته و تنها خلاصه‌ای از اطلاعات آماری آنها در مدل ذخیره می‌گردد. در صورتی که کاربر در هنگام انتخاب مدل، اقدام به ایجاد فیلتر برروی داده‌ها نماید، تعاریف مربوط به فیلتر نیز همراه با Object‌های مدل ذخیره می‌شود.

مدل شامل مجموعه‌ای از‌ پیوندها است که بر اساس داده‌های Cache‌شده در ساختار داده‌کاوی ایجاد شده‌اند. مزیت این پیوندها آن است که در صورت  Cache‌شدن داده‌ها در ساختار و حذف نشدن آن بعد از پردازش می‌توان کاربران را قادر به بررسی دقیق مواردی نمود که از نتایج پشتیبانی‌ می‌کنند. با این وجود داده‌های واقعی در Cache ساختار ذخیره می‌شوند نه در مدل.

تعریف مدل‌های داده‌کاوی

ارائه مدل داده‌کاوی با استفاده از مراحل زیر صورت می‌گیرد:

  • ایجاد یک ساختار زیربنایی برای داده‌کاوی و گنجاندن ستون‌های مورد نیاز از داده‌ها
  • انتخاب مناسب‌ترین الگوریتم برای انجام امور مرتبط با آنالیز داده‌ها
  • انتخاب چند ستون‌ از ساختار جهت استفاده در مدل و تعیین چگونگی استفاده از آن، در اینجا ستون شامل نتایج مورد نظرکاربر برای پیش‌بینی شده و صرفا به داده‌های ورودی اختصاص می‌یابد.
  • ایجاد پارامترها به صورت انتخابی جهت تنظیم دقیق فرآیند پردازش از طریق الگوریتم
  • استقرار داده‌ها در مدل با پردازش ساختار و مدل

Analysis Services به ارائه ابزارهای زیر برای مدیریت مدل‌های داده‌کاوی می‌پردازد:

  • Data Mining Wizard به کاربران کمک می‌کند تا یک ساختار و مدل داده‌کاوی مرتبط با آن را ارائه نمایند. این Wizard می‌تواند ساختار داده‌کاویِ مورد نیاز را به صورت خودکار ایجاد نماید و در پیکربندیِ تنظیمات مهم به کاربران کمک کند.
  • DMX CREATE MODEL برای تعریف مدل به کار رفته و ساختار مورد نیاز به صورت خودکار و به عنوان بخشی از فرآیند ایجاد می‌شود، بنابراین با این روش نمی‌توان یکبار دیگر از ساختار موجود استفاده کرد. لازم به ذکر است که این روش تنها زمانی به کار می‌رود که نوع مدل درخواستی کاربر دقیقا مشخص باشد یا هدف Script نمودن مدل‌ها باشد.
  • DMX ALTER STRUCTURE ADD MODEL برای افزودن یک مدل داده‌کاوی جدید به ساختار موجود به کار می‌رود. در صورتی از این روش استفاده می‌شود که کاربر قصد آزمایش و تِست مدل‌های مختلف را بر اساس مجموعه داده‌های مشابه داشته باشد.

علاوه بر موارد ذکر شده، می‌توان مدل‌های داده‌کاوی را از طریق برنامه‌نویسی و با استفاده از AMO، XML/A یا Client‌های دیگری مانند Data Mining Client for Excel ارائه نمود.

ـــــــــــــــــــــــ

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت اول

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت دوم (پایانی)

مطلب مفید بود؟