دریافت مقالات

سرویس دهنده ها

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت دوم (پایانی)

166 مشاهده ۲۷ شهریور, ۱۳۹۶ 7

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز- داده کاوی

رشد چشمگیر حجم و پیچیدگی داده‌های IT در چند سال اخیر موجب شده است تا فرآیند‌های مرتبط با داده‌کاوی اهمیت بیشتری یابد. با استفاده از داده‌کاوی و قابلیت‌های آن می‌توان آنالیز‌های پیشرفته‌تری را بر روی داده‌ها انجام داد و در نتیجه نتایج مطلوب‌تری را نیز دریافت نمود. در قسمت اول از سری مقالات مدل‌های داده‌کاوی، به تعریف مدل‌های داده‌کاوی و بررسی معماری آن‌ها پرداختیم. در این مقاله که قسمت دوم (پایانی) از این سری مقالات می‌باشد، به بررسی ویژگی‌های مدل داده‌کاوی می‌پردازیم.

ویژگی‌های مدل داده‌کاوی

هر یک از مدل‌های داده‌کاوی دارای ویژگی‌هایی است که مدل و Metadata مربوط به آن را تعریف می‌کند. این ویژگی‌ها شامل نام، شرح، تاریخ آخرین پردازش مدل، دسترسی‌های مربوط به مدل و تمامی فیلترها برای داده‌های مورد استفاده جهت Training می‌شود.

شرکت امن پایه ریزان کارن APK نخستین شرکت دانش محور در اجرای پروژه های انفورماتیکی کشور تماس با کارشناسان 021-88539044-5

به علاوه هر یک از مدل‌های داده‌کاوی دارای مشخصاتی است که از ساختار داده‌کاوی ایجاد شده و ستون‌های‌ داده‌ی مورد استفاده در مدل را توصیف می‌کند. در صورتی که ستون‌های مورد استفاده در مدل به صورت Nested Table باشد، می‌توان از یک فیلتر مجزای دیگر برای ستون مربوطه استفاده نمود. در ضمن، هر یک از مدل‌های داده‌کاوی شامل دو ویژگی خاص “الگوریتم” و “کاربرد” می‌باشند.

  • ویژگی الگوریتم : با این ویژگی می‌توان الگوریتم مورد استفاده برای ایجاد مدل را تعیین نمود. الگوریتم مورد نظر با توجه به Provider انتخاب شده توسط کاربر، قابل دسترس خواهد بود. از این ویژگی در مدل داده‌کاوی استفاده شده و برای هر مدل فقط یک‌بار قابل تنظیم می‌باشد. لازم به ذکر است که امکان تغییر الگوریتم در مراحل بعدی وجود دارد اما ممکن است به دلیل پشتیبانی نکردن الگوریتم، برخی ستون‌ها حالت Invalid پیدا نمایند. ضمن اینکه کاربران باید مدل مورد نظر را پس از ایجاد هرگونه تغییر در این ویژگی مجددا پردازش نمایند.
  • ویژگی کاربرد یا Usage: با این قابلیت می‌توان چگونگی استفاده از هر ستون را در مدل تعریف کرد. به علاوه اینکه کاربرد ستون‌ها تحت عنوان Input، Predict، Predict-Only و Key قابل تعریف می‌باشد. این قابلیت برای هر یک از ستون‌های مجزا در مدل داده‌کاوی به کار رفته و می‌بایست برای هر یک از ستون‌های مدل به صورت جداگانه تنظیم گردد. درصورتی که یک ستون در ساختار وجود داشته باشد اما در مدل استفاده نگردد، وضعیت کاربردی آن در حالت Ignore قرار می‌گیرد. برای مثال، ستون‌های حاوی نام‌ مشتری و آدرس‌ ایمیل دو نمونه از داده‌هایی محسوب می‌شوند که در ساختار داده‌کاوی وارد شده اما در فرآیند آنالیز مورد استفاده قرار نمی‌گیرند. بدین ترتیب امکان ایجاد Query بر روی داده‌ها بدون نیاز به وارد کردن آنها در روند آنالیز امکانپذیر می‌گردد.

پس از ارائه مدل داده‌کاوی این امکان وجود دارد که میزان ویژگی‌ها در مدل تغییر داده شود. با این وجود هرگونه تغییر حتی در نام مدل داده‌کاوی مستلزم پردازش مجدد مدل می‌باشد. ضمن اینکه با پردازش مجدد مدل ممکن است نتایج متفاوتی به دست آید.

ستون‌های مدل داده‌کاوی

 مدل داده‌کاوی شامل ستون‌های داده می‌باشد که این ستون‌ها از ستون‌های تعریف‌شده در ساختار داده‌کاوی ایجاد شده‌اند. بنابراین کاربران می‌توانند ستون موردنظر خود را از ساختار داده‌کاوی جهت استفاده در مدل انتخاب نمایند؛ ضمن اینکه امکان کپی‌برداری از ستون‌های ساختار داده‌کاوی و سپس تغییرنام و یا تغییر کاربری آنها نیز فراهم می‌گردد. علاوه بر این موارد، تعریف روند کاربرد ستون در مدل باید به عنوان بخشی از فرآیند ساخت آن توسط کاربر تعریف شود. این بخش شامل اطلاعاتی مبنی بر این موارد است که آیا ستون به عنوان یک Key می‌باشد، برای پیش‌بینی مورد استفاده قرار گرفته و یا به واسطه الگوریتم نادیده گرفته می‌شود.

در هنگام ایجاد مدل توصیه می‌شود که به جای افزودن ستون‌ها، داده‌های ساختار به دقت مورد بررسی قرار گرفته و تنها ستون‌هایی در مدل وارد شود که هدف خاصی از آنالیز آنها وجود داشته باشد. برای مثال باید از اضافه کردن چندین ستون‌‌ با داده‌های تکراری یا استفاده از ستون‌ها با مقادیر نسبتا منحصر‌به‌فرد اجتناب شود. در صورتی که یک ستون مورد استفاده قرار نگیرد، لزومی به حذف آن از ساختار یا مدل داده‌کاوی نیست؛ بلکه با قرار دادن یک Flag یا نشانه برروی ستون می‌توان آن را از فرآیند تهیه مدل کنار گذاشت. بدین ترتیب، ستون در ساختار داده‌کاوی باقی می‌ماند اما در مدل داده‌کاوی مورد استفاده قرار نمی‌گیرد. در صورتی که فرآیند Drill through از مدل تا ساختار داده‌کاوی فعال شده باشد، کاربر می‌تواند در صورت لزوم این اطلاعات را از ستون بازیابی نماید.  

برخی از ستون‌ها در ساختار داده‌کاوی ممکن است بسته به الگوریتمِ مورد استفاده با انواع خاصی از مدل‌ها سازگاری نداشته باشد یا نتایج نامناسبی را ارائه نمایند. برای مثال اگر داده‌ها شامل داده‌های عددی پیوسته مانند اطلاعات مربوط به «درآمد» باشند و مدل به مقادیر عددی گسسته نیاز داشته باشد، کاربر باید داده‌ها را به مقادیر گسسته تبدیل نماید و یا آنها را از مدل حذف نماید. در برخی موارد، الگوریتم این تبدیل را به صورت خودکار انجام می‌دهد اما ممکن است نتیجه‌ی آن همیشه مطابق خواسته یا انتظار کاربر نباشد؛ بنابراین توصیه می‌گردد از ستون مربوطه چند کپی تهیه و با مدل‌‌های مختلف بررسی گردد. همچنین این امکان وجود دارد تا با قرار دادن Flag‌‌ برروی ستون‌های جداگانه نشان داد که پردازش در چه نقاطی ضروری است. برای مثال در صورتیکه اطلاعات شامل داده‌های Null باشد می‌توان از یک Flag برای کنترل روند استفاده نمود. همچنین در صورتی که یک ستون خاص در مدل به عنوان Regressor در نظر گرفته شود، می‌توان این کار را  با Flag مدل‌سازی انجام داد.

پس از ایجاد مدل می‌توان تغییراتی مانند حذف یا اضافه نمودن ستون‌ها یا تغییر نام مدل را ایجاد کرد. اما باید توجه داشت که پس از ایجاد تغییرات حتی در Metadata‌های مدل، پردازش مجدد مدل ضرورت می‌یابد.

پردازش مدل‌های داده‌کاوی  

مدل داده‌کاوی تا قبل از پردازش فاقد هر گونه اطلاعات می‌باشد. در هنگام پردازش مدل، داده‌های Cache‌‌ شده از طریق ساختار از فیلتر عبور کرده و در صورتیکه داده‌ای در مدل تعریف شده باشد، توسط الگوریتم آنالیز می‌گردد. الگوریتم به محاسبه‌ی مجموعه‌ای از خلاصه اطلاعات آماری می‌پردازد که قواعد و الگوهای موجود در بین داده‌ها را شناسایی نموده و سپس این اطلاعات را وارد مدل می‌نماید.

مدل‌ داده‌کاوی پس از انجام پردازش، شامل اطلاعات زیادی در مورد داده‌ها و الگوهای به دست‌آمده از آنالیز می‌شود که اطلاعات آماری، قواعد و فرمول‌های رگرسیون (Regression) را در بردارد. همچنین کاربران می‌توانند از Viewer‌های سفارشی برای جستجوی این اطلاعات استفاده نموده و یا Query‌های داده‌کاوی را برای بازیابی این اطلاعات و استفاده از آنها برای آنالیز و ارائه نتایج ایجاد نمایند.

فرآیند مشاهده و Query نمودن مدل‌های داده‌کاوی

پس از پردازش مدل می‌توان با استفاده از Viewer‌های سفارشیِ موجود در SQL Server Data Tools و SQL Server Management Studio به شناسایی مدل‌ پرداخت.

علاوه بر این، می‌توان Query‌هایی را برای مدل داده‌کاوی ایجاد نمود که برای پیش‌بینی یا بازیابی Metadata‌ یا الگوهای به دست آمده از مدل به کار می‌رود. همچنین امکان ایجاد Query با استفاده از Data Mining Extensions یا به اختصار DMX فراهم می‌گردد.

ـــــــــــــــــــــــ

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت اول

بررسی مدل‌های داده‌کاوی و سرویس‌های آنالیز – قسمت دوم (پایانی)

مطلب مفید بود؟