جهت کسب اطلاع در مورد رودمپ عمومی هوش مصنوعی روی لینک رو به رو کلیک کنید.
تاریخچه داده کاوی
فهرست محتوا:
- تاریخچه داده کاوی
- تعریف داده کاوی
- گام های داده کاوی
- اجزای اصلی سیستم داده کاوی
با رشد فناوری اطلاعات و روش های تولید و جمع آوری داده ها، پایگاه داده های مربوط به داده های تبادلات تجاری، کشاورزی، اینترنت، جزئیات مکالمات تلفنی، داده های پزشکی و غیره سریعتر از هر روز جمع آوری و انبارش می شوند. لذا از اواخر دهه ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این پایگاه داده های حجیم افتاد زیرا سیستمهاي سنتی قادر به این کار نبودند.
داده کاوی فرآیندی است که در آغاز دهه ۹۰ مطرح شد و با نگرشی نو، به مسئلۀ استخراج اطلاعات از پایگاه داده ها می پردازد. از سال ۱۹۹۵ داده کاوی به صورت جدی وارد مباحث آمار شد و در سال ۱۹۹۶، اولین شماره مجلۀ کشف دانش و معرفت از پایگاه داده ها منتشر شد. محققانی نظیر براچمن و همکاران (1996) کلیه مراحل واقع گرایانه و رو به جلو کشف دانش از پایگاه داده ها را تشخیص دادند. در حال حاضر، داده کاوی مهم ترین فناوری جهت بهره برداری موثر از داده های حجیم است و کاربرد آن رو به رشد است. به طوریکه تخمین زده شده است که مقدار داده ها در جهان هر ۲۰ ماه به حدود دو برابر می رسد. در يك تحقيق كه بر روی گروههای تجاری بسيار بزرگ در جمعآوری دادهها صورت گرفته مشخص گرديد كه ۱۹ درصد از اين گروهها دارای پايگاه دادههایی با سطح بيشتر از ۵۰ گيگا بايت می باشند و ۵۹ درصد از آنها انتظار دارند كه در آيندهای نزديك در چنين سطحی قرار گيرند.
در سال ۱۹۸۹ و ۱۹۹۱ كارگاه های كشف دانش از پايگاه دادهها توسط پياتتسكی و همكارانش برگزار شد. در فواصل سال های ۱۹۹۱ تا ۱۹۹۴ كارگاه های كشف دانش و معرفت از پايگاه دادهها توسط فيياد و پياتتسكی و ديگران برگزار شد. به طور رسمی اصطلاح داده كاوی برای اولين بار توسط فيياد در اولين كنفرانس بين المللی «كشف دانش و داده كاوی» در سال ۱۹۹۵ مطرح شد. امروزه كنفرانس های مختلفی در اين زمينه در سراسر دنيا برگزار می شود.
تعریف دادهکاوی
داده كاوی يك رشته نسبتاً جديد علمي می باشد كه از انجام تحقيقات در رشتههای آمار، يادگيری ماشين، علوم كامپيوتر خصوصاً مديريت پايگاه دادهها شكل گرفته است. داده كاوی كمك می كند تا سازمانها با كاوش بر روی دادههای يك سيستم، الگوها و رفتارهای آينده را كشف و پيش بينی كرده و بهتر تصميم بگيرند. این تکنیک با استفاده از تحليل وقايع گذشته يك تحليل اتوماتيك و پيش بينانه ارائه می نمايد و به سوالاتی جواب می دهد كه پاسخ آنها در گذشته ممكن نبوده و يا به زمان زيادی نياز داشته است. داده کاوی به صورت زیر تعریف میگردد،
«استخراج خودکار دانش جدید و مفید از منابع داده ای حجیم موجود طی فرآیند غیربدیهی مشخص داده کاوی نامیده می شود.»
گامهای دادهکاوی
داده كاوی شامل مراحل مختلفی می باشد كه عبارتند از:
۱. تعيين اطلاعات گذشته
۲. تميز كردن داده ها و پردازش اوليه.(در اين مرحله خطاهای دادهها تصحيح می شوند و داده های اشتباه جايگزين می شوند. اين مرحله ممكن است تا ۶۰ درصد از زمان داده كاوی را دربرگيرد.)
۳. يكپارچه سازی دادهها. (معمولاً دادهها از منابع متفاوتی جمع آوری می شوند بايد به صورتی درآيند كه يك مخزن از داده های مناسب ايجاد شود تا بتوان عمليات داده كاوی را بهتر انجام داد.)
۴. انتخاب مجموعه داده های هدف
۵. يافتن ويژگی های مورد استفاده و تعيين ويژگی های جديد
۶. نمايش دادهها به صورتی كه بتوان برای داده كاوی استفاده نمود.
۷. انتخاب عمليات داده كاوی (طبقه بندی، خوشه بندی، پيش بينی و غيره)
۸. انتخاب روش داده كاوی (شبكههای عصبی، درخت تصميم و نظاير آن)
۹. داده كاوی و جستجو برای يافتن الگوی مناسب
۱۰. ارزيابی و تحليل الگوی به دست آمده و حذف الگوهای نامناسب
۱۱. تفسير نتايج دادهها و استنتاج از اطلاعات با ارزش
اجزای اصلی سيستم دادهکاوی
سيستم داده كاوی دارای اجزای بسيار زيادی می باشد كه در ادامه به تعدادی از آنها می پردازيم:
پايگاه دادهها یا مخزن اطلاعاتی:
مجموعهای از داده ها که عملیات خود را بر روی آن انجام میدهیم، این داده ها به صورت یکپارچه سازی شده و طبقه بندی شده در کنار هم قرار دارند.
ارایه دهنده سرويس انبار داده:
مسئولیت بازيابی و ارائه دادهها بر اساس نوع درخواست کاربر استفاده کننده بر عهده این بخش است.
پايگاه دانش:
اين پايگاه از دانش زمينه تشكيل شده تا به جستجو كمك كند يا برای ارزيابی الگوهای يافته شده از آن استفاده می شود.
موتور داده كاوی:
اين موتور جزء اصلی سيستم داده كاوی است و به طور ايده آل شامل مجموعهای از پيمانهها نظير توصيف، تداعی، كلاس بندی، آناليز خوشهها و آناليز تكامل و انحراف است.
بخش ارزيابی الگو:
اين جزء معيارهای جذابيت را به كار میبندد و با پيمانه داده كاوی تعامل میكند، بدين صورت كه تمركز آن بر جستجو بين الگوهای جذاب میباشد، و از يك حد آستانه جذابيت استفاده میكند تا الگوهای كشف شده را ارزيابی كند.
واسط گرافيكی كاربر:
اين پيمانه بين كاربر و سيستم داده كاوی ارتباط برقرار می كند، به كاربر اجازه می دهد تا با سيستم داده كاوی از طريق پرس و جو ارتباط برقرار كند. اين جزء به كاربر اجازه می دهد تا شمای پايگاه داده يا انباره داده را مرور كرده، الگوهای يافته شده را ارزيابی كرده و الگوها را در فرمهای بصری گوناگون، بازنمايی كند.