دانلود تحقیق کامپیوتر

روشها و تکنیک های داده کاوی

تکنیک‌‌های داده کاوی به چند دسته تقسيم می شوند که سه دسته اصلی عبارتند از خوشه بندی ، طبقه بندی و کشف قواعد انجمنی . در ادامه هر يک از اين روش‌ها را به طور کلی معرفی می نماييم.

مقدمه داده کاوی


داده‌کاوی توسط ابزارهای الگوریتمیک، الگوها، تغییرات، آنومالی‌ها، قوانین، و ساختارهای مهم آماری، و رویدادها را از مجموعه داده‌های عظیم استخراج می‌کند.[5] می‌توان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بين داده های فعلی و پيش بينی موارد نامعلوم و يا مشاهده نشده عمل می کند. برای انجام عمليات کاوش لازم است قبلاً روی داده های موجود پیش پردازش‌هایی انجام گيرد. عمل پيش پردازش اطلاعات خود از دو بخش کاهش اطلاعات، و خلاصه سازی و کلی سازی داده ها تشکيل شده است.

خوشه بندی
فرآيند خوشه بندی سعی دارد که يک مجموعه داده را به چندين خوشه تقسيم نمايد بطوريکه داده‌های قرار گرفته در يک خوشه با يکديگر شبيه بوده و با داده های خوشه های ديگر متفاوت باشند. در حال حاضر روش‌های متعددی برای خوشه بندی داده ها وجود دارد که بر اساس نوع داده ها، شکل خوشه ها، فاصله داده ها و غيره عمل خوشه بندی را انجام می دهند.

مهم‌ترین روش‌های خوشه بندی در زير معرفی شده اند:

1.روش‌های خوشه‌بندی مبتنی بر تقسيمبندی
این روش‌ها، داده های موجود در يک مجموعه داده را به k خوشه تقسيم می کنند، بطوريکه هر خوشه دو خصوصيت زير را داراست:
• هر خوشه يا گروه حداقل شامل يک داده می باشد.
• هر داده موجود در مجموعه داده دقیقاً به يک گروه يا خوشه تعلق دارد.

معيار اصلی در چنين مجموعه داده هايی ميزان شباهت داده های قرار گرفته در هر خوشه می باشد. در حاليکه داده‌های قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادی دارند. مقدار k که به عنوان پارامتر استفاده می گردد، هم می تواند به صورت پويا تعيين گردد و هم اينکه قبل از شروع الگوريتم خوشه بندی مقدار آن مشخص گردد.


2. روش‌های سلسله مراتبی
روش‌های سلسله مراتبی به دو دسته کلی روش‌های پایین به بالا و روش‌های بالا به پایین تقسيم می‌گردند. روش‌های سلسله مراتبی پایین به بالا به اين صورت عمل می کنند که در شروع هر کدام از داده ها را در يک خوشه جداگانه قرار می دهد و در طول اجرا سعی می کند تا خوشه هايی نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زمانی که يا تنها يک خوشه داشته باشيم و يا اينکه شرط خاتمه برقرار گردد، ادامه می يابد. روش‌های بالا به پایین دقیقاً به طریق عکس عمل می کنند، به اين طريق که ابتدا تمام داده ها را در يک خوشه قرار می دهد و در هر تکرار از الگوريتم، هر خوشه به خوشه های کوچک‌تر شکسته می شود و این کار تا زمانی ادامه می-يابد که يا هر کدام از خوشه ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولاً تعداد کلاستر يا خوشه می باشد.

فهرست مطالب

2-1- مقدمه 7
2-2- داده‌کاوی 7
2-2-1- خوشه‌بندی 8
2-2-1-1- روشهای تقسيمبندی 8
2-2-1-2- روشهای سلسله مراتبی 8
2-2-1-3- روشهای مبتنی بر چگالی 9
2-2-2- طبقه‌بندی 9
2-2-2-1- طبقه‌بندی مبتنی بر قواعد 10
2-2-3- کشف قواعد انجمنی 12
2-2-3-1- تعاریف و مفاهیم اصلی در قواعد انجمنی 12
2-2-3-1-1- تقسیم بندی قواعد انجمنی 14
2-2-3-1-2- استخراج قواعد تک‌سطحی تک بعدی دودویی 14
2-2-3-1-2-1- مرحله پیوست 16
2-2-3-1-2-2- مرحله هرس 17
2-2-3-1-3- محاسبه اطمینان و استخراج قواعد نهایی 17
2-3- داده‌کاوی توزيع شده 17
2-6-1- داده‌کاوی توزيع شده 33
2-6-2- کارهای مهم انجام شده در زمينه داده‌کاوی با استفاده از عامل 36
2-7- جمع‌بندی

منابع