2000 تومان

پایان نامه داده کاوی data mining

فهرست مطالب این مقاله

تعداد صفحات: ۹۳ | قابل ویرایش

فهرست مطالب

عنوان                                                                                                                                            صفحه

فهرست اشکال   ……………………………………………………………………………………………………………………………..

۱۰

فهرست جداول   …………………………………………………………………………………………………………………………….

۱۱

فصل۱: مقدمه­ای بر داده­ کاوی  ………………………………………………………………….

۱۳

۱-۱ تعریف داده­کاوی   …………………………………………………………………………………………………………………..

۱۵

۲-۱ تاریخچه داده­کاوی   ………………………………………………………………………………………………………………..

۱۶

۳-۱ چه چیزی سبب پیدایش داده­کاوی شده است؟   …………………………………………………………………………….

۱۷

۴-۱ اجزای سیستم داده­کاوی   ………………………………………………………………………………………………………….

۱۹

۵-۱ جایگاه داده­کاوی در میان علوم مختلف   ……………………………………………………………………………………..

۲۱

۶-۱ قابلیتهای داده­کاوی   …………………………………………………………………………………………………………………

۲۲

۷-۱ چرا به داده­کاوی نیاز داریم؟   …………………………………………………………………………………………………….

۲۳

۸-۱ داده­کاوی چه کارهایی نمی­تواند انجام دهد؟   ………………………………………………………………………………

۲۵

۹-۱ کاربردهای داده­کاوی   ……………………………………………………………………………………………………………..

۲۵

۱-۹-۱ کاربردهای پیش­بینی­کننده   ………………………………………………………………………………………

۲۷

۲-۹-۱ کاربردهای توصیف­کننده   ……………………………………………………………………………………….

۲۷

۱۰-۱ ابزارهای تجاری داده­کاوی   …………………………………………………………………………………………………….

۲۸

۱۱-۱ داده­کاوی و انبار­داده­ها   ………………………………………………………………………………………………………….

۲۹

۱-۱۱-۱ تعاریف انبار­داده   ………………………………………………………………………………………………….

۲۹

۲-۱۱-۱ چهار خصوصیت اصلی انبار­داده   ……………………………………………………………………………..

۳۰

۳-۱۱-۱ موارد تفاوت انبار­داده و پایگاه­ داده   …………………………………………………………………………

۳۱

۱۲-۱ داده­کاوی و OLAP   ……………………………………………………………………………………………………………

۳۳
۱-۱۲-۱ OLAP   …………………………………………………………………………………………………………… ۳۳

۲-۱۲-۱ انواع OLAP   …………………………………………………………………………………………………….

۳۴

۱۳-۱ مراحل فرایند کشف دانش از پایگاه داده­ها   ……………………………………………………………………………….

۳۴

۱-۱۳-۱ انبارش داده­ها   ……………………………………………………………………………………………………..

۳۵

۲-۱۳-۱ انتخاب داده­ها   ……………………………………………………………………………………………………..

۳۶

۳-۱۳-۱ پاکسازی- پیش­پردازش- آماده­سازی   ……………………………………………………………………..

۳۶

۴-۱۳-۱ تبدیل داده­ها   ……………………………………………………………………………………………………….

۳۶

۵-۱۳-۱ کاوش در داده­ها (Data Mining)   ………………………………………………………………………

۳۷

۶-۱۳-۱ تفسیر نتیجه   …………………………………………………………………………………………………………

۳۸

فصل ۲: قوانین ارتباطی   …………………………………………………………………

۳۹

۱-۲ قوانین ارتباطی   ……………………………………………………………………………………………………………………….

۴۰

۲-۲ اصول پایه   ……………………………………………………………………………………………………………………………..

۴۱

۱-۲-۲ شرح مشکل جدی   …………………………………………………………………………………………………

۴۱

۲-۲-۲ پیمایش فضای جستجو   ……………………………………………………………………………………………

۴۳

۳-۲-۲ مشخص کردن درجه حمایت مجموعه اقلام   ……………………………………………………………….

۴۵

۳-۲ الگوریتمهای عمومی   ………………………………………………………………………………………………………………

۴۵

۱-۳-۲ دسته­بندی   …………………………………………………………………………………………………………….

۴۵

۲-۳-۲ BFS و شمارش رویداد­ها   ………………………………………………………………………………………

۴۶

۳-۳-۲ BFS و دونیم­سازی TID-list   ……………………………………………………………………………….

۴۷

۴-۳-۲ DFS و شمارش رویداد   …………………………………………………………………………………………

۴۷

۵-۳-۲ DFS و دو نیم­سازی TID-list  ………………………………………………………………………………

۴۸

۴-۲ الگوریتم Apriori   ………………………………………………………………………………………………………………..

۴۸

۱-۴-۲ مفاهیم کلیدی   ………………………………………………………………………………………………………

۴۸

۲-۴-۲ پیاده­سازی الگوریتم Apriori   ………………………………………………………………………………..

۴۹

۳-۴-۲ معایب Apriori و رفع آنها   …………………………………………………………………………………….

۵۴

۵-۲ الگوریتم رشد الگوی تکرارشونده   …………………………………………………………………………………………….

۵۵

۱-۵-۲ چرا رشد الگوی تکرار سریع است؟   ………………………………………………………………………….

۵۸

۶-۲ مقایسه دو الگوریتم Apriori و FP-growth   …………………………………………………………………………..

۵۹

۷-۲ تحلیل ارتباطات   ……………………………………………………………………………………………………………………..

۶۳

فصل ۳: وب­کاوی و متن­کاوی   ………………………………………………………..

۶۵

۱-۳ وب­کاوی   ……………………………………………………………………………………………………………………………..

۶۶

۱-۱-۳ الگوریتمهای هیتس و لاگسام   …………………………………………………………………………………..

۶۹

۲-۱-۳ کاوش الگوهای پیمایش مسیر   ………………………………………………………………………………….

۷۶

۲-۳ متن­کاوی   ……………………………………………………………………………………………………………………………..

۸۰

۱-۲-۳ کاربردهای متن­کاوی   ……………………………………………………………………………………………..

۸۲

۱-۱-۲-۳ جستجو و بازیابی   ………………………………………………………………………………….

۸۳

۲-۱-۲-۳ گروه­بندی و طبقه­بندی   …………………………………………………………………………..

۸۳

۳-۱-۲-۳ خلاصه­سازی   ……………………………………………………………………………………….

۸۴

۴-۱-۲-۳ روابط میان مفاهیم   …………………………………………………………………………………

۸۴

۵-۱-۲-۳ یافتن و تحلیل گرایشات   …………………………………………………………………………

۸۴

۶-۱-۲-۳ برچسب زدن نحوی (pos)   …………………………………………………………………….

۸۵

۷-۱-۲-۳ ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک   …………………………………..

۸۵

۲-۲-۳ فرایند متن­کاوی   …………………………………………………………………………………………………….

۸۶

۳-۲-۳ روشهای متن­کاوی   …………………………………………………………………………………………………

۸۷

مراجع   ………………………………………………………………………………………..

۸۹

چکیده:

در دو دهه قبل توانایی­های فنی بشر برای تولید و جمع­آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب­و­کار، علوم، خدمات­ دولتی و پیشرفت در وسائل جمع­آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره­ای، در این تغییرات نقش مهمی دارند.

بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی­های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند.

داده­ کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباره­ داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

به لحاظ اینکه در چند سال اخیر مبحث داده­کاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرم­افزار­های آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.

در این مقاله درفصل مروری بر داده­کاوی خواهیم داشت که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه داده­ها را ذکر کردیم که داده­کاوی یکی از مراحل آن است.

مقدمه

امروزه با گسترش سیستم‌های پایگاهی و حجم بالای داده‌های ذخیره شده در این سیستم‌ها، نیاز به ابزاری است تا بتوان داده‌های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.

با استفاده از پرسش‌های ساده در SQL و ابزارهای گوناگون گزارش‌گیری معمولی، می‌توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه‌گیری در مورد داده‌ها و روابط منطقی میان آنها بپردازند. امّا وقتی که حجم داده‌ها بالا باشد، کاربران هرچند زبر­دست و با­تجربه باشند نمی‌توانند الگوها مفید را در میان حجم انبوه داده‌ها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است.

از سوی دیگر، کاربران معمولاً فرضیه‌ای را مطرح می‌کنند و سپس بر­اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می‌پردازند، در حالی که امروزه نیاز به روشهایی است که اصطلاحاً به کشف دانش  بپردازند یعنی با کمترین دخالت کاربر و بصورت خودکار الگوها و رابطه‌های منطقی را بیان نمایند.

داده کاوی یکی از مهمترین این روشها است که به الگوهای مفید در داده‌ها با حداقل دخالت کاربران شناخته می‌شوند واطلاعاتی را در اختیار کاربران و تحلیل گران قرار می‌دهند تا براساس آن تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند. اصطلاح داده­کاوی زمانی بکار برده می‌شود که با حجم بزرگی از داده‌ها، در حد مگا یا ترابایت، مواجه باشیم.

تعریف داده کاوی

اصطلاح Data Mining همانطور که از ترجمه آن به داده­کاوی مشخص می­شود، به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از داده‌های یک یا چند بانک اطلاعاتی بزرگ است. اطلاعات استخراج شده در تعریف Data Mining بطور ضمنی به معنی اطلاعاتی است که بر اساس آن بتوان به نتایجی دست یافت که بطور معمول ملموس نیستند.

در این تعریف بر بزرگ بودن بانکهای اطلاعاتی و یا حجم زیاد داده‌های مورد پردازش تاکید می‌شود. علت این است که از نظر آماری و تئوری اطلاعات، تجزیه و تحلیل داده‌ها و یا آنطور که در این اصطلاح تعبیر می‌شود، کاوش در حجم کم داده­های یک بانک به نتایج قابل قبولی منجر نمی‌شود.

به کمک ابزارهای Data Mining می‌توان مقادیر متغیرهای را پیش­بینی و توصیف نمود. این ابزارها در فرایندهای تصمیم‌گیری متکی بر اطلاعات و دانش  کاربر فراوان دارند و فعالیت­های تجاری نوین و مدرن امروزه به شدت بر آن متکی است.

فرایند Data Mining را نباید با روش‌های متداول آنالیز داده و اطلاعات و سیستم­های تصمیم‌گیری معمولی یکی دانست. به کمک روش‌های Data Mining می‌توان به پرسش­هایی (عمدتاً تجاری) پاسخ گفت که بطور سنتی عملاً امکان وجود ندارد.

تاریخچه داده­ کاوی

اخیرا داده­کاوی موضوع بسیاری از مقالات، کنفرانس‌ها و رساله‌های عملی شده است، امّا این واژه تا اوایل دهه نود مفهومی نداشت و به کاربرده نمی‌شد. در دهه شصت و پیش از آن زمینه‌هایی برای ایجاد سیستم‌های جمع‌آوری و مدیریت داده­ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم­های مدیریت پایگاه داده­ها گردید.

ایجاد و توسعه مدلهای داده‌ای برای پایگاه سلسله مراتبی، شبکه‌ای و بخصوص رابطه‌ای در دهه هفتاد، منجر به معرفی مفاهیمی همچون شاخص­گذاری و سازمادهی داده‌ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرم­های اطلاعاتی موردنظر خود را ، از این طریق ایجاد نمایند.

توسعه سیستم‌های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه­ها شی‌گرا، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم‌ها در سراسر جهان گردید. بدین ترتیب DBMS­هایی همچون Oracle, DB2,­ Sybase, … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم‌ها مورد پردازش قرار گرفتند. شاید بتوان مهمترین جنبه در معرفی داده­کاوی را مبحث کشف دانش از پایگاه داده‌ها (KDD) دانست بطوریکه در بسیاری موارد DM و KDD بصورت مترادف مورد استفاده قرار می‌گیرند.

مراجع

[۱] داده­کاوی (Data Mining)، تالیف مهمد کانتاردزیک، ترجمه امیر علیخانزاده، ۱۳۸۵، ویرایش اول

[۲] Introduction to Data Mining and Knowledge Discovery، Two Crows Corporation، ۱۹۹۹

[۳] Data Mining: Concepts and Techniques، M.Kamber and J.Han، ۲۰۰۱

[۴] مقاله Algorithms for Association Rule Mining – A General Survey and comparison نوشته Jochen Hipp و Gholamreza Nakhaeizadeh ، در کنفرانس ACM SIGKDD July 2000.

به این پست رای بدهید
اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
خرید فایل
خرید فایل
وب‌سایت خرید فایل از سال 1395 شروع به فعالیت و ارائه خدمات به دانشجویان گرامی کرده است. البته فایل‌هایی که در این وب‌سایت به فروش می‌رسد، صرفاً به عنوان منبعی برای استفاده دانشجویان در تحقیق خود است و هرگونه سوءاستفاده از آنها، به عهده خود فرد می‌باشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

معادله امنیتی *محدودیت زمانی مجاز به پایان رسید. لطفا کد امنیتی را دوباره تکمیل کنید.