تعداد صفحات: ۱۴۲ | قابل ویرایش
فهرست مطالب
- فصل اول – معرفی و آشنایی با مفاهیم اولیه ۱
۱-۱- مقدمهای بر دادهکاوی.. ۲
۱-۱-۱- خوشهبندی.. ۳
۱-۱-۲- کشف قواعد وابستگی.. ۴
۱-۱-۳- طبقهبندی.. ۴
۱-۱-۳-۱- طبقهبندی مبتنی بر قواعد.. ۵
۱-۲- دادهکاوی توزیعشده.. ۷
۱-۳- عاملها و سیستمهای چندعامله.. ۸
۱-۳-۱- عامل.. ۸
۱-۳-۱-۱- مقایسه عامل با شی.. ۹
۱-۳-۱-۲- معماری عاملها.. ۱۱
۱-۳-۱-۳- معماری BDI. 12
۱-۳-۲- سیستمهای چندعامله.. ۱۴
۱-۳-۲-۱- مذاکره.. ۱۷
۱-۴- بهرهگیری از عامل برای دادهکاوی.. ۱۹
۱-۴-۱- سیستمهای چندعامله، بستری برای دادهکاوی توزیع شده.. ۱۹
۱-۵- جمعبندی.. ۲۲
-
فصل دوم – دادهکاوی پویا.. ۲۳
۲-۱- مقدمهای بر دادهکاوی پویا.. ۲۴
۲-۲- جریان داده.. ۲۵
۲-۳- طبقهبندی جریان داده.. ۲۶
۲-۳-۱- موضوعات پژوهشی.. ۲۷
۲-۴- جمعبندی.. ۳۱
- فصل سوم – مروری بر کارهای انجام شده.. ۳۳
۳-۱- مقدمه.. ۳۴
۳-۲- دادهکاوی توزیعشده ایستا.. ۳۵
۳-۲-۱- روشهای غیرمتمرکز.. ۳۶
۳-۲-۲- روشهای مبتنی بر توزیع ذاتی دادهها.. ۳۷
۳-۳- کارهای مهم انجام شده در زمینه دادهکاوی با استفاده از عامل ۳۸
۳-۴- کارهای انجام شده در زمینه طبقهبندی جریان دادهها.. ۴۱
۳-۴-۱- روشهای طبقهبندی Ensemble-based. 41
۳-۴-۲- درختهای تصمیم بسیار سریع.. ۴۳
۳-۴-۳- طبقهبندی On-Demand. 46
۳-۴-۴- OLIN.. 48
۳-۴-۵- الگوریتمهای LWClass. 49
۳-۴-۶- الگوریتم ANNCAD.. 51
۳-۴-۷- الگوریتم SCALLOP. 51
۳-۴-۸- طبقهبندی جریان دادهها با استفاده از یک روش Rule-based. 53
۳-۵- جمعبندی.. ۵۴
- فصل چهارم – تعریف مساله.. ۵۵
۴-۱- مقدمه.. ۵۶
۴-۲- تعریف مساله برای فاز اول.. ۵۶
۴-۲-۱- جریان داده.. ۵۷
۴-۲-۲- مفهوم یا مدل موجود در جریان داده.. ۵۷
۴-۲-۳- مساله طبقهبندی جریان دادههای دارای تغییر مفهوم.. ۵۷
۴-۳- تعریف مساله برای فاز دوم.. ۵۹
-
فصل پنجم – رویکردهای پیشنهادی.. ۶۲
۵-۱- مقدمه.. ۶۳
۵-۲- رویکرد پیشنهادی برای فاز اول پروژه.. ۶۳
۵-۲-۱- عامل و ویژگیهای آن در این مساله.. ۶۴
۵-۲-۲- عملکرد کلی عامل.. ۶۵
۵-۲-۳- معماری عامل.. ۶۶
۵-۲-۳-۱- حسگرها .. ۶۷
۵-۲-۳-۲- پایگاه دانش عامل.. ۶۸
۵-۲-۳-۳- تابع ارزیابی محیط.. ۷۰
۵-۲-۳-۳-۱- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده ۷۰
۵-۲-۳-۳-۲- نحوه استخراج الگوهای recur 70
۵-۲-۳-۳-۳- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73
۵-۲-۳-۳-۴- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص.. ۷۴
۵-۲-۳-۴- تابع سودمندی.. ۷۵
۵-۲-۳-۵- بخش تصمیمگیری و Planning. 79
۵-۲-۳-۵-۱- بخش تصمیمگیری.. ۷۹
۵-۲-۳-۵-۲- Planning. 83
۵-۲-۳-۶- بخش Action. 86
۵-۳- رویکرد پیشنهادی برای فاز دوم مساله.. ۸۷
۵-۳-۱- عاملهای مشتری.. ۸۸
۵-۳-۲- عامل صفحه زرد.. ۹۰
۵-۳-۳- عاملهای دادهکاو.. ۹۱
۵-۳-۳-۱- معماری عاملهای دادهکاو.. ۹۲
۵-۳-۳-۱-۱- تابع BRF. 94
۵-۳-۳-۱-۲- تابع Generate Options. 95
۵-۳-۳-۱-۳- تابع فیلتر.. ۹۵
۵-۳-۳-۱-۴- بخش Actions. 96
۵-۳-۳-۱-۵- Plan های عامل.. ۹۷
۵-۳-۳-۱-۵- ۱- Plan مربوط به طبقهبندی.. ۹۷
۵-۳-۳-۱-۵-۲- Plan مربوط به تطبیق طبقهبند .. ۹۸
۵-۳-۳-۱-۵-۳- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره ۱۰۱
۵-۴- جمعبندی.. ۱۱۱
- فصل ششم – آزمایشات و نتایج.. ۱۱۳
۶-۱- مقدمه.. ۱۱۴
۶-۲- محیط عملیاتی.. ۱۱۴
۶-۳- مجموعه دادههای مورد استفاده.. ۱۱۶
۶-۳-۱- مجموعه دادههای استاندارد.. ۱۱۶
۶-۳-۲- مجموعه دادههای واقعی.. ۱۱۷
۶-۴- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه.. ۱۱۷
۶-۵- آزمایشات انجام شده.. ۱۱۸
۶-۵-۱- آزمایشات مربوط به فاز اول.. ۱۱۹
۶-۵-۲- آزمایشات مربوط به فاز دوم.. ۱۲۸
۶-۶- جمعبندی.. ۱۳۰
- فصل هفتم- جمعبندی و نتیجهگیری.. ۱۳۲
فهرست مراجع.. ۱۳۶
چکیده
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیری از روشهایی همچون دادهکاوی برای استخراج دانش و اطلاعات نهفته در دادهها، امری غیرقابل اجتناب میباشد.
بدلیل حجم بسیار بالای دادهها در بسیاری از کاربردها و اهمیت بیشتر دادههای جدید، ذخیرهسازی این دادهها امری مقرون به صرفه نیست، لذا دادههایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث دادهکاوی وجود دارد، بحث توزیع شدگی ذاتی دادهها است.
معمولا پایگاههایی که این دادهها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.
با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر میرسد که بتوان از قابلیتهای آنها برای دادهکاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهرهگیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است.
در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در دادهکاوی، بحث طبقهبندی جریان دادهها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد.
مقدمه ای بر داده کاوی
داده کاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه دادههای موجود میباشد[۳۸]. دادهکاوی از مدلهای تحلیلی، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین دادههای فعلی و پیشبینی موارد نامعلوم و یا مشاهده نشده عمل میکند.
برای انجام عملیات دادهکاوی لازم است قبلا روی دادههای موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی دادهها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از دادههای اولیه، که تحت عملیات دادهکاوی نتایج تقریبا یکسانی با نتایج دادهکاوی روی اطلاعات اولیه به دست دهد[۳۸].
پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی دادهها می رسد. دادههای موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از دادهها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد.
کلیسازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای دادهکاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
خوشه بندی
فرآیند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه دادههای قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با دادههای خوشههای دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روشهای خوشهبندی در زیر معرفی شدهاند:
- روشهای تقسیمبندی : روشهای خوشهبندی که بروش تقسیم بندی عمل میکنند، دادههای موجود در یک مجموعه داده را به k خوشه تقسیم میکنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :
- هر خوشه یا گروه حداقل شامل یک داده میباشد.
- هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه دادههایی میزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حالیکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم میتواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
- روشهای سلسله مراتبی : روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسیم می گردند.
طبقه بندی
فرایند طبقه بندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعهای از دادهها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه دادههایی است که این مدل از روی آنها ایجاد شده است.
مرحله دوم فرآیند طبقهبندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی دادههایی است که شامل تمام خصوصیات دادههایی که برای ایجاد مدل داده بکار گرفته شدهاند، میباشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقهبندی نیز تخمین مقدار این خصوصیت میباشد.
الگوریتمها و روشهای مختلفی برای طبقهبندی تاکنون پیشنهاد شدهاند که برای مثال میتوان از روشهای طبقهبندی با استفاده از درخت تصمیم، طبقهبندی بیزین، SVM ، طبقهبندی با استفاده از شبکههای عصبی، طبقهبندی مبتنی بر قواعد و … ]۵۶[ نام برد.
در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتمها و روشهای طبقهبندی شویم و تنها روش طبقهبندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر میتوانید به فصل ششم مرجع ]۳۸[ مراجعه نمایید.
فهرست مراجع
- عبدالله زاده احمد، معصومی بهروز و آیتالله زاده شیرازی محمدرضا، مقدمهای بر هوش مصنوعی توزیع شده (معرفی عامل و سیستمهای چندعامله)، تهران: انتشارات جلوه، ۱۳۸۴.
- Aggarwal, C; Han, J; Wang, J; Yu, P. S. “A Framework for Clustering Evolving Data Streams”, Proc. 2003 Int. Con$ on Very Large Data Bases (VLDB’03), Berlin, Germany, Sept. 2003.
- Aggarwal, C; Han, J; Wang, J; Yu, P. S., “On Demand Classification of Data Streams”, Proc. 2004 Int. Con$ on Knowledge Discovery and Data Mining (KDD ’04), Seattle, WA, 2004.
- Aggarwal, C. “Data Streams:Models and Algorithms”, Advances in Database Systems, Vol. 31, 2007, ISBN: 978-0-387-28759-1.
- Babcock, B; Babu, S; Datar, M; Motwani, R; Widom, J. “Models and issues in data stream systems”. In Proceedings of PODS, 2002.
- Babcock, B; Datar, M; Motwani, R. “Load Shedding Techniques for Data Stream Systems”, In Proc. of the 2003 Workshop on Management and Processing of Data Streams (MPDS 2003).
- Bailey, S; Grossman, R; Sivakumar, H; Turinsky, H. “Papyrus: A System for Data Mining Over Local and Wide Area Clusters and Super-clusters”. In Proceedings of the 1999 ACM/IEEE conference on Supercomputing, page 63, Portland, OR, 1999. ACM Press.
- Bala, J; Baik, S; Hadjarian, A; Gogia, B. K ; Manthorne, C. “Application of a Distributed Data Mining Approach to Network Intrusion Detection”. In Proceedings of the First International Joint Conference on Autonomous Agents and Multiagent Systems, pages 1419–۱۴۲۰, Bologna, Italy, 2002. ACM Press.