تعداد صفحات: ۱۲۱ | قابل ویرایش
فهرست مطالب
۱- مقدمه ۲
۱-۱- تعریف مسأله و انگیزه انجام آن. ۵
۱-۲- روش پیشنهادی برای حل مسأله. ۶
۱-۳- ساختار پایان نامه. ۸
۲- سریهای زمانی و مفاهیم مربوطه. ۱۱
۲-۱- سریهای زمانی ۱۱
۲-۲- معیارهای اندازه گیری فاصله. ۱۴
۲-۳- پیش پردازشهای روی سری زمانی.. ۱۴
۲-۴- تکنیکهای کاهش ابعاد داده ۱۶
۳- خوشه بندی ۳۲
۳-۱- تعریف خوشه بندی.. ۳۲
۳-۲- معیارهای ارزیابی خوشه بندی.. ۳۴
۳-۳- الگوریتم های خوشه بندی.. ۳۷
۳-۴- الگوریتم خوشه بندی k-means و Fuzzy k-means. 39
۴- خوشه بندی سریهای زمانی. ۴۲
۴-۱- بررسی تحقیقات انجام شده در زمینه خوشه بندی سریهای زمانی و مقایسه تطبیقی آنها ۴۴
۴-۲- نکاتی مهم در داده کاوی سریهای زمانی.. ۴۹
۵- خوشه بندی با استفاده از الگوریتم های ژنتیک.. ۵۳
۵-۱- الگوریتم ژنتیک ۵۳
۵-۲- تنظیم قسمتهای مختلف الگوریتم ژنتیک برای خوشه بندی.. ۵۸
۵-۳- مقایسه تطبیقی فعالیتهای مرتبط با خوشه بندی بوسیله الگوریتم ژنتیک… ۶۳
۶- بررسی تأثیر روشهای کاهش ابعاد داده در خوشه بندی. ۶۸
۶-۱- بسترهای داده ۶۹
۶-۲- متدولوژی انجام آزمایشها ۷۲
۶-۳- نتایج آزمایشها ۷۴
۶-۴- کدام روش و چه میزان کاهش… ۷۹
۷- ارائه روشی جدید برای خوشه بندی سریهای زمانی. ۸۳
۷-۱- الگوریتم AKU-kMeans ۸۵
۷-۲- الگوریتم I-kMeans ۸۷
۷-۳- بسترهای داده ۸۸
۷-۴- نتایج آزمایشات ۹۰
۷-۵- مقایسه تطبیقی الگوریتم AKU-kMeans با روشهای دیگر خوشه بندی سریهای زمانی.. ۹۳
۸- خوشه بندی سریهای زمانی با استفاده از الگوریتم ژنتیک.. ۹۶
۸-۱- الگوریتم IGA-Clustering ۹۷
۸-۲- نتایج آزمایشات ۱۰۱
۸-۳- مقایسه تطبیقی الگوریتم IGA-Clustering با روشهای دیگر. ۱۰۳
۹- آزمایشات تکمیلی. ۱۰۷
۱۰- جمع بندی، نتیجه گیری و کارهای آتی. ۱۱۶
منابع و مراجع ۱۱۹
واژه نامه انگلیسی به فارسی. ۱۲۲
واژه نامه فارسی به انگلیسی. ۱۲۴
چکیده
در سالهای اخیر دادهکاوی برروی سریهای زمانی توجه بسیاری را به خود جلب کرده است. شاید بتوان گفت از میان تمام تکنیکهای به کار برده شده برروی سریهای زمانی، خوشهبندی پر استفادهترین تکنیک میباشد. خوشهبندی سریهای زمانی میتواند به دلائل مختلفی مانند یافتن الگوهای پنهان در دادهها و جستجوی شباهتها انجام شود.
سریهای زمانی معمولاً دارای ابعاد طولانی هستند که این امر کار پردازش آنها را چه از نظر حافظه و چه از نظر زمان با مشکل روبرو میسازد. اما خوشبختانه به دلیل وابستگی زیاد بین مقادیر متوالی یک سری زمانی، تکنیکهای کاهش ابعاد داده راهکار مناسبی برای حل مشکل ابعاد آنها میباشد.
با توجه به اینکه موضوع مورد بررسی ما خوشهبندی است، ما به بررسی تأثیر پنج روش مختلف کاهش ابعاد داده در خوشهبندی به وسیله الگوریتم k-means پرداخته و با انجام آزمایشات وسیع به این نتیجه رسیدیم که خوشهبندی برروی درصد بسیار کمی از مهمترین مؤلفههای استخراج شده از دادهها میتواند به نتایجی بسیار نزدیک به خوشهبندی برروی دادههای اصلی منجر شود.
همچنین با ایجاد دو تغییر اساسی در روش Random Projection، روش جدیدی به نام Sample Based Projection برای کاهش ابعاد داده ارائه کردیم که در آزمایشات انجام شده، عملکرد خوبی از خود به نمایش گذاشت بطوری که وقتی ابعاد دادههای کاهش یافته را کوچک (مثلاً کمتر از ۸) در نظر گرفتیم، از پنج روش دیگر بجز روش Principle Component Analysis بهتر عمل کرد.
در ادامه الگوریتمی به نام AKU-kMeans برای خوشهبندی سریهای زمانی ارائه کردهایم که چه از نظر زمان اجرا و چه از نظر معیار ICV (که از آن برای ارزیابی خوشهبندی استفاده کردهایم) بهتر از الگوریتم k-means عمل میکند.
مقدمه
بسیاری از دادههایی که امروزه با آنها سروکار داریم دادههایی هستند که در طول زمان تغییر میکنند. دمای هوا، میزان مصرف انرژی در یک کشور، ارتفاع سطح آب در یک رودخانه و قیمت سهام شرکتها، همگی از نوع دادههای وابسته به زمان هستند.
بخش عمدهای از این دادهها از نوع سریهای زمانی میباشد. هرچند یک تعریف واحد برای سریهای زمانی وجود ندارد اما در بیشتر گزارشات تحقیقاتی و کتابها سری زمانی را ترتیبی از اعداد حقیقی در نظر میگیرند که مقدار مشاهده شده از یک رویداد را در فواصل زمانی برابر نشان میدهد.
دانشی که در این نوع دادهها نهفته است میتواند بسیار ارزشمند باشد. خوشبختانه امروزه با پیشرفتهایی که در علوم کامپیوتر بوجود آمده امکان استخراج این اطلاعات ارزشمند از دادهها پدید آمده است. استخراج این اطلاعات تحت فرایندی به نام استخراج دانش انجام میشود. استخراج دانش، طیف وسیعی از انواع دادهها را شامل میشود، مانند متن، جداول پایگاه داده، صفحات وب، سریهای زمانی و غیره.
فرایند استخراج دانش را میتوان به سه مرحله تقسیم نمود:
- پیش پردازش دادهها: در بیشتر مواقع قبل از اجرای الگوریتمهای دادهکاوی، لازم است که بر حسب نیاز، پیشپردازشهایی برروی دادهها انجام شود. مانند یکی کردن منابع دادهها، پاکسازی دادهها، تبدیل مقادیر پیوسته به گسسته، انتخاب ویژگیهای مناسب، کاهش حجم دادهها (مثلاً با استفاده از تکنیکهای کاهش ابعاد داده).
- داده کاوی: به معنی استخراج اتوماتیک (یا نیمه اتوماتیک) دانش از دادهها است. دادهکاوی ترکیبی است از آمار، هوش مصنوعی، پایگاه داده و یادگیری ماشین.
تعریف مسأله و انگیزه انجام آن
از آنجایی که خوشهبندی در زمره مسائل بغرنج قرار دارد برای حل آن معمولاً از الگوریتمهای مکاشفهای استفاده میشود. سه نمونه از این الگوریتمها را در شکل ۱-۱ مشاهده میکنید. الگوریتم های مکاشفهای معمولاً بهترین جواب را پیدا نمیکنند بلکه جوابی نزدیک به جواب بهینه را پیدا میکنند.
به همین دلیل همواره پژوهشگران و محققان بدنبال ارائه راه حلهایی هستند که بتواند در آزمایشات مختلف نتایج بهتری را نسبت به راهحلهای قبلی ارائه دهد. یکی از معروفترین روشهای مکاشفهای، الگوریتم ژنتیک است که بدلیل قابلیت زیاد آن در اجرای موازی و نیز پایین بودن احتمال به تله افتادن آن در مینیممهای محلی نسبت به روشهای مکاشفهای دیگر، از محبوبیت بیشتری برخوردار است.
در این پایان نامه ما قصد داریم سریهای زمانی را با استفاده از الگوریتمهای ژنتیک خوشهبندی نماییم. البته تا کنون چندین گزارش تحقیقاتی برای خوشهبندی دادههای ایستا با استفاده از الگوریتم های ژنتیک ارائه شده که تعدادی از آنها را در فصل پنجم بررسی خواهیم کرد، اما تا کنون از این روش برای خوشهبندی سریهای زمانی استفاده نشده است [Liao2005].
بعبارت دیگر اکثر این محققان خوشهبندی را برای دادههایی با ابعاد کم (مثلاً کمتر از ۱۰) انجام دادهاند، در حالی که سریهای زمانی معمولاً دارای اندازهای طولانی (مثلاً ۱۰۰ یا ۱۰۰۰) میباشند. در واقع مهمترین چالشی که در این مسأله با آن روبرو هستیم ابعاد زیاد دادهها است که چه از نظر زمان اجرای الگوریتم و چه از نظر حافظه میتواند مشکلساز باشد.
روش پیشنهادی برای حل مسأله
همانطور که گفتیم سریهای زمانی معمولاًً دارای اندازهای طولانی میباشند که این امر چه از نظر حافظه و چه از نظر پیچیدگی زمانی، کار پردازش آنها را با مشکل روبرو میسازد. روشی که ما برای حل این مسأله به کار بردهایم استفاده از تکنیکهای کاهش ابعاد داده قبل از انجام خوشهبندی است.
استفاده از تکنیکهای کاهش ابعاد داده قبل از هرگونه پردازشی، یک راه حل متداول است که در تحقیقات مختلف به طرق متفاوتی از آن استفاده شده است. مانند [Lin2004] و [Wang2006] که هر کدام روشی متفاوت را برای کاهش ابعاد داده قبل از خوشهبندی سریهای زمانی به کار بردهاند.
برای استفاده از ایده فوق، به دو سؤال اصلی باید پاسخ داد:
- از کدام تکنیک برای کاهش ابعاد داده استفاده کنیم؟
- با توجه به اینکه اکثر تکنیکها به ما امکان کاهش ابعاد داده در دقتهای مختلف را میدهد، ابعاد دادهها را تا چه دقتی کاهش دهیم که تأثیری در نتیجه خوشهبندی نداشته باشد و یا تأثیر آن بسیار ناچیز باشد؟
برای پاسخگویی به این دو سؤال، الزاماً باید از مسیر تجربه و انجام آزمایشات و مقایسه تطبیقی نتایج حاصل به پاسخ قابل قبول دست یافت. همانطور که در بالا اشاره شد خوشهبندی میتواند به روشهای مختلفی انجام شود. پیادهسازی و آزمایش تمام حالات مختلف خوشهبندی کاری طاقتفرسا خواهد بود.
بنابراین تصمیم گرفتیم فرضیاتی را در مورد مسأله خوشهبندی سریهای زمانی در نظر بگیریم و آزمایشهایمان را بر اساس آن فرضیات طراحی کنیم.
منابع و مراجع
- [Agrawal1993] R. Agrawal, C. Faloutsos, and A. N. Swami, “Efficient Similarity Search In Sequence Databases”, in Proc. of the 4th International Conference of Foundations of Data Organization and Algorithms (FODO), Chicago, Illinois, pp. 69-84, 1993.
- [Bhuyan1995] J.N. Bhuyan, “A Combination of Genetic Algorithm and Simulated Evolution Techniques for Clustering”, ACM Conference on Computer Science, pp. 127-134, 1995.
- [Demerdash1999] N. A. O. Demerdash and J. F. Bangura, “Characterization of induction motors in adjustable-speed drives using a time-stepping coupled finite element state-space method including experimental validation”, IEEE Transactions On Industry Applications, vol. 35, pp. 790-802, July/Aug. 1999.
- [Garai2004] G. Garai, and B.B. Chaudhuri, “A Novel Genetic Algorithm for Automatic Clustering”, Pattern Recognition Letters, ۲۵(۲): ۱۷۳–۱۸۷, ۲۰۰۴
- [Gesù۲۰۰۵] V.D. Gesù, R. Giancarlo, G.L. Bosco, A. Raimondi, D. Scaturro, “GenClust: A genetic algorithm for clustering gene expression data”. BMC Bioinformatics ۶: ۲۸۹, ۲۰۰۵.
- [Hall1999] L.O. Hall, I.B. O. zyurt, J.C. Bezdek, “Clustering with a genetically optimized approach”, IEEE Transactions on Evolutionary Computation, vol. 3, no. 2, pp. 103–۱۱۲, ۱۹۹۹.
- [Han2001] J. Han, and M. Kamber, Data Mining: Concepts and Techniques, San Francisco: Morgan Kaufmann, 2001.
- [Hruschka2003] E.R. Hruschka, N.F.F. Ebecken, “A genetic algorithm for cluster analysis”, Intelligent Data Analysis, vol. 7, no. 1, pp. 15–۲۵, ۲۰۰۳.