3000 تومان

پایان نامه تقسیم بندی صفحات وب

فهرست مطالب این مقاله

تعداد صفحات: ۷۸ | قابل ویرایش

فهرست مطالب

عنوان ………………………………………………………………………………….. صفحه

فصل اول: معرفی نامه

۱-۱-  معرفی فصل دوم پایان نامه………………………………………………………………………………. ۲

۱-۲- معرفی فصل سوم پایان نامه……………………………………………………………………………….. ۷

فصل دوم:روش های متفاوت تقسیم بندی صفحات وب

۲-۱- تقسیم بندی صفحات وب بطور مختصر…………………………………………………………………. ۹

۲-۱-۱-۱- روش خلاصه سازی تعدیل شده Luhn……………………………………………………… 10

۲-۱-۱-۲ – روش تحلیل معنایی نهفته (LSA)…………………………………………………………….. 12

  • ۲-۱-۱-۳- شناسایی مضمون بدنه  اصلی  توسط  تجزیه  و تحلیل لایه‌ای……………………………. ۱۳
  • ۲-۱-۱-۴- خلاصه سازی نظارت شده……………………………………………………………………….. ۱۵

۲-۱-۱-۵- یک دسته بندی کلی از خلاصه سازی…………………………………………………………. ۱۷

۲-۱-۲- آزمایشات……………………………………………………………………………………………….. ۱۸

۲-۱-۲-۱- مجموعه ی داده…………………………………………………………………………………….. ۱۸

۲-۱-۲-۲- دسته کننده ها………………………………………………………………………………………. ۱۹

۲-۱-۲-۳- مقیاس ارزیابی………………………………………………………………………………………. ۲۱

۲-۱-۲-۴- نتایج و تحلیل های تجربی……………………………………………………………………….. ۲۲

۲-۱-۲-۵ مورد پژوهش…………………………………………………………………………………………. ۲۹

۲-۱-۳- نتیجه گیری  و عملکرد آینده……………………………………………………………………….. ۳۱

۲-۲- تقسیم بندی صفحات وب با استفاده از الگوریتم  اجتماع مورچه ها…………………………….. ۳۲

۲-۲-۱- پیش پردازش  متنی وابسته   به زبان شناسی  و استخراج وب………………………………….. ۳۲

۲-۲-۲- الگوریتم Ant- Miner…………………………………………………………………………….. 36

۲-۲-۳- نتایج محاسباتی………………………………………………………………………………………… ۳۹

۲-۲-۳-۱- تنظیم بصورت عملی………………………………………………………………………………. ۳۹

۲-۲-۳-۲- نتایج تأثیر تکنیک های پیش پردازش متنی وابسته به زبان شناسی………………………… ۴۰

۲-۲-۴- بحث و تحقیقات آینده……………………………………………………………………………….. ۴۳

۲-۳- تقسیم بندی صفحات وب براساس ساختار پوشه‌ای………………………………………………… ۴۴

۲-۳-۱ الگوریتم های تقسیم بندی صفحات وب……………………………………………………………. ۴۵

۲-۳-۲- روش مبتنی بر ساختار………………………………………………………………………………… ۴۷

۲-۳-۳- یک کاربرد خاص…………………………………………………………………………………….. ۴۷

۲-۳-۳-۱- استخراج مهمترین خصوصیات………………………………………………………………….. ۴۸

۲-۳-۳-۲- عمل دسته بندی…………………………………………………………………………………….. ۵۰

۲-۳-۴ نتایج……………………………………………………………………………………………………….. ۵۱

۲-۳-۵- نتیجه گیری و عملکرد آینده………………………………………………………………………… ۵۳

فصل سوم : جستجوی وب با استفاده از طبقه بندی خودکار

۳-۱- معماری …………………………………………………………………………………………………….. ۵۷

۳-۱-۱- دسته کننده‌ی خودکار ……………………………………………………………………………….. ۵۷

۳-۱-۲-واسط جستجو…………………………………………………………………………………………… ۵۸

۳-۲- آزمایش معتبر سازی……………………………………………………………………………………… ۵۹

۳-۲-۲- برپایی آزمایش ……………………………………………………………………………………….. ۶۰

۳-۲-۲- نتایج تجربی……………………………………………………………………………………………. ۶۱

۳-۳- فهرست لغات هر دسته…………………………………………………………………………………… ۶۴

۳-۳-۱- تشخیص هرزنامۀ¹ وب……………………………………………………………………………….. ۶۶

۳-۳-۲- تأثیرات تبعیضات……………………………………………………………………………………… ۶۷

۳-۴- عملکردهای بعدی ۶۸

چکیده

همانطور که می دانیم مجموع اطلاعات در دسترس روی وب بسیار زیاد می باشد و هر ساله شاهد  روندرو به رشد تصاعدی در مقدار اطلاعات روی صفحات وب می باشیم.

در حقیقت ،وب یک انبار بزرگ اطلاعات است و با یک بررسی اجمالی در میابیم که شمارش صفحات  قابل  دسترس  در وب در حدود یک میلیارد صفحه می باشد وچیزی در حدود  یک و نیم  میلیون صفحه  نیز  به طور روزانه اضافه می شوند. به عنوان مثال در حال حاضر سایت گوگل  بیشتر از  ۲/۴ میلیارد  صفحه را  جستجو  می کند.

این  مقدار هنگفت  اطلاعات  به اضافه طبیعت  فعل و انفعالی  و  پر  محتوای  وب  آنرا  بسیار  پر طرفدار کرده است. به علاوه  سازماندهی این صفحات امکان جستجوی آسان را نمی دهد.

 بنابراین  با توجه به رشد سریع وب گسترده جهانی  ( www ) بطوردائم نیازمند فراهم کردن یک روش  خودکار برای کار بران تقسیم بندی و طبقه بندی  صفحات وب می باشیم. در بخش نتیجه یک قاعده ، نتیجه ، دسته ای از پیش بینی های یک قانون است که پیش بینی کننده آنها را ثبت کرده است.به عنوان مثال این موضوع می تواند یک قانون باشد که:

 If <salary=high> and <mortgage=no> then <good credit>

اگر شما حقوق بالایی داشته باشید و هیچ رهن و قرضی هم نداشته باشید پس اعتبار بالایی دارید. این نوع ارایه اطلاعات نتایج جامع و کلی برای کاربر دارند. زیرا هدف عمومی نگهداری اطلاعات کشف و دستیابی به اطلاعات دقیق نیست بلکه ارایه اطلاعات عمومی و جامع به کاربران است.

در پروسه دسته بندی اهداف کشف قوانین از یک مجموعه اطلاعات پایه و آموزشی و بکار بردن این قوانین در یک مجموعه اطلاعات آزمایشی ( که در اطلاعات پایه دیده نشده ) و ارایه یک پیش بینی قابل قبول از دسته مجموعه آزمایشی است.

تقسیم بندی صفحات وب بطور مختصر

با رشد سریع جهان پهنه ی گسترده وب نیاز فزاینده ای به فعالیت های گسترده در جهت کمک به کاربران صفحات وب برای طبقه بندی و دسته بندی این صفحات وجود دارد.

این قبیل کمک ها که در سازمان دهی مقادیر زیاد  اطلاعات که با سیستم های جستجو در ارتباط هستند و یا تشکیل کاتالوگ هایی که تشکیلات وب را سامان دهی می کنند، بسیار مفید هستند. از نمونه های اخیر آن می توان یاهو و فرهنگ لغت looksmart (http://www.looksmart.com) که دارای کاربران زیادی هستند را نام برد.

 شواهد نشان می دهد که طبقه بندی نقش مهمی را در آینده سیستم های جستجو بازی می کند. تحقیقات انجام شده  نشان می دهد که کاربران ترجیح می دهند برای جستجو، از کاتولوگ های از پیش دسته بندی شده استفاده کنند.

از طرفی رسیدن به این قبیل نیاز های اساسی بدون تکنیک های خودکار دسته بندی صفحات وب و تحت ویرایش دستی و طبیعی توسط انسان بسیار مشکل است . زیرا با افزایش حجم اطلاعات طبقه بندی دستی بسیار وقتگیر و دشوار است.

در نگاه اول ، دسته بندی صفحات وب را می توان از برنامه های اداری دسته بندی متون مقتبس نمود.اگر بخواهیم در یک آزمایش ملموس تر به نتایج دقیق برسیم، راه حل مساله بسیار دشوار خواهد شد.

تقسیم بندی صفحات وب با استفاده از الگوریتم اجتماع مورچه ها

در این بخش هدف کشف کردن یک مجموعه  خوب  قوانین  تقسیم  بندی  به  منظور  رده بندی کردن صفحات وب بر اساس موضوعات آنهاست.

الگوریتم استفاده شده در این فصل الگوریتم اجتماع مورچه( اولین الگوریتم بهینه سازی اجتماع مورچه) برای کشف قوانین  تقسیم بندی  در زمینه ی  استخراج مضامین  وب می باشد. همچنین مزایا و معایب چندین تکنیک پیش پردازش متنی بر اساس زبان شناسی  را  به منظور کاهش مقدار  زیادی از علائم و نشان های به هم پیو سته با استفاده از استخراج مضامین وب بررسی می کند.

نگهداری صفحات وب بسیار چالش پذیر تر است.زیرا شامل متون غیر سازمان یافته و یا نیمه سازمان یافته بسیاری در صفحات وب یافت می شود. به علاوه تعداد زیادی از لغات و خصوصیات در رابطه با صفحات وب بالقوه موجود است . و یک تحلیل تئوری از الگوریتم مورچه (تحت یک نگاه بدبینانه) نشان می دهد که زمان محاسباتی شدیدا به مقدار توصیفات و خصوصیات حساس است.

پس استنباط اینکه این الگوریتم در رابطه با مجموعه داه هایی که در عمل خصوصیت های زیادی دارند  و همچنین در چالش با دنیای وب و نگهداری وب ها چگونه مقیاس بندی می کند ، از اهمیت فراوانی برخوردار است.

در آخر تحقیق در مورد اینکه تکنیک های مختلف جستجوی متون که توصیفات و خصوصیات آنها رو  به افزایش است ، چه تاثیری بر عملکرد الگوریتم خواهد گذاشت دارای اهمیت می باشد.

تقسیم بندی صفحات وب براساس ساختار پوشه ای

اخیرا در حجم داده های موجود در web یک افزایش نمایی وجود دارد. بر این اساس ، تعداد صفحات موجود در web  در حدود ۱ میلیارد است و روزانه تقریبا ۱.۵ میلیون به آن اضافه می شود. این حجم وسیع داده علاوه  بر تاثیرات متقابل ،وب رابه شدت مورد توجه عامه مردم قرار داده است.

در هر حال ، در مواردی چون اطلاعات ، محتویات و کیفیت تا حدود زیادی با یکدیگر تفاوت دارند. به علاوه ، سازمان این صفحات اجازه یک تحقیق ساده را نمی دهد. بنابراین ، یک روش دقیق و موثر برای  دسته بندی این حجم از اطلاعات برای بهره برداری از تمام قابلیت های وب بسیار ضروری است. این ضرورت مدت زیادی است که احساس شده است و رویکردهای مختلفی برای حل این مشکل پیشنهاد شده است.

برای شروع ، دسته بندی توسط متخصصین شبکه جهانی به صورت دستی انجام شد. اما خیلی سریع ، دسته بندی به صورت اتوماتیک ونیمه اتوماتیک در آمد.

تعدادی از رویکردهای مورد استفاده شامل دسته بندی متن بر اساس الگوریتم های آماری است ، رویکرد -Kنزدیکترین همسایه ، یادگیری قوانین القایی ، در خت های تصمیم ، شبکه های عصبی و ماشین های برداری پشتیبان ، از جمله این موارد می باشند. تلاش دیگری که در این زمینه صورت گرفت ، دسته بندی محتویات وب بر اساس ساختمانی وراثتی است.

به این پست رای بدهید
اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
خرید فایل
خرید فایل
وب‌سایت خرید فایل از سال 1395 شروع به فعالیت و ارائه خدمات به دانشجویان گرامی کرده است. البته فایل‌هایی که در این وب‌سایت به فروش می‌رسد، صرفاً به عنوان منبعی برای استفاده دانشجویان در تحقیق خود است و هرگونه سوءاستفاده از آنها، به عهده خود فرد می‌باشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

معادله امنیتی *محدودیت زمانی مجاز به پایان رسید. لطفا کد امنیتی را دوباره تکمیل کنید.