loading...
فایلینا
عباس بازدید : 566 سه شنبه 20 بهمن 1394 نظرات (0)
دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وب سایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی می کنیم
دسته بندی مهندسی نرم افزار
   
فرمت فایل doc
حجم فایل 377 کیلو بایت
تعداد صفحات فایل 157

پایان نامه کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرم افزار

روش جدید نگاشت کلمات کلیدی به مفاهیم و مکانیسمی برای بهبود نمایش کاربر در وب سایت

چکیده
گرانبار شدن اطلاعات یک مشکل عمده در وب کنونی به شمار می-رود. برای مقابله با این مشکل، سیستم های شخصی سازی وب ارائه شده اند که محتوا و سرویس های یک وب سایت را با افراد براساس علایق و رفتار گردشی آن ها سازگار می کنند. یک مولفه ی اساسی در هر سیستم شخصی سازی وب، مدل کاربر آن است. محتوای صفحات یک وب سایت را می توان به منظور ایجاد مدل دقیق تری از کاربر مورد استفاده قرار داد، اما رویکردهای مبتنی بر کلمات کلیدی نگرش عمیقی از وب سایت ندارند. اخیرا تحقیقاتی برای ترکیب کردن معنای موجود در وب سایت در نمایش کاربران آن انجام شده است.
تمامی این تلاش ها یا از یک رده بندی یا واژگان شناختی خاص و دست ساخته و یا از واژگان شناختی های عمومی مانند WordNet برای نگاشت مشاهده صفحات به عناصر معنایی استفاده می کنند. با این وجود ساختن یک سلسله مراتب از مفاهیم بصورت دستی زمان بر و هزینه بر است. از سوی دیگر منابع معنایی لغوی عمومی از پوشش کم عبارات خاص دامنه رنج می برند. در این پایان نامه ما قصد داریم که هر دوی این نقص ها را برطرف کنیم. دستاورد اصلی ما این است که مکانیسمی برای بهبود نمایش کاربر در وب سایت بصورت خودکار و با استفاده از یک منبع معنایی لغوی جامع معرفی می کنیم.
ما از Wikipedia، بزرگ ترین دایره المعارف امروزی به عنوان یک منبع غنی معنایی برای بهبود ساخت خودکار مدل برداری از علایق کاربر بهره برداری می کنیم. معماری ارائه شده شامل تعدادی مولفه است که عبارتند از: پیش پردازش اولیه، استخراج مفاهیم دامنه ی وب سایت، استخراج کلمات کلیدی از وب-سایت، سازنده ی بردار کلمات کلیدی و نگاشت کلمات کلیدی به مفاهیم. دستاورد مهم دیگر استفاده از ساختار وب سایت برای محدود کردن خودکار مفاهیم خاص دامنه می باشد. سرانجام، آخرین دستاورد آن یک روش جدید نگاشت کلمات کلیدی به مفاهیم است. ارزیابی های ما نشان می دهد که روش پیشنهادی همراه با منبع معنایی لغوی جامع آن کاربران را بصورت موثرتری نسبت به روش کلمات کلیدی و نیز روش های بر مبنای WordNet نمایندگی می کند.
کلمات کلیدی:

مدلسازی کاربر

کاوش Wikipedia

تکنیک های معنایی

شخصی سازی وب

نتایج حاصل از پروژه
مدل کاربر به عنوان یکی از اصلی ترین مولفه های سیستم شخصی سازی وب، اهمیت فراوانی دارد. چنانچه هر چه این مدل بصورت بهتری ساخته شود، توصیه هایی که بر مبنای آن انجام می شود دقیق تر و عمیق تر خواهد بود. هدف از انجام این پروژه ارائه ی روشی برای بهبود مدل کاربر در وب سایت با استفاده از معنای موجود در صفحات بصورت خودکار است و مطلوب است که مدل کاربر بصورت ضمنی (یعنی بدون دخالت مستقیم او) ساخته شود. برای این امر، از یک منبع معنایی لغوی غنی یعنی Wikipedia استفاده شد.
روش پیشنهادی از این قرار است که ابتدا مفاهیم دامنه ی سایت بصورت خودکار و با استفاده از URL صفحات از Wikipedia استخراج می شوند و سپس کلمات کلیدی صفحات مرور شده توسط کاربر با استفاده از Wikipedia بدست می آیند و از روی آن-ها بردار کلمات کلیدی ساخته می شود. در محاسبه ی وزن یک کلمه ی کلیدی در این بردار، مدت زمان صرف شده توسط کاربر بر روی صفحه ی متناظر با آن کلمه اثر مستقیم دارد. سپس کلمات کلیدی توسط مولفه ی نگاشت به مفاهیم حاصل از مرحله ی اول نگاشته می شوند. نتایج حاصل از ارزیابی نشان می دهد که روش پیشنهادی دقت و یادآوری بهتری نسبت به روش کلمات کلیدی و نیز استفاده از WordNet دارد
فهرست
1- مقدمه9
مقدمه13

1-1- دلایل نیاز به شخصی سازی وب13

1-1-1- گرانبار شدن اطلاعات13
1-1-2- نیاز به جذب مشتری پابرجای برای وب سایت14

1-2- تعریف شخصی سازی وب14

1-3- فواید سیستم شخصی سازی وب14

1-4- تفاوت شخصی سازی وب با تطبیق طرح کلی سایت15

1-5- طبقه بندی عملکردهای اصلی شخصی سازی وب15
1-6- نیازمندیهای اصلی سیستم شخصی سازی وب16

1-7- رویکرد های موجود در شخصی سازی وب17

1-8- نقش وب کاوی کاربرد وب در شخصی سازی وب18
1-9- نیاز به استفاده از محتوا در شخصی سازی وب19
1-10- نیاز به استفاده از معنا در شخصی سازی وب19
1-11- هدف پروژه21
1-12- نحوه ی گردآوری مراجع21
1-13- رویکرد بکار رفته در تحقیق21
1-14- ساختار پایان نامه22
مراجع22
2- مطالب پیش زمینه25
مقدمه25

2-1- شخصی سازی وب براساس وب کاوی کاربرد وب25

2-1-1- آماده سازی و مدلسازی داده28
2-1-1-1- منابع و انواع داده29
2-1-1-1-1- داده های کاربرد29
2-1-1-1-1-1- فرمت های ثبت30
2-1-1-1-1-2- منابع داده های کاربرد32
2-1-1-1-2- داده های محتوا36
2-1-1-1-3- داده های ساختار37
2-1-1-1-4- داده های کاربران37
2-1-1-2- آماده سازی و پیش پردازش داده ها38
2-1-1-2-1- پاکسازی داده ها38
2-1-1-2-2- شناسایی کاربر40
2-1-1-2-3- تشخیص مشاهده صفحه41
2-1-1-2-4- تشخیص جلسه ی کاربر42
2-1-1-2-5- تکمیل مسیر43
2-1-1-2-6- تشخیص تراکنش44
2-1-1-2-7- پیش پردازش نهایی داده های کاربرد46
2-1-1-2-8- یکپارچه سازی داده ها از منابع گوناگون47

2-1-2- کشف الگو از داده های کاربرد وب48

2-1-2-1- سطوح و انواع تحلیل48

2-1-2-2- وظایف داده کاوی بر روی داده های کاربرد وب49

2-1-2-2-1- کاوش قواعد انجمنی50
2-1-2-2-2- کشف الگوهای ترتیبی52
2-1-2-2-3- خوشه بندی57

2-1-3- استفاده از الگوهای کشف شده جهت شخصی سازی وب61

2-1-4- زمینه های تحقیقاتی شخصی سازی وب61
2-2- منابع معنایی لغوی63
2-2-1- فرهنگ لغت63
2-2-2- فرهنگ های جامع63
2-2-3- واژگان شناختی و رده بندی64
2-2-3-2- رده بندی67
2-2-3-3- واژگان شناختی ها و رده بندی های موجود67
2-2-3-3-1- واژگان شناختی های مربوط به یک دامنه ی خاص68
2-2-3-3-2- واژگان شناختی های عمومی68
2-2-3-3-2-1- CYC و OpenCYC68
2-2-3-3-2-2- WordNet68
2-2-3-3-2-3- دایرکتوری های وب70
2-2-3-4- زبان های نمایش واژگان شناختی71
2-2-4- فرهنگ های عمومی72
2-2-4-1- Wikipedia72
2-2-4-1-1- نقاط ضعف و قوت Wikipedia74
2-2-4-1-2- ساختار Wikipedia75

2-2-4-1-3- انواع اطلاعات معنایی لغوی در Wikipedia76

2-2-5- نتیجه گیری78
مراجع80

3- کارهای انجام شده در زمینه مدلسازی کاربر در شخصی سازی وب با استفاده از محتوای وب85

مقدمه85
3-1- تکنیک های مورد استفاده86
3-1-1- تکنیک tf-idf86
3-1-2- تکنیک تحلیل معنایی پنهان86
3-1-3- تکنیک های مربوط به محاسبه ی ارتباط معنایی دو کلمه87
3-1-3-1- معیارهای ارتباط معنایی مهم در ساختارهای سلسله مراتبی87
3-1-3-1-1- رویکردهای مبتنی بر مسیر88
3-1-3-1-2- رویکردهای مبتنی بر محتوای اطلاعات88
3-1-3-1-3- رویکردهای مبتنی بر همپوشانی متن89
3-1-3-2- رویکردهای محاسبه ی ارتباط معنایی دو کلمه برای روابط غیر رابطه ی هست89
3-1-3-3- کارهای انجام شده در مورد محاسبه ی ارتباط معنایی دو کلمه در Wikipedia90

3-2- رویکردهای انجام شده در زمینه ی مدلسازی کاربر در وب سایت با استفاده از محتوای صفحات91

3-2-1- رویکردهای بر مبنای کلمات کلیدی92
3-2-2- رویکردهای معنایی92
3-2-2-1- روش های آماری93
3-2-2-2- روش های مبتنی بر سلسله مراتب94
جمع بندی100
مراجع101
4- روش پیشنهادی106
مقدمه106
4-1- تعریف مساله106
4-2- طراحی روش جدید106
4-2-1- مولفه ی پیش پردازش اولیه ی ثبت107

4-2-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت107

4-2-3- مولفه ی استخراج مفاهیم دامنه از وب سایت111

4-2-4- مولفه ی سازنده ی بردار کلمات کلیدی113
4-2-5- مولفه ی نگاشت115
4-6- دیاگرام های UML قسمت های اصلی سیستم117
4-7- بررسی تطابق طرح پیشنهادی با صورت مساله117
جمع بندی119
مراجع119
5- جزئیات پیاده سازی121
مقدمه121
5-1- مولفه ی پیش پردازش اولیه ی ثبت121
5-1-2- نحوه ی دریافت ثبت وب سرور121
5-2- مولفه ی استخراج کلمات کلیدی از صفحات وب سایت123
5-3- مولفه ی استخراج مفاهیم دامنه از وب سایت125
5-4- مولفه ی سازنده ی بردار کلمات کلیدی125
5-5- مولفه ی نگاشت125
5-6- پیاده سازی آزمایشات125
جمع بندی126
مراجع126
6- ارزیابی روش پیشنهادی129
مقدمه129
6-1- مجموعه داده ها129
6-2- پارامترهای ارزیابی130
6-3- بررسی درستی مولفه های سیستم131
6-4- آزمایشات انجام شده131
6-4-1- سخت افزار مورد استفاده132
6-4-2- نتایج آزمایشات132
6-4-3- تحلیل نتایج آزمایشات132
جمع بندی133
مراجع133
7- نتیجه گیری و کارهای آینده136
مقدمه136
7-1- نتایج حاصل از پروژه136
7-2- دستاوردهای پروژه136
7-3- کارهای آینده137
مراجع139
واژه نامه145
فهرست شکل ها
شکل 2-1- مولفه های برون خطی آماده سازی داده و کشف الگو23
شکل 2-2- مولفه برخط شخصی سازی وب24
شکل 2-3- تراکنش HTTP25
شکل 2-4- URL و URI26
شکل 2-5- مکان های جمع آوری داده های کاربرد وب28
شکل 2-6- مثالی از مدل کردن رفتار گردشی کاربر با زنجیره ی مارکف51
شکل 2-7- مثالی از مدل کردن رفتار گردشی در یک درخت تجمعی53
شکل 2-8- مثالی از استخراج پروفایل های تجمعی کاربرد از خوشه های تراکنش ها55
شکل 2-9- بخشی از زمینه های تحقیقاتی شخصی سازی وب58
شکل 2-10- نمونه ای از واژگان شناختی61
شکل 2-11- نمونه ای از یک رده بندی63
شکل 3-1- استفاده از SVD برای تجزیه ماتریس D * T83
شکل 3-2- مفسر معنایی سیستم ESA87
شکل 3-3- ماتریس SESSION-PAGE VIEW89
شکل 3-4- تولید C-LOG93
شکل 4-1- معماری کلی سیستم پیشنهادی103
شکل 4-2- جزئیات مولفه ی استخراج کلمات کلیدی105
شکل 4-3- شبه کد مولفه استخراج کلمات کاندیدا106
شکل 4-4- شبه کد مولفه رتبه بندی کلمات کاندیدا106
شکل 4-5- جزئیات مولفه ی استخراج مفاهیم دامنه107
شکل 4-6- شبه کد بخش فیلتر کردن کاندیدا108
شکل 4-7- شبه کد مولفه سازنده بردار کلمات کلیدی110
شکل 4-8- شبه کد مولفه ی نگاشت111
شکل 4-9- CLASS DIAGRAM مولفه های اصلی سیستم113
شکل 4-10- SEQUENCE DIAGRAM بخش اصلی سیستم114
فهرست جدول ها
جدول 2-1- مثال هایی از ارتباطات لغوی در WORDNET66
جدول 2-2- منابع اطلاعات معنایی لغوی در WIKIPEDIA73
جدول 2-3- مقایسه ی انواع منابع معنایی لغوی جهت استفاده در شخصی سازی وب74
جدول 4-1- بردارهای کلمات کلیدی صفحات وب سایت مثال1110
جدول 4-2- بردارهای کلمات کلیدی جلسه ی داده شده در مثال1110
جدول 4-3- کلمات کلیدی و وزن های فرضی آنها در مثال 2112
جدول 4-4- مفاهیم موجود در صفحات جلسات کاربر به همراه وزن های آنها در مثال 2112
جدول 5-1- ساختار دستور CUSTOMLOG117
جدول 5-2- ساختار دستور LOGFORMAT117
جدول 6-1- نتایج آزمایشات انجام شده بر روی 100 جلسه ی تصادفی128
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • آرشیو
    آمار سایت
  • کل مطالب : 1201
  • کل نظرات : 24
  • افراد آنلاین : 131
  • تعداد اعضا : 5
  • آی پی امروز : 394
  • آی پی دیروز : 73
  • بازدید امروز : 1,147
  • باردید دیروز : 158
  • گوگل امروز : 0
  • گوگل دیروز : 2
  • بازدید هفته : 1,542
  • بازدید ماه : 1,542
  • بازدید سال : 21,406
  • بازدید کلی : 493,424
  • کدهای اختصاصی