تاثیر نویز بر داده کاوی

          عباس 
            بازدید : 526
          سه شنبه 31 فروردین 1395
           نظرات (0)
        

دانلود مقاله کارشناسی ارشد رشته هوش مصنوعی

تاثیر نویز بر داده کاوی

چکیده

در این تحقیق ایده ای برای داده کاوی در مورد پایگاه های داده نویزی که ممکن است توسط سیستم های آموزش ماشین ساخته شده باشد توضیح داده می شود. همچنین روشهایی برای تخمین توزیع احتمال پیوسته بدون نویز در حالتی که نویز مشاهده می شود. و همچنین احتمال شرطی ، که می تواند با استفاده از نمونه های آماری و آنالیز خطا تخمین زده شود بررسی می شود و همچنین آزمایشات مختلفی برای تست این ایده ها ارائه شده است توضیح داده می شود.

در قسمت بعد الگوریتمهایی برای آموزش نویزی از جمله الگوریتم PAC ارائه می گردد و در مورد توسعه آن نیز بحث می شود که تحت دو الگوریتم یادگیری ضعیف و قوی که قابل تعمیم به یکدیگر هستند مورد بررسی قرار می گیرد.در نهایت کاربردی از داده کاوی در محیط نویزی از جمله روشهایی داده کاوی در محیطهای نویزی برای از بین بردن نویز در صفحات وب بحث می گردد.

کلمات کلیدی:

داده کاوی

الگوریتم PAC

نویز در داده کاوی

پایگاه های داده نویزی

مقدمه

روشهای قدیمی داده کاوی شامل گستره وسیعی از ابزار و تکنیک ها بوده که برای آنالیز پایگاه های داده خیلی بزرگ در جهت کشف دانشهای مفید و همچنین دانشهایی که قبلاً مجهول بوده در داخل داده ها نهفته مورد استفاده قرار می گیرد. در اکثر این روشها فرض بر این است که پایگاه داده های موجود در ابعاد مناسب می باشد و نسبتاً بدون نویز می باشد. یعنی شرایط ایده آل برای داده کاوی کاملاً مهیا می باشد البته گاهی اوقات که داده ها دارای نویز می بود پاکسازی داده ها نیز برای حذف یا تصحیح بخشهای نسبتاً کوچکی از اطلاعات که دارای مقادیر اشتباه می باشد یا داده هایی که دارای تناقض هستند بکار می رفت.

بعبارت دیگر در برخورد با داده های خطا و یا ناقص آن داده ها حذف می گردید و آموزش با بعقیه داده های موجود بکار گرفته می شد که البته این روش مناسب نیست زیرا ممکن است داده های حذف شده داده های مهمی باشد و تاثیر زیادی در آموزش صحیح داشته باشد یا اینکه حتی داده های باقیمانده در اثر حذف داده های اشتباه به قدر کافی برای آموزش مناسب نباشد. البته مشکل بزرگتر آن است که برخی پایگاه های داده شامل داده هایی می باشد که به صورت ذاتی دارای نویز می باشد و قابل پاکسازی نمی باشد که یک مثال خوب از این مفاهیم ، پایگاه دادههایی است که توسط یکی (یا بیشتر) از الگوریتمهای یادگیری ماشین ساخته شده است. بنابراین بسیار مهم است که بتوان تاثیر نویز بر داده کاوی را درک کرد و آموزش را بر مبنای داده های اشتباه نیز به نحو صحیح انجام داد.

بسیاری از ایده های موجود در مورد داده کاوی بر مبنای اعمال تکنیک های بدون ناظر آموزش به داده های خیلی بزرگ برای کشف دانش ، الگوها و قوانین می باشد. مشکل عمومی یادگیری بدون ناظر استنتاج و یا حدس زدن جزئیات توزیع احتمال پیوسته می باشد . متغیر تصادفی X و نمونه های حاصل از N مشاهده در نظر گرفته می شود ( ) و با توجه به این تعریف ، هدف آموزشهای بدون نظارت بصورت تعریف جزئیات مفید چگالی پیوسته P(x) تعریف می شود.در این بخش ارتباط بین توزیع احتمال پیوسته که از خروجی پردازش نویزی بدست آمده در مقابل توزیع در محیطهای عاری از نویز بررسی می شود. بنابراین امید است که بتوان ایده های عمومی و همچنین یکسری محدودیت ها را برای حصول دانش از داده های نویزی بدست آورد و اهمیت اصلی بر روی داده های نویزی بدست آمده از الگوریتمهای یادگیری می باشد.

فهرست مطالب

چکیده1

1- مقدمه1

2- مدلها و ایده ها2

2-1- حالت عمومی3

3- آزمایش8

شکل 3. نتایج ساخت داده ها با استفاده از درخت تصمیم.14

4- کارهای وابسته14

5- مدل آموزش نویزی15

5-1- مدلهای آموزش20

5-1-1- مدلهای آموزشی قوی و ضعیف PAC20

5-1-2- طبقه بندی نویز و مدلهای خطای بدخیم23

6- پاکسازی نویز در وب26

6-2- كارهای مربوط27

6-3- تكنیك پیشنهادی27

6-3-1- مدل درخت DOM28

6-3-3- تعیین عنصر دارای نویز در ST30

6-4- كشف نویز31

7- نتیجه33

8- مراجع33

ادامه مطلب ...

داده کاوی و کاوش قوانین ارتباطی

          عباس 
            بازدید : 509
          شنبه 14 فروردین 1395
           نظرات (0)
        

دانلود پایان نامه رشته کامپیوتر

داده کاوی و کاوش قوانین ارتباطی

چکیده:

در دو دهه قبل توانایی های فنی بشر برای تولید و جمع آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند.

بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

به لحاظ اینکه در چند سال اخیر مبحث داده کاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرم افزار های آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.در این پایان نامه درفصل مروری بر داده کاوی خواهیم داشت . که به طور عمده به تاریخچه ، تعاریف، کاربردها وارتباط آن با انبار داده و OLAP خواهیم پرداخت. در پایان فصل مراحل فرایند کشف دانش از پایگاه داده ها را ذکر کردیم که داده کاوی یکی از مراحل آن است.در فصل 2 یکی از شیوه های داده کاوی که از سبد خرید گرفته شده است توضیح داده شده است . در این فصل به شرح قوانین ارتباطی خواهیم پرداخت که در آن بعد از دسته بندی الگوریتمها ، الگوریتم Apriori ( که یک الگوریتم پایه در این زمینه است ) و الگوریتم FP-Growth ( یک الگوریتم جدید میباشد) را با شرح یک مثال توضیح می دهیم و در آخر آن دو را با هم مقایسه می کنیم . در فصل 3 مباحث وب کاوی و متن کاوی را که در بسیاری از مراجع جزء کاربردهای داده کاوی به حساب می آید شرح داده خواهد شد.

کلمات کلیدی:

وب کاوی

متن کاوی

داده کاوی

دیتا ماینینگ

کاوش قوانین ارتباطی داده کاوی

مقدمه:

امروزه با گسترش سیستم‌های پایگاهی و حجم بالای داده‌های ذخیره شده در این سیستم‌ها، نیاز به ابزاری است تا بتوان داده‌های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.با استفاده از پرسش‌های ساده در SQL و ابزارهای گوناگون گزارش‌گیری معمولی، می‌توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه‌گیری در مورد داده‌ها و روابط منطقی میان آنها بپردازند. امّا وقتی که حجم داده‌ها بالا باشد، کاربران هرچند زبر دست و با تجربه باشند نمی‌توانند الگوها مفید را در میان حجم انبوه داده‌ها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است. از سوی دیگر، کاربران معمولاً فرضیه‌ای را مطرح می‌کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می‌پردازند، در حالی که امروزه نیاز به روشهایی است که اصطلاحاً به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و بصورت خودکار الگوها و رابطه‌های منطقی را بیان نمایند.

داده کاوی یکی از مهمترین این روشها است که به الگوهای مفید در داده‌ها با حداقل دخالت کاربران شناخته می‌شوند واطلاعاتی را در اختیار کاربران و تحلیل گران قرار می‌دهند تا براساس آن تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.اصطلاح داده کاوی زمانی بکار برده می‌شود که با حجم بزرگی از داده‌ها، در حد مگا یا ترابایت، مواجه باشیم. در تمامی منابع داده کاوی بر این مطلب تأکید شده است. هرچه حجم داده‌ها بیشتر و روابط آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکل تر می‌شود و نقش داده کاوی بعنوان یکی از روش های کشف دانش، روشن‌تر می‌گردد.داده کاوی بطور همزمان از چندین رشته علمی بهره می‌برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه‌های عصبی، آمار، الگو، سیستم‌های مبتنی بر دانش ، حصول دانش ، بازیابی اطلاعات ، محاسبات سرعت بالا و بازنمایی بصری داده .

فهرست مطالب

چکیده 2

فصل1: مقدمه ای بر داده کاوی 13

1-1 تعریف داده کاوی .15

2-1 تاریخچه داده کاوی 16

3-1 چه چیزی سبب پیدایش داده کاوی شده است؟ 17

4-1 اجزای سیستم داده کاوی .19

5-1 جایگاه داده کاوی در میان علوم مختلف 21

6-1 قابلیتهای داده کاوی .22

7-1 چرا به داده کاوی نیاز داریم؟ .23

8-1 داده کاوی چه کارهایی نمی تواند انجام دهد؟ 25

9-1 کاربردهای داده کاوی .25

1-9-1 کاربردهای پیش بینی کننده .27

2-9-1 کاربردهای توصیف کننده 27

10-1 ابزارهای تجاری داده کاوی .28

11-1 داده کاوی و انبار داده ها .29

1-11-1 تعاریف انبار داده 29

2-11-1 چهار خصوصیت اصلی انبار داده .30

3-11-1 موارد تفاوت انبار داده و پایگاه داده 31

12-1 داده کاوی و OLAP .33

1-12-1 OLAP .33

2-12-1 انواع OLAP .34

13-1 مراحل فرایند کشف دانش از پایگاه داده ها .34

1-13-1 انبارش داده ها 35

2-13-1 انتخاب داده ها 36

3-13-1 پاکسازی- پیش پردازش- آماده سازی 36

4-13-1 تبدیل داده ها 36

5-13-1 کاوش در داده ها (Data Mining) .37

6-13-1 تفسیر نتیجه 38

فصل 2: قوانین ارتباطی .39

1-2 قوانین ارتباطی 40

2-2 اصول پایه .41

1-2-2 شرح مشکل جدی .41

2-2-2 پیمایش فضای جستجو .43

3-2-2 مشخص کردن درجه حمایت مجموعه اقلام .45

3-2 الگوریتمهای عمومی 45

1-3-2 دسته بندی 45

2-3-2 BFS و شمارش رویداد ها .46

3-3-2 BFS و دونیم سازی TID-list .47

4-3-2 DFS و شمارش رویداد 47

5-3-2 DFS و دو نیم سازی TID-list 48

4-2 الگوریتم Apriori 48

1-4-2 مفاهیم کلیدی .48

2-4-2 پیاده سازی الگوریتم Apriori 49

3-4-2 معایب Apriori و رفع آنها .54

5-2 الگوریتم رشد الگوی تکرارشونده 55

1-5-2 چرا رشد الگوی تکرار سریع است؟ .58

6-2 مقایسه دو الگوریتم Apriori و FP-growth 59

7-2 تحلیل ارتباطات 63

فصل 3: وب کاوی و متن کاوی .65

1-3 وب کاوی .66

1-1-3 الگوریتمهای هیتس و لاگسام .69

2-1-3 کاوش الگوهای پیمایش مسیر 76

2-3 متن کاوی .90

1-2-3 کاربردهای متن کاوی .92

1-1-2-3 جستجو و بازیابی 95

2-1-2-3 گروه بندی و طبقه بندی 97

3-1-2-3 خلاصه سازی 99

4-1-2-3 روابط میان مفاهیم .101

5-1-2-3 یافتن و تحلیل گرایشات

6-1-2-3 برچسب زدن نحوی (pos) .

7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک .107

2-2-3 فرایند متن کاوی .

3-2-3 روشهای متن کاوی .110

مراجع .116

فهرست اشکال

1-1 مراحل فرایند کشف دانش 17

2-1 سیر تکاملی صنعت پایگاه داده 19

3-1 معماری یک نمونه سیستم داده کاوی .20

4-1 نرخ رشد اطلاعات .24

5-1 کاربرد پیش بینی کننده 27

6-1 داده ها از انبار داده ها استخراج می گردند 32

7-1 داده ها از از چند پایگاه داده استخراج می گردند 32

1-2 شبکه‌ای برای .

3-2 دسته بندی الگوریتمها 46

4-2 پایان الگوریتم Apriori 52

5-2 درخت الگوی تکرار 57

6-2 اندازه گیری کارکرد درجه حمایت برای پایگاه داده D1 40K 61

7-2 اندازه گیری Apriori با درجه حمایت/تراکنش .62

8-2 اندازه گیری FP-growth با درجه حمایت/تراکنش 62

1-3 مقداردهی اولیه الگوریتم HITS 72

2-3 مثالی از الگوهای پیمایش .80

3-3 فرایند متن کاوی .86

4-3 مثال یافتن روابط .88

فهرست جداول

1-2 کاوش FP-tree با ایجاد پایگاه های الگوشرطی .58

2-2 پارامترها .59

3-2 نتایج برای فاکتور درجه حمایت 5% 60

4-2 نتایج برای D1 150K با درجه حمایت .61

1-3 تراکنش های توصیف شده توسط مجموعه ای از URLها .75

2-3 نمایش URLها به عنوان بردارهایی از فعالیت گروه تراکنش 75

3-3 یک SOM مرسوم که توسط توصیف URLها تولید شده است 76

گزارش تخلف برای داده کاوی و کاوش قوانین ارتباطی

ادامه مطلب ...

متن کاوی و ارزیابی مهمترین متد های متن کاوی

          عباس 
            بازدید : 203
          پنجشنبه 15 بهمن 1394
           نظرات (0)
        

متن کاوی و ارزیابی مهمترین متد های متن کاوی

چکیده

رشد فزاینده پایگاه داده ها در تقریبا هر ناحیه از فعالیت انسان باعث شده است که نیاز برای ابزارهای قدرتمند جدید برای تغییر دادن داده به دانش مفید افزایش یابد. برای برآوردن این نیاز محققان در ناحیه های مختلف مانند یادگیری ماشین ، شناسایی الگو، آنالیز داده آماری، بصری سازی داده ، شبکه های عصبی، اقتصاد سنجی، بازیابی اطلاعات، استخراج اطلاعات و..... روش ها و ایده هایی را کاوش کرده اند. ذات غیرساخت یافته ی این متون، اعمال همان روشهایی را که ما در مورد پایگاه داده های غیرمتنی بکار می بریم، غیر ممکن می سازد. بنابراین روش ها و الگوریتم-های پردازش (پیش پردازش)خاصی برای استخراج الگوهای مفید موردنیاز است. متن کاوی اطلاعات متنی غیرساختیافته را استفاده می کند و آنرا برای کشف ساختار و معناهای ضمنی پنهان در متن بررسی می کند.

در این مقاله ما به بررسی یکی از جدیدترین زمینه-های مورد تحقیق در داده کاوی، متن کاوی می پردازیم. در این مقاله روش های موجود برای پیش پردازش کردن، رده بندی ، استخراج اطلاعات ، روش های یافتن روابط شرح داده می شوند در پایان هر بخش ارزیابی و مقایسه ای روی روش های بیان شده در آن بخش صورات می-گیرد و در پایان تعدادی از کاربردهای متن کاوی بیان می گردند.

کلمات کلیدی:

متن کاوی

داده کاوی

استخراج اطلاعات

یکپارچه کردن داده کاوی

دسته بندی و مرتب سازی داده ها

مقدمه

بخش قابل توجهی از اطلاعات قابل دسترس در پایگاه داده های متنی (یا پایگاه داده های سند ) كه شامل مجموعه بزرگی از اسناد منابع مختلف (مثلا مقالات خبری، paperها، كتاب ها، ایمیل ها و صفحات وب) ذخیره شده اند. پایگاه داده های متنی به علت افزایش مقدار اطلاعات موجود به فرم الكترونیكی سریع رشد می كنند. امروزه بیشتر اطلاعات در صنعت، کسب و کار و سازمان های دیگر به صورت الكترونیكی و به فرم پایگاه داده متنی ذخیره شده اند. داده های ذخیره شده در بیشتر پایگاه داده های متنی، داده های نیمه ساختاریافته هستند چون نه به طور كامل غیرساختیافته هستند و نه به طور كامل ساختیافته هستند.

برا ی مثال یك سند شامل تعدادی فیلد ساختیافته مانند عنوان، نویسندگان، تاریخ انتشار، رده و ..... و از طرف دیگر شامل برخی كامپوننت های متنی غیرساختاریافته مانند چكیده و محتویات است. تكنیك های بازیابی اطلاعات مانند (متدهای ایندکس کردن متن ) برای هندل كردن سندهای غیر ساختاریافته ایجاد شده اند. تكنیك های بازیابی اطلاعات قدیمی برای مقدار زیادی داده متنی كه به طور فزاینده افزایش می یابند، ناكارآمد هستند. بدون دانستن محتویات سندها، فرمول بندی كردن Queryهای مناسب برای آنالیز كردن و استخراج كردن اطلاعات مفید از داده، مشكل است.

كاربرها نیاز به ابزارهایی برای مقایسه سندهای مختلف، مرتب كردن سندها بر اساس موبوط بودن آن ها و یافتن الگوها دارند. بنابراین یکی از جدیدترین زمینه های مورد تحقیق در داده کاوی، متن کاوی برای این منظور گسترش یافت. متن کاوی یعنی جستجوی الگوها در متن غیرساختیافته. متن کاوی برای کشف اتوماتیک دانش مورد علاقه یا مفید از متن نیمه ساختیافته استفاده می شود. چندین تکنیک برای متن کاوی پیشنهاد شده است عبارتند از ساختار مفهومی ،کاوش association ruleها درخت تصمیم گیری، روش های استنتاج قوانین ، همچنین تکنیک های بازیابی اطلاعات برای کارهایی مانند تطبیق دادن سندها، مرتب کردن کردن، کلاسترینگ و.....

فهرست مطالب

چکیده 3

1 مقدمه3

1.1 کشف دانش و ارتباط آن متن کاوی5

2.1 تعاریف متن کاوی5

3.1 ناحیه های سرچ مرتبط6

2 روش ها پیش پردازش کردن متون7

1.2 مدل فضای برداری9

2.2 پیش پردازش زبان شناختی10

3 روش های متن کاوی ...10

1.3 فازهای اصلی فرآیند کتن کاوی...11

2.3 رده بندی ...12

1.2.3 انتخاب ترم ایندکس12

2.2.3 رده کننده Naïve Bayes12

3.2.3 رده بندی کننده نزدیکترین همسایه13

4.2.3 درخت تصمیم گیری14

5.2.3 متدهای هسته و SVM14

6.2.3 ارزیابی رده بندی کننده ها15

3.3 استخراج اطلاعات16

1.3.3 رده بندی برای استخراج اطلاعات16

2.3.3 مدل مارکوف پنهان17

3.3.3 فیلدهای رندم شرطی17

4.3.3 مقایسه روش های استخراج اطلاعات18

2.2 پیش پردازش زبان شناختی18

4.3 روش ها ترکیبی18

1.4.3 روش های dicsotex18

1.1.4.3 مقدمه19

2.1.4.3 یکپارچه کردن داده کاوی و استخراج اطلاعات19

3.1.4.3 سیستم dicsotex19

2.4.3روش textminer21

1.2.4.3 مقدمه21

2.2.4.3 استخراج اطلاعات22

3.2.4.3 الگوریتم خوشه بندی23

3.4.3 یافتن روابط25

4.4.3 مقایسه روش های ترکیبی26

4 کاربردهای متن کاوی26

5 نتیجه گیری و کارهای آینده27

6 مراجع28

http://googleshop.fileina.com/product-31230-متن-کاوي-و-ارزيابي-مهمترين-متد-هاي-متن-کاوي.aspx

ادامه مطلب

ادامه مطلب ...

بررسی طبقه بندی جریان داده ها در یک محیط پویا و کاربرد عامل و سیستمهای چندعامله در داده کاوی

          عباس 
            بازدید : 133
          چهارشنبه 14 بهمن 1394
           نظرات (0)
        

پایان نامه کارشناسی ارشد رشته مهندسی نرم افزار با عنوان

بررسی طبقه بندی جریان داده ها در یک محیط پویا و کاربرد عامل و سیستمهای چندعامله در داده کاوی

*پاورپوینت همین پایان نامه با 53 اسلاید بصورت رایگان ضمیمه شده است:)-

چکیده

امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهره گیری از روشهایی همچون داده کاوی برای استخراج دانش و اطلاعات نهفته در داده ها، امری غیرقابل اجتناب می باشد. بدلیل حجم بسیار بالای داده ها در بسیاری از کاربردها و اهمیت بیشتر داده های جدید، ذخیره سازی این داده ها امری مقرون به صرفه نیست، لذا داده هایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث داده کاوی وجود دارد، بحث توزیع شدگی ذاتی داده ها است. معمولا پایگاههایی که این داده ها را ایجاد یا دریافت می کنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود می باشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.

با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر می رسد که بتوان از قابلیتهای آنها برای داده کاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهره-گیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در داده کاوی، بحث طبقه بندی جریان داده ها را در یک محیط پویا مورد بررسی قرار دهیم.

ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای داده کاوی در یک محیط پویا و توزیع شده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقه بندی جریان داده های دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقه بندی جریان داده های توزیع شده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایان نامه نشان دهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقه بندی و داده کاوی در محیطهای پویا و توزیع شده می باشد.

کلمات کلیدی:

داده کاوی

جریان داده

معماری BDI

عاملها و سیستمهای چندعامله

طبقه بندی جریان داده ها در یک محیط پویا

استخراج دانش و اطلاعات نهفته در داده ها

مقدمه ای بر داده کاوی

داده کاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه داده های موجود می باشد[38]. داده کاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. می توان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین داده های فعلی و پیش بینی موارد نامعلوم و یا مشاهده نشده عمل می کند. برای انجام عملیات داده کاوی لازم است قبلا روی داده های موجود پیش پردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصه سازی و کلی سازی داده ها تشکیل شده است.

کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از داده های اولیه، که تحت عملیات داده کاوی نتایج تقریبا یکسانی با نتایج داده کاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصه سازی و کلی سازی داده ها می رسد. داده-های موجود در بانک های اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصه سازی مجموعه بزرگی از داده ها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلی سازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای داده کاوی به سه دسته کلی تقسیم می شوند که عبارتند از خوشه بندی، طبقه-بندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی می نماییم.

فهرست مطالب

1. فصل اول - معرفی و آشنایی با مفاهیم اولیه1

1-1- مقدمه ای بر داده کاوی2

1-1-1- خوشه بندی3

1-1-2- کشف قواعد وابستگی4

1-1-3- طبقه بندی4

1-1-3-1- طبقه بندی مبتنی بر قواعد5

1-2- داده کاوی توزیع شده7

1-3- عاملها و سیستمهای چندعامله8

1-3-1- عامل8

1-3-1-1- مقایسه عامل با شی9

1-3-1-2- معماری عاملها11

1-3-1-3- معماری BDI12

1-3-2- سیستم های چندعامله14

1-3-2-1- مذاکره17

1-4- بهره گیری از عامل برای داده کاوی19

1-4-1- سیستم های چندعامله، بستری برای داده کاوی توزیع شده19

1-5- جمع بندی22

2. فصل دوم - داده کاوی پویا23

2-1- مقدمه ای بر داده کاوی پویا24

2-2- جریان داده25

2-3- طبقه بندی جریان داده26

2-3-1- موضوعات پژوهشی27

2-4- جمع بندی31

3. فصل سوم - مروری بر کارهای انجام شده33

3-1- مقدمه34

3-2- داده کاوی توزیع شده ایستا35

3-2-1- روشهای غیرمتمرکز36

3-2-2- روشهای مبتنی بر توزیع ذاتی داده ها37

3-3- کارهای مهم انجام شده در زمینه داده کاوی با استفاده از عامل38

3-4- کارهای انجام شده در زمینه طبقه بندی جریان داده ها41

3-4-1- روشهای طبقه بندی Ensemble-based41

3-4-2- درختهای تصمیم بسیار سریع43

3-4-3- طبقه بندی On-Demand46

3-4-4- OLIN48

3-4-5- الگوریتمهای LWClass49

3-4-6- الگوریتم ANNCAD51

3-4-7- الگوریتم SCALLOP51

3-4-8- طبقه بندی جریان داده ها با استفاده از یک روش Rule-based53

3-5- جمع بندی54

4. فصل چهارم - تعریف مساله55

4-1- مقدمه56

4-2- تعریف مساله برای فاز اول56

4-2-1- جریان داده57

4-2-2- مفهوم یا مدل موجود در جریان داده57

4-2-3- مساله طبقه بندی جریان داده های دارای تغییر مفهوم57

4-3- تعریف مساله برای فاز دوم59

5. فصل پنجم - رویکردهای پیشنهادی62

5-1- مقدمه63

5-2- رویکرد پیشنهادی برای فاز اول پروژه63

5-2-1- عامل و ویژگیهای آن در این مساله64

5-2-2- عملکرد کلی عامل65

5-2-3- معماری عامل66

5-2-3-1- حسگرها 67

5-2-3-2- پایگاه دانش عامل68

5-2-3-3- تابع ارزیابی محیط70

5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده70

5-2-3-3-2- نحوه استخراج الگوهای recur70

5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur73

5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص74

5-2-3-4- تابع سودمندی75

5-2-3-5- بخش تصمیم گیری و Planning79

5-2-3-5-1- بخش تصمیم گیری79

5-2-3-5-2- Planning83

5-2-3-6- بخش Action86

5-3- رویکرد پیشنهادی برای فاز دوم مساله87

5-3-1- عاملهای مشتری88

5-3-2- عامل صفحه زرد90

5-3-3- عاملهای داده کاو91

5-3-3-1- معماری عاملهای داده کاو92

5-3-3-1-1- تابع BRF94

5-3-3-1-2- تابع Generate Options95

5-3-3-1-3- تابع فیلتر95

5-3-3-1-4- بخش Actions96

5-3-3-1-5- Plan های عامل97

5-3-3-1-5- 1- Plan مربوط به طبقه بندی97

5-3-3-1-5-2- Plan مربوط به تطبیق طبقه بند 98

5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره101

5-4- جمع بندی111

6. فصل ششم - آزمایشات و نتایج113

6-1- مقدمه114

6-2- محیط عملیاتی114

6-3- مجموعه داده های مورد استفاده116

6-3-1- مجموعه داده های استاندارد116

6-3-2- مجموعه داده های واقعی117

6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه117

6-5- آزمایشات انجام شده118

6-5-1- آزمایشات مربوط به فاز اول119

6-5-2- آزمایشات مربوط به فاز دوم128

6-6- جمع بندی130

7. فصل هفتم- جمع بندی و نتیجه گیری132

فهرست مراجع136

فهرست اشکال

شکل 1-1- معماری BDI در عامل15

شکل 3-1- درخت تحقیق مربوط به طبقه بندی در مبحث داده کاوی34

شکل 3-2- طبقه بندی مبتنی بر Ensemble.44

شکل 3-3- چارچوب روش On-Demand47

شکل 3-4- نمایی از سیستم OLIN49

شکل 3-5- پروسه SCALLOP53

شکل 5-1- نمودار ترتیب عملکرد عامل پیشنهادی66

شکل 5-2- معماری عامل پیشنهادی67

شکل 5-3- پنجره نظاره بر روی جریان داده ها68

شکل 5-4- گراف ایجاد شده از روی رشته مفهوم ها71

شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهوم ها73

شکل 5-6- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K81

شکل 5-7- شبه کد Plan کلی عامل83

شکل 5-8- نسبت واریانس به حاصلضرب 50 متغیر دارای مجموع ثابت85

شکل 5-9- وزن دهی چند داده مختلف86

شکل 5-10- نمایی کلی از سیستم چندعامله ایجاد شده88

شکل 5-11- معماری BDI عامل داده کاو93

شکل 5-12- بخشی از جریان داده و قواعد استخراج شده از آن99

شکل 5-13- بخشی از جریان داده و قواعد استخراج شده از آن101

شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka115

شکل 6-2- زمان لازم بر حسب میلی ثانیه برای داده های Stagger 120

شکل 6-3- زمان مصرف شده برای تطبیق طبقه بند120

شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای داده های HyperPlan 121

شکل 6-5- زمان مصرف شده برای تطبیق طبقه بند 121

شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای داده های Nursery 122

شکل 6-7- زمان مصرف شده برای تطبیق طبقه بند برای داده های Nursery 122

شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124

شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 124

شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 125

شکل 6-11- زمان مصرف شده برای تطبیق طبقه بند برای داده های HyperPlan 125

شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger 126

شکل 6-13- زمان مصرف شده برای تطبیق طبقه بند برای داده های Stagger 126

شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery 127

شکل 6-15- زمان مصرف شده برای تطبیق طبقه بند برای داده های Nursery 127

شکل 6-16- نمودار نتایج حاصل از طبقه بندی توزیع شده مجموعه داده Nursery 130

فهرست جدولها

جدول 1-1- ویژگیهای یک عامل 11

جدول 3-1- ماتریس حاصل از روش LWClass51

جدول 3-2- مقایسه تکنیکهای ذکر شده54

جدول 5-1- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو69

جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی "CFDA"75

جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل81

جدول 5-4- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده105

جدول 6-1- دقت طبقه بندی روشهای مختلف128

جدول 6-2- نتایج حاصل از طبقه بندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف130

http://googleshop.fileina.com/product-31190-بررسي-طبقه-بندي-جريان-داده-ها-در-يک-محيط-پويا-و-کا.aspx

ادامه مطلب ...

پایان نامه کارشناسی ارشد مهندسی نرم افزار با عنوان داده کاوی،ترتیب و گروه سازی داده ها با استفاده ا

          عباس 
            بازدید : 329
          چهارشنبه 14 بهمن 1394
           نظرات (0)
        

پایان نامه کارشناسی ارشد مهندسی نرم افزار با عنوان

داده کاوی،ترتیب و گروه سازی داده ها با استفاده از روش ماشین‎های بردار پشتیبان (SVM)

چکیده:

داده کاوی یکی از شاخه های مطرح علمی است که در سالهای اخیر توسعه فراوانی یافته است. بنابر گزارش دانشگاه MIT، دانش نوین داده کاوی یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. دسته بندی داده ها، از مهمترین مباحث مطرح در داده کاوی است. در خصوص دسته بندی داده ها روش های گوناگونی ارائه گردیده است که ماشین بردار پشتیبان(SVM) از مهمترین آنها است و از آنجایی که بر مبنای فرمول-بندی ریاضیاتی است از دقت و خاصیت تعمیم بیشتری نسبت به سایر روش های دسته بندی برخوردار است. این پایان نامه به داده کاوی،ترتیب و گروه سازی داده ها با استفاده از روش ماشین‎های بردار پشتیبان (SVM)می پردازد.

ابتدا مقدمه و برخی از مباحث مورد نیاز در SVM مطرح می گردد. سپس اصول و پایه های دسته بندی داده های دو دسته ای به روش SVM مطرح می گردد و همچنین انواع روش-های SVM به همراه مثال ارائه می گردد. بعلاوه یک مثال واقعی از کاربرد روش SVM در دسته بندی داده های دو دسته ای ارائه خواهد شد. در ادامه نیز برخی از روش های دسته بندی برای داده های چند دسته ای مطرح می گردد. درپایان با ورود به بحث نادقیقی داده ها، و در نظر گرفتن دو حالت برای داده های فازی، روش هایی برای دسته بندی این داده ها عنوان می گردد. بعلاوه با درنظر گرفتن یک پارامتر فازی در فرمول بندی روش SVM به ارائه راه حل پرداخته می شود. در خاتمه یک مثال کاربردی برای داده های فازی مطرح می گردد. ضمنا بخش هایی که با علامت * مشخص شده است حاصل پژوهش های مولف می باشد.

کلمات کلیدی:

SVM

داده کاوی

دسته بندی داده ها

ماشین‎های بردار پشتیبان

تاریخچه داده کاوی

در طول دهه های گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها ، حجم داده های ثبت شده بطور متوسط هر پنج سال دو برابر می شود. در این میان سازمان هایی موفق هستند که بتوانند حداقل 7% داده هایشان را تحلیل کنند. تحقیقات انجام یافته نشان می دهد که سازمان ها کمتر از 1% داده هایشان را تحلیل می کنند. به عبارت دیگر در حالی که غرق در اطلاعات می-باشند، تشنه دانش هستند[50].بنابر گزارش دانشگاه MIT دانش نوین داده کاوی یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی، امروزه دارای کاربردهای وسیعی در حوزه های مختلف است، به گونه ای که امروزه حد و مرزی برای کاربرد این دانش درنظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوس ها تا اعماق فضا می دانند [50].

مفهوم داده کاوی برای نخستین بار در سال 1989 و در کنار کنفرانس هوش مصنوعی توسط پیاتتسکی شاپیرو و در شهر دترویت معرفی شد. در سال 1991 نیز کارگاه های کشف دانش از پایگاه داده ها، توسط پیاتتسکی و همکارانش برگزار گردید. همچنین در فاصله سال-های 1991 تا 1994 کارگاه هایی در این خصوص توسط فیاد و دیگران برگزار شد و در سال 1996 اولین شماره مجله کشف دانش از پایگاه داده ها منتشر شد. از آن زمان تاکنون کنفرانس های سالانه منظمی در خصوص داده کاوی و کشف دانش برگزار گردیده است. دانش داده کاوی که نام آن از استخراج معدن گرفته شده است با زدودن متعلقات غیرضروری داده ها و استخراج روابط سودمند از آنها، روابط پیچیده بین داده ها را آشکار کرده و راه را جهت تصمیم گیری هموار می سازد.

فهرست مطالب

1-فصل اول:مقدمه و پیشنیازها .1

1-1 مقدمه 2

1-1-1 تاریخچه داده-کاوی .2

1-1-2تعریف داده-کاوی 2

1-1-3 کاربردهای داده-کاوی .3

1-1-4 دسته بندی داده-ها .4

1-2 مطالبی از مطالبی از حساب دیفرانسیل، جبرخطی و تحقیق در عملیات 5

1-3 نظریه مجموعه های فازی 10

1-4 مطالبی از نظریه بازی-ها 13

1-4-1 تاریخچه نظریه بازی 13

1-4-2 نظریه بازی-ها .14

1-4-3 بازی های ماتریسی .17

2- فصل دوم:روش SVM برای دسته بندی داده های دو دسته ای 20

2-1 مقدمه 21

2-2 روش ابتدایی SVM برای دسته بندی داده های دودسته ای جدایی پذیر خطی 21

2-3 روش SVM بر اساس نرم L1 برای دسته بندی داده های دودسته-ای .30

2-4 روش SVM بر اساس فرم L2 برای دسته بندی داده های دودسته ای 38

2-5 روش MCQP: مدل جدیدی برای دسته بندی داده های دو دسته ای بر مبنای روش SVM .43

2-6 روش SVM استاندارد 54

2-7 پیش بینی بحران مالی در شركت های پذیرفته شده در بورس اوراق بهادار تهران بوسیله روش MCQP 59

3-فصل سوم:روش SVM برای دسته بندی داده های چند دسته-ای 63

3-1 مقدمه 64

3-2 روش OSVM برای دسته بندی داده های چند دسته-ای .64

3-3 روش PSVM برای دسته بندی داده های چند دسته-ای 68

3-4 روش LP- PSVM برای دسته بندی داده های چند دسته-ای .72

3-5 روشی برای تصمیم گیری در مورد داده های دسته بندی نشده .75

4-فصل چهارم:روش SVM برای دسته بندی داده های فازی .78

4-1 مقدمه 79

4-2 روش FSVM بر اساس نرم L1 برای دست بندی داده های دو دسته-ای .80

4-3 روش FMCQP برای دسته بندی داده های دو دسته-ای .84

4-4 روش FSVM استاندارد برای دسته بندی داده های دو دسته-ای 88

4-5 روش SVM برای دسته بندی داده های فازی دو دسته ای جدایی پذیر خطی .92

4-6: روش L1_SVM برای دسته بندی داده های فازی .95

4-7 روش L1_SVM با ضریب اهمیت فازی برای خطای دسته بندی داده-ها .97

4-8 پیش بینی بحران مالی درشركت های پذیرفته شده در بورس اوراق بهادار تهران بوسیله روش FMCQP .101

نتیجه گیری و فعالیت های پیش-رو .104

مراجع .108

ضمیمه 1 .110

ضمیمه 2 .122

ضمیمه 3 .123

واژه نامه فارسی به انگلیسی 125

واژه نامه انگلیسی به فارسی 130

http://googleshop.fileina.com/product-31191-مرتب-سازي-داده-ها-با-استفاده-از-SVM.aspx

ادامه مطلب ...

مقاله ترجمه شده با عنوان یک روش داده کاوی برای ارزیابی آموزش، در آموزش مبتنی بر شبیه سازی

          عباس 
            بازدید : 217
          یکشنبه 04 بهمن 1394
           نظرات (0)
        

مقاله ترجمه شده رشته مهندسی فناوری اطلاعات و کامپیوتر با عنوان یک روش داده کاوی برای ارزیابی آموزش، در آموزش مبتنی بر شبیه سازی

عنوان انگلیسی :

A data mining approach for training evaluation ‎in simulation-basedtraining

دانلود مقاله اصلی

رویکردی پژوهشی بر:‏

یک روش داده کاوی برای ارزیابی آموزش، در آموزش مبتنی بر شبیه سازی

‏*مرکز پژوهشی سیستم های هوانوردی،مؤسسه ی علوم و تکنولوژی چوانگ-شان، تایوان*‏

‏*مؤسسه ی مدیریت تکنولوژی، دانشگاه ملی چوانگ، تایوان*‏

چکیده :

به توجه به رشد قابل ملاحظه ای که در حوزه ی کامپیوتر صورت گرفته است، پروسه‌ی شبیه سازی نیز به یکی از ابزار های ‏آموزشی تجربی کارآمد و واقعی مبدل گشته است که نقشی کمک کننده در آموزش سازمانی دارد. اگرچه آموزش مبتنی بر ‏شبیه سازی می‌تواند بهره وری آموزش را برای کارکنان یک شرکت بهبود دهد، ولی چالش های پژوهشی زیادی در این ‏خصوص وجود داشته که باید بر آن‌ها غلبه کرد. در این مقاله قصد داریم چارچوبی ترکیبی را به‌منظور ادغام تکنیک های ‏داده کاوی با آموزش مبتنی بر شبیه سازی ارائه داده تا بتوان بهره وری ارزیابی آموزش را افزایش داد. مفهوم آموزش مبتنی ‏بر اطمینان ‏ در پروسه‌ی یادگیری فراگیران بکار گرفه شده که از دو سطح مهارت/دانش و سطح اطمینان بهره میبرد. تکنیک ‏های داده کاوی به‌منظور تحلیل پروفایل فراگیران و داده های ایجاد شده از آموزش مبتنی بر شبیه سازی مورد تحلیل قرار ‏گرفته تا بتوان کارانی فراگیران و دانش جویان و رفتار های یادگیری آن‌ها را مورد ارزیابی قرار داد. متدلوژی پیشنهادی، به ‏همراه یک مثال واقعی از آموزش تیر اندازی پیاده نظام در تایوان ارائه خواهد شد. نتایج نشان میدهد که متدلوژی پیشنهادی ‏می‌تواندبه‌صورت صحیحی اقدام به ارزیابی کارانیفراگیران و رفتار های یادگیری آن‌ها نموده و می‌تواند دانش مربوط به بهود ‏نتایج یادگیری را به همراه داشته باشد.‏

واژگان کلیدی:

داده کاوی

شبیه سازی

ارزیابی آموزش

سیستم های چند رسانه ای

مقدمه :

با توجه به روند رو به رشد پیچیدگی و محیط های شغلی، کارکنان سازمان ها نه‌تنها باید دارای مهارت ها و ‏دانش حرفه ای موردنیاز کاری خود باشند، بلکه باید در فراگیری دانش جدید برای استفاده در محیط های متغیر ‏انعطاف پذیر باشند. به‌منظور توسعه ی این تخصص انطباقی، فراگیران باید در پروسه‌ی یادگیری فعال بوده و این ‏پروسه نیز باید در ماهیت معنادار و مربوطه ای صورت گیرد(بلی و کوزوالکی 2002).‏

با توجه به رشد قابل ملاحظه ی تکنولوژی های کامپیوتری، شبیه سازی به یک ابزار یادگیری تجربی کارآمد و ‏واقعی به‌منظور کمک به آموزش سازمان بکار گرفته شده است(بل، کانال و کوزوالکی 2008). شبیه سازی را ‏می‌تواند به عنوان محیطی مصنوعی تعریف کرد که برای مدیریت تجارب افراد از واقعیت ایجاد شده است(بل ‏‏2008). آموزش مبتنی بر شبیه سازی (‏SBT‏)‏ ‏ را می‌تواند توانایی استدلال، جایگزینی، ایجاد و/یا مدیریت ‏تجارب واقعی فراگیران دانست که در آن می‌تواند محتوایی واقعی و ویژگی های آموزشی ادغام یافته را فراهم ‏کرد(کانون بروسر ، بوسر 2009). این مورد در سطح زیادی بر حسب فضا و زمان آموزش انعطاف پذیر میباشد ‏که می‌تواندبه‌منظور کاهش یا حذف هزینه های متغیر در آموزش سنتی بکار گرفته شود.

دانلود در ادامه مطلب

ادامه مطلب ...