یک طبقه بندی بیزین ساده برای مدارک علمی A Naïve Bayesian Classifier for Educational Qualification
- نوع فایل : کتاب
- زبان : فارسی
- ناشر : مجله هندی فناوری و علوم Indian Journal of Science and Technology
- چاپ و سال / کشور: 2015
توضیحات
چاپ شده در مجله ۲۰۱۵
رشته های مرتبط مهندسی کامپیوتر، مهندسی الگوریتم ها و محاسبات و رایانش ابری
۱٫ مقدمه متعدد پیش آمده که یک فرد براساس تجزیهوتحلیل مدارک علمی که در زندگی کسب کرده است، در نظر گرفته شود. در چنین مواردی، طبقهبندی افراد باتوجه به مدرک تحصیلی آموزشیشان میتواند به تصمیمی فنی آزادانه، و عاری از هرگونه تعصب بسیار کمک کند و از اینرو میتواند قابل اجرا باشد. این مقاله روشی برای دستهبندی مدارک علمی با استفاده از معیار الگوریتم طبقهبندی بیز ساده پیشنهاد میکند. این روش میتواند در بسیاری از برنامههای کاربردی مانند تفکیک براساس فهرست کوتاه ارتباط آموزشی، برای استخدام افراد براساس میزان تحصیلات و غیره، استفاده شود. سازمان این مقاله در زیر آورده شده است: بخش۲ شامل بررسی ادبیات میشود. بخش۳ الگوریتم بیزین ساده و روش طبقهبندی پیشنهادی را توضیح میدهد. بخش۴ تجزیهوتحلیل نتایج آزمایشی براساس جدولبندی ذکر شده است و بخش۵ مقاله را نتیجهگیری میکند. الگوریتم بیزین ساده یک الگوریتم طبقهبندی کلاسیک است که بهرهوری خود را در برنامههای مختلف و چند مقالة نمایش بهرهوری از طبقهبندیکننده که در اینجا ورد بحث است، ثابت کرده است. مقالة Mauricio A.Valle و همکاران روش پیشبینی ویژگیهای تعیینکننده درمورد یک الگوریتم طبقهبندی بیز ساده شامل یک روش تست براساس اعتبارسنجی متقابل را بحث میکند. تأیید آزمایشی صفات اجتماعی و جمعیت شناختی است که به پیشبینی عملکرد آینده عامل فروش در یک مرکز تلفن کمک نمیکند. Dunja Mladenic و همکاران. پژوهش با انتخاب ویژگیهای کمک برای طبقهبندی با استفاده از مشخصات خاص و توانایی یادگیری طبقهبندی بیش از یک دادة متنی که توزیع نابرابری است. زمانیکه دامنه و ویژگیهای الگوریتم طبقهبندی شده، در نظر گرفته شود، عملکرد طبقهبندی افزایش مییابد. Dong Tao و همکاران. مقالة بهبود الگوریتم بیزی ساده را با ترکیب روش کلاسیک با یک روش انتخاب ویژگی براساس شاخص Gini پیشنهاد میکند. این روش ترکیبی، عملکرد طبقهبندی متن را بهبود میبخشد. Kabir Md Faisal و همکاران. پژوهش ترکیب روش خوشهبندی k-means با الگوریتم طبقهبندی ساده برای افزایش دقت. این روش خوشهبندی گروههای نمونههای آموزشی را به دستهبندیهای مشابه، پس از آن همة گروهها تحت طبقهبندی بیز ساده آموزش داده میشوند. این روش برای تأیید بهبود دقت است. Santra A.K. و همکاران. تحقیقات ثابت میکند که درمورد استفاده از کاربرد وب، درحالیکه از یک طبقهبندی بیز ساده بهجای درخت تصمیم استفاده میکند، که زمان صرف شده برای طبقهبندی و حافظه کاهش پیدا میکند. مقاله نشان میدهد که ماهیت استقلال شرطی ویژگیها در الگوریتم اصلی بیز ساده در بعضی موارد ضعیف بهنظر میرسد و روش وزندهی محلی که از الگوریتم کلاسیک از نظر دقت بهتر است، پیشنهاد میکند. Pradeepta K. Sarangiet و همکاران. مقاله استخراج ویژگی با استفاده از تجزیه LU بهدنبال استفاده از طبقهبندی بیز ساده برای تشخیص الگو توصیف میکند. این کاربرد جهانی طبقهبند را نشان میدهد. Birant D وYildrim . مقالة تحقیقاتی تأیید آزمایشی اثر توزیعهای مختلف برروی ویژگی های مورد بحث. مشاهده شده است که کاربرد توزیع براساس طبیعت ویژگیها بهجای استفاده از یک توزیع در سراسر تمام ویژگیها دقت را افزایش میدهد. Ibrahim SayedElarabarticleوAbeerBadr El Din Ahmed بحث درمورد استفاده از الگوریتمهای طبقهبندی برای پیشبینی نمرة نهایی دانش آموزان است. مقاله Ron Kohavi ترکیب طبقهبند بیز را با درخت تصمیم که بهعنوان NBTree نامیده است، برای افزایش دقت طبقهبند پیشنهاد میکند. همچنین دریافتند که استقلال شرطی کلاس در مورد مجموعه داده کوچک منفعل است اما درصورت مجموعه دادههای بزرگ، این فرض منجر به اشکال در طبقهبندی و کاهش دقت میشود. Shasha Wang و همکاران. مقاله نسخة ارتقا یافتة طبقهبندی NBTree ترکیبی را پیشنهاد و آن را بهعنوان NBTree چندگانه بهنام MNBTree، که در آن یک طبقهبند بیزین سادة چندجملهای برای گرههای برگ درخت تصمیم کاربرد دارد. علاوهبراین، برای افزایش عملکرد، بداهة دیگری با گنجاندن طبقهبندی چند کلاسه ساخته شده است و سیستم بهعنوان نسخة چندکلاسه MNBTree نامیده میشود. با توجه به مقالات پژوهشی فوقالذکر، جوانب مثبت الگوریتم طبقهبندی بیزین بهطور کامل مطالعه شده و دریافتند که این الگوریتم بهترین خواهد شد با توجه به ماهیت دادههای مورد استفاده برای آزمایش متشکل از هردو دادة عددی و متنی که بهطور مستقل کمک به طبقهبندی باشد.
رشته های مرتبط مهندسی کامپیوتر، مهندسی الگوریتم ها و محاسبات و رایانش ابری
۱٫ مقدمه متعدد پیش آمده که یک فرد براساس تجزیهوتحلیل مدارک علمی که در زندگی کسب کرده است، در نظر گرفته شود. در چنین مواردی، طبقهبندی افراد باتوجه به مدرک تحصیلی آموزشیشان میتواند به تصمیمی فنی آزادانه، و عاری از هرگونه تعصب بسیار کمک کند و از اینرو میتواند قابل اجرا باشد. این مقاله روشی برای دستهبندی مدارک علمی با استفاده از معیار الگوریتم طبقهبندی بیز ساده پیشنهاد میکند. این روش میتواند در بسیاری از برنامههای کاربردی مانند تفکیک براساس فهرست کوتاه ارتباط آموزشی، برای استخدام افراد براساس میزان تحصیلات و غیره، استفاده شود. سازمان این مقاله در زیر آورده شده است: بخش۲ شامل بررسی ادبیات میشود. بخش۳ الگوریتم بیزین ساده و روش طبقهبندی پیشنهادی را توضیح میدهد. بخش۴ تجزیهوتحلیل نتایج آزمایشی براساس جدولبندی ذکر شده است و بخش۵ مقاله را نتیجهگیری میکند. الگوریتم بیزین ساده یک الگوریتم طبقهبندی کلاسیک است که بهرهوری خود را در برنامههای مختلف و چند مقالة نمایش بهرهوری از طبقهبندیکننده که در اینجا ورد بحث است، ثابت کرده است. مقالة Mauricio A.Valle و همکاران روش پیشبینی ویژگیهای تعیینکننده درمورد یک الگوریتم طبقهبندی بیز ساده شامل یک روش تست براساس اعتبارسنجی متقابل را بحث میکند. تأیید آزمایشی صفات اجتماعی و جمعیت شناختی است که به پیشبینی عملکرد آینده عامل فروش در یک مرکز تلفن کمک نمیکند. Dunja Mladenic و همکاران. پژوهش با انتخاب ویژگیهای کمک برای طبقهبندی با استفاده از مشخصات خاص و توانایی یادگیری طبقهبندی بیش از یک دادة متنی که توزیع نابرابری است. زمانیکه دامنه و ویژگیهای الگوریتم طبقهبندی شده، در نظر گرفته شود، عملکرد طبقهبندی افزایش مییابد. Dong Tao و همکاران. مقالة بهبود الگوریتم بیزی ساده را با ترکیب روش کلاسیک با یک روش انتخاب ویژگی براساس شاخص Gini پیشنهاد میکند. این روش ترکیبی، عملکرد طبقهبندی متن را بهبود میبخشد. Kabir Md Faisal و همکاران. پژوهش ترکیب روش خوشهبندی k-means با الگوریتم طبقهبندی ساده برای افزایش دقت. این روش خوشهبندی گروههای نمونههای آموزشی را به دستهبندیهای مشابه، پس از آن همة گروهها تحت طبقهبندی بیز ساده آموزش داده میشوند. این روش برای تأیید بهبود دقت است. Santra A.K. و همکاران. تحقیقات ثابت میکند که درمورد استفاده از کاربرد وب، درحالیکه از یک طبقهبندی بیز ساده بهجای درخت تصمیم استفاده میکند، که زمان صرف شده برای طبقهبندی و حافظه کاهش پیدا میکند. مقاله نشان میدهد که ماهیت استقلال شرطی ویژگیها در الگوریتم اصلی بیز ساده در بعضی موارد ضعیف بهنظر میرسد و روش وزندهی محلی که از الگوریتم کلاسیک از نظر دقت بهتر است، پیشنهاد میکند. Pradeepta K. Sarangiet و همکاران. مقاله استخراج ویژگی با استفاده از تجزیه LU بهدنبال استفاده از طبقهبندی بیز ساده برای تشخیص الگو توصیف میکند. این کاربرد جهانی طبقهبند را نشان میدهد. Birant D وYildrim . مقالة تحقیقاتی تأیید آزمایشی اثر توزیعهای مختلف برروی ویژگی های مورد بحث. مشاهده شده است که کاربرد توزیع براساس طبیعت ویژگیها بهجای استفاده از یک توزیع در سراسر تمام ویژگیها دقت را افزایش میدهد. Ibrahim SayedElarabarticleوAbeerBadr El Din Ahmed بحث درمورد استفاده از الگوریتمهای طبقهبندی برای پیشبینی نمرة نهایی دانش آموزان است. مقاله Ron Kohavi ترکیب طبقهبند بیز را با درخت تصمیم که بهعنوان NBTree نامیده است، برای افزایش دقت طبقهبند پیشنهاد میکند. همچنین دریافتند که استقلال شرطی کلاس در مورد مجموعه داده کوچک منفعل است اما درصورت مجموعه دادههای بزرگ، این فرض منجر به اشکال در طبقهبندی و کاهش دقت میشود. Shasha Wang و همکاران. مقاله نسخة ارتقا یافتة طبقهبندی NBTree ترکیبی را پیشنهاد و آن را بهعنوان NBTree چندگانه بهنام MNBTree، که در آن یک طبقهبند بیزین سادة چندجملهای برای گرههای برگ درخت تصمیم کاربرد دارد. علاوهبراین، برای افزایش عملکرد، بداهة دیگری با گنجاندن طبقهبندی چند کلاسه ساخته شده است و سیستم بهعنوان نسخة چندکلاسه MNBTree نامیده میشود. با توجه به مقالات پژوهشی فوقالذکر، جوانب مثبت الگوریتم طبقهبندی بیزین بهطور کامل مطالعه شده و دریافتند که این الگوریتم بهترین خواهد شد با توجه به ماهیت دادههای مورد استفاده برای آزمایش متشکل از هردو دادة عددی و متنی که بهطور مستقل کمک به طبقهبندی باشد.
Description
۱٫ Introduction There are quite a large number of instances where a person is initially judged or analyzed by his/her educational qualification he/she has gained in his life. Under such cases, the categorization of the persons according to their educational qualification would be of much help and the decision made with the help of technical assistance would be free from any kind of biases and hence can be universally applicable. This paper proposes a method to categorize the educational qualification utilizing the benchmark Naïve Bayesian Classification Algorithm. This method can be used in a variety of applications such as segregation based on educational relevance, short listing a candidate for recruitment based on his/her degree of education, etc. The organization of this paper is given below: Section 2 contains the literature survey. Section 3 explains the Naïve Bayesian Algorithm and the proposed classification method. Section 4 analyses the experimental results based on the listed tabulations and Section 5 concludes the paper. Naïve Bayesian algorithm is a classical classification algorithm which has proved its simplicity and efficiency in various applications and a few articles exhibiting the efficiency of the classifier are discussed here.Mauricio A. Valle et al.10paper discusses the method of predicting the determining attributes in case of a Naïve Bayesian classification algorithm involving a testing method based on cross-validation. It is verified experimentally that the socio-demographic attributes are not contributing to the prediction of future performance of the sales agent in a call center. Dunja Mladenic et al.7 research deals with choosing the features contributing for the classification using certain specifications and the learning ability of the classifier over a text data whose distribution is uneven. It is found that when the domain and the characteristics of the classification algorithm istaken into account, the performance of the classifier increases. Dong Tao et al.2 paper proposes an improved Naïve Bayesian algorithm by combining the classical method with a feature selection method based on Gini Index. This hybrid method improves the performance of text categorization. Kabir Md Faisal et al.4 research deals with combining k-means clustering method with Naïve Bayesian classification algorithm to increase the accuracy. The clustering method groups the training samples into similar categories after which all the groups are trained under Naïve Bayesian classifier. This method is verified to improve the accuracy. Santra A.K. et al.8 research proves that the time taken for classification and the memory utilized are reduced in case of the web usage mining while utilizing Naïve Bayesian classifier rather than using decision trees. Liangxiao Jiang et al.5 paper suggests that the conditional independence nature of attributes in the original Naïve Bayesian algorithm seems to be weak in certain cases and proposes a local weightage method which outperforms the classical algorithm in terms of accuracy. Pradeepta K. Sarangiet al.12 paper describes the feature extraction using LU factorization followed by the usage of Naïve Bayesian classifier for pattern recognition. This proves the universal applicability of the classifier. Yildrim P. and Birant D.11 research paper discusses the experimental verification of the effect of various distributions on the attributes. It is found that the application of distributions based on the nature of attributes increases the accuracy rather than using a single distribution across all the attributes. AbeerBadr El Din Ahmed and Ibrahim SayedElarabarticle1 discusses the application of classification algorithms to predict the final grade of the students. Ron Kohavi6 article proposes a hybrid classifier combining Naïve Bayesian and Decision Tree which is termed as NBTree to increase the accuracy of the classifier. It is also found that the class conditional independence is passive in case of small data sets but in case of large data sets, this assumption leads to misclassification and reduction in the accuracy. Shasha Wang et al.9 paper proposes an upgraded version of the NBtree hybrid classifier and named it as multinomialNBTree (MNBTree), where a multinomial naïve Bayesian classifier is applied to the leaf nodes of a decision tree. Further, to increase the performance, another improvisation is made by the inclusion of multiclass classification and the system is called as multiclass version of MNBTree (MMNBTree). With reference to the above stated research articles, the pros of Naïve Bayesian classification algorithm are studied thoroughly and found that this algorithm will best suit the nature of data used for the experiment comprising of both numerical and text data which are independently contributing to the classification.