دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد / Text Document Classification based-on Least Square Support Vector Machines with Singular Value Decomposition

دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد Text Document Classification based-on Least Square Support Vector Machines with Singular Value Decomposition

  • نوع فایل : کتاب
  • زبان : فارسی
  • چاپ و سال / کشور: 2011

توضیحات

چاپ شده در مجله بین المللی کاربرد های کامپیوتر – International Journal of Computer Applications
رشته های مرتبط مهندسی کامپیوتر و فناوری اطلاعات، مدیریت سیستمهای اطلاعات و رایانش ابری
۲٫ پیش پردازش برای دریافت تمام کلمات مورد استفاده در یک متن دلخواه، نیاز به فرایند نشاندار کردن وجود دارد؛ یعنی با حذف تمام علایم نگارشی و تعویض جدول‌بندی و سایر مشخصه ها به جز متن توسط نیم‌فاصله ها سند متنی را به جریانی کلمات تقسیم می‌کنیم. سپس از این نمایش نشان‌دار برای پردازش بیشتر استفاده می کنیم. جهت کاهش ابعاد مجموعه کلمات، سند مورد نظر را می شود با پالایش و قطع ریشه کلمات کوچک تر کرد. در این بخش روش پیش پردازش ارایه شده را برای ایجاد مدل بهینه فضای برداری معرفی می‌کنیم. روش پیش پردازش ارایه شده منجر به ایجاد بهینه مدل فضای برداری در کم ترین پیچیدگی زمان می شود. در راه کار پیش پردازش، به جمع آوری تمام کلمات وقفه می پردازیم که معمولاً موجودند. از مقادیر و کد های ASCII هر حرف بدون در نظر گرفتن کوچکی یا بزرگی آن ها استفاده کرده و با جمع کردن مقدار ASCII متناظر هر حرف به تولید یک کلمه می رسیم. به کلمه متناظر یک شماره اختصاص داده و آن ها را مرتب می کنیم. مثال کلمه “and” را در نظر گیرید که مقادیر ASCII متناظر حرف هایش به ترتیب برابر a=97 ، n=111 و d=101 است. در نتیجه مقدار کلی برای کلمه “and” برابر ۳۰۹ است. به طور مشابه برای کلمه to”” برابر ۱۲۷+۱۲۲=۲۴۹ است. اما در این راه کار احتمال دارد جمع اسکی مقادیر دو کلمه همان طور که در زیر آمده با هم برابر باشند؛ مثلاً در کلمه “ask” برابر ۹۷+۱۱۵+۱۰۷=۳۱۹ و در کلمه her”” برابر ۱۰۴+۱۰۱+۱۱۱= ۳۱۹ است. راه حل مشکل فوق این است که در حالت مقایسه، می توان مقایسه را در جمع مقادیر اسکی انجام داده و در آرایه متناظر، رشته ای از کلمات وقفه را در نظر گرفت. بنا براین می‌توان با استفاده از این رشته مقایسه را انجام داده و مطمئن شویم هیچ کلمه ای از بین نمی رود. در ضمن باید زیر مجموعه‌ای از رشته ها را ایجاد کنیم که دارای جمع مقادیر اسکی و فقط برای مقایسه با آن زیر مجموعه کافی باشند. برای جستجوی مقادیر ASCII از تک حروف هایی استفاده کردیم که در روش جستجوی هم پوشانی کلمات برای یافتن سریع مقدار متناظر کاربرد داشتند. ارایه فوق از الگوریتم قطع ریشه کلمات حاملی استفاده می‌کند که در قطع ریشه کلمات برای پردازش بهتر سند کاربرد دارد. قطه کننده ریشه کلمات حامل به پنج مرحله تقسیم می شود که مرحله ۱ پسوند های i و مراحل ۲ تا ۴ پسوند های d را حذف می کنند. پسوند های مرکب d به پسوند های واحد d در هر لحظه تبدیل می شوند. بنابراین مثلاً اگر کلمه ای با icational پایان یابد، مرحله ۲ آن را به icate و مرحله ۳ به ic کاهش می دهد. در انگلیسی سه مرحله اول لازم و ضروری هستنند. مرحله ۵ کار پیچیده تری انجام می دهد.

Description

In order to obtain all words that are used in a given text, a tokenization process is required, i.e. a text document is split into a stream of words by removing all punctuation marks and by replacing tabs and other non-text characters by single white spaces. This tokenized representation is then used for further processing. In order to reduce the size of the set of words describing document can be reduced by filtering and stemming. In this section, we describe our proposed preprocessing method for creating the optimistic vector space model. Our proposed preprocessing method leads to the optimal creation of the vector space model with less time complexity. In our preprocessing approach we collect all the stopwords, which are commonly available. Now uses the ASCII values of each letter without consider case(either lower case or upper case) and sum the each letter corresponding ASCII value for every word and generate the number. Assign number to corresponding word, and keep them in sorted order. Suppose for example the word ―and‖, corresponding ASCII value of a=97,n=111and d=101then the total word ―and‖ value is 309.similarily for word ―to‖ is 127+122=249. But in this approach there is chance that the ascii sum of the two word’s values can be same as shown with the below example , the word ―ask‖ sum value is 97+115+107=319 and the word ―her‖ sum value is 104+101+111=319. Solution for above mentioned problem is during the comparison we can compare with the ascii sum value and in the corresponding array we can take stopwords string. So that we can compare with the string and confirm that will be no loss of key words and also we should create a subset of strings with same ascii sum so that it is enough to compare with only that subset. For searching of ASCII values we used for individual letters used interpolation search method to get quick corresponding value. The above proposal incorporates that into a porter stemming algorithm for stemming that gives effective preprocessing of document. The Porter stemmer is divided into five steps, in step1 removes the i-suffixes and step 2 to 4the d-suffixes. Composite d-suffixes are reduced to single d-suffixes one at a time. So for example if a word ends icational, step 2 reduces it to icate and step 3 to ic. Three steps are sufficient for this process in English. Step 5 does some tidying up.
اگر شما نسبت به این اثر یا عنوان محق هستید، لطفا از طریق "بخش تماس با ما" با ما تماس بگیرید و برای اطلاعات بیشتر، صفحه قوانین و مقررات را مطالعه نمایید.

دیدگاه کاربران


لطفا در این قسمت فقط نظر شخصی در مورد این عنوان را وارد نمایید و در صورتیکه مشکلی با دانلود یا استفاده از این فایل دارید در صفحه کاربری تیکت ثبت کنید.

بارگزاری