فایل ورد کامل دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد


در حال بارگذاری
10 جولای 2025
پاورپوینت
17870
4 بازدید
۷۹,۷۰۰ تومان
خرید

توجه : به همراه فایل word این محصول فایل پاورپوینت (PowerPoint) و اسلاید های آن به صورت هدیه ارائه خواهد شد

این مقاله، ترجمه شده یک مقاله مرجع و معتبر انگلیسی می باشد که به صورت بسیار عالی توسط متخصصین این رشته ترجمه شده است و به صورت فایل ورد (microsoft word) ارائه می گردد

متن داخلی مقاله بسیار عالی، پر محتوا و قابل درک می باشد و شما از استفاده ی آن بسیار لذت خواهید برد. ما عالی بودن این مقاله را تضمین می کنیم

فایل ورد این مقاله بسیار خوب تایپ شده و قابل کپی و ویرایش می باشد و تنظیمات آن نیز به صورت عالی انجام شده است؛ به همراه فایل ورد این مقاله یک فایل پاور پوینت نیز به شما ارئه خواهد شد که دارای یک قالب بسیار زیبا و تنظیمات نمایشی متعدد می باشد

توجه : در صورت مشاهده بهم ریختگی احتمالی در متون زیر ،دلیل ان کپی کردن این مطالب از داخل فایل می باشد و در فایل اصلی فایل ورد کامل دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد،به هیچ وجه بهم ریختگی وجود ندارد

تعداد صفحات این فایل: ۰ صفحه


بخشی از ترجمه :

۲ پیش پردازش
برای دریافت تمام کلمات مورد استفاده در یک متن دلخواه، نیاز به فرایند نشاندار کردن وجود دارد؛ یعنی با حذف تمام علایم نگارشی و تعویض جدول‌بندی و سایر مشخصه ها به جز متن توسط نیم‌فاصله ها سند متنی را به جریانی کلمات تقسیم می‌کنیم. سپس از این نمایش نشان‌دار برای پردازش بیشتر استفاده می کنیم. جهت کاهش ابعاد مجموعه کلمات، سند مورد نظر را می شود با پالایش و قطع ریشه کلمات کوچک تر کرد.
در این بخش روش پیش پردازش ارایه شده را برای ایجاد مدل بهینه فضای برداری معرفی می‌کنیم. روش پیش پردازش ارایه شده منجر به ایجاد بهینه مدل فضای برداری در کم ترین پیچیدگی زمان می شود.
در راه کار پیش پردازش، به جمع آوری تمام کلمات وقفه می پردازیم که معمولاً موجودند. از مقادیر و کد های ASCII هر حرف بدون در نظر گرفتن کوچکی یا بزرگی آن ها استفاده کرده و با جمع کردن مقدار ASCII متناظر هر حرف به تولید یک کلمه می رسیم. به کلمه متناظر یک شماره اختصاص داده و آن ها را مرتب می کنیم.
مثال کلمه “and” را در نظر گیرید که مقادیر ASCII متناظر حرف هایش به ترتیب برابر a=97 ، n=111 و d=101 است. در نتیجه مقدار کلی برای کلمه “and” برابر ۳۰۹ است. به طور مشابه برای کلمه to”” برابر ۱۲۷+۱۲۲=۲۴۹ است. اما در این راه کار احتمال دارد جمع اسکی مقادیر دو کلمه همان طور که در زیر آمده با هم برابر باشند؛ مثلاً در کلمه “ask” برابر ۹۷+۱۱۵+۱۰۷=۳۱۹ و در کلمه her”” برابر ۱۰۴+۱۰۱+۱۱۱= ۳۱۹ است.
راه حل مشکل فوق این است که در حالت مقایسه، می توان مقایسه را در جمع مقادیر اسکی انجام داده و در آرایه متناظر، رشته ای از کلمات وقفه را در نظر گرفت. بنا براین می‌توان با استفاده از این رشته مقایسه را انجام داده و مطمئن شویم هیچ کلمه ای از بین نمی رود. در ضمن باید زیر مجموعه‌ای از رشته ها را ایجاد کنیم که دارای جمع مقادیر اسکی و فقط برای مقایسه با آن زیر مجموعه کافی باشند.
برای جستجوی مقادیر ASCII از تک حروف هایی استفاده کردیم که در روش جستجوی هم پوشانی کلمات برای یافتن سریع مقدار متناظر کاربرد داشتند.
ارایه فوق از الگوریتم قطع ریشه کلمات حاملی استفاده می‌کند که در قطع ریشه کلمات برای پردازش بهتر سند کاربرد دارد. قطه کننده ریشه کلمات حامل به پنج مرحله تقسیم می شود که مرحله ۱ پسوند های i و مراحل ۲ تا ۴ پسوند های d را حذف می کنند. پسوند های مرکب d به پسوند های واحد d در هر لحظه تبدیل می شوند. بنابراین مثلاً اگر کلمه ای با icational پایان یابد، مرحله ۲ آن را به icate و مرحله ۳ به ic کاهش می دهد. در انگلیسی سه مرحله اول لازم و ضروری هستنند. مرحله ۵ کار پیچیده تری انجام می دهد.

۷ نتیجه گیری و تحقیقات آینده
در این مقاله از قطع ریشه کلمات به روش پیش پردازش استفاده کردیم که بر اساس ASCII بود تا کلمات وقفه را حذف کرده و کلمات کلیدی را از افعال و اسامی داخل سند بیابیم. در یافتن کلمات کلیدی از راه کار آنتروپی محور استفاده کردیم که بهترین راه برای کشف کلمات کلیدی در اسناد ورودی بود. هم چنین برای کاهش ابعاد ماتریس کلمه – سند ورودی، SVD را به کار بستیم.
این مقاله الگوریتم جدیدی را به نام LS-SVM معرفی می‌کند که ترکیبی از مزایا LSI و SVM را با هم دارد. نتایج آزمایشات هم تأیید می کنند که LS-SVM روشی بسیار کاربردی و مؤثر در طبقه بندی اسناد است. در تحقیقات آینده تمرکز خود را بر افزایش مناسب بودن و انطاف پذیری قالب های پیش پردازشی و طبقه بندی خود در اسناد دارای چند قالب ادامه خواهیم داد.

عنوان انگلیسی:Text Document Classification based-on Least Square Support Vector Machines with Singular Value Decomposition~~en~~

۲ PREPROCESSING

In order to obtain all words that are used in a given text, a tokenization process is required, i.e. a text document is split into a stream of words by removing all punctuation marks and by replacing tabs and other non-text characters by single white spaces. This tokenized representation is then used for further processing. In order to reduce the size of the set of words describing document can be reduced by filtering and stemming. In this section, we describe our proposed preprocessing method for creating the optimistic vector space model. Our proposed preprocessing method leads to the optimal creation of the vector space model with less time complexity. In our preprocessing approach we collect all the stopwords, which are commonly available. Now uses the ASCII values of each letter without consider case(either lower case or upper case) and sum the each letter corresponding ASCII value for every word and generate the number. Assign number to corresponding word, and keep them in sorted order. Suppose for example the word and, corresponding ASCII value of a=97,n=111and d=101then the total word and value is 309.similarily for word to is 127+122=249. But in this approach there is chance that the ascii sum of the two word’s values can be same as shown with the below example , the word ask sum value is 97+115+107=319 and the word her sum value is 104+101+111=319. Solution for above mentioned problem is during the comparison we can compare with the ascii sum value and in the corresponding array we can take stopwords string. So that we can compare with the string and confirm that will be no loss of key words and also we should create a subset of strings with same ascii sum so that it is enough to compare with only that subset. For searching of ASCII values we used for individual letters used interpolation search method to get quick corresponding value. The above proposal incorporates that into a porter stemming algorithm for stemming that gives effective preprocessing of document. The Porter stemmer is divided into five steps, in step1 removes the i-suffixes and step 2 to 4the d-suffixes. Composite d-suffixes are reduced to single d-suffixes one at a time. So for example if a word ends icational, step 2 reduces it to icate and step 3 to ic. Three steps are sufficient for this process in English. Step 5 does some tidying up.

۷ CONCLUSION AND FUTURE WORK

In this paper, we used preprocessing method stemming with ASCII based, to eliminate the stopwords and find keywords from the verbs and nouns from the document. Finding keywords we used entropy based approach which is best to find the keywords in the input documents. Used SVD method is to reduce the dimensionality of the input term-document matrix. This paper proposes new algorithm called LS-SVM which combines the advantages of LSI and SVM. The experiment results also confirm that LS-SVM is a very practical and effective method for classification of documents. In future work, we will continue our focus on improving the efficiency and scalability of our preprocessing and classification schemes especially in the multiple theme documents.

$$en!!

  راهنمای خرید:
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.