• English
    • العربية
  • English
  • تسجيل الدخول
  • جامعة قطر
  • مكتبة جامعة قطر
  •  الصفحة الرئيسية
  • الوحدات والمجموعات
  • المساعدة
    • إرسال الأعمال الأكاديمية
    • سياسات الناشر
    • أدلة المستخدم
    • الأسئلة الأكثر تكراراً
  • عن المستودع الرقمي
    • الرؤية والرسالة
عرض التسجيلة 
  •   مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مساهمة أعضاء هيئة التدريس
  • كلية الهندسة
  • علوم وهندسة الحاسب
  • عرض التسجيلة
  • مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مساهمة أعضاء هيئة التدريس
  • كلية الهندسة
  • علوم وهندسة الحاسب
  • عرض التسجيلة
  •      
  •  
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Stemming Versus Light Stemming as Feature Selection Techniques for Arabic Text Categorization

    Thumbnail
    التاريخ
    2007-11-18
    المؤلف
    Duwairi, Rehab
    Al-Refai, Mohammad
    Khasawneh, Natheer
    البيانات الوصفية
    عرض كامل للتسجيلة
    الملخص
    This paper compares and contrasts two feature selection techniques when applied to Arabic corpus; in particular; stemming, and light stemming were employed. With stemming, words are reduced to their stems. With light stemming, words are reduced to their light stems. Stemming is aggressive in the sense that it reduces words to their 3-letters roots. This affects the semantics as several words with different meanings might have the same root. Light stemming, by comparison, removes frequently used prefixes and suffixes in Arabic words. Light stemming doesn't produce the root and therefore doesn't affect the semantics of words; it maps several words, which have the same meaning to a common syntactical form. The effectiveness of above two feature selection techniques was assessed in a text categorization exercise for Arabic corpus. This corpus consists of 15000 documents that fall into three categories. The K-nearest neighbors (KNN) classifier was used in this work. Several experiments were carried out using two different representations of the same corpus; the first version uses stem- vectors; and the second uses light stem-vectors as representatives of documents. These two representations were assessed in terms of size, time and accuracy. The light stem representation was superior in terms of classifier accuracy when compared with stemming.
    DOI/handle
    http://dx.doi.org/10.1109/IIT.2007.4430403
    http://hdl.handle.net/10576/10501
    المجموعات
    • علوم وهندسة الحاسب [‎2484‎ items ]

    entitlement


    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا | ارسل ملاحظاتك
    اتصل بنا | ارسل ملاحظاتك | جامعة قطر

     

     

    الصفحة الرئيسية

    أرسل عملك التابع لجامعة قطر

    تصفح

    محتويات مركز المجموعات الرقمية
      الوحدات والمجموعات تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر
    هذه المجموعة
      تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر

    حسابي

    تسجيل الدخول

    إحصائيات

    عرض إحصائيات الاستخدام

    عن المستودع الرقمي

    الرؤية والرسالة

    المساعدة

    إرسال الأعمال الأكاديميةسياسات الناشرأدلة المستخدمالأسئلة الأكثر تكراراً

    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا | ارسل ملاحظاتك
    اتصل بنا | ارسل ملاحظاتك | جامعة قطر

     

     

    Video