التعرف على النص العربي المكتوب بخط اليد وتحديد هوية الكاتب == Arabic Handwritten Text Recognition and Writer Identification

Author name: مصطفى سلام كاظم الشمري
Supervisor name: علياء كريم عبد الحسن
General topic: Computer Science
Specific topic: Computer Science
Degree: Doctorate
University: University of Technology - Department Of Computer Science
Language: English
University location: Baghdad
Key words:
  • Arabic Handwritten
  • Support Vector Machine
  • Writer Identification
First pages: 28T992 - p.pdf
Abstract: معظم الحكومات والمنظمات لديها عدد كبير من الوثائق المكتوبة بخط اليد الناتجة عن العمليات اليومية. لا بد من
استخدام اجهزة الكمبيوتر لقراءة النصوص المكتوبة بخط اليد، وجعلها قابلة للتعديل و البحث. لذلك التعرف على
الكتابة اليدوية اصبح في الاونة الاخيرة موضوع بحث شائع جدا وعدد تطبيقاته المحتملة كبيرة جدا. حيث لديه
القدرة على حل المشاكل المعقدة وتبسيط الانشطة البشرية من خلال تحويل الوثائق المكتوبة بخط اليد الى شكل
رقمي. ومع ذلك، فان التعرف على النص العربي المكتوب بخط اليد هو عملية معقدة مقارنة مع انظمة الكتابة
اليدوية للغات الاخرى بسبب طبيعة المزج لكتابة اليد في اللغة العربية.
لهذه الاسباب, تم اقتراح للتعرف على النص المكتوب بخط اليد للغة العربية وتحديد هوية كاتب النص بالاعتماد
على تجزئة المدخلات من نصوص الوثائق المكتوبة بخط اليد الى كلمات فرعية مكتوبة بخط اليد. النظام يحوي
اثنين من الاجزاء (modules) الاساسية المستخدمة للتعرف على النص المكتوب بخط اليد وتحديد كاتب النص.
الجزء الاول (module1) له ست مراحل والتي تعمل معا للتعرف على النص العربي المكتوب بخط اليد وتحويله
الى نص قابل للتعديل. وهذه المراحل هي: اكتساب الصور، التجزئة، التجهيز، بناء قاعدة الميزات, التصنيف
ومرحلة ما بعد المعالجة. في حين ان الجزء الثاني (module2) يقوم بتحديد الكاتب المطلوب للنص من خلال
عدة مراحل مشابهة لمراحل الجزء الاول . اقترح النظام خوارزمية تجزئة فعالة ودقيقة والتي تجزء النص المكتوب
بخط اليد المدخل الى عدد من الصور الفرعية المكتوبة بخط اليد وكل صورة فرعية تحوي على كلمة فرعية من
اللغة العربية. بالاضافة الى ذلك، تم اقتراح خوارزمية صورة العتبة لتحويل الصور الفرعية الى صورة ثنائية
باستخدام دالة (Fuzzy C-Mean Clustering) . بالاضافة الى ذلك، تمر الصور الفرعية الثنائية من خلال
خوارزمية مقترحة لازالة الووضاء من اجل ازالة المعلومات غير المرغوب فيها. بعد ذلك، مجموعتان من
الميزات يتم استخراجها من الصور الفرعية المكتوبة بخط اليد. المجموعة الاولى من الميزات التي تستخدم للجزء
الاول (models1) توم الهيكلي، الاحصائي، discrete cosine transform ( DCT ( و Modified Histogram of Oriented Gradient ( MHOG1 ( المقترحة. من جهة اخرى، فان مجموعة الميزات الثانية
التي تستخدم للجزء الثاني module2) ( يشمل Modified Histogram of Oriented (MHOG2) Gradient المقترح وميزات الشكل. وبالاضافة الى ذلك، تم الحصول على افول نتائج التصنيف من خلال
استخدام المصنف Support Vector Machine ( SVM (. وتم اقتراح معجم عربي للجزء الاول (module1)
لتحويل المسميات المصنفة الى نص عربي قابل للتعديل ، ومعجم للكتاب اقترح ايوا لغرض تعيين المسمى
المصنف الى الكاتب المنشود.
من اجل اختبار اداء النظام، تم استخدام ثلاثة قواعد بيانات للغة العربية المكتوبة بخط اليد والتي هي قاعدة بيانات
AHDB ، قاعدة بيانات IESK-arDB وقاعدة بيانات مقترحة للغة العربية المكتوبة بخط اليد. وكانت النتائج التي
تم الحصول عليها من الجزء الاول (module1) 96.317 ٪ ل AHDB ، 82 ٪ لل IESK-arDB و 98 ٪
لقاعدة البيانات المقترحة باستخدام SVM لنواة متعدد الحدود. من جهة اخرى، كانت نتائج الجزء
الثاني (module2) باستخدام قاعدة البيانات المقترحة 85 ٪ لطريقة مستوى الكلمات الفرعية المكتوبة بخط اليد
و 100 ٪ لطريقة مستوى النص المكتوب بخط اليد.
Logo