Share

تحليل قائم على اللغويات الحاسوبية لاستخدام الكلمات الوظيفية في اسناد التاليف العدلي للغة الانكليزية == A Corpus - Based Analysis of Using Function Words in English Forensic Authorship Attribution

Author name: ايمان عبد الكريم عبد المحسن
Supervisor name: خالد شاكر حسين
General topic: Foreign Languages
Specific topic: English - Applied Linguistics
Degree: Master
University: University of Thi-Qar - College Of Education For Human Sciences - Department Of English Language
Language: English
University location: Dhi Qar
First pages: 06T1193 - p.pdf
Abstract: لقد كان للتطور الحاصل في علم اللغة الحاسوبي والعلوم الحسابية الاثر الواضح على ظهور وتطور الدراسات اللغوية وتطبيقاتها المعتمدة على المدونات والنصوص اللغوية المتوفرة بصيغتها الالكترونية الحاسوبية . لم يشمل هذا التاثير الحاصل الدراسات اللغوية الصرفة فقط والتي تعني بدارسة اللغة بحد ذاتها بل تعداها الى ان يتضمن الدراسات اللغوية التي تعالج مجمل القضايا ذات الصلة بحياة الافراد والمجتمع بصورة عامة. واحدة من تلك القضايا التي شملها التاثير هي الدراسات المعنية باسناد التاليف العدلي للنصوص المجهولة المصدر او المختلف في اسنادها لمصدر معين. هذه الدراسات هدفها تشخيص وتحديد المؤلف الاقرب (من بين مجموعة من المؤلفين) لنص ما مجهول او مختلف في اسناده. ولتحقيق هذا النوع من التشخيص , صممت مجموعة واسعة من الطرق والوسائل واختبرت على عينات مختلفة لتحديد مدى فاعليتها في التشخيص الدقيق. بالرغم من عدم وجود اجماع مطلق في ادبيات الموضوع حول الطريقة الامثل والافضل, الا ان جميع هذه الطرق والدراسات تستند على فرضية وجود " بصمة او طابع لغوي" لكل شخص والذي يتم تعينه وتشخيصه من خلال دراسة وقياس المظاهر والاختيارات اللغوية التي يعتمدها الفرد عند استخدامه اللغة والتي تشكل في مجملها اسلوبه اللغوي.اتخذت الدراسة الحالية طابعا تجريبيا وهي تهدف الى فحص وتقييم مدى نجاح الطريقة المعنية في التعاطي مع نوع معين من البيانات يشتمل على عينات من مقالات صحفية سياسية.تعد العينة الحاسوبية المجموعة عينة ذات غرض محدد ومحصورة بدقة من ناحية الجنس الادبي, واللهجة الخاصة وتاريخ النشر. وتشتمل على احدى عشرة عينة ماخوذة من احدى عشرة مقالة وبطول يتراوح بين (1,101) و(1,113) كلمة . ثلاث من هذه العينات اخذت كنصوص مجهولة المصدر(افتراضيا) اما الثمان الاخريات فاعتبرت كنصوص معروفة المصدر والتي تستخدم كاساس للمقارنة مع الثلاث المذكورات انفا لايجاد العناصر المشتركة والمختلفة. ان العينات المختارة خضعت الى التحليل الاسلوبي اللغوي والحاسوبي والحسابي. اعتمد التحليل الاسلوبي اللغوي بنوعيه النوعي والكمي على الكلمات الوظيفية. ففي التحليل النوعي تركز الاهتمام حول تحديد الصفة الاكثر تميزا في النصوص المجهولة المصدر بعد مقارنتها مع النصوص المعروفة المصدر اما في التحليل الكمي فقد تم الاعتماد بادئ الامر على برنامج (Wordsmith Tool) لفرز وتعيين الكلمات الثلاثون الاكثر تكرارا في مجمل العينة الحاسوبية. شكل بعد ذلك جدول ,باستخدام برنامج (Excel) , يتضمن بيان عدد كل من هذه الكلمات في كل عينة من العينات الاحدى عشر. بعد نقل هذا الجدول الى برنامج (SPSS) تم اجراء نوعين من التحليلات الحسابية وهي التحليل العاملي والتحليل التجمعي او الترتيبي . كلا التحليلين الحسابيين يتميزان بقدرتهما على التجميع او التفريق بين النصوص على اساس التشابهات والاختلافات الموجودة في هذه العينات. ان النتائج التي توصل اليها البحث والتي ظهرت على شكل عناصر رقمية في التحليل النوعي واشكال صورية في التحليل الكمي اعطت دليلا عمليا يبدو الى حد ما مقنعا لمدى فاعلية هذه الطريقة في التمييز بين العينات العائدة لمؤلفين مختلفين ونسب العينات الغير معروفة (افتراضا) الى مؤلفيها الفعليين. | The advancement in computational linguistics and statistics has made an explicit impact on the emergence of corpus linguistics and the sophistication of its applications and studies involving not only pure linguistic issues but also areas related to real - life problems. One of these areas is authorship attribution. Authorship attribution is a domain of study concerned with identifying the most likely author of a particular anonymous or disputed document from a set of suspected authors. To this end, several methodologies, techniques, and approaches have been devised and so often assessed on various sets of data to make sure of their effectiveness. Although the literature shows no consensus as to which methodology is the best among others, there is an overwhelming fact that all authorship attribution studies are grounded on the assumption that each author has a particular "linguistic fingerprint" which can be captured through detecting and measuring the linguistic clues hidden in their authorial styles. Taking an experimental framework, this study is an attempt to gauge the discriminating and clustering power of the selected methodology against a particular type of data covering samples of political journal articles. The corpus compiled is a special purpose one strictly controlled for genre, register, and date of publication. It comprises eleven samples extracted from eleven articles with their lengths ranging between (1,101) to (1,113) words; three of them are taken as test (hypothetically questioned) samples and the rest as training samples. The corpus represents the journalistic writings of four authors. The corpus compiled is scrutinized and analysed stylistically, computationally, and statistically. The linguistic stylistic analysis is conducted qualitatively and quantitatively taking into account one type of style markers, namely function words. In the qualitative analysis, the marked feature is identified after a close investigation of both test and training samples. In the quantitative analysis, a set of the most frequent thirty function words detected computationally via Wordsmith Tools (Wordlist tool) in the master corpus is selected to build a matrix. The matrix built in an Excel Spreadsheet represents the frequencies of the identified function words in each sample. Such matrix, after transmitted into SPSS program, is handled statistically utilizing two techniques (principal component analysis and cluster analysis). These two statistical techniques have the potential to group and distinguish between samples based on similarities and differences found among them. The results obtained provide a rather convincing evidence of the effectiveness of such methodology in distinguishing between samples of different authors and attributing the (held out) questioned samples to their respective authors. These results are displayed as numerical values in qualitative analysis and graphically in quantitative analysis
Logo