تصنيف الجنس بناءً على تحليل الأسلوب اللغوي باستخدام تقنيات التعلم الآلي والتعلم العميق

رسالة ماجستير

اسم الباحث : حنين تاميم عبدعلي هاشم

اسم المشرف : أ.م.د. ضمياء عباس حبيب

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

إن الكم الهائل من البيانات النصية المتاحة في جميع أنحاء العالم، بما في ذلك المقالات ومحتوى وسائل التواصل الاجتماعي، قد أعطى أهمية لمنصات الوسائط مثل تويتر لاستخدام هذه البيانات ضمن تصنيف الجنس. هذا موضوع مثير للاهتمام للعديد من التطبيقات العملية مثل التسويق وأنظمة التوصية والجرائم الإلكترونية. يشير تصنيف الجنس في النص إلى عملية تصنيف الأفراد إلى أحد الجنسين، ذكر أو أنثى، بناءً على الخصائص اللغوية الملحوظة عادةً.
اكتسبت معالجة اللغة الطبيعية (NLP) شعبية في مجال التعلم الآلي. تطبق تقنيات معالجة اللغة الطبيعية (NLP) تصنيف الجنس تلقائيًا باستخدام السمات اللغوية والأسلوبية. يؤدي هذا إلى مشاركة أكبر ورضا، وتحسين دعم العملاء، وتقديم محتوى مخصص. الطبيعة الديناميكية والمفردات الضخمة للغة تجعل من الصعب تحديد جنس المؤلف بناءً على الأسلوب اللغوي، وقد كان هذا تحديًا للأطروحة، في حين أن طريقة استخراج الميزات المقترحة لها أهمية كبيرة في التغلب على هذه المشكلة وخلق تمييز دقيق بين الذكور والإناث.
الهدف من هذه الأطروحة هو تحسين دقة تصنيف الجنس بناءً على أسلوبه اللغوي في مجموعة بيانات المجال العام ومجموعة بيانات المجال المحدد. ولتحقيق هذا الهدف، تم استخراج الفروق النصية بين الجنسين باستخدام تشابه النص لتحسين تصنيف الجنس وتم تطبيق ثلاثة نماذج. تم تطبيق النموذج الأول من خلال ثلاث مصنفات للتعلم الآلي وهي الغابة العشوائية (RF) والانحدار اللوجستي (LR) وآلة المتجهات الداعمة (SVM) للحصول على تسميات الجنس واحتمالات التنبؤ الخاصة بها. وتم تطبيق النموذج الثاني من خلال الهياكل الناجحة المستخدمة مسبقًا لنماذج CNN للحصول على تسميات الجنس واحتمالاتها. أخيرًا، تم استخدام آلية التركيبة الخطية من خلال الجمع بين الأوزان الإضافية ونتائج احتمالية التسمية للنموذجين السابقين لحساب احتمالية التنبؤ النهائية.
تم الحصول على أعلى نتائج دقة لمجموعتي البيانات (Twitter وTripAdvisor). حقق نموذج التعلم الآلي 87.8٪ على Twitter، بينما حقق 75.1٪ على TripAdvisor. حصل نموذج التعلم العميق على 89.1٪ على Twitter و76.3٪ على TripAdvisor. أخيرًا، حقق نموذج التركيبة الخطية (89.6٪، 77٪) على Twitter وTripAdvisor على التوالي.
كان استخدام تقنية استخراج الميزات المقترحة أمرًا بالغ الأهمية في تحقيق نتائج متفوقة مقارنة بالأبحاث السابقة. بالإضافة إلى ذلك، فإن حقيقة أن مفردات مجموعة البيانات العامة لنطاق Twitter أكثر تنوعًا ساعدتنا على التفوق على TripAdvisor، وهي مجموعة بيانات نطاق محدد ذات دقة أقل بسبب لغتها المرتبطة فقط بالفنادق والمطاعم. من أجل تحقيق أقصى قدر ممكن من الدقة، كان استخدام استراتيجية التركيبة الخطية باستخدام التعلم العميق والتعلم الآلي مهمًا للغاية.

Gender Classification Based on Linguistic Style Analysis Using Combine Machine Learning and Deep Learning Techniques

Abstract

The enormous amount of textual data available around the world, including articles and social media content, has gave the importance for media platforms such as Twitter to employ this data within gender classification. This is an interesting topic for many practical applications such as marketing, recommendation systems and cybercrime. Gender classification in text refers to the process of classifying individuals into one of two genders, male or female, typically based on observable linguistic characteristics.
Natural language processing (NLP) has gained popularity in machine learning field. NLP techniques automatically apply gender classification by using linguistic and stylistic features. This leads to greater participation and satisfaction, improved customer support, and customized content delivery. The dynamic nature and huge vocabulary of the language makes it difficult to determine an author’s gender based on linguistic style, it has been a challenge, while the proposed feature extraction method has great importance in overcoming this problem and creating a precise distinction between males and females.
The aim of this thesis is to improve gender classification accuracy based on her/his linguistic style in general domain dataset and specific domain dataset. To achieve this aim, extracting gender textual nuances using text similarity for gender classification improvement and three models have been applied. The first model was applied by three machine learning classifiers Random Forest (RF), Logistic Regression (LR) and Support Vector Machine (SVM) to obtain gender labels and prediction probabilities of them. The second model was applied through the pre-used successful structures of the CNN models to get gender labels and their probabilities. Finally, linear combination mechanism was used by combining additional weights with the label probability results of the previous two models to compute the final prediction probability.
The highest accuracy results of the two datasets (Twitter and TripAdvisor) were acquired. The machine learning model achieved 87.8% on Twitter, while it achieved 75.1% on TripAdvisor. The deep learning model obtained 89.1% on Twitter and 76.3% on TripAdvisor. Finally, the linear combination method achieved (89.6%, 77%) on Twitter and TripAdvisor respectively.
The utilization of the suggested feature extraction technique was crucial in achieving superior outcomes in comparison to earlier researches. In addition, the fact that general domain dataset Twitter’s vocabulary is more diverse that helped us outperform TripAdvisor, a specific domain dataset with less accuracy because of its language related only to hotels and restaurants. In order to achieve the maximum accuracy feasible, the using of linear combination strategy utilizing deep learning and machine learning was very important.