كشف التخريب في نماذج التعهيد الجماعي

رسالة ماجستير

اسم الباحث : أزهى طلال محمد

اسم المشرف : 1-هدى فاضل حلاوي 2-نور ضياء الشكرجي

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2023

تحميل الملف : اضغط هنا لتحميل البحث

التعهيد الجماعي هو مصطلح شائع يطلق على البيئات التعاونية التي تتضمن مجموعة من المشاركين في صناعة محتوى هذه المنصات وانشاء المعرفة . من أهم وأشهر منصات التعهيد الجماعي هي Amazon’s Mechanical Turk و Kaggle و Wikipedia.
تعتبر ويكيبيديا واحدة من أكثر نماذج التعهيد الجماعي حيوية، حيث يساهم المستخدمون في إنشاء المقالات وتحريرها. مما أدى إلى موسوعيتها الامر الذي جعلها واحدة من أكثر المواقع زيارة للحصول على المعلومات أو استخدامها كقاعدة معرفية للعديد من التطبيقات مثل روبوتات الدردشة. كل هذه الخصائص المميزة يمكن للمستخدمين استغلالها سلباَ في تغيير محتواها، وهو ما يعرف بالتخريب.
التخريب هو أي محاولة لتعديل المقال بشكل يؤثر سلبًا على جودة المقالة. يعتبر التخريب أحد الطبقات الخمس للنموذج الذي تم إنشاؤه لوصف التهديدات السبرانية ، وهو ما يعرف بالتخريب السيبراني.
بشكل عام، فأن “التخريب السيبراني” هو فعل إتلاف أو إضرار البيانات بدلاَ عن سرقتها أو إساءة استخدامها. تم تطوير العديد من تقنيات الكشف التلقائي والميزات ذات الصلة لمعالجة هذه المشكلة.
تقدم هذه الأطروحة نموذجًا للتعلم العميق بهندسة معمارية جديدة لحل مشكلة التخريب في مقالات ويكيبيديا. يستخدم النموذج المقترح شبكة عصبية تلافيفية أحادية البعد (1D CNN) لتحديد نوع التعديلات التي تتم على مقالات ويكيبيديا هل هي تعديلات ( عادية أو تخريبية ) ، وفي الوقت نفسه ، تم استخراج ميزات جديدة واعتمادها في العمل ، مما ساهم في تحسين دقة النموذج . حيث أجريت التجارب على مجموعة بيانات معيارية ، مجموعة PAN-WVC-2010 من مسابقة الكشف عن التخريب التي استضافت في مؤتمر CLEF. بلغت الدقة التي حققها النظام المقترح بالمميزات الجديدة 96٪.

Detecting Vandalism in Crowdsourcing Models

Crowdsourcing is a common term for collaborative environments that include a group of workers participating in the content of these platforms to create knowledge. The most important and well-known crowdsourcing platforms are Amazon’s Mechanical Turk, Kaggle, and Wikipedia. The significant expansion of the encyclopedia made it one of the most visited sites for getting information or using it as a knowledge base for many applications, such as chatbots. This issue comes with another aspect through which users can sabotage the content of Wikipedia, which is known as vandalism.
Vandalism is any attempt to modify the article negatively affecting its quality, which is considered one of the five layers of the model constructed for cyber threats and is known as cyber vandalism. Several automatic detection techniques and related features have been developed to address this issue.
This thesis introduces a deep learning model with a new and light architecture to detect vandalism in Wikipedia articles. The proposed model employs a one-dimensional convolutional neural network architecture (1D-CNN) that can determine the type of modification in Wikipedia articles based on two main stages: the feature extraction stage and the vandalism detection stage. Features are extracted from edits and their associated metadata, as well as new features (reviewers’ trust), and then only the salient features are adopted to make a decision about the article; regular or vandalism can contribute to improving the accuracy of prediction. The experiments were conducted on a benchmark dataset, the PAN-WVC-2010 corpus, taken from a vandalism detection competition hosted at the CLEF conference. The proposed system, with the new features added, has achieved an accuracy of 96%.