نظام التوصية المبني على تنقيب الآراء باستخدام تقنيات التعلم الآلي

رسالة ماجستير

اسم الباحث : آمنة ناهض عبد الامير محمد

اسم المشرف : محسن حسن حسين

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

لقد أتاح الإنترنت والويب إمكانية مشاركة كمية هائلة من المعلومات والوصول إليها من قبل أعداد كبيرة من الأشخاص. وقد أدى هذا إلى مشكلة تسمى الحمل الزائد للمعلومات (information overload) و هو التحدي المتمثل في اتخاذ القرارات عند مواجهة الكثير من المعلومات. استلزمت هذه المشكلة إنشاء أنظمة توصية تعالج تحدي الحمل الزائد للمعلومات من خلال اقتراح منتجات أو خدمات قد تكون مفيدة للمستخدمين ومصالحهم.

قد تواجه أنظمة التوصية عدة مشاكل منها التشتت (Sparsity) والبداية الباردة (Cold-start). تؤدي هذه المشكلات إلى انخفاض أداء نظام التوصية.

في هذا العمل، تم اقتراح نظام التوصية القائم على المراجعات النصية وباستخدام طريقة التعلم العميق (RS-TRDL) لأداء مهمتين رئيسيتين: المهمة الأولى هي تخفيف مشكلة (user cold-start) والمهمة الثانية هي تخفيف مشكلة (Sparsity) وتعزيز أداء النموذج المقترح. تم استخدام المراجعات النصية كمعلومات إضافية إلى جانب التقييمات الرقمية للمستخدمين. وتم استخلاص جوانب مهمة من هذه المراجعات، بالإضافة إلى قطبية المشاعر باستخدام إحدى خوارزميات التعلم العميق وهي خوارزمية الذاكرة طويلة المدى (LSTM)، للاستفادة من هذه الجوانب في عملية التوصية.

في نموذج RS-TRDL، تم إجراء المعالجة المسبقة على مجموعة البيانات وتضمنت هذه المرحلة خطوات مختلفة، بما في ذلك التعامل مع القيم المفقودة وتصنيف البيانات. بالإضافة إلى ذلك، قام بدمج عمليات المعالجة المسبقة الخاصة بالنص مثل تنظيف النص والمعالجة المسبقة العامة للنص، ثم انتقل بعد ذلك إلى استخراج الجوانب. استخدمت هذه الخطوة spaCy لاستخراج الأسماء عبر وضع علامات على جزء من الكلام (POS). بالإضافة إلى ذلك، تم إجراء نمذجة الموضوع باستخدام خوارزمية BERTopic. وأخيرًا، تم إجراء تحليل المشاعر باستخدام خوارزمية الذاكرة طويلة المدى (LSTM).

بعد استخراج الجوانب، تمت معاملة مستخدمي البداية الباردة ومستخدمي البداية غير الباردة بشكل منفصل. بالنسبة لمستخدمي البداية الباردة، تم إجراء عملية التنبؤ بالتقييم باستخدام خوارزمية K-Nearest Neighbors (KNN) استنادًا إلى تقييمات المستخدمين غير المبتدئين الذين يتشاركون نفس الجوانب من نفس العناصر ولديهم قيمة مساعدة (helpfulness) عالية.

بالنسبة للمستخدمين غير الباردين، تمت عملية التجميع أولاً بناءً على الجوانب المستخرجة من مراجعات المستخدمين، ثم تم إنشاء مصفوفة تشابه لكل مجموعة باستخدام مقياس تشابه جيب التمام. وأخيرًا، تم إجراء عملية التنبؤ بالتقييم باستخدام KNN استنادًا إلى تقييمات أقرب المستخدمين المنتمين إلى نفس المجموعة والتي تتمتع بقيمة مساعدة (helpfulness) عالية.

تم إجراء تجارب واسعة النطاق بواسطة النظام المقترح على مجموعتي بيانات أمازون: Amazon Electronics وAmazon Fine Food. تظهر النتائج التجريبية أن نموذج RS-TRDL الخاص بنا قد تجاوز جميع طرق المقارنة مع البحوث التي تمت مراجعتها في عملية التنبؤ بالتقييم لكلا المهمتين الذي تم تصميمه لأداءها. تجدر الإشارة إلى الأداء المتسق للنموذج عبر كلا المهمتين، كما يتضح من نطاق التحسين الذي يتراوح بين 0.24% إلى 34.32% لتخفيف مهمة مشكلة البداية الباردة للمستخدم ومن 3.21% إلى 58.7% لتخفيف مشكلة التناثر وتعزيز مهمة نموذج الموصي. دعمت هذه التجارب فكرة أن دمج أنظمة التوصية وتحليل المشاعر سيكون له مزايا كبيرة.

Recommendation System Based On Opinion Mining using Machine Learning Techniques

Abstract

The Internet and the Web have made it possible for a vast amount of information to be shared and accessed by large numbers of people. This has led to a problem called information overload (the challenge of making decisions when faced with too much information). This problem necessitated the creation of recommendation systems, which address the information overload challenge by suggesting products or services that may be useful to users and their interests.
Recommendation systems may face several problems, including cold-start and sparsity. These problems lead to a decline in the performance of the recommender system.
In this work, a Recommender System based on Textual Reviews and using the Deep Learning method (RS-TRDL) was proposed to perform two tasks namely alleviate the user cold-start and alleviate sparsity problems, this leads to improving the performance of the proposed method. Textual reviews were used as additional information alongside the users’ numerical ratings. Important aspects were extracted from these reviews, in addition to the polarity of sentiment by using one of the deep learning algorithms, which is Long Short-Term Memory (LSTM) algorithm, to then benefit from these aspects in the recommendation process.
The RS-TRDL model employed a comprehensive pre-processing stage for the dataset. This stage encompassed various steps, including Handling Missing Values and Data Labeling. Additionally, it incorporated text-specific pre-processing operations such as Text Cleaning and general Text Preprocessing, it then proceeded with aspects extraction. This step employed spaCy for Noun Extraction via Part-of-Speech (POS) tagging. Additionally, Topic Modeling was performed using the BERTopic algorithm. Finally, Sentiment Analysis was conducted utilizing the Long Short-Term Memory (LSTM) algorithm.
After extracting the aspects, the cold-start users and non-cold-start users were treated separately. For cold-start users, the Rating prediction process was done using K-Nearest Neighbours (KNN) algorithm based on the ratings of the non-cold-start users who share the same aspects of the same items and have high helpfulness value.
For non-cold start users, firstly grouping process was done based on aspects extracted from users’ reviews, then a similarity matrix was created for each group using Cosine similarity measure. Finally, the rating prediction process was performed using KNN based on the ratings of the nearest users belonging to the same group and having a high helpfulness value.
Extensive Experiments were conducted by the proposed system on two Amazon datasets: Amazon Electronics and Amazon Fine Food. The experimental results show that the proposed RS-TRDL model exceeded all literature-reviewed comparison methods in the rating prediction process for both tasks it was built to perform. It is worth highlighting the model’s consistent performance across both tasks, as evidenced by the improvement range of 0.24% to 34.32% for alleviating the user cold start problem task and 3.21% to 58.7% for alleviating the sparsity problem and enhancing the recommender model task.