إستكشاف المشاعر الجماعية في نظام محاكاة ذكي

رسالة ماجستير

اسم الباحث : علي حسين موسى حمزة

اسم المشرف : اسيا مهدي ناصر

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

في مجال التفاعل بين الإنسان والروبوت (HRI)، تلعب القدرة على التعرف على المشاعر الإنسانية وفهمها دورًا أساسيًا في تسهيل التفاعل الاجتماعي. حيث إنه يمكن الاستفادة من تفاصيل التعرف على المشاعر الجماعية (GER) كأساس عملي لتحسين عمليات صنع القرار ضمن مبادئ عمل ال(HRI).

تتكون منهجية هذه الأطروحة من عدة خطوات لاتخاذ القرار الأفضل. في بادئ الأمر تم البحث عن مجموعة بيانات تشمل أطياف واسعة من تعابير الوجه العاطفية وسيناريوهات مختلفة لتجمع الأفراد. لذا فقد أعتمدت مجموعة بيانات مستمدة من بيئات محاكاة افتراضية للواقع الحقيقي كأساس رئيسي لتحليل تعابير الوجوه من خلال إستخدام طريقة منهجية لاكتشاف و تحديد الوجوه بشكل أولي ومن ثم أستنباط و تمييز التعابير، وذلك من خلال دمج مصنفات الــ(Haar و HOG )، لضمان تحديد الوجوه بشكل فعال. ثم استخراج العلامات المميزة لتعابير الوجه من خلال استخدام الـ(Dlib)، ولتعزيز الدقة في تحديد الوجه تم إستخدام الــ(MTCNN) .

يكمن جوهر هذا البحث في تطوير نموذج الشبكة العصبية التلافيفية (CNN)، المصمم لتصنيف دقيق للصور متعددة المشاعر طبقا لتعبيرات الوجه. حيث إنه يتيح نموذج الـ(Attention CNN) و الذي تم تدريبه على مجموعة البيانات المهيأة مسبقاً لكي يتمكن من التعرف الدقيق على المشاعر. و من ثم تم اختبار هذا النموذج على نوعين من البيانات الأساسية والثانوية. حيث إنه تم تحقيق دقة عالية عند إستخدامه على بيانات الــ(ROS/Gazebo Generated) الرئيسية محققا نسبة 98.5% لإستكشاف جميع فئات المشاعر الستة المقترحة (الغضب ، الإشمئزاز ، الخوف ، السعادة ، الحزن ، التفاجئ )، بينما حققت مجموعة بيانات الـ(RAF) الثانوية 66% من الدقة.

علاوة على ذلك، تم تطبيق الموديل على مجموعتين من الفيديوات صممت بواسطة برامج محاكاة لبيئتين واقعيتين هما (قاعة متحف و بناية كافيتيريا) ، حيث أنه تم تحويل هذه الفيديوات الى مجموعة إطارات وتم التعامل مع كل إطار على أنه صورة ، ليتم إستخدام نفس العمليات السابقة في تحديد الوجوه و إستنباط المشاعر لأفراد المجاميع ضمن هذه الصور.

بعد تحديد الوجوه و تعابيرها تم إعتماد مبدأ التوزيع المكاني لهذه الوجوه ومبدأ الأنتروبي لتوزيع مشاعر مجموعة من الافراد ضمن الصورة الواحدة ، و بعد دمج كل عشرة أطر لتشكل مشهد واحد ، يتم لاحقا وفق عمليات محددة تصنيف مشاعر المجموعة لكل إطار ضمن إحدى حالتين سلبية أو إيجابية تمهيدا لتمكين الروبوت من إتخاذ القرار المناسب في كيفية التعامل مع مجاميع الافراد ضمن البيئات التفاعلية الموجود فيها ضمن مفاهيم الـ(HRI) ، لتُظهر عملية التقييم فعالية النموذج وتحقيقه دقة عالية في التمييز بين المشاعر المختلفة لكل فرد واتخاذ قرارات مناسبة .

GROUP EMOTION DETECTION IN A SMART SIMULATION SYSTEM

Abstract

In the field of Human-Robot Interaction (HRI), the ability to recognize and understand human emotions plays an essential role in facilitating contextually appropriate and socially sensitive interactions. Explore within the details of how get benefit of Group Emotion Recognition (GER) regards as a foundation for improving decision-making processes within the context of HRI.
To fix the problem of how to make the suitable decision, the methodology of this thesis consists from many steps. Begin by looking for using a datasets encompassing a wide array of emotional expressions and group scenarios. These datasets, derived from both simulated and real-world environments, serve as the basis for following analyses. A two-tiered approach to face detection, integrating Haar Cascade and Histogram of Oriented Gradients (HOG) Descriptors, ensures robust and efficient face detection. Feature extraction relies on Dlib’s facial landmark detector, enriched by the integration of Multi-task Cascaded Convolutional Networks (MTCNN) to enhance accuracy.
The contribution of this research lies in the enhancement of a Convolutional Neural Network model, designed for accurate multi-class image classification of facial expressions. This Attention CNN model, trained on the prepared dataset, enables precise emotion recognition with an impressive accuracy rate. Then this model has been tested on two types: essential and secondary datasets. The ROS/Gazebo Generated regarded as a main Dataset of 23,222 images was achieved an accuracy of 98.52% across all emotion classes while the RAF dataset regarded as a supplementary dataset contain 3068 images achieved around 66.69% of accuracy.
Furthermore, a two videos dataset represent two different scenarios has been well preprocessed, including frame extraction, multi-face detection, and GER classification, follows has been applied. This process includes affective steps such as face localization, emotion labeling, entropy calculation, and GER classification, providing valuable insights into the spatial dynamics of group emotions.
Finally, the action will be taking depending on two aspects: positive or negative labels of the emotions of the individual’s group. Also the evaluation process demonstrates the model’s effectiveness, achieving high accuracy in differentiating emotions and making informed decisions.