استعال البيانات الضخمة للتنبؤ بسلوك المستخدمين في شبكات التواصل الاجتماعي من خلال انموذج الانحدار الوجستي

رسالة ماجستير

اسم الباحث : زهراء هلال حمود

اسم المشرف : مشتاق كريم عبد الرحيم

الكلمات المفتاحية : البيانات الضخمة, الانحدار اللوجستي الثنائي, الإمكان الأعظم , المربعات الصغرى الموزونة

الكلية : كلية الادارة والاقتصاد

الاختصاص : علوم الأحصاء

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث


يعد استعمال البيانات الضخمة في الوقت الحالي مهمًا جدًا في عملية التنبؤ واتخاذ القرار لذلك تفسير البيانات الضخمة على أنها مجموعة من البيانات العميقة والمتداخلة التي يتم جمعها من مصادر مختلفة والبيانات الضخمة لها خصائص عديدة منها التنوع و السرعة والحجم وتمتاز البيانات الضخمة بالتنوع حيث هناك بيانات منظمة و بيانات شبة منظمة وبيانات غير منظمة ويتم جمع البيانات الضخمة من مصادر مثل المعلومات الطبية البيانات المتعلقة بالآراء تهدف هذه الرسالة توظيف استعمال البيانات الضخمة لتقدير معلمات أنموذج الانحدار اللوجستي وكذلك تنبو بسلوك مستخدمين مواقع التواصل الاجتماعي وتم استعمال أنموذج الانحدار اللوجستي الثنائي وهو أحد أهم النماذج غير الخطية المستعملة في نمذجة و عند تقدير معلمات أنموذج الانحدار اللوجستي الثنائي بطرائق التقدير وعند استعمال الطرائق العددية لتقدير معلمات أنموذج هذه الطرائق في بعض الأحيان لا تعطي حل امثل عند استعمال الطرائق الاعتيادية
لذلك سيتم استعمال الطرائق الاعتيادية بعد تحسينها باستعمال الخوارزمية الجينية وبعدها نقوم بالمقارنة بين جميع طرائق التقدير لاختيار أفضل طرائق التقدير لمعلمات الانحدار اللوجستي الثنائي. توصلت نتائج المحاكاة لتقدير المعلمات عن طريق عدد النماذج وأحجام العينات الضخمة والمختلفة إلى أن طريقة الإمكان الأعظم المحسنة هي الطريقة الفضلى بين جميع الطرائق المحسنة بالخوارزمية الجينية، وأن طريقة الإمكان الأعظم الاعتيادية هي الفضلى بين طرائق التقدير الاعتيادية لتقدير أنموذج الانحدار اللوجستي الثنائي، وذلك لأنَّ كلتا الطريقتين تمتلكان أقل مربعات الخطأ (MSE) هذا فيما يخص الجانب التجريبي
أما في الجانب التطبيقي، تم استعمال بيانات حقيقية من شبكة التواصل الاجتماعي (إنستغرام) بلغ عددها (58000) مستخدم تم سحبة عينة عشوائية يبلع عددها (50000). تم نمذجة البيانات، اذ تبين مدى ملائمة أنموذج اللوجستي الثنائي في نمذجة هذه البيانات بحث تم توصل إلى ان نسبة التصنيف الصحيح بلغ 84%. يعني ان النموذج كان دقيقا بنسبة 84% في تصنيف جميع الحسابات سواء حساب حقيقي أو مزيفة وبلغت قيمة منحنى (ROC) 0.08 ان الاختبار قادر تميز بين النتائج الإيجابية والسلبية باحتمال 0.08 وكذلك, المشاركة العوامل التي لها تأثير معنوي في الأنموذج وهي (عدد الأشخاص أو الصفحات التي يتابعها المستخدم, طول السيرة الذاتية, توفر صورة لحساب المستخدم, توفر الرابط, نسبة غير الصورة نسبة مئوية(0.0 إلى 1.0) للوسائط غير الصور هناك ثلاثة أنوع من الوسائط في الانستغرام هي (الصور, الفيديو, العرض
الدائري),المشاركة يشبه نسبة التفاعل ولكنه مخصص للتعليقات ,نسبة علامة الموقع النسبة المئوية (0.0 الى1.0) للمشاركات الموسومة بالموقع, متوسط عدد الهاشتاج, متوسط الفاصل الزمني بين المشاركات (بالساعات)

Rp-Utilizing Big Data to Predict users Behavior in Social Networks through Logistic Regression.pdf


The use of big data has become highly important in the current era for prediction and decision-making processes. Big data is interpreted as a collection of deep and complex datasets gathered from various sources. Big data is characterized by several features, including variety, velocity, and volume. It exhibits diversity, encompassing structured, semi-structured, and unstructured data, and is collected from sources such as medical information and opinion-related data. This study aims to utilize big data in estimating the parameters of the logistic regression model and predicting the behavior of social media users. The binary logistic regression model, one of the most important non-linear models used in modeling, has been employed. When estimating the parameters of the binary logistic regression model using estimation methods, numerical methods sometimes fail to provide an optimal solution when conventional methods are used. Therefore, conventional methods will be improved using the genetic algorithm. A comparison will then be made between all estimation methods to select the best estimation method for the binary logistic regression model parameters. The simulation results for parameter estimation, conducted using various sample sizes and large datasets, showed that the improved maximum likelihood method is the best among all methods enhanced by the genetic algorithm. Additionally, the conventional maximum likelihood method was the best among conventional estimation methods for estimating the binary logistic regression model parameters, as both methods achieved the least mean squared error (MSE).On the practical side, real data from the social media platform Instagram was used, consisting of 58,000 users. A random sample of 50,000 users was selected, and the data was modeled. The results showed the suitability of the binary logistic regression model for modeling this data, with a correct classification rate of 84%. This indicates that the model was 84% accurate in classifying all accounts as either real or fake. The value of the Receiver Operating Characteristic (ROC) curve was 0.08, suggesting that the test can distinguish between positive and negative outcomes with a probability of 0.08.
Moreover, the study revealed that the significant factors in the model include: The number of people or pages the user follows. The length of the user’s bio Whether the user’s account has a profile picture. The availability of a link. The percentage of non-image media (ranging from 0.0 to 1.0) on the account. Instagram includes three types of media: images, videos, and carousel posts. Engagement, which resembles interaction rate but is specific to comments. The percentage of hash tags used. These factors significantly influenced the classification in the model.