التصنيف الحصين بإستعمال التحليل التمييزي اللبي اللامعلمي مع تطبيق عملي).

رسالة ماجستير

اسم الباحث : جعفر علي فرحان

اسم المشرف : أ. م. د. إيناس عبد الحافظ محمد

الكلمات المفتاحية : ( التحليل التمييزي ,التحليل التمييزي المعلمي, التحليل التمييزي الخطي, التحليل التمييزي التربيعي, المقدر اللبي,اختيار الدوال اللبية, عرض الحز مة, اختيار معلمة عرض الحزمة, تصنيف المشاهدات, معدل خطأ التصنيف, تقدير الكثافة اللبية, التحليل التمييزي اللامعلمي,

الكلية : كلية الادارة والاقتصاد

الاختصاص : علوم الأحصاء

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الملخص
ان غالبية البيانات في عالمنا الواقعي تنحرف عن الافتراضات المثالية التي تتطلبها الأساليب الإحصائية التقليدية والتي يتسبب معها انتهاك افتراض الحالة الطبيعية في البيانات ، او ان هنالك بيانات تم تجميعها تمثل بيانات غير خطية ونتيجة لذلك قد نواجه مشكلة في التصنيف لايمكن للتحليل التمييزي التقليدي مواجهة هذه المشكلة فلابد من البحث عن طريقة حصينة تتعامل مع هذه المشكلة لذلك هدفت هذه الرسالة الى استعمال اسلوب التحليل التمييزي اللبي الحصين (Robust Kenel Discrimenant Analysis RKDA) في حالة انحراف البيانات عن الحالة الطبيعية لها ومقارنته مع التحليل التمييزي اللبي التقليدي والتحليل التمييزي الخطي والتربيعي باستعمال معيار معدل خطأ التصنيف (MR) ̂ لاختيار افضل اسلوب في التصنيف وذلك من خلال جانبين , في الجانب التجريبي وباستعمال تجارب محاكاة مونت-كارلو تبين بان اسلوب التحليل التمييزي الخطي هو الافضل من باقي اساليب التحليل التمييزي عند دوال الكثافة الهدف التي تتوزع طبيعياً (D, E) وان اسلوب التحليل التمييزي اللبي حقق افضلية عند دول الكثافة الكاوسية (D, E) عند حجم العينة (n=1000, 5000) . وحقق اسلوب التحليل التمييزي اللبي افضلية على باقي الاساليب عند دالة الكثافة (K) بنسبة قليلة. وكذلك حقق اسلوب التحليل التمييزي اللبي الحصين افضلية على باقي الاساليب عند دوال الكثافة المنحرفة عن التوزيع الطبيعي بنسبة افضلية عالية. اما الجانب التطبيقي الذي تم فيه الاعتماد على سجلات وحدة المختبر في مستشفى الحسين التعليمي في محافظة كربلاء المقدسة لغرض الحصول على المتغيرات التي لها علاقة بمرض إبيضاض الدم اللمفاوي (Lymphocytic leukemia) والتي تضمنت 100)) مشاهدة من الذكور والإناث وقد قسمت المشاهدات إلى مجموعتين الأولى شملت الأشخاص غيرالمصابين بالمرض بحجم (50) مشاهدة والثانية شملت الأشخاص المصابين بالمرض بحجم (50) مشاهدة وكانت متغيرات التطبيق هي Y : متغير مثل الاصابة ام عدم الاصابة بالمرض , اما المتغيرات التوضيحية فهي X1 : جنس المصاب , X2 : خلايا الدم البيضاء WBC (White Blood Cells) , X3 : خلايا الدم الحمراء RBC (Red Blood Cells) , X4 : نسبة هيموجلوبين الدم HGB (Hemoglobin Blood) و X5 : نسبة الصفائح الدموية PLT (Blood Platelets) وتم التوصل فيه الى ان اسلوب التحليل التمييزي اللبي الحصين اعطى نسبة خطأ التصنيف للمجموعة الأولى M͡R1 (0.12) وللمجموعة الثانية M͡R2 (0.56) , وبذلك تكون نسبة خطأ التصنيف الكـــلي ( M͡R) بلغ (0.34) وهي نسبة خطأ قليلة تدل على دقة التصنيف.

Rp-(Robust classification Using Nonparametric Kernel Discriminant Analysis with an Application).pdf

Abstract
The majority of data in our real world deviates from the ideal assumptions required by traditional statistical methods, which causes a violation of the assumption of normality in the data, or there is data collected that represents non-linear data, and as a result we may face a problem in classification. Traditional discriminant analysis cannot confront this problem, so it must From searching for a robust method that deals with this problem, therefore, this thesis aimed to use the Robust Kenel Discriminant Analysis (RKDA) method in case the data deviate from its normal state and compare it with traditional Robust Kenel Discriminant Analysis and quadratic discriminant analysis using the classification error rate criterion. (MR) ̂ To choose the best classification method, through two aspects: the experimental aspect, and using Monte-Carlo simulation experiments. It was found that the linear discriminant analysis method is better than the rest of the discriminant analysis methods when the target density functions are normally distributed (D, E), and that the method Core discriminant analysis achieved an advantage in Gaussian density states (D, E) at sample size (n=1000, 5000). The core discriminant analysis method achieved an advantage over the rest of the methods when the density function (K) was achieved by a small percentage. The hippocampal core discriminant analysis method also achieved an advantage over other methods when density functions deviate from the normal distribution with a high percentage of preference.
In applied side, we depend on the reports of the laboratory unit at Al-Hussein Teaching Hospital in the Holy Governorate of Karbala for the purpose of obtaining variables related to lymphocytic leukemia, which included 100 observations from males and females. The observations were divided into two groups, the first It included people who did not have the disease with a size of (50) views, and the second included people with the disease with a size of (50) views. The application variables were Y: a variable such as having or not having the disease. The explanatory variables are X1: the sex of the infected person, X2: white blood cells (WBC). Blood Cells), X3: RBC (Red Blood Cells), X4: HGB (Hemoglobin Blood) percentage, and The classification for the first group is M͡R1 (0.12) and for the second group is M͡R2 (0.56). Thus, the overall classification error rate (M͡R) was (0.34), which is a small error rate that indicates the accuracy of the classification.