معالجة اللغة الطبيعية وتعلم الآلة في تحليل التقارير الطبية

رسالة ماجستير

اسم الباحث : حسنين عبد الجواد حسين علي المحنه

اسم المشرف : أ. د حوراء حسن عباس

الكلمات المفتاحية : NLP, EMRs, Data classification, Deep Learning

الكلية : كلية الهندسة

الاختصاص : علوم الهندسة الكهربائية

سنة نشر البحث : 2022

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

تعد معالجــة اللغة الطبيعية جزءًا من خوارزميات الذكاء الاصطنــــاعي التي تركز على تصميم وبناء التطبيقات والأنظمة بطريقة تسمح بالتفاعل بين أجهزة الكمبيوتر واللغات الطبيعية المطورة للاستخدام البشري، وقد تم استخدام البرمجة اللغوية العصبية في عدة مجالات ضمن الذكاء الاصطناعي ومعالجة البيانات والتطبيقات مثل تطبيقات الوسائط الاجتماعية والتطبيقات الطبية وتطبيقات الترجمة مما كان له أثر إيجابي في تحسين جودة البيانات واستخراج المعلومات المفيدة في معظم التطبيقات.

تم اقتراح نماذج للاستفادة من البيانات الطبية المتوفرة على شكل ملفات نصية في تشخيص مرض الربو، الربو هو مرض التهابي مزمن شائع جدا في المجتمع ينتج عنه تضييق في الشعب الهوائية مع تأثير كبير على الأطفال والبالغين بسبب ارتفاع معدلات الاعتلال والوفيات في الحالات الشديد.

في هذا النموذج، سيتم استخدام قاعدة بيانات شبه منظمة للمرضى الصغار. يتكون النموذج المقترح من أربع مراحل رئيسية. الأول هو جمع البيانات والتحضير لعملية التعدين. والثاني هو المعالجة المسبقة للبيانات والتي تم إجراؤها من خلال تطبيق خوارزميات مختلفة لمعالجة اللغة الطبيعية وتتضمن المرحلة الثالثة استخراج الميزات وترجيحها من خلال تطبيق الأداة TF-IDF)).

قمنا بتحويل الجزء غير المهيكل من البيانات إلى مهيكل بواسطة أدوات البرمجة اللغوية العصبية. ثم تطبيق خوارزميات التصنيف عليها. يتم إدخال الميزات المستخرجة في تقنيات التعلم الآلي للتشخيص كمرحلة نهائية. أظهرت النتائج تحقيق دقة عالية بعد تطبيق خوارزميات معالجة اللغة الطبيعية حيث كانت أعلى دقة تم التوصل اليها في خوارزمية (ML-Perceptron) (99.89٪) و (97.51٪) بتطبيق على مجموعة بيانات غرينادا ومجموعة البيانات العراقية على التوالي.

أما النموذج الثاني هو تصنيف التخصصات في التقارير الطبية النصية، واستخدمت طرق استخراج الميزات واختيار الميزات لتحويل التقارير الطبية النصية إلى مجموعات من الميزات واستخراج الميزات الأكثر فعالية. تم تطبيق طرق تصنيف مختلفة لتصنيف مجموعة البيانات؛ تم تحقيق أعلى دقة من خلال تطبيق خوارزمية (ML-Perceptron) حيث بلغت (99.39) %.

يطبق النموذج الأخير خوارزمية التعلم العميق Convolution Neural Network (CNN) على نفس مجموعة بيانات التقرير الطبي النصي المستخدمة في النموذج السابق. تطبيق البرمجة اللغوية العصبية لتنظيف البيانات والشبكة العصبية التي تتكون من خمس طبقات. بتطبيق كل هذه الطبقات على بياناتنا، تمكن النموذج من تصنيف التقارير الطبية إلى عشر فئات نتج عنها دقة عالية تساوي (99%).

Natural Language Processing and Machine Learning in Medical Reports’ Analysis

Abstract

Natural language processing is a part of artificial intelligence algorithms that focus on designing and building applications and systems in a way that allows interaction between computers and natural languages developed for human use. NLP has been used in several areas within artificial intelligence and data processing applications. It had a positive effect on improving data quality.
The hospitals have many medical reports which contain very rich information that is not invested properly because it is unstructured data by using NLP these data transformed into structured data that can be more useful in diseases diagnosis and treatment for both the physicians and the patients.
This thesis consists of three models, that are proposed to benefit from the medical data which available in the form of text files and medical reports.
The first model is an asthma diagnosis; in this model, a semi-structured database of young patients is used. The proposed model consists of four major stages, Data collection, Data pre-processing by applying different (NLP) algorithms, features extraction and weighting by applying Weight and Term Frequency-Inverse Document Frequency (WTF-IDF) approach and finally applying the classification algorithms. The result showed that the highest accuracy (99.89%) and (97.51%) were achieved by applying ML-Perceptron on Grenada dataset and the Iraqi dataset respectively.
The second model was the classification of specialties in textual medical reports, feature extraction and feature selection methods were also used to convert the textual medical reports to sets of features and to extract the most effective feature.
Various classification methods were applied to classify dataset; the highest accuracy was achieved by applying Multi-Layer Perceptron classification techniques (99.39%).
The last model applies a deep learning algorithm on the same textual medical report’s dataset that have been used in the previously mentioned model, by Applying NLP to clean data and Convolution Neural Network (CNN) which has five layers, after applying all these layers to the data in order to classify the medical reports into ten classes the result was higher accuracy equal to (99.00), F1-Measure (97.82), precession (98.64), and Recall (97.11).