الكشف والتعرف على الكائنات تحت الماء باستخدام التعلم العميق

رسالة ماجستير

اسم الباحث : رضوان عدنان داخل جبر

اسم المشرف : علي رضا حسون الخياط

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

يلعب كشف الكائنات تحت الماء دوراً حيوياً في تطبيقات متنوعة مثل استكشاف المحيطات ومراقبة البيئة والروبوتات تحت الماء. تقدم هذه الرسالة نهجاً مقترحاً لمعالجة تحديات كشف الكائنات تحت الماء، باستخدام مجموعة البيانات لتحليل الصور الفوتوغرافية الفوقية للبحريات (SUIM) . يتم التركيز على تطوير نموذج مشفر-فك بالكامل مُضبَّط بعناية، يحقق توازناً بين أداء الكشف وكفاءة الحوسبة. تسلط التحديات الفريدة لمراقبة واستكشاف المياه، بما في ذلك سوء الرؤية وتغيرات الظروف البيئية، الضوء على الحاجة إلى حلول متخصصة. يلعب تفريق المعاني دوراً حاسماً في هذا النهج، مع تعزيز قدرة النموذج على اكتشاف وتصنيف الكائنات بدقة تحت سطح الماء.
تستغل هندسة النموذج المقترح شبكة مشفر-فك بالكامل تستند إلى نموذج (VGG-16) لاستخراج معلومات فضائية معقدة من مشاهد تحت الماء. تستخدم الشبكة عملية تغيير حجم لمطابقة أحجام الإدخال والإخراج، مما يساعد في الحفاظ على الدقة الفضائية وتجنب فقدان المعلومات. تحتفظ هذه الشبكة بالسمات العامة والمحلية، مما يساعد في اكتشاف الكائنات في ظروف تحت الماء متنوعة. ولتعزيز وضوح الكائنات المكتشفة بصرياً، يستخدم النموذج شبكة (ESRGAN) لتحسين وضوح الصور الفوتوغرافية تحت الماء ذات الدقة المنخفضة.
ومن أجل تحسين نتائج الكشف بشكل إضافي، يتم استخدام عمليات المورفولوجيا لإزالة الأجسام الفنية والضوضاء الصغيرة من التنبؤات، مما يؤدي إلى حدود أكثر دقة وتناسقاً بصرياً للكائنات. يُسهم دمج عمليات المورفولوجيا في خط الكشف في تحسين تحديد الموقع النهائي للكائنات.

UNDERWATER OBJECT DETECTION AND RECOGNITION USING DEEP LEARNING

Abstract

Underwater object detection plays a crucial role in various applications such as marine exploration, environmental monitoring, and underwater robotics. This thesis presents a proposed approach to address the challenges of underwater object detection, utilizing the Semantic Segmentation of Underwater Imagery (SUIM) dataset. The focus is on developing a finely tuned fully-convolutional encoder-decoder model that balances detection performance and computational efficiency. The unique challenges of underwater surveillance and exploration, including poor visibility and varying environmental conditions, underscore the need for specialized solutions. Semantic segmentation plays a crucial role in this approach, enhancing the model’s ability to detect and classify objects accurately beneath the water’s surface.

The proposed model architecture leverages a fully-convolutional encoder-decoder network based on the VGG-16 model to extract complex spatial information from underwater scenes. The network uses a resize operation to match the input and output sizes, which helps to preserve the spatial resolution and avoid information loss. This network keeps both global and local features, which helps to detect objects in different underwater conditions. To enhance the visual fidelity of the detected objects, the model employs the Enhanced Super-Resolution Generative Adversarial Network (ESRGAN) to improve the clarity of low-resolution underwater images.

To further refine the detection results, morphological operations are employed to remove small artifacts and noise from the predictions, resulting in more accurate and visually coherent object boundaries. The integration of morphological operations into the detection pipeline contributes to the refinement of the final object localization.

The method is evaluated using the SUIM dataset, which contains 1525 training images and 110 test images of underwater scenes with annotated object instances. To prevent overfitting and improve the generalization ability of the model, data augmentation techniques are applied to the training images. The dataset covers eight object categories: 1) Waterbody background (BW) 2) Human divers (HD) 3) Aquatic Plants/Flora (PF) 4) Wrecks/ruins (WR) 5) Robots and instruments (RO) 6) Reefs and other invertebrates (RI) 7) Fish and other vertebrates (FV) 8) Sea-floor and rocks (SR). The method uses only five categories: HD, PF, WR, RO, and FV. The method achieves an accuracy of 88% on a pixel level, which shows the effectiveness of the method in identifying underwater objects under challenging conditions.

The contributions of the proposed study extend beyond improved accuracy, as the model’s computational efficiency is meticulously considered. By striking a balance between performance and computational requirements, the proposed approach holds promise for real-time applications, such as autonomous underwater vehicles and monitoring systems. The finding of this research contributes to the advancement of underwater object detection technology, with implications across various domains reliant on efficient and accurate underwater scene analysis.