توليد صور المشروطة بالنص باستخدام نماذج الانتشار

رسالة ماجستير

اسم الباحث : ساره فائز عبدالغني

اسم المشرف : أ.م.د اشوان انور عبدالمنعم

الكلمات المفتاحية :

الكلية : كلية علوم الحاسوب وتكنولوجيا المعلومات

الاختصاص : علوم الحاسوب

سنة نشر البحث : 2024

تحميل الملف : اضغط هنا لتحميل البحث

الخلاصة

قد حقق توليد الصور المدعوم بالنص قفزة هائلة نحو أن يصبح ظاهرة سائدة. مع أنظمة تحويل النص إلى صورة، يمكن لأي شخص إنشاء صور رقمية وأعمال فنية وهذا يثير مسألة ما إذا كان توليد النص إلى صورة هو عملاً إبداعيًا.

لقد ساهمت الأنظمة التوليدية كثيرًا في تطوير الذكاء الاصطناعي من خلال توليد صور واقعية إلى حد ما من النص.

تم استخدام أنظمة توليد الصور بأستخدام النص في أشكال ومجالات مختلفة في النطاق بما في ذلك ، على سبيل المثال لا الحصر ، الأعمال الفنية والتصاميم وأخذ عينات البيانات والترفيه. تم إجراء العديد من الدراسات حول توليد الصور من النص حيث تم اقتراح العديد من تقنيات الذكاء الاصطناعي. ومع ذلك، لا تزال بعض القضايا الحرجة بحاجة إلى الحل، خاصة فيما يتعلق باستهلاك الوقت ووقت التدريب. لذلك، استخدمت الدراسة المقترحة نموذج الانتشار المستقر (SDM) لإجراء تغذية راجعة تكرارية (إذا لم تتحسن مقاييس التقييم وهي درجة البداية (IS) والمسافة الابتدائية فريشيت (FID) يتم ضبط المعلمات الفائقة وتدريب النموذج مرة أخرى). في هذه الدراسة، يؤدي ضبط نموذج SDM إلى تحسين كبير في توليد الصور التي تشبه الواقع بشكل أكبر. وكذلك، هناك تنازلات بين جودة الصورة ومرونة مقاييس الأداء. تعمل عملية الضبط الدقيق على تحسين القدرة العالمية للنموذج تدريجياً على إنتاج صور رقمية أفضل وأكثر تنوعاً. النموذج الذي تم ضبطه بدقة لديه درجة FID أقل (248.748256)، مما يشير إلى احتمال أكبر لتحقيق تشابه أعلى في توزيع الصور مع مجموعة البيانات المستهدفة. بشكل متقطع، أظهرت نتائج النموذج المحسن درجة FID أقل (212.52) عند مقارنتها بالنموذج الأساسي (251.22)، مما يشير إلى أن الصور المولدة من النموذج المعدل كانت أقرب إلى التوزيع المستهدف في مجموعة البيانات الاصطناعية.

Text - Conditioned Image Generation using Diffusion Models

Abstract

Text-guided synthesis of images has made a giant leap toward becoming a mainstream phenomenon. With text-to-image generation systems, anybody can create digital images and artwork. This provokes the question of whether text-to-image generation is creative.
The generative systems have contributed much to the development of artificial intelligence (AI) generating rather realistic images from the text. Text-to-image generation systems have been used in various forms and areas in scope including, but not limited to, artworks and designs, data sampling, and entertainment. Many studies have been conducted on generating images from text and many AI techniques have been proposed. However, some critical issues have yet to be solved, especially with regard to the time consumption and the training time. Therefore, the proposed study utilized the Stable Diffusion Model (SDM) to conduct iterative feedback (if the metrics of the evaluation namely Inception Score (IS) and Fréchet inception distance (FID) do not improve then the hyper-parameters are tuned and the model is trained again). In this study, the fine-tuning of the SDM results in a considerable improvement in generating images that are more akin to reality. As well, there are trade-offs between image quality and flexibility in performance metrics. The fine-tuning process gradually improves the model’s global ability to generate better and more diverse digital imagery. The fine-tuned model has a lower FID score (248.748256), suggesting a higher likelihood of attaining higher image distribution similarity to the targeted dataset. Sparingly, the results of the improved model denoted a lower FID score (212.52) when contrasted with the base model (251.22), pointing out that the generated images from the fine-tuned model were more intimate to the target distribution in the synthetic dataset.