• English
    • العربية
  • English
  • تسجيل الدخول
  • جامعة قطر
  • مكتبة جامعة قطر
  •  الصفحة الرئيسية
  • الوحدات والمجموعات
  • عن المستودع الرقمي
    • الرؤية والرسالة
  • المساعدة
    • إرسال الأعمال الأكاديمية
    • سياسات الناشر
    • أدلة المستخدم
      • عرض المستودع الرقمي
      • البحث في المستودع الرقمي (البحث البسيط والبحث المتقدم)
      • ارسال عملك للمستودع الرقمي
      • مصطلحات المستودع الرقمي
عرض التسجيلة 
  •   مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مساهمة أعضاء هيئة التدريس
  • كلية الهندسة
  • علوم وهندسة الحاسب
  • عرض التسجيلة
  • مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مساهمة أعضاء هيئة التدريس
  • كلية الهندسة
  • علوم وهندسة الحاسب
  • عرض التسجيلة
  •      
  •  
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Improving text-to-image generation with object layout guidance

    Thumbnail
    التاريخ
    2021
    المؤلف
    Zakraoui J.
    Saleh M.
    Al-Maadeed, Somaya
    Jaam J.M.
    البيانات الوصفية
    عرض كامل للتسجيلة
    الملخص
    The automatic generation of realistic images directly from a story text is a very challenging problem, as it cannot be addressed using a single image generation approach due mainly to the semantic complexity of the story text constituents. In this work, we propose a new approach that decomposes the task of story visualization into three phases: semantic text understanding, object layout prediction, and image generation and refinement. We start by simplifying the text using a scene graph triple notation that encodes semantic relationships between the story objects. We then introduce an object layout module to capture the features of these objects from the corresponding scene graph. Specifically, the object layout module aggregates individual object features from the scene graph as well as averaged or likelihood object features generated by a graph convolutional neural network. All these features are concatenated to form semantic triples that are then provided to the image generation framework. For the image generation phase, we adopt a scene graph image generation framework as stage-I, which is refined using a StackGAN as stage-II conditioned on the object layout module and the generated output image from stage-I. Our approach renders object details in high-resolution images while keeping the image structure consistent with the input text. To evaluate the performance of our approach, we use the COCO dataset and compare it with three baseline approaches, namely, sg2im, StackGAN and AttnGAN, in terms of image quality and user evaluation. According to the obtained assessment results, our object layout guidance-based approach significantly outperforms the abovementioned baseline approaches in terms of the accuracy of semantic matching and realism of the generated images representing the story text sentences
    DOI/handle
    http://dx.doi.org/10.1007/s11042-021-11038-0
    http://hdl.handle.net/10576/31089
    المجموعات
    • علوم وهندسة الحاسب [‎2489‎ items ]

    entitlement


    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا
    اتصل بنا | جامعة قطر

     

     

    الصفحة الرئيسية

    أرسل عملك التابع لجامعة قطر

    تصفح

    محتويات مركز المجموعات الرقمية
      الوحدات والمجموعات تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر
    هذه المجموعة
      تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر

    حسابي

    تسجيل الدخول

    إحصائيات

    عرض إحصائيات الاستخدام

    عن المستودع الرقمي

    الرؤية والرسالة

    المساعدة

    إرسال الأعمال الأكاديميةسياسات الناشر

    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا
    اتصل بنا | جامعة قطر

     

     

    Video