• English
    • العربية
  • English
  • تسجيل الدخول
  • جامعة قطر
  • مكتبة جامعة قطر
  •  الصفحة الرئيسية
  • الوحدات والمجموعات
  • حقوق النشر
عرض التسجيلة 
  •   مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مراكز البحث
  • مركز الكندي لبحوث الحوسبة
  • الشبكات وخدمات البنية التحتية للمعلومات والبيانات
  • عرض التسجيلة
  • مركز المجموعات الرقمية لجامعة قطر
  • المستودع الرقمي لجامعة قطر
  • أكاديمية
  • مراكز البحث
  • مركز الكندي لبحوث الحوسبة
  • الشبكات وخدمات البنية التحتية للمعلومات والبيانات
  • عرض التسجيلة
  •      
  •  
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    UNIFIED DISCRETE DIFFUSION FOR SIMULTANEOUS VISION-LANGUAGE GENERATION

    Thumbnail
    عرض / فتح
    1852_unified_discrete_diffusion_for.pdf (16.31Mb)
    التاريخ
    2023
    المؤلف
    Hu, Minghui
    Zheng, Chuanxia
    Zheng, Heliang
    Cham, Tat-Jen
    Wang, Chaoyue
    Yang, Zuopeng
    Tao, Dacheng
    Suganthan, Ponnuthurai N
    ...show more authors ...show less authors
    البيانات الوصفية
    عرض كامل للتسجيلة
    الملخص
    The recently developed discrete diffusion models perform extraordinarily well in the text-to-image task, showing significant promise for handling the multi-modality signals. In this work, we harness these traits and present a unified multimodal generation model that can conduct both the"modality translation" and"multi-modality generation" tasks using a single model, performing text-based, image-based, and even vision-language simultaneous generation. Specifically, we unify the discrete diffusion process for multimodal signals by proposing a unified transition matrix. Moreover, we design a mutual attention module with fused embedding layer and a unified objective function to emphasise the inter-modal linkages, which are vital for multi-modality generation. Extensive experiments indicate that our proposed method can perform comparably to the state-of-the-art solutions in various generation tasks. 2023 11th International Conference on Learning Representations, ICLR 2023. All rights reserved.
    DOI/handle
    http://dx.doi.org/10.48550/arXiv.2211.14842
    http://hdl.handle.net/10576/62244
    المجموعات
    • الشبكات وخدمات البنية التحتية للمعلومات والبيانات [‎142‎ items ]

    entitlement


    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا
    اتصل بنا | جامعة قطر

     

     

    الصفحة الرئيسية

    أرسل عملك التابع لجامعة قطر

    تصفح

    محتويات مركز المجموعات الرقمية
      الوحدات والمجموعات تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر
    هذه المجموعة
      تاريخ النشر المؤلف العناوين الموضوع النوع اللغة الناشر

    حسابي

    تسجيل الدخول

    إحصائيات

    عرض إحصائيات الاستخدام

    مركز المجموعات الرقمية لجامعة قطر هو مكتبة رقمية تديرها مكتبة جامعة قطر بدعم من إدارة تقنية المعلومات

    اتصل بنا
    اتصل بنا | جامعة قطر

     

     

    Video