شخصی سازی متن به تصویر
"این مقاله در حال ترجمه از ویکی انگلیسی است
لطفا حذف نشود."
شخصیسازی متن به تصویر یک امر در یادگیری عمیق برای گرافیک کامپیوتری است که مدلهای از پیش آموزشدیدهشدهی تولید متن به تصویر را تقویت میکند. در این کار، یک مدل تولیدی که بر روی داده هایی با مقیاس بزرگ آموزش داده شده است (معمولاً یک مدل پایه )، به گونه ای تطبیق داده می شود که بتواند تصاویری از مفاهیم جدید و ارائه شده توسط کاربر ایجاد کند. [۱] [۲] این مفاهیم معمولاً در طول آموزش دیده نمی شوند و ممکن است اشیاء خاص (مانند حیوان خانگی کاربر) یا مقوله های انتزاعی تر (سبک هنری جدید [۳] یا روابط اشیا [۴] ) را نشان دهند.
روشهای شخصیسازی متن به تصویر معمولاً مفهوم جدیدی (شخصی) را به کلمات جدید در واژگان مدل پیوند میدهد. سپس میتوان از این کلمات در پیامهای آینده برای فراخوانی مفهوم تولید سوژه محور، [۵] بازسازی ، انتقال سبک [۶] و حتی برای تصحیح سوگیریها در مدل استفاده کرد. برای انجام این کار، مدلها یا دگرنمایی واژه را بهینه میکنند، خود مدل تولیدی را بهخوبی تنظیم میکنند ، یا ترکیبی از هر دو رویکرد را به کار میگیرند.
فن آوری[ویرایش]
شخصیسازی متن به تصویر برای اولین بار در اوت 2022 توسط دو اثر همزمان، وارونگی متنی [۷] و <a href="https://en.wikipedia.org/wiki/DreamBooth" rel="mw:ExtLink" title="DreamBooth" class="cx-link" data-linkid="25">DreamBooth</a> پیشنهاد شد. [۸]
در هر دو مورد، یک کاربر چند تصویر (معمولا 3 تا 5) از یک مفهوم، مانند سگ خود، همراه با یک توصیف درشت از کلاس مفهوم (مانند کلمه "سگ") ارائه می دهد. سپس مدل یاد می گیرد که موضوع را از طریق یک هدف مبتنی بر بازسازی نشان دهد، جایی که انتظار می رود با اشاره به موضوع، تصاویر را از مجموعه اموزشی بازسازی کند.
در وارونگی متنی، مفاهیم شخصی به مدل متن به تصویر با اضافه کردن کلمات جدید به واژگان مدل معرفی می شود. مدل های معمول متن به تصویر کلمات (و گاهی اوقات بخش هایی از کلمات) را به عنوان نشانه ها یا شاخص ها در یک فرهنگ لغت از پیش تعریف شده نشان می دهند. در طول تولید، یک اعلان ورودی به چنین توکن هایی تبدیل می شود که هر کدام به یک "جاسازی کلمه" تبدیل می شوند: یک نمایش بردار پیوسته که برای هر نشانه به عنوان بخشی از اموزش مدل اموخته می شود. Inversion متنی پیشنهاد می کند که یک بردار جدید جاسازی کلمه را برای نشان دادن مفهوم جدید بهینه سازی کند. سپس این بردار جاسازی جدید می تواند به یک رشته انتخاب شده توسط کاربر اختصاص داده شود و هر زمان که اعلان کاربر حاوی این رشته باشد، فراخوانی می شود. [۷]
در DreamBooth، به جای بهینه سازی یک بردار کلمه جدید، مدل مولد کامل خود را به خوبی تنظیم شده است. کاربر ابتدا یک توکن موجود را انتخاب می کند، معمولا یکی که به ندرت در اعلان ها ظاهر می شود. سپس خود سوژه توسط یک رشته حاوی این نشانه نشان داده می شود و به دنبال ان یک توصیف کننده درشت از کلاس موضوع است. سپس یک اعلان که سوژه را توصیف می کند، شکل می گیرد: "یک عکس از <token> <class>" (به عنوان مثال "عکس گربه sks" هنگام یادگیری نشان دادن یک گربه خاص). سپس مدل متن به تصویر تنظیم می شود تا پیام های این فرم تصاویری از سوژه تولید کنند. [۸]
وارونگی متنی[ویرایش]
ایده کلیدی در وارونگی متنی اضافه کردن یک اصطلاح جدید به واژگان مدل انتشار است که مربوط به مفهوم جدید (شخصی) است. وارونگی متنی بهینه سازی بردار تعبیه ان اصطلاح جدید به طوری که با استفاده از ان به عنوان یک متن ورودی، تصاویری را تولید می کند که شبیه به نمونه های تصویر داده شده از مفهوم است. مدل حاصل از هر مفهوم بسیار سبک وزن است: فقط 1K طول دارد، اما موفق به رمزگذاری خواص بصری دقیق مفهوم می شود.
برنامه های افزودنی[ویرایش]
چندین رویکرد برای اصلاح و بهبود روش های اصلی پیشنهاد شد. این شامل موارد زیر است.
- سازگاری با رتبه پایین (LoRA) - یک تکنیک مبتنی بر آداپتور برای تنظیم کارامد مدلها. [۹] در مورد مدلهای متن به تصویر ، LoRA معمولاً برای اصلاح لایههای توجه متقاطع یک مدل انتشار استفاده میشود. [۱۰]
- پرفیوژن - یک روش به روز رسانی رتبه پایین است که همچنین فعال سازی ماتریس کلیدی را در لایه های توجه متقابل مدل انتشار به کلاس درشت مفهوم قفل می کند.. [۱۱]
- Extended Textual Inversion - تکنیکی که یک کلمه منحصر به فرد را برای هر لایه در شبکه denoising مدل انتشار یاد می گیرد.. [۱۲]
- روش های مبتنی بر رمزگذار که از یک شبکه عصبی دیگر برای شخصی سازی سریع یک مدل استفاده می کنند. [۱۳] [۱۴]
روش های شخصی سازی متن به تصویر باید با چندین چالش مقابله کنند. در هسته انها هدف دستیابی به وفاداری بالا به مفهوم شخصی در حالی که حفظ هماهنگی بالا بین محرک های جدید حاوی موضوع و تصاویر تولید شده (معمولا به عنوان "ویرایش پذیری" نامیده می شود).
چالش دیگری که روش های شخصی سازی باید با ان مقابله کنند، الزامات حافظه است. پیاده سازی اولیه روش های شخصی سازی نیاز به بیش از 20 گیگابایت حافظه GPU داشت و رویکردهای اخیر الزامات بیش از 40 گیگابایت را گزارش کرده اند. [۱۳] با این حال، بهینه سازی هایی مانند Flash Attention [۱۵] از آن زمان این نیاز را به طور قابل توجهی کاهش داده است.
رویکردهایی که کل مدل مولد را تنظیم می کنند نیز ممکن است ایست های بازرسی ایجاد کنند که چندین گیگابایت اندازه دارند و به اشتراک گذاری یا ذخیره بسیاری از مدل ها را دشوار می کند. رویکردهای مبتنی بر جاسازی تنها به چند کیلوبایت نیاز دارند، اما معمولا برای حفظ هویت در حالی که ویرایش پذیری را حفظ می کنند، تلاش می کنند. رویکردهای جدیدتر اهداف تنظیم ترکیبی را پیشنهاد کرده اند که هر دو جاسازی و زیر مجموعه ای از وزن های شبکه را بهینه می کند. این می تواند نیازهای ذخیره سازی را به کمتر از 100 کیلوبایت کاهش دهد در حالی که دستیابی به کیفیت قابل مقایسه با روش های تنظیم کامل است.
در نهایت، فرایندهای بهینه سازی می توانند طولانی باشند و نیاز به چند دقیقه تنظیم برای هر مفهوم جدید دارند. روش های رمزگذار و تنظیم سریع با هدف کاهش این به ثانیه یا کمتر است. [۱۶]
منابع[ویرایش]
- ↑ Murphy, Brendan Paul (2022-10-12). "AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?". The Conversation (به English). Retrieved 2023-09-14.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術". ITmedia NEWS (به 日本語). Retrieved 2023-09-14.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Baio, Andy (2022-11-01). "Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model". Waxy.org (به English). Retrieved 2023-09-14.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Huang, Ziqi; Wu, Tianxing; Jiang, Yuming; Chan, Kelvin C. K.; Liu, Ziwei (2023). "ReVersion: Diffusion-Based Relation Inversion from Images". arXiv:2303.13495 [cs.CV].
- ↑ Jr, Edward Ongweso (2022-10-14). "People Are Now Making Fake Selfies With AI". Vice (به English). Retrieved 2023-09-20.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ Dave James (2022-12-27). "I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann". PC Gamer (به English). Retrieved 2023-09-20.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ ۷٫۰ ۷٫۱ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ ۸٫۰ ۸٫۱ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Singh, Niharika (2023-02-18). "HuggingFace Publishes LoRA Scripts For Efficient Stable Diffusion Fine-Tuning". MarkTechPost (به English). Retrieved 2023-09-14.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Lorenzi, Daniele (2023-07-22). "Meet P+: A Rich Embeddings Space for Extended Textual Inversion in Text-to-Image Generation". MarkTechPost (به English). Retrieved 2023-08-29.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ ۱۳٫۰ ۱۳٫۱ خطای لوآ در پودمان:Citation/CS1/en/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ Wei. "ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation". arXiv:2302.13848.
- ↑ Dao. "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness". arXiv:2205.14135.
- ↑ Shi. "InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning". MISSING LINK..
This article "شخصی سازی متن به تصویر" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:شخصی سازی متن به تصویر. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.