【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami 寡姐带货国风Polo衫,马斯克穿牛仔走红毯!假造试衣新框架火了
种政 投稿自 凹非寺量子位 | 公众号 QbitAI【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami
只需两张图像,不到30秒,就能让马斯克穿牛仔走红毯~
省略让寡姐带货国风Polo衫~
就是二次元换装也不在话下。
来自中山大学、Pixocial等机构王人集髻布轻量化模子架构CatVTON。他们所以Stable Diffusion v1.5 inpainitng为基础模子。
来望望更多后果。
用扩散模子进行假造试衣
CatVTON不错竣事传统平铺服装图到东谈主物的换装。
岂论是上衣、裤子、裙子,如故套装,各样不同品类服装都不错。
其形状和纹理都能保握较高的一致性。
另外,CatVTON 还不错竣事东谈主物A到东谈主物B的换装。
无需显式地指定类别,字据 Mask 的不同即可完成方向服装的试穿,守旧单独的上衣、裤子、裙子省略全身多件服装同期更换 。
既然如斯,那又是怎么竣事的呢?
轻量化模子架构
CatVTON 在功能上丰富各样, 但其模子架构却卓绝简陋高效:
制服下的诱惑2个聚集模块(VAE+UNet)899.06M总参数目< 8G推理显存(输出图像 1024×768 )轻量化的架构开首于 CatVTON 对现存门径模块冗余的不雅察:
基于Warping的门径依靠几何匹配对服装进行形变再运用试穿模块交融,适度生硬不当然;基于扩散模子的门径引入ReferenceNet,加剧了历练和推理的职守;
具体而言,CatVTON 通过在输入上把东谈主物、服装在通谈维度拼接(Concatenate),在结构上解脱了对终点的 ReferenceNet 的依赖,跳过了对图像假造试衣来说莫得权贵匡助的文本交叉防卫力,同期也不需要任何终点的图像编码器来赞助生成。
下表详备地相比了不同门径与 CatVTON 的模块数目、参数目、可历练参数目、显存占用、推理条目。
在聚集模块上,CatVTON 只需要 VAE+UNet,无需任何终点的编码器;在模子总参数目上,CatVTON 比其他门径至少缩减了44%;在显存占用上,CatVTON 也惟有其他门径的一半致使更低,体现了 CatVTON 在模子架构轻量化上的上风。
△模子高效性关系项详备相比
在历练上,CatVTON 研讨了在将预历练扩散模子搬动到 TryOn 任务时去噪 UNet 中着实起作用的模块。
领先,去噪 UNet 在结构上是由不同特征圭表的ResNet 和 Transformer Blocks 堆叠而成(如下图)。其中 ResNet 是卷积聚集,具有空间不变性,适用于特征的索要,并不崇拜跨空间的特征交互,这一部分在扩散模子进行大限度预历练时,如故具备了满盈的特征编码智商,因此与搬动到 TryOn任务关联性不彊。
Transformer Block 里面结构又不错细化为三个部分:Self Attention, Cross Attention 和 FFN。其中Cross Attention在 T2I 任务顶用于与文本信推辞互,FFN 起到特征映射的作用,因此与服装、东谈主物特征交互最关系的即是 Self Attention。
表面上服气了需要历练的模块后,在推行上,CatVTON 文中还进行了消融,发现对 UNet、Transformer Block 和 Self Attention 离别进行解锁历练,其可视化适度并莫得明显的相反,同期在蓄意上也卓绝接近,考证了“Self Attention是将预历练扩散模子搬动到 TryOn 任务的关键模块”的假定。
终末通过表面和推行锁定的Self Attention 部分,惟有49.57M 参数,仅占总参数目 5.71% 的部分,对其进行微调,就不错竣事传神的试穿后果,在上一节表格中不错看到,相较于其他门径,CatVTON 将可历练参数目减少了10 倍以上。
终末回来,CatVTON从头想考和设想了基于扩散模子的假造试穿框架,将多任务、多品类的假造试衣集成到吞并模子中,以轻量化的框架和参数高效的历练计谋竣事了SOTA的试穿后果,缩短了模子的历练、推理计较需求,更成心于假造试衣模子走向落地与应用。
表情主页:https://zheng-chong.github.io/CatVTON论文地址:https://arxiv.org/abs/2407.15886【SOE-073】ギリモザ 無限絶頂!激イカセFUCK Ami