【世界独家】如何简单高效地定制自己的文本作画模型?
强烈建议先阅读:一文弄懂 Diffusion Model
1. 论文信息标题:Multi-Concept Customization of Text-to-Image Diffusion
【资料图】
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
精彩推送
酿葡萄酒做泡菜 上海交大学子体验自种蔬果深加工开展农民丰收节活动
中新网上海9月22日电 (记者 许婧)在第四个中国农民丰收节来临之际,上海交通大学百余位同学22日前...
2021北京国际设计周开幕 北斗卫星导航系统获经典设计奖
中新网北京9月22日电 (记者 陈杭)22日,2021北京国际设计周开幕活动暨北京2022年冬奥会和冬残奥会...
新闻快讯
X 关闭
X 关闭
新闻快讯
- 【世界独家】如何简单高效地定制自己的文本作画模型?
- 世界关注:2022-2023天津鼓楼跨年敲钟能去现场看吗?
- 当前热讯:元旦假期出行,甘肃“铁公机”做了哪些准备
- “影字辈”再添一员传祺全新GS3·影速首发亮相! 每日快讯
- 郑州元旦哪里有贺新春灯光秀活动?
- 2023珠海海韵城跨年活动最新消息
- 家电业迎难而上谋发展_天天即时看
- 中粮科技:目前国内燃料乙醇产能、开工率、市场相对平稳,销售价格稳中有增
- 2022年12月31日起北京国家植物园部分景区恢复开放
- 热消息:海南元旦期间天气较好 适宜户外活动
- 沧州新冠疫苗第四针哪些人可以打?
- 英飞拓(002528.SZ):拟出售新普互联控制权
- 今日最新!达华智能(002512.SZ)拟以2.6亿元出售香港达华100%股权 聚焦主营业务
- 每日看点!照相的优美句子精选165句
- 做零食批发!你可以这样搞
- 极市直播预告丨NeurIPS 2022 Oral-张博航:如何从模型层面获得对抗鲁棒性保证? 环球热议
- 前沿生物董秘回复:感谢您对公司的认可,目前
- 环球快消息!兔年纪念币中国银行预约查询入口+查询流程
- 长白山: 长白山旅游股份有限公司第四届董事会第七次会议决议公告
- 机器学习数据不满足同分布,怎么整?
- 天天视讯!71岁张纪中感染新冠第九天,症状越来越重,表情痛苦吞咽困难
- 天天滚动:做了30年的女配角,卖别墅为丈夫还债,如今无儿无女退休金2500,依旧乐此不疲地折腾着
- 时代出版(600551):传媒股份有限公司董事会、监事会换届选举|当前动态
- 房企再融资活动正沿着三大逻辑线展开
- 内蒙古通辽市库伦旗交通违章处理需要递交的 世界速递
- 卡卡贷借款逾期21年延迟还款会影响征信吗-每日看点
- 传音控股(688036)12月23日主力资金净卖出2018.20万元
- 兴森科技(002436.SZ):副总经理、董秘蒋威拟减持不超6.1875万股
- 异动快报:奥佳华(002614)12月23日13点33分触及涨停板 环球关注
- 武汉控股:12月22日获融资买入335.61万元 全球快资讯
- “阳”了发烧如何饮水?急诊科医生支招 天天热讯
- 涨停雷达:烟草个股异动 陕西金叶触及涨停
- 吉星高照借款逾期17天还不起会上征信吗 世界播资讯
- 【天天新要闻】公牛集团: 公牛集团股份有限公司关于召开2023年第一次临时股东大会的通知
- 每日视点!16岁的小孩抚养费标准是多少
- 申请有钱花网贷会对第三方起诉吗 看热讯
- 焦点简讯:欧盟天然气价格上限协议达成 气价应声回落丨就市论市
- 光大证券(601788):光大证券股份有限公司2022年面向专业投资者公开发行短期公司债券(第二期)上市
- 11部门印发意见 多措并举推动家政进社区 当前消息
- 天士力荣获和讯第20届中国财经风云榜“东方力量2022年度产品力优秀企业”-全球速看
- 1至11月河北外贸出口同比增长13%-环球热推荐
- 襄城县有种特色茶获得“国字号”认证
- 76人不敌奇才3连胜终结 哈登24+5+10马克西32分-资讯
- 感染后一周发生了什么? 一图看懂你身体的免疫系统有多努力_世界关注
- 半导体板块跌2.32% 中京电子涨10.05%居首
- 本周盘点(12.12-12.16):动力源周跌4.82%,主力资金合计净流出5852.48万元
- 华研精机:12月15日获融资买入149.29万元,占当日流入资金比例21.46%
- 世界今亮点!*ST海核: 关于重整计划资本公积金转增股本实施的公告
- 聚焦:宝丰县:爱心人士为县未保中心儿童献爱心
- 今日讯!安顾集团拟增持德华安顾人寿至65%,外资布局中国保险市场持续提速