一个好的提取词需要详细、具体。一个好的设计提取词的过程是查看关键字类别列表并决定是否要使用其中任何一个。关键字类别有以下9种。

  1. 主题
  2. 媒介
  3. 风格
  4. 艺术家
  5. 网站
  6. 分辨率
  7. 额外细节
  8. 颜色
  9. 灯光

每个类别的关键字的详细列表都可以在提示生成器中找到,除此之外,您还可以在这里找到一个简短的列表。您不必须包括所有类别的关键字,可以将它们视为一个检查清单以提醒您什么可以使用。 下面让我们回顾一下每个类别,并通过添加每个类别的关键字来生成一些图像。我将使用Realistic VIsion V2.0模型,为了单独查看提取词的效果,我暂时不会使用否定提取词。关于否定提取词,我们将在本文的后面部分进行研究。所有图像均由DPM++ 2M Karas 采样器的30个步骤生成,图像尺寸为 512×704。

巫女艾玛·沃特森

主题

主题(Subject)就是您想要在图像中看到的内容,一个常见的问题是关于这些主题写得不够详细。 假设我们想要生成一个施展魔法的女巫,新手可能会用下面的提取词。 A sorceress 这就留下了太多的想象空间。您希望女巫看起来怎么样?有什么形容她的词可以让她的形象更确定?她穿什么?她到底施展了什么魔法?她是站立、奔跑还是漂浮在空中?背景场景是什么? 因为Stable Diffusion无法读懂我们的想法,所以我们必须准确地说出我们想要什么。 对于人类的主题来说,一个常见的技巧是使用名人的名字。名人的名字具有很强的效果,是控制拍摄对象外观的绝佳方法。但是,需要注意的是,这些名称不仅可能改变面部,还可能改变姿势和其他东西。我将把这个话题推迟到本指南的后面部分。 作为演示,让我们将女巫塑造成与艾玛·沃特森类似,她的名字也是Stable Diffusion中最常用的关键字。假设她是一位强大而神秘,并且使用闪电魔法的女巫。另外,我们希望她的服装非常细致,这样她就会看起来很有趣。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing

使用主题关键词 艾玛·沃特森在Stable Diffusion中使用很频繁,以至于她的名字对模型有很强的影响。我认为她在Stable Diffusion用户中很受欢迎,因为她看起来阳光、年轻,并且在各种场景中保持一致。

媒介

媒介是用来制作艺术品的材料。例如插图(illustration)、油画(oil painting)、3D渲染(3D rendering)和摄影(photography)。 加入媒介关键字具有很强的效果,因为仅一个关键字就可以极大地改变风格。我们现在来添加关键字数字绘画(digital painting)。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting

加入媒介关键词 正如我们所期望的,图像从照片变成了数字绘画。到目前为止,生成的图片效果都很好。

风格

这里的风格是指图像的艺术风格。例如印象派(impressionist)、超现实主义(surrealist)、波普艺术(pop art)等。 让我们添加hyper realistic, fantasy, surrealist, full body到提取词。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body

加入风格关键词 也许某些关键词已经被前面的关键词所”暗示”了,不过保留它们也没什么坏处。

艺术家

艺术家的名字是强有力的修饰语。它们允许您使用特定艺术家作为参考来调整精确的风格。使用多个艺术家名字来融合他们的风格也很常见。现在我们添加Stanley Artgerm Lau,一位超级英雄漫画家,以及Alphonse Mucha,19世纪一位肖像画家。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha

加入艺术家关键词 我们可以看到两位艺术家的风格很好地融合并产生了效果。

网站

流行的图片网站,例如艺术站(Artstation)和异常艺术(Deviant Art)聚合了许多不同类型的图像,在提取词中使用它们是引导图像走向这些风格的可靠方法。 让我们添加艺术站(Artstation)到提取词。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation

加入艺术站关键词 图像并没有产生一个巨大的变化,但图像看起来确实像您在Artstation上通常看到的那样。

分辨率

分辨率代表图像的清晰度和细节程度,让我们添加关键字非常详细(highly detailed)锐利的焦点(sharp focus)。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus

加入分辨率关键词 在这张图中的产生的效果可能不是很大,因为之前的图像已经非常清晰和详细,但添加也没什么坏处。

额外细节

其他详细信息是可以产生锦上添花的作用,我们可以添加这些信息以修改图像。我们将添加科幻(sci-fi),美得惊人(stunningly beautiful)反乌托邦的(dystopian)为图像添加一些氛围。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian

加入额外细节关键词

颜色

您可以通过添加颜色的关键词来控制图像的整体颜色。您指定的颜色可能会显示为图的主色调或对象的颜色。让我们用关键字虹彩金(iridescent gold)为图像添加一些金色。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold

渐入颜色关键词 金色出来了,太棒了!

灯光

任何摄影师都会告诉您灯光是创造好的图片的关键因素,光线关键字会对图像的外观会产生巨大影响。让我们添加电影灯光(cinematic lighting)和黑暗的(dark)到提示符。 Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

加入灯光关键词

负向提取词

使用负向提取词是控制图像的另一种好方法,但这里不是放入您想要的东西,而是放入您不想要的东西。它们不需要是物体。它们也可以是样式以及不需要的属性,例如丑陋(ugly)、变形(deformed)。使用负面提取词必须是v2的模型。如果没有它,生成的图像看起来会远不如v1的生成出来的图像。对于v1模型来说,它们是可选的,但我经常使用它们,因为它们要么有帮助,要么无害。 我将在这里使用通用的否定提示,您可以阅读更多如果您想了解它是如何工作的。 ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

加入负面提取词

总结

正如您已经注意到的那样,我们仅在主题中添加一些关键词,生成的图像已经相当不错了。在构建Stable Diffusion的提取词时,通常不需要有很多关键词就能获得很好的图像。 负向提取词可以让生成的图像更加有特色,使它们看起来没那么无聊。最后再分享生成图片中还不错的几张。

巫女艾玛·沃特森

巫女艾玛·沃特森

迭代式的设计提取词

您应该使用一个迭代的过程去设计提取词。正如您在Stable Diffusion提取词指南(1):剖析一个好的提取词中所看到的,只需在主题上添加一些关键词,Stable Diffusion就可以生成相当不错的图片。 我总是从一个只有主题(subject)、媒介(medium)和风格(style)的简单提取词开始。每次至少生成4张图片,看看我们能得到什么样的图片。大多数提取词并不是100%有效的。你可以从统计学的角度分析生成的图片,然后得到一些这些提取词能做什么的想法。 建议每次最多添加两个关键词。同样地,至少生成4张图片来评估其效果。

使用负向提取词

如果您刚开始设计提取词,那么可以使用一个通用的负向提取词。我们也可以使用迭代的过程向负向提取词中添加关键词。这些添加的关键词可以是你想避免的物体或者身体部位,例如V1模型不善于渲染手,所以在负向提取词中使用“hand”来隐藏它们也不失为一个好主意。

关键词权重

您可以通过语法(keyword: factor)来调整关键词的权重。factor是一个数字,小于1表示不太重要,大于1表示比较重要。 例如,我们可以在以下提取词中调整关键词dog的权重。 dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell. 增加dog的权重会在生成图像中画出更多的狗,反之亦然,减少权重会在生成图像中画出更少的狗。这在统计学上的意义也比较容易理解。

(dog: 0.5)

(dog: 1.0)

(dog: 1.5) 这个技巧也可以应用于主题关键词以及其他类的关键词,例如风格(style)和光照(lighting)。

使用()和[]

调整关键词权重的另外一种等效方法是使用()和[]。(keyword)会以系数1.1来增加相应关键词的权重,作用和使用(keyword:1.1)相同。[keyword]会以系数0.9来减少相应关键词的权重,作用和使用(keyword:0.9)相同。 您可以同时使用多个,就像在代数中用的那样,效果是系数乘起来。 (keyword): 1.1 ((keyword)): 1.21 (((keyword))): 1.33 同样的,使用[]的效果如下。 [keyword]: 0.9 [[keyword]]: 0.81 [[[keyword]]]: 0.73

关键词混合(Keyword blending)

您可以混合两个关键词,对应的术语是提取词调度(Prompt Scheduling)。语法如下所示。 [keyword1: keyword2: factor] factor用来控制在哪一步将关键词1切换到关键词2,它是一个介于0到1之间的数字。 例如,我们使用下面的提取词,以及采样30步来生成图片。 Oil painting portrait of [Joe Biden: Donald Trump: 0.5] 因此,根据关键词混合的意义,1到15步会使用下面的提取词。 Oil painting portrait of Joe Biden 16到30步会使用下面的提取词。 Oil painting portrait of Donald Trump factor会控制在哪一步进行关键词的切换,在我们的例子中会在30 x 0.5 = 15步之后进行关键词切换。改变factor的效果是把Joe Biden和Donald Trump在不同程度上混合了起来。

关键词混合的例子 您或许已经注意到Trump身穿白色西装,这更像是Biden的风格。这是一个完美的例子,说明了关键词混合的一个非常重要的规则的:第一个关键词决定了全局的构成。早期的扩散步骤设定了图的整体结构,之后的步骤则完善了细节。 这里有一个练习,大家可以自己试验观察一下。如果我们交换Joe Biden和Donald Trump,最终的效果会是怎样呢?

融合面部

关键词混合的一个常见用例是借用不同女演员的面部,来创造一个具有特定外观的新面孔。例如,使用下面的提取词,以及采样20步生成的是一个介于两者之间的面部。 [Emma Watson: Amber heard: 0.85]

[Emma Watson: Amber heard: 0.85] 如果我们仔细选择面部所有者的名字并适当的调整系数时,那么就可以精确的得到我们想要的面部结果。

从提取词到提取词(Prompt-To-Prompt)

用关键词混合,我们可以实现类似从提取词到提取词的效果,通过提取词的修改,生成高度相似的两张图片。下面的两幅图是用相同的提取词生成的,除了用火替代苹果的提取词调度有所不同,种子值和采样步骤的数量都是一样的。

[Emma Watson: Amber heard: 0.85], holding an [apple: fire: 0.9]
[Emma Watson: Amber heard: 0.85], holding an [apple: fire: 0.2] 关键词混合的系数需要仔细调整。关键词混合技术背后的理论是图像的整体构成是由早期的扩散过程决定的。一旦扩散过程被困在一个小的空间里,任何关键词的调换都不会对整体图像产生大的影响,而只会改变一小部分。

一个提取词可以有多长?

提取词的长度和您所用的Stable Service有关,您在提取词中可以使用的关键词数量可能会有一个上限。在基本的Stable Diffusion V1模型中,您最多一次可以使用75个tokens。 请注意,tokens并不等同于单词。Stable Diffusion所使用的CLIP模型会自动将提取词转换为tokens,即模型所知道的单词的数字表示。如果您输入一个模型以前没有见过的词,那么这个词会被分解成2个或者更多的子词,直到模型知道这个词是什么。模型认识的词被称为token,用数字来表示。例如,dream是一个token,beach是一个token。但是dreambeach是两个tokens,因为模型并不认识dreambeach,所以模型把这个词分解成它认识的dream和beach。

提取词检查

在真实应用中,我们会发现输入的关键词并不是都起作用,如同家庭作业一样,我们都会直接拷贝现成的提取词,大多数时候并没有思考太多。 您可以通过仅仅使用一个关键词作为提取词来检查这个关键词的有效性。例如,如果我们想确认Realistic Vision V2.0是否知道美国画家Henry Asencio,我们就可以使用下面的提取词。 henry asencio

henry asencio 嗯,看起来这个模型知道Henry Asencio。 然后我们可以使用下面的提取词来确认模型是否知道网站wlop。 wlop

wlop 从结果来看,Realistic Vision V2.0模型也是知道wlop网站的。 除了上面两个,我们也可以确认这个模型也是知道Josephine Wall风格的。

Josephine Wall 我们可以使用这个方法来研究两个或者多个艺术家风格融合起来的效果。 Henry asencio, Josephine Wall

Henry asencio, Josephine Wall

限制生成图像的变化

要构建好的提取词,我们就要像Stable Diffusion的算法一样思考。Stable Diffusion算法的核心是一个图像采集器,它会生成像素值,我们人类可能对这些生成的像素值进行评价,产生结果是合法的或者好的判断。我们甚至可以在没有提取词的情况下使用它,然后会得到许多不相关的图像。在技术上,这被称为无条件的或者无指导的扩散。 提取词是引导扩散过程到与之匹配的采样空间的一种方式。如同我们在第一篇中讨论的,提取词需要详细和具体,因为详细的提取词缩小了扩散过程的采样空间。让我们看一个具体的例子。

castle

castle, blue sky background

wide angle view of castle, blue sky background 通过在提取词中添加更多的描述性关键词,我们缩小了城堡的取样范围。在第一个例子中,我们要求得到任何样式城堡的图片。然后我们要求只得到那些有蓝天背景的图片。最后,我们要求它是作为广角照片拍摄的。我们在提取词中的描述越详细,生成的图片就会越接近我们希望得到的效果。 属性关联 有些属性是强关联的,当你指定一个时,你就会得到另一个。Stable Diffusion产生最可能的图像,过程中也可能会产生意想不到的关联效果。 比方说,我们想用下面的提取词生成蓝眼睛的女性的照片。 a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

蓝色眼睛的年轻女孩 如果我们改成棕色的眼睛呢? a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

棕色眼睛的年轻女孩 可以确定的是,我们并没有在提取词的任何地方指明生成女性的种族,但是因为有蓝色眼睛的主要是欧洲人,所以生成了白种人。而棕色眼睛在不同的民族中都很常见,所以我们会看到一个更多样化的种族样本。陈规和偏见是人工智能模型中的一个很大的话题,我们在这个指南中将只讨论技术方面的问题。

名人姓名的关联

每个关键词都会有一些意想不到的关联。对于名人的名字来说,这一点尤其真实。例如,一些演员在拍照时喜欢摆出某些姿势或穿上某些衣服,因此在训练数据中也是如此。其实这一点也很好理解,模型训练只不过是通过联想学习。如果泰勒-斯威夫特在训练数据中总是以一种特殊的姿势站立,那么生成的模型也会把泰勒-斯威夫特和这种站立的姿势联系起来。

Prompt: full body taylor swift in future high tech dystopian city, digital painting 当您在提取词中使用泰勒-斯威夫特时,您可能是指使用她的面部。但主体的姿势和装束也有一定的效果。这个效果可以通过单独使用她的名字作为提取词来研究。 姿势和装束是全局性的构成。如果您只想要她的面部,但不想要她的姿势,您可以在以后的取样步骤中使用关键词混合来把她换进来。

艺术家名字的关联

也许另一个很明显的关键词关联的例子是在使用艺术家名字时观察到的。 19世纪捷克画家Alphonse Mucha在肖像提取词中是很受欢迎的,因为这个名字有助于产生有趣的装饰,而且他的风格与数字插图融合得非常好。但它也经常在背景中留下标志性的圆形或圆顶形图案,使它们在户外环境中可能看起来不自然。

Prompt: digital painting of [Emma Watson:Taylor Swift: 0.6] by Alphonse Mucha. (30 steps)

订阅评论
提醒
guest
0 评论
内联反馈
查看所有评论
在线客服
在线客服
QQ客服
旺旺客服