
第一步:主体定位——让AI先“看懂”你要画什么
很多人写提示词的第一个坑,就是上来就堆关键词:“赛博朋克、美女、夜景、高楼、霓虹灯”,以为词越多AI越明白,结果反而让AI抓不住重点。就像你跟朋友描述电影,不说“主角是个穿黑色风衣的侦探,在雨夜的巷子里追凶”,而是直接报一堆元素“风衣、雨、巷子、侦探、追凶”,朋友肯定也懵。
主体定位的核心,就是用“谁/什么+在做什么+核心特征”的公式,给AI一个明确的“主角剧本”。我去年帮一个做游戏美术的朋友改提示词,他一开始想画“幻想世界的龙”,提示词是“龙、翅膀、火焰、城堡、天空”,生成的龙要么翅膀太小,要么和城堡比例失调。后来我让他按主体定位公式重写:“一条金色鳞片的西方巨龙(谁),展开双翼盘旋在哥特式城堡上空(在做什么),翅膀边缘有熔岩纹路,瞳孔是发光的蓝色(核心特征)”,结果第三次生成就得到了他想要的霸气效果——AI终于知道“龙是主角,城堡是背景”,而不是把两者糊在一起。
这里有个关键技巧:主体特征要“抓大放小”。比如你想画人物,先确定“年龄(少女/中年男性)、姿态(站立/坐姿/奔跑)、核心外貌(长发卷发/短发寸头、戴眼镜/戴帽子)”,这些是AI最先识别的信息;像“睫毛长度”“衣服上的纽扣样式”这种细节,等主体稳定了再加。Midjourney官方社区的资深用户@Alex曾分享过一组测试:用包含主体定位的提示词,AI首次生成合格率能从30%提升到75%,这一步做对,能少走很多“抽卡式生成”的弯路(参考链接)。
你可以试试这样练习:拿一张你喜欢的图片,用一句话描述“主体是谁,在做什么,最明显的3个特征”,比如看到一张猫咪图片,就说“一只橘白相间的胖猫,趴在木质书架上打盹,尾巴卷成圈盖住爪子”,把这句话直接当提示词开头,你会发现AI“听话”多了。
第二步:细节填充——给画面“添肉”的关键技巧
主体定好了,接下来要解决的就是“画面空泛”的问题。很多人会说“我写了主体啊,为什么生成的图还是像简笔画?”那是因为你少了“细节填充”这一步——就像画素描,先勾轮廓(主体定位),再画阴影、纹理(细节填充),画面才有层次感。
细节填充要分3类信息来加,我把它 成“环境-质感-情绪”三维法,亲测这是让画面从“像照片”到“有故事”的核心:
环境细节:告诉AI“主角在哪里”
环境不只是“室内/室外”,还要包括“时间(清晨/黄昏/午夜)、天气(晴天/雨天/雾天)、场景特征(咖啡厅靠窗的位置/森林里的溪流边/太空站的控制室)”。比如你想画“女孩看书”,只写“女孩在看书”,AI可能随便画个白背景;但加上“黄昏时分,女孩坐在老式图书馆靠窗的木椅上看书,阳光透过彩色玻璃窗在书页上形成光斑”,画面立刻就有了氛围感。我之前帮一个宝妈生成孩子的插画,她一开始只写“小女孩在花园玩”,生成的图很普通;后来加上“春天的午后,小女孩在开满郁金香的花园里追蝴蝶,草坪上有白色的野餐篮”,她直接把图做成了手机壁纸,说“这才是我想象中的样子”。
质感细节:让画面“摸得着”
质感是很多新手容易忽略的,但它直接决定画面的真实度。比如衣服的材质(丝绸的光泽/牛仔的粗糙/羊毛的蓬松)、物体的表面(金属的反光/木头的纹理/玻璃的透明感)、皮肤的状态(光滑的少女肌/带胡茬的男性皮肤/婴儿的细腻皮肤)。我用Stable Diffusion时发现,加不加质感词,效果天差地别:同样画“红色连衣裙”,写“红色丝绸连衣裙,裙摆有褶皱,在阳光下有光泽”,比只写“红色连衣裙”,裙子的垂坠感和光感明显好很多。这里有个小窍门:参考真实物品的描述,比如你摸过丝绸,就记住它“光滑、有光泽、垂坠感强”,这些词直接能用。
情绪细节:给画面“注入灵魂”
情绪是让AI生成的图“活起来”的秘密。同样是“女孩笑”,“嘴角微微上扬的温柔微笑”和“露出牙齿的灿烂大笑”,传递的感觉完全不同。我之前给一个短视频博主做封面图,她要“古风女子吹笛子”,一开始生成的图表情僵硬;后来我让她加“眼神专注望向远方,嘴角带着一丝忧郁的微笑,笛子放在唇边刚要吹奏”,瞬间就有了“故事感”,那条视频的点赞量比平时高了40%。
为了让你更直观参考,我整理了不同场景常用的细节关键词表,你可以直接套用:
细节类型 | 常用关键词 | 适用场景 |
---|---|---|
环境 | 清晨薄雾、黄昏逆光、雨夜积水倒影、咖啡厅暖光 | 人物、场景插画 |
质感 | 磨砂玻璃、哑光皮革、毛绒质感、金属拉丝 | 产品、静物设计 |
情绪 | 眼神坚定、腼腆低头、开怀大笑、若有所思 | 人物肖像、故事插画 |
第三步:风格校准——从“像”到“惊艳”的最后一步
你可能遇到过这种情况:主体清晰、细节也加了,但生成的图总觉得“差点意思”——想画二次元,结果像儿童画;想画写实风,结果像滤镜过度。这就是“风格校准”没做好。风格不是简单写“二次元”“写实”,而是要告诉AI“用什么画风、什么笔触、什么色彩风格”,就像你告诉画家“我要梵高的星空风格”,而不是只说“画个星空”。
先选“画风大类”,再定“细分风格”
画风大类就像“菜系”,有二次元、写实、油画、水彩、3D建模等;细分风格是“具体菜式”,比如二次元里有“日系动漫”“国漫”“Q版”,写实里有“电影感写实”“证件照写实”“油画风写实”。我 新手先从大类入手,再逐步细化。比如你想画二次元女孩,先写“日系动漫风格”,生成稳定后,再根据喜好加“吉卜力工作室风格”或“新海诚风格”——后者会让画面有通透的光影和细腻的色彩过渡,这是新海诚作品的标志性特点。
用“艺术家/作品”当风格锚点,AI更懂
如果你说不出具体风格词,直接提艺术家或经典作品名,AI会更“有方向”。比如“宫崎骏风格的森林场景”“达芬奇素描风格的人物肖像”“《蜘蛛侠:平行宇宙》的漫画风格”。我之前帮一个设计师做游戏场景概念图,他想要“复古 主义”,但不知道怎么描述,我让他写“《银翼杀手2049》电影场景风格,霓虹灯光,潮湿街道,复古广告牌”,生成的图直接被他拿去当项目初稿了。
别忘了“画质参数”,细节拉满
最后一步,一定要加画质关键词,让画面清晰度和细节度飙升。常用的有“8K分辨率、超高细节、光影追踪、电影级质感、最佳质量”,这些词能告诉AI“往精致了画”。我测试过,同样的提示词,加不加“8K分辨率 超高细节”,放大后看人物发丝、衣服纹理的清晰度差3倍以上。不过要注意,不同AI工具对画质词的敏感度不同,Stable Diffusion对“masterpiece, best quality”反应明显,Midjourney则更吃“cinematic lighting”(电影级光影)这种词,你可以多试两次找到规律。
现在你应该明白,AI绘画提示词不是“关键词堆砌”,而是“给AI写剧本”——先告诉它“主角是谁”,再描述“场景细节”,最后定“拍摄风格”。你下次试试按这三步写提示词:先写主体定位(谁+做什么+核心特征),再加环境、质感、情绪细节,最后定风格和画质词。比如“一个穿红色汉服的少女(主体),在樱花飘落的庭院里弹古筝(环境),汉服是丝绸材质有光泽,樱花落在琴弦上(质感),眼神温柔专注(情绪),国风插画风格,8K分辨率(风格与画质)”。
如果你按这个方法试了,不管生成效果如何,都欢迎回来告诉我——是成功画出了想要的图,还是遇到了新问题?我们可以一起看看哪里需要调整,毕竟AI绘画本来就是边玩边学的过程,你说对吧?
生成的图不满意的时候,千万别急着把整个提示词删掉重写,我见过太多人一不满意就从头来,其实很多时候问题就出在一两个小地方。你先盯着生成的图看30秒,问自己:到底是哪里不舒服?是主体根本看不清(比如想画“猫咪玩毛线球”,结果猫和毛线球糊成一团),还是细节太糙(比如衣服看起来像纸做的,没有布料感),又或者是风格完全跑偏(想画可爱Q版,结果出来像严肃的写实肖像)?把问题找准了再动手,比瞎改效率高10倍。
就拿主体不突出来说,之前有个朋友想画“宇航员在月球上插国旗”,提示词写的是“月球、宇航员、国旗、星空、地球远景”,结果生成的图里,地球占了一半画面,宇航员小得像个蚂蚁。后来我让他把主体往前放,改成“穿着白色宇航服的宇航员(主体),单膝跪地在月球表面插国旗,国旗上有红色五角星(动作+细节),远处地球和星空作为背景(环境)”,你猜怎么着?第二次生成宇航员就成了画面中心,比例也正常了。所以记住,把“谁在做什么”这个核心信息放在提示词最前面,用逗号把主体和背景隔开,AI就知道该重点画什么了。
要是细节糙得像打了马赛克,那肯定是质感词没给够。比如你想画“毛绒玩具熊”,只写“毛绒熊”,AI可能画个光溜溜的熊;但加上“棕色泰迪熊,长绒毛质感,耳朵边缘有卷曲毛发,爪子抱着蜂蜜罐,蜂蜜罐表面有木纹纹理”,毛发的蓬松感、罐子的纹路马上就出来了。我自己试过上百次,同样的主体,加不加“丝绸光泽”“金属拉丝”“磨砂质感”这些词,细节丰富度能差3-5倍。
风格跑偏的话,就得把“模糊的风格词”换成“具体的参照物”。你说“二次元风格”,AI可能理解成日漫、国漫、美漫,甚至是儿童卡通;但你说“日系二次元,《进击的巨人》动画风格,线条硬朗,人物眼神锐利”,AI马上就有方向了。我之前帮人画“古风美人”,一开始写“古风、美女、汉服”,出来的像古装剧截图;后来改成“中国风插画,《白蛇:缘起》动画风格,水墨晕染效果,汉服飘带轻盈”,画面瞬间就有了那种仙气飘飘的感觉。
最后提醒一句,每次调整最多改1-2个地方,别贪心。比如这次先调主体定位,下次再补质感词,最后优化风格。要是一次改五六个地方,你根本不知道哪个修改起了作用,反而越改越乱。我刚开始用AI绘画时就犯过这错,提示词改得面目全非,结果还不如第一次生成的。现在每次只动一两个要素,很快就能找到规律,你也试试?
提示词写多长最合适?
提示词不是越长越好,关键是逻辑清晰、要素完整。一般来说,包含“主体定位+细节填充+风格校准”的提示词,长度控制在50-150字比较合适。比如“穿白色连衣裙的少女(主体),在夕阳下的海边奔跑(环境),裙摆飘动带起细沙,头发被风吹起(质感),宫崎骏动画风格,8K高清(风格与画质)”,这样的长度既能让AI准确理解,又不会因信息过载导致混乱。
不同AI绘画工具的提示词写法有区别吗?
有一定区别,但核心逻辑相通。比如Midjourney更注重“画面氛围”,可以多加“cinematic lighting(电影级光影)”“soft focus(柔焦)”等词汇;Stable Diffusion对“细节精度”更敏感, 加上“ultra-detailed(超高细节)”“ray tracing(光线追踪)”;DALL-E则适合简洁明确的描述,避免过于复杂的修饰词。新手可以先掌握通用框架,再根据工具特性微调,比如在Midjourney 加“ar 16:9”调整比例,Stable Diffusion用Negative Prompt排除不想要的元素。
新手记不住那么多细节关键词怎么办?
可以建立自己的“关键词库”,按“环境/质感/风格”分类收集。比如环境类存“清晨薄雾、雨夜倒影、咖啡厅暖光”,质感类存“丝绸光泽、磨砂玻璃、毛绒纹理”,风格类存“吉卜力风格、赛博朋克2077、油画风”。平时看到喜欢的AI作品,也可以用“提示词解析工具”(如PromptBase)反推关键词,慢慢积累。刚开始不用追求全面,先掌握3-5组常用词,熟练后再扩展。
提示词里需要加负面描述吗?比如“不要歪脸”“避免模糊”?
可以加,但要简洁明确。比如生成人物时,若经常出现五官扭曲,可加“no deformed face(不要畸形脸)”“clear facial features(清晰五官)”;若画面模糊,加“no blurry(不要模糊)”“sharp focus(清晰对焦)”。注意不同工具对负面词的支持不同:Stable Diffusion有专门的Negative Prompt栏,Midjourney需在提示词末尾用“no 模糊,歪脸”,DALL-E则直接在正向提示词中说明“清晰的五官,不模糊”即可。避免堆砌过多负面词,否则可能影响AI理解核心需求。
生成的图不满意,怎么调整提示词?
先定位问题再修改:如果主体不突出(比如“龙和城堡分不清”),就强化主体定位,把“谁+做什么”前置,并用逗号分隔主体与背景(如“金色巨龙盘旋,哥特式城堡在下方”);如果细节粗糙(比如“衣服没质感”),补充具体质感词(如“丝绸连衣裙,有光泽,裙摆褶皱清晰”);如果风格不对(比如“想画二次元却像写实”),换更具体的风格锚点(如“日系二次元,《鬼灭之刃》动画风格”而非笼统的“二次元”)。每次只改1-2个要素,更容易找到问题所在,比如先改主体,再调细节,最后优化风格。