玩酷网

谷歌Gemini2.0对话生图，聊天也能成为ps图片大神！

子轩学长谈 2025-03-15 17:58:44

P图这么一个本来需要动用ps这种大软件才能做到的活儿。在昨天谷歌大模型gemini 2.0 flash experi mental 升级之后。

一夜之间变成了只需要动动手，聊聊天就能让gemini帮你修图，改图，上色。。。

真的不敢信。。

不仅如此，当我看到它还能通过自由聊天生成新图片，并且还能生成连续图片的时候，更是惊呆了。

真正的多模态输入和输出。

组合玩法现在至少有几十种了，真的是玩到爽。

比如你可以一句话让它给你生成《食谱大全》，是真正直接文字+配图的那种！！！

还可以让它生成连环漫画，里面的角色还能保持一致。角色一致性就这么轻松被解决了？

今天就来一起玩耍一下gemini的生图能力。

01 01 对话生图、改图、融合图，线稿上色。。。SD的功能说说话就实现了。

看一张截图，这是sd生图通过controlnet，先就是控制生图能实现的效果。这么多功能，就一下子被颠覆了。

只需要聊聊天。

比如我输入：

融合蒙克《呐喊》风格和中国水墨画，表现人工智能焦虑主题画一张图，比例16:9.

然后融合这两种风格的图片就这么瞬间被做出来了。

一句话控制图片中的角色行不行？当然可以。

我上传了一张皮卡丘的图片。

让它闭上眼睛：

让它举起双手，轻轻松松，并且你还觉得就挺合理的，嘴巴眼睛还很可爱。

甚至一句话，先让它提取成线稿图。然后再重新上色，并且换个背景，这都是一句话搞定的。

看效果：

风格迁移效果能不能行？我上传了一张黑洞漩涡的图片，想让它把风格迁移到运动鞋上，然后就这么一下子生成了：

这个过程就能感觉到模型是真强大，不仅要理解你的语言，还得真正识别图片当中的内容啊，不然是真的输出的偏差太大了，这是真正的图片端到端，多模态融合的效果。

不过测试了下直接换脸，目前效果确实还做不到，但是给一张大头张，直接生成全身像还是简简单单的。

02 连续生图，一劳永逸。

要说更厉害的，还是连续生图，最简单的做一道红烧肉的菜吧！

以往我们搜索也顶多是给到你文字的回答，或者还得看视频。现在图文并茂就给你生成出来了。

甚至我都有点怀疑是网上搜的图，怎么那么真实？

不过仔细观察发现，它和步骤描述的画面都是对应的，大概率不是搜索了。

再来个好玩的。线稿连续生图。

随便找了个哪吒的图片，然后让它模仿这个角色再做一个，然后他就开始从画轮廓，一直到完整线稿，再到上色，画背景，一气呵成的都是。

天，以后做动漫角色该有多容易。

看看最终效果，和哪吒它娘还有几分像。

再来一个更实际的玩法，给文章配图。写公众号文章的时候，愁的就是配图，以往都是一张张找图，还有可能有版权问题。一张张自己做吧，还是觉得麻烦，就算可以用多维表格批量生图，也懒得一个个复制插入到文章当中了。。

就不能直接图文并茂给我生成好？

这不就解决了。

我把完整的文章上传给它，然后输入：请将我以下的公众号文章，在合适的位置根据知识点匹配合适的视觉插图，切记，必须用视觉插图呈现，插图比例为16:9.

然后它就自动在文章中间插入配图了，图片经过提示词控制生成的也蛮不错了，不控制的话确实有点不能看。

03 生成视频更容易。

制作ai视频，最麻烦的就是一张张生图，并且还得考虑图片之间的衔接和连贯性，尤其是有角色的时候，更麻烦。

这不既然gemini2.0可以连续生图，那不就更好办了。

我输入：

帮我设计一个从0到1的《星际穿越》视频，每个步骤都必须要展示一张图片，并附带一些图片的画面动态描述，图片比例为16:9。

它自己设计了一个小故事情节，然后匹配生成了对应的画面。就这第一张玉米田地里的画面是真的和电影《星际穿越》好像啊。

不得不说，它也真是“看过”这部电影了。

然后再把它给到的画面描述，就可以直接复制到ai 视频生成工具去生成视频了，就很方便。这个首尾帧的效果还是挺酷炫的，两个画面都是gemini生成的。

使用技巧：

最后说下使用的时候要注意的一个点，就是如果你不强调生图，有时候它就只给你回复文字了，这个确实是它目前的弊端，毕竟生成文字“更省力”。

看来ai也是有懒惰的特性的。

所以提示词里加一些必须，一定，等词儿，生成效果就更好了。

做图的方式又再一次被革新，如果以后加上语音模式，AR虚拟现实，真的不敢想得有多酷～

0 阅读：0

子轩学长谈

简介：感谢大家的关注

社会TOP

社会最新文章