谷歌Gemini2.0对话生图,聊天也能成为ps图片大神!

子轩学长谈 2025-03-15 17:58:44

P图这么一个本来需要动用ps这种大软件才能做到的活儿。在昨天谷歌大模型gemini 2.0 flash experi mental 升级之后。

一夜之间变成了只需要动动手,聊聊天就能让gemini帮你修图,改图,上色。。。

真的不敢信。。

不仅如此,当我看到它还能通过自由聊天生成新图片,并且还能生成连续图片的时候,更是惊呆了。

真正的多模态输入和输出。

组合玩法现在至少有几十种了,真的是玩到爽。

比如你可以一句话让它给你生成《食谱大全》,是真正直接文字+配图的那种!!!

还可以让它生成连环漫画,里面的角色还能保持一致。角色一致性就这么轻松被解决了?

今天就来一起玩耍一下gemini的生图能力。

01 01 对话生图、改图、融合图,线稿上色。。。SD的功能说说话就实现了。

看一张截图,这是sd生图通过controlnet,先就是控制生图能实现的效果。这么多功能,就一下子被颠覆了。

只需要聊聊天。

比如我输入:

融合蒙克《呐喊》风格和中国水墨画,表现人工智能焦虑主题画一张图,比例16:9.

然后融合这两种风格的图片就这么瞬间被做出来了。

一句话控制图片中的角色行不行?当然可以。

我上传了一张皮卡丘的图片。

让它闭上眼睛:

让它举起双手,轻轻松松,并且你还觉得就挺合理的,嘴巴眼睛还很可爱。

甚至一句话,先让它提取成线稿图。然后再重新上色,并且换个背景,这都是一句话搞定的。

看效果:

风格迁移效果能不能行?我上传了一张黑洞漩涡的图片,想让它把风格迁移到运动鞋上,然后就这么一下子生成了:

这个过程就能感觉到模型是真强大,不仅要理解你的语言,还得真正识别图片当中的内容啊,不然是真的输出的偏差太大了,这是真正的图片端到端,多模态融合的效果。

不过测试了下直接换脸,目前效果确实还做不到,但是给一张大头张,直接生成全身像还是简简单单的。

02 连续生图,一劳永逸。

要说更厉害的,还是连续生图,最简单的做一道红烧肉的菜吧!

以往我们搜索也顶多是给到你文字的回答,或者还得看视频。现在图文并茂就给你生成出来了。

甚至我都有点怀疑是网上搜的图,怎么那么真实?

不过仔细观察发现,它和步骤描述的画面都是对应的,大概率不是搜索了。

再来个好玩的。线稿连续生图。

随便找了个哪吒的图片,然后让它模仿这个角色再做一个,然后他就开始从画轮廓,一直到完整线稿,再到上色,画背景,一气呵成的都是。

天,以后做动漫角色该有多容易。

看看最终效果,和哪吒它娘还有几分像。

再来一个更实际的玩法,给文章配图。写公众号文章的时候,愁的就是配图,以往都是一张张找图,还有可能有版权问题。一张张自己做吧,还是觉得麻烦,就算可以用多维表格批量生图,也懒得一个个复制插入到文章当中了。。

就不能直接图文并茂给我生成好?

这不就解决了。

我把完整的文章上传给它,然后输入:请将我以下的公众号文章,在合适的位置根据知识点匹配合适的视觉插图,切记,必须用视觉插图呈现,插图比例为16:9.

然后它就自动在文章中间插入配图了,图片经过提示词控制生成的也蛮不错了,不控制的话确实有点不能看。

03 生成视频更容易。

制作ai视频,最麻烦的就是一张张生图,并且还得考虑图片之间的衔接和连贯性,尤其是有角色的时候,更麻烦。

这不既然gemini2.0可以连续生图,那不就更好办了。

我输入:

帮我设计一个从0到1的《星际穿越》视频,每个步骤都必须要展示一张图片,并附带一些图片的画面动态描述,图片比例为16:9。

它自己设计了一个小故事情节,然后匹配生成了对应的画面。就这第一张玉米田地里的画面是真的和电影《星际穿越》好像啊。

不得不说,它也真是“看过”这部电影了。

然后再把它给到的画面描述,就可以直接复制到ai 视频生成工具去生成视频了,就很方便。这个首尾帧的效果还是挺酷炫的,两个画面都是gemini生成的。

使用技巧:

最后说下使用的时候要注意的一个点,就是如果你不强调生图,有时候它就只给你回复文字了,这个确实是它目前的弊端,毕竟生成文字“更省力”。

看来ai也是有懒惰的特性的。

所以提示词里加一些必须,一定,等词儿,生成效果就更好了。

做图的方式又再一次被革新,如果以后加上语音模式,AR虚拟现实,真的不敢想得有多酷~

0 阅读:0