不虚GPT?我用免费豆包蹭了“吉卜力风”,结果太牛了

雷科技 2025-04-07 22:14:17

最近两周,“吉卜力画风”突然就火了。

事情的开始是这样的,3月26日,OpenAI推出了基于GPT-4o多模态大模型的高精度图像生成功能“4o Image Generation”,按照他们的说法,现在用户只需一句简单的文字描述,就能实现精美的广告或平面图的制作、应用界面的UI设计、LOGO或图片风格的切换等等。

结果呢?整个互联网的人,都在用它变身“赛博宫崎骏”。

不开玩笑,小雷是真被这玩意给刷屏了,这两天一打开群聊,就能看到无法无天的群友们在拿GPT-4o疯狂整活,有做头像的,有做表情包的,甚至还有把“黄O大道东”变成吉卜力画风的,推特上的国外网友玩得更是乐此不疲,看得我都有点心痒痒的。

(图源:X)

幸好,类似的功能,国内大模型并不是没有。

比如说字节跳动的SeedEdit,同样可以实现“自然语意修图”,用户只需输入简单的自然语言,便可对图像进行多样化编辑操作。

最重要的是,这功能可不需要你想方设法翻出去用,在字节跳动的豆包官网就直接能用,而且目前豆包的“图像生成”功能是完全免费且不存在限制的,这一波甚至能把开会员的钱也给直接省下来。

话不说多,我们这边直接开整!

豆包这款产品,让人人都是宫崎骏

想体验这个功能的话,其实还蛮简单的就是了。

打开豆包网页版,在输入框下面就有「图片生成」,应该就能看到上传参考图的选项了,这里就是SeedEdit模型的入口。

要做的事情很简单,上传图片,然后输入我们想要改变的内容。

(图源:雷科技)

话不多说,先来看图。

首先,小雷这边选用了一张来自知名音乐录像带里的截图,让豆包和最近巨火的GPT-4o都试着“帮我换成吉卜力风格”。

这是原图:

(图源:Youtube)

这是豆包的成品:

(图源:豆包)

这是GPT-4o的成品:

(图源:GPT)

对比下来,GPT-4o的衣服还原度更高,手部没有变形,只是没有维持原图比例;豆包虽然整体构图、配色更加贴近原图,但是衣服有些微变化,手部有些变形,甚至多了一只抓着麦克风的手。

接着试一下大家都关心的名人,比如说马斯克:

(图源:豆包)

比方说乔布斯:

(图源:豆包)

再给乔布斯换个迪士尼风格:

(图源:豆包)

从结果来看,豆包的转换效果可以说是非常成熟。

最后,我们试一试影视剧集里的名场面,这次就拿《和平使者》里面约翰·塞纳饰演的克里斯多福·史密斯的名场面做例子:

(原图,图源:HBO Max)

(图源:豆包)

(图源:GPT)

这次差距其实更加明显一些,GPT-4o甚至把金属头盔保留了下来,身边的两名角色也做到了精准的画风转制,但是图片比例有所修改,文字信息也没有保留下来。

作为对比,豆包则是试图在整幅画面上进行对齐,然而人数一多起来,角色的服装和样子就没多少能对上的。

但是,接着我就要说但是了,豆包的效果还是比Gemini 2.0要强上一大截的,谷歌这玩意虽然支持自然语意修图,但是既不懂吉卜力风格是啥意思,也搞不清楚怎么修改图片比例。

(图源:Gemini 2.0)

可恶的谷歌,不要给我看这一堆不知所谓的东西!

其实把思路反过来,把画改成真实风格,豆包搞得也不错,我上传了一张刻在不少人基因里的Meme图片,让它以此为原型,生成一张真实照片。

(图源:豆包)

嗯...只能说像是挺像的,就是没了那种冲击感。

如果再简单调整一下的话,就能做出下面这种效果:

(图源:豆包)

虽说脸型有点不对,笑得也是有点狰狞,但是这种打破次元壁的做法,还真就只有AI大模型能够实现。

豆包图片处理能力在线,但仍有较大改进空间

不过,人人都在用吉卜力画风,也带来了新一轮的版权问题。

毕竟早在2016年,宫崎骏评价AI动画技术时就直言:这是对生命本身的侮辱。

宫崎骏反对用技术代替手工创作,他认为AI生成图像缺乏对生命力的敬畏,而在2025年的今天,技术力的进步,反而让大家对这件事情变得更肆无忌惮了起来,确实是有点讽刺的。

(图源:Youtube)

既然如此,我们不妨转换一下思路,把它当成PS来用?

比如在设计行业里源远流长的梗,“让大象转个身”这种要求,我们在豆包上能不能实现呢?

答案是“完全可以,轻易可以”。

可以看到,SeedEdit生成的大象背面是非常合乎逻辑的,耳朵的形状、脚部的位置、身体的颜色都做得相当不错,周围的环境也保持了高度的一致,很难看出画面上有什么破绽。

不过类似海报的效果,豆包就做得不咋样了,和GPT-4o可以说一眼就能看出差别了。

(图源:豆包)

(图源:GPT)

只能说,豆包在审美这块,还真有挺多要学的地方。

最后,我也试了一下豆包凭空进行“图片生成”的效果。

提示词如下:

一位年轻的印度女性,黑发扎着敞开的马尾辫,身穿黑色夹克,站在大学校园里,直视着镜头。该图像具有1990年代风格的电影静态美学,在阳光明媚的日子里拍下的特写肖像。

(图源:雷科技)

对比豆包,GPT-4o产出的图更有特写感;Midjourney V7产出的图片光线更加自然,人物脸部的肤色也相对更加清晰,细节更加丰富,画面焦点更加清晰,但总的来说,三者都没啥肉眼可见的问题。

AI修图,爆发在即

不可否认,如今AI大模型在“绘画”上足以独当一面了。

但是在图像编辑领域,AI大模型依然是相对落后的,无法进行精准编辑一直是行业的老大难问题。

前些年,这类需求一般可以通过Stable Diffusion的ControlNet插件来实现。

它可以获取额外的输入图像,通过不同的预处理器转换为控制图,进而作为Stable Diffusion扩散的额外条件,只需使用文本提示词,就可以在保持图像主体特征的前提下任意修改图像细节。

(图源:新浪微博,识别特征并进行重新绘制)

然而本地部署AI应用这事,和大部分小白是基本无缘的。

所以在进入今年后,包括GPT-4o、Gemini 2、Midjourney V7等先后上线了通过自然语意修图的功能。

个人认为,这种只需给定输入图像和告诉模型要做什么的文本描述,然后模型就能遵循描述指令来编辑图像的功能,甚至可以被视为重大突破,曾经被视为必备技能的PS,如今似乎陷入了“可学可不学”的微妙处境。

当然了,目前这类模型在生成图片时还是有一些问题存在的。

直到今天,豆包AI修图依然缺乏人像前后的一致性,也缺乏图片内容的方向性,只要涉及到人物面部的修图,那么最终出来的图像和原图的差异会很夸张,豆包本身也很难判断你要修改的是图片里的哪个元素。

(图源:豆包)

倒是文字处理能力,相较以往有了一定提升,现在SeedEdit在修图时已经不会随便编造文字内容,但是图片生成时的错字现象依然需要改善。

不管怎么说,豆包SeedEdit算是弥补了国产大模型在语义AI修图应用这块的空白。

可以预见的是,随着AI图像编辑技术的不断发展,未来手机、电脑都可能会集成这项功能,就像AI消除、AI扩图那样走进寻常百姓家。无论是小白还是大咖,每个人都有机会轻松上手使用,让自己对美的理解可以更直观地展现出来。

修图有手就行?或许真的不是梦。

0 阅读:4

雷科技

简介:专注AI硬科技