昨天凌晨一点半,OpenAI正式推出了最新图像生成模型——GPT-image-1,并已通过API向全球开发者开放。
与ChatGPT不同,GPT-image-1具备调节图像敏感度、生成速度、背景设置、输出格式、渲染和压缩质量等多项功能。此外,该模型支持当前非常火爆的“吉卜力”风格。包括Adobe、Figma、HeyGen、Wix在内的知名企业,已经将GPT-image-1集成到了各自的产品中。
需要提醒的是,这款新模型采用了全新的身份验证机制。如果无法顺利通过验证,用户可以通过微软的Azure云服务体验相关功能。

详细的API使用指南可参见官方文档:
https://platform.openai.com/docs/guides/image-generation?image-generation-model=GPT-image-1
在实际应用方面,众多知名企业已经开始利用GPT-image-1模型提升业务表现。以多媒体领域的领军企业Adobe为例,其已将该模型整合到Firefly和Express平台中,帮助用户生成多样化的图片风格,提升创作体验。
云设计工具Figma借助GPT-image-1,设计师只需输入简洁的指令即可生成和修改图像,从而在平台内迅速获取创意并进行视觉上的多轮优化。
I视频平台HeyGen利用GPT-image-1技术提升头像生成效果,尤其在平台内的头像编辑功能方面实现了显著改进。

云开发平台Wix借助GPT-image-1,使用户能够快速将创意转化为具体图像,实现想法的高效落地。

图像设计平台Photoroom借助GPT-image-1,为在线卖家提供了一种便捷方式,能够通过单张产品图片快速生成高品质的工作室效果、生活场景及模特展示图。
GPT-image-1为开发者提供了丰富的高级定制选项。通过API调用时,除了基础的图像生成外,用户还可以灵活调整多种参数。例如,默认情况下用GPT-4o生成的图像数量通常为一张,而通过设置N参数,便能一次性批量生成多张图片,大大提升了效率和灵活性。

通过提供多张图片作为输入,比如直接上传四张单独的图像,就能合成为一张全新的礼品设计图。


熟悉Photoshop图像合成的朋友都知道,蒙版功能非常关键。如今,借助GPT-image-1,这一操作也变得更加简单。你只需输入提示词,比如“阳光充足的室内休息区,带有一个游泳池,水中有一只火烈鸟”,然后对图像进行蒙版涂抹,就能轻松完成所需效果。

生成的最终图片。


开发者可以通过将 background 参数设置为 transparent 来调整图片的透明度。不过,这一功能仅适用于输出为 PNG 和 WebP 格式的图像。

开发者可以通过将 background 参数设为 transparent 来调整图片的透明度,但此功能仅适用于 PNG 和 WebP 格式。此外,API还支持设置GPT-image-1生成图像的尺寸,包括1024x1024、1024x1536、或者自动模式;渲染质量可选择低、中、高三档;同时,还能对JPEG和WebP格式的压缩等级进行调节,范围从0%到100%。

通过GPT-image-1的API生成图像,用户拥有极高的自由度,可以充分表达创意,且产出的图像质量优秀。价格方面,文本输入的费用为每百万token 5美元,图像输入则介于每百万token 5到10美元之间,而图像输出的费用为每百万token 40美元。以实际应用来看,生成低质量的1024x1024图像成本约为0.02美元一张,中等质量大约是0.07美元,高品质图像则接近0.19美元每张。

OpenAI的首席执行官兼联合创始人Sam Altman对该模型给予了高度评价,并指出它与ChatGPT版本存在显著差异。

用户纷纷认为,这次API的推出对开发者而言具有重要意义。尤其是图像编辑功能,为许多以前难以实现的创意应用打开了新的可能。

这个模型太棒了!会取代DALL-E系列吗?

图像生成功能的加入极大地扩展了API用户的创作空间。大家非常期待更多开发者能够利用这一功能,推出丰富多样的应用,这无疑是一项令人瞩目的创新。

这非常有趣!API在底层赋予了更强的掌控力。针对某些具体的应用场景,调整审核敏感度以及在质量和速度之间找到平衡,有望带来突破性的变化。
