报价宝 > 资讯 >

各路 StyleGAN 大汇总，包括全景图生成、图像到图像翻译等

消息来源:baojiabao.com 作者: 发布时间：2026-05-24

报价宝综合消息各路 StyleGAN 大汇总，包括全景图生成、图像到图像翻译等

StyleGAN 在各种图像处理和编辑任务上，表现很惊艳。

然而，"干一种活"就得换个体系重新"培训"一次，太麻烦。

终于，有人细细研究了一下，发现：

其实只通过预训练和潜空间上的一点小操作，就可以让 StyleGAN 直接上手各种"活儿"，包括全景图生成、从单张图像生成、特征插值、图像到图像翻译等等。

更厉害的是，它在这些"活儿"上的表现还完全不输每一位单项 SOTA 选手。

作者顺势做了个全面整理写成了一篇论文，相关讨论在 reddit 上直接收获了 700 + 的热度：

网友纷纷感叹：这总结真的是太酷了！

All You Need：预训练 + 一点空间操作

方法都非常简单，我们一个一个来。

前提：fi∈RB×C×H×W 表示 StyleGAN 第 i 层的中间特征（intermediate features）。

1、空间操作实现直观和逼真的图像

由于 StyleGAN 是全卷积的，我们可以调整 fi 的空间维度，从而在输出图像中引起相应的空间变化。

用简单的空间操作（如 padding 和 resize），可以生成更直观和真实的图像。

比如下图通过复制灌木和树丛来扩展背景，与导致纹理模糊等瑕疵的原始 resize 相比，在特征空间中可以保持更真实的纹理。

2、特征插值

对 StyleGAN 中间层进行拼贴可以实现图像信息混合，但要拼接的两张图差异太大时效果往往不好。

但采用特征插值就没问题。

具体操作方法：在每个 StyleGAN 层，分别使用不同的潜噪声生成 fAi 和 fBi。然后用下面这个公式将它俩进行平滑地混合，然后再传递到下一个卷积层进行同样的操作。

其中 α∈ [0, 1] B×C×H×W 是一个 mask，如果用于水平混合，则 mask 将从左到右变大。

和对应模型的定性和定量比较：

该特征插值法能够无缝地混合两幅图像，而 Suzuki 等人的结果存在明显的伪影。

用户研究中，与 Suzuki 等人相比，87.6% 的人也更喜欢该方法。

用户研究包含 40 人，每人需比较不同方法下的 25 对图像。

3、从单个图像生成

除了在不同图像之间进行特征插值，我们还可以在单个图像中应用它。

具体操作方法：在一些特征层中，选择相关的 patches，并将其与其他区域混合，在空间上进行复制。使用移位运算符 Shift（・）：

这和 SinGAN 的功能相同，不过 SinGAN 涉及采样，而该方法只需要手动选择用于特征插值的 patches.

和 SinGAN 的定性和定量比较：

该方法生成的图像更加多样化和真实；SinGAN 则未能以"有意义"的方式改变教堂结构，并产生不够真实的云彩和风景。

用户研究中，83.3% 的人更喜欢该方法生成的新图像。

4、改进 GAN 反演

GAN 反演的目的是在 W + 空间中定位一个样式码（style code），通过该样式码合成与给定目标图像相似的图像。

Wulff 等人的模型认为，在简单的非线性变换下，W + 空间可以用高斯分布建模。然而，在属性转移设置中，需要反转源图像和参考图像，效果并不令人满意。

最近的研究表明，与 W + 相比，利用 σ 进行面部操作的性能更好。

但作者发现，没有任何变换的 σ 空间也可以建模为高斯分布。

然后在这个空间而不是在 GAN 反转期间，施加相同的高斯先验。

效果比较：

该方法在图像重建和可编辑性方面获得了显著改进。

5、图像到图像翻译

得益于上部分 σ 空间的效果，作者建议在图像到图像翻译时 freeze 产生 σ 的仿射变换层（affine transformation layer），这一简单的变化能够更好地保留图像翻译的语义（注意下图 d 中嘴的形状）。

此外，作者发现：

（1）可以在所有空间维度上使用常数 α 来执行连续翻译；

（2）通过选择要执行特征插值的区域来执行局部图像翻译；

（3）以及使用改进的 GAN 反演在真实人脸上执行人脸编辑和翻译；

这样获得的效果也更佳。

6、全景生成

作者通过"编织"两幅图像的混合（span）生成全景图，方法如图所示：

重复这个过程可以生成任意长度的全景图像。

而且该方法不仅限于一次混合两个图像、也不限于只在水平方向生成。

一些示例：

7、属性转移

为了使特征插值能够更好地用于任意人物姿势的图像的属性转移，作者选择在源图像和参考图像之间执行姿势对齐，具体就是对齐 W + 空间样式代码的前 2048 个维度。

然后就可以应用特征插值将所选特征进行源图到目标图的转移了。

与现有方法比较：

Collins 等人的方法没有准确地转移细节属性，Suzuki 等人在姿势不匹配时产生的图像不够真实。

而作者的方法既准确又真实。

用户根据真实感和准确性进行选择的结果也进一步验证了该方法的优越性。

ps. 此外还可以在任意区域执行转移，比如无缝融合两边眼睛明显不同的两半脸：

以上就是无需特定架构或训练范式、在 StyleGAN 模型潜空间中执行一些操作和微调，就能与其他图像处理任务达到同等或更佳性能的具体方法。

你觉得如何？还有什么需要补充的吗？欢迎在评论区留言。

论文地址：

https : //arxiv.org/abs/2111.01619

项目地址：

https://github.com/mchong6/SOAT

2022-05-08 04:42:52

文章标签: 报价宝降噪耳机价格耳机价格红米手机价格华为手机价格小米手机价格电视机价格笔记本电脑价格笔记本价格汽车价格报价宝笔记本价格红米手机价格耳机价格降噪耳机价格

炒港股要补交多少税？我也接到催交补税特别行动的电话了
2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗？淘宝天猫开始部分取消仅退款
2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰
2024-10-01 11:22:38
白嫖党｜山西大同大学学生网购申请“仅退款”被拒骂客服一小时
2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书阿里巴巴竞赛受质疑
2024-06-28 10:07:40
天猫新规可以无条件申请“仅退款”了？淘宝天猫又离狗多多零元购近了一步
2024-06-28 09:27:13
美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切实行前进一步完善
2023-12-28 19:14:56
印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
在国外微信收不到国内信息？微信和WeChat将被拆分
2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息预计上市发布时间9月
2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统功能五大升级支持设备清单
2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
电信移动送手机成了“信用购”？你上了运营商的贷款套路了吗？
2023-06-12 17:18:55
中国电信广东地区崩了无信号客服回应已在核实处理
2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间：双版本不同配置，高配或超 35 万元
2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
OPPO正式发布安第斯智能云，让终端更智能
2023-02-24 16:02:27

各路 StyleGAN 大汇总，包括全景图生成、图像到图像翻译等

All You Need：预训练 + 一点空间操作

品牌选车