（详细）网络架构设计／训练

我们采用两阶段训练策略。在第一阶段，我们只专注于训练编码器和解码器。在第二阶段，我们过渡到在整个过程中联合训练嵌入器和提取器，同时保持编码器和解码器的权重冻结。

WOFA（Watermarking One for All）网络架构、训练过程与水印计算过程详解

WOFA 是针对部分图像盗用场景设计的鲁棒数字水印方案，核心解决传统水印需完整图像提取、无法应对 “图像部分盗用 + 几何变换 + 背景融合” 的痛点。其设计围绕 “一次嵌入、部分可提取” 目标，通过多级网络架构、渐进式失真层和两阶段训练策略实现高鲁棒性与视觉质量平衡。

一、网络架构设计

WOFA 在传统 “嵌入器 – 失真层 – 提取器” 架构基础上扩展，形成 “编码器 – 嵌入器 – 失真层 – 提取器 – 解码器” 的多级结构，各模块功能与交互逻辑如下：

1.1 整体架构概览

架构核心是 “水印→噪声图案→嵌入图像→部分盗用图像→噪声图案→水印” 的端到端映射，分为嵌入链路和提取链路两大分支，中间通过 “渐进式失真层” 模拟真实盗用场景，确保模型对部分图像盗用的鲁棒性。

嵌入链路：负责将二进制水印转化为可嵌入的噪声图案，并融入原始图像，输出不可见的水印图像。
提取链路：负责从被盗用的 “部分图像 + 新背景” 中恢复噪声图案，再解码为原始水印，无需完整图像输入。

1.2 各模块详细设计

（1）编码器（Encoder）：水印→噪声图案的映射

功能：将短二进制水印转化为与原始图像尺寸一致的灰度噪声图案，实现 “水印信息扩散”，避免部分盗用导致的信息丢失。
输入：二进制水印（论文中，即 30 位水印）。
输出：灰度噪声图案（为原始图像尺寸，论文中训练用 200×200）。
网络结构：轻量级全连接（FC）网络，仅含 2 个 FC 层。设计动机是简化映射关系，减少过拟合，确保噪声图案对 “部分缺失” 的鲁棒性。
核心公式：
（通过 FC 层将 1×30 的水印向量，映射为 1×H×W 的空间噪声图案，实现水印信息在全图像素上的扩散）。

（2）嵌入器（Embedder）：噪声图案→原始图像的融合

功能：将编码器输出的噪声图案不可见地嵌入原始图像，生成水印图像，同时保证视觉质量（PSNR 近 40dB，SSIM>0.99）。
输入：原始图像（3 通道 RGB 图像）、噪声图案。
输出：水印图像。
网络结构：5 层深度的 U-Net 架构。选择 U-Net 的原因是其 “编码器 – 解码器 + 跳跃连接” 特性：
- 编码器部分：对原始图像和噪声图案进行下采样，提取多尺度特征，实现噪声与图像纹理的自适应融合；
- 解码器部分：通过上采样恢复图像尺寸，跳跃连接保留细节信息，避免嵌入导致的视觉失真；
- 输出层：通过 sigmoid 激活将像素值归一化到 [0,1]，确保水印图像与原始图像视觉一致性。
核心公式：
（将噪声图案作为 “隐蔽信息”，通过 U-Net 的特征融合能力，嵌入到原始图像的高频纹理区域，人眼不可察觉）。

（3）失真层（Distortion Layer）：模拟部分图像盗用场景

失真层是 WOFA 鲁棒性的核心，分为失真层 I（N₁）和失真层 II（N₂），分别用于两阶段训练，模拟 “部分图像盗用” 的完整流程（部分掩膜、几何变换、背景融合）及常见信道失真。

失真层类型	适用阶段	核心功能	具体失真操作
失真层 I（N₁）	阶段 I（编码器 – 解码器训练）	提升对 “内容丢失 + 几何变换” 的鲁棒性	1. 部分掩膜：渐进式掩膜（1% 训练时掩膜≥50% 区域→10% 训练时掩膜≥25% 区域→剩余训练用 1%-95% 随机不规则掩膜）； 2. 几何变换：渐进式平移（0→±50% 图像边长）、旋转（0→±45°）、缩放（0→±25%）； 3. 高斯噪声：渐进式标准差（0→0.1），模拟提取器噪声。
失真层 II（N₂）	阶段 II（嵌入器 – 提取器训练）	提升对 “部分盗用 + 背景融合 + 信道失真” 的鲁棒性	1. 完整部分盗用流程：固定强度的部分掩膜（1%-95% 不规则区域）+ 几何变换（最大强度：±50% 平移、±45° 旋转、±25% 缩放）+ 背景融合（将被盗部分覆盖到新背景上，生成融合图像）； 2. 信道失真：JPEG 压缩（质量因子 QF=95）、图像缩放（80%-125%），模拟真实传输场景。

核心公式（失真层 I）：
（为原始噪声图案，为经历 “部分掩膜 + 几何变换 + 高斯噪声” 后的失真噪声图案）
核心公式（失真层 II）：
（为新背景图像，为最终被盗用的 “部分水印图像 + 新背景” 融合图像，是提取器的输入）。

（4）提取器（Extractor）：融合图像→噪声图案的恢复

功能：从被盗用的融合图像中提取隐藏的噪声图案，不受 “背景干扰 + 几何变换” 影响。
输入：融合图像（含部分水印图像 + 新背景）。
输出：预测噪声图案。
网络结构：与嵌入器对称的 5 层 U-Net 架构。设计逻辑是 “嵌入与提取的逆过程匹配”：
- 编码器部分：下采样融合图像，过滤新背景的干扰信息，聚焦于被盗部分的水印特征；
- 解码器部分：上采样恢复噪声图案尺寸，通过跳跃连接补全被盗部分缺失的特征，确保噪声图案完整性；
- 输出层：输出单通道灰度图案，与编码器生成的尺寸一致。
核心公式：
（通过 U-Net 的特征筛选能力，从复杂背景中分离出被盗部分的水印特征，恢复噪声图案）。

（5）解码器（Decoder）：噪声图案→水印的还原

功能：将提取器恢复的噪声图案解码为二进制水印，完成 “部分图像→水印” 的最终映射。
输入：预测噪声图案（阶段 II）或失真后的噪声图案（阶段 I）。
输出：预测水印。
网络结构：“4 个卷积层 + 2 个全连接层” 的组合。卷积层用于提取噪声图案的全局特征，全连接层将特征映射为与原始水印长度一致的向量，最后通过 sigmoid 激活将输出值二值化（>0.5 为 1，否则为 0）。
核心公式：

二、训练过程设计

WOFA 采用两阶段训练策略，核心是 “先优化‘水印 – 噪声图案’映射，再优化‘图像 – 水印’嵌入提取”，避免端到端训练的早坍缩问题（实验证明端到端训练 10% 时输出空白，准确率停滞 50%）。

2.1 训练前准备

数据集：
- 主训练 / 测试集：从 OPA（物体放置与融合数据集）采样 61,990 张图像，裁剪为 200×200，按 4:1 分为训练 / 测试集；
- 泛化测试集：SOIM（图像合成数据集）、matteImageNet（基于 ImageNet 构建，含 19 类前景 + 多样背景）；
超参数：
- 优化器：Adam，学习率 5e-5；
- 水印长度：30 位（）；
- 设备：单张 NVIDIA RTX 3090Ti；
- 损失函数：交叉熵损失（BCE，用于水印预测）、均方误差（MSE，用于图像 / 图案相似度）。

2.2 阶段 I：训练编码器与解码器（优化 “水印 – 噪声图案” 映射）

目标

建立 “二进制水印→灰度噪声图案” 的稳定映射，确保即使噪声图案经历 “部分缺失 + 几何变换”，仍能准确解码为原始水印。

流程

输入生成：随机生成 30 位二进制水印；
噪声图案生成：编码器将映射为噪声图案（与原始图像大小相等）；
失真模拟：通过失真层 I（）对施加 “部分掩膜 + 几何变换 + 高斯噪声”，得到失真后的噪声图案；
水印解码：解码器将解码为预测水印；
损失计算与优化：仅优化编码器与解码器参数，损失函数为水印预测交叉熵损失：
（BCE 损失最小化原始水印与预测水印的差异，确保映射鲁棒性）。

关键设计

渐进式失真：的失真强度随训练进度提升（如几何变换范围从 0 逐步到最大值）；
轻量级网络：考虑到这种映射相对简单，我们认为更简单的网络架构可能会提供更好的鲁棒性并降低过度拟合的风险。因此，我们采用轻量级设计，编码器（2 个 FC）+ 解码器（4 卷积 + 2FC）。

2.3 阶段 II：训练嵌入器与提取器（优化 “图像 – 水印” 嵌入提取）

目标

在阶段 I 稳定的 “水印 – 噪声图案” 映射基础上，优化 “原始图像→水印图像→融合图像→噪声图案” 的端到端链路，确保：

水印图像与原始图像视觉一致；
提取器从融合图像中恢复的噪声图案与原始噪声图案相似；
最终解码的水印与原始水印一致。

流程

参数冻结：固定阶段 I 训练完成的编码器与解码器参数，不参与后续优化；
水印嵌入：编码器生成，嵌入器将与融合生成；
盗用模拟：通过失真层 II（）对施加 “完整部分盗用流程 + 信道失真”，生成融合图像；
噪声提取与水印解码：提取器从中恢复，解码器将解码为；
损失计算与优化：仅优化嵌入器与提取器参数，损失函数为三部分加权和：
其中：
- ：最小化原始图像与水印图像的像素差异，保证视觉质量；
- ：最小化失真噪声图案与预测噪声图案的差异，确保提取准确性；
  
  其中，是原始噪声图案经过失真层 I（N₁）处理后的输出（即阶段 I 中解码器用于提取水印的输入），是提取器从融合图像中恢复的预测噪声图案。阶段 I 中解码器的训练目标是从（失真后的噪声图案）中准确提取水印，而阶段 II 需确保提取器恢复的与保持一致（而非直接与原始噪声图案对比），以延续阶段 I 建立的 “失真噪声图案→水印” 映射关系，保证解码器在阶段 II 中仍能基于正确解码水印。
- ：复用阶段 I 的水印预测损失，确保端到端水印还原正确。

关键设计

失真层 II 的 “完整盗用模拟”：覆盖 “部分掩膜（不规则区域）+ 几何变换（最大强度）+ 背景融合”，与真实盗用场景完全匹配；
U-Net 对称设计：嵌入器与提取器的 U-Net 结构对称，确保 “嵌入特征” 与 “提取特征” 的逆过程兼容性，提升提取精度。

2.4 训练收敛性保障

渐进式失真层：阶段 I 的从低强度失真逐步提升到高强度，阶段 II 的直接采用高强度失真，使模型先 “学会基础映射”，再 “适应复杂场景”，收敛速度提升 30% 以上（图 6 显示渐进策略比静态策略更早达到 90%+ 准确率）；
两阶段拆分：避免端到端训练中 “嵌入器 – 提取器 – 编码器 – 解码器” 的协同优化难度，阶段 I 先解决 “小问题”（水印 – 噪声映射），阶段 II 再解决 “大问题”（图像 – 水印嵌入提取），实验证明可避免训练早坍缩（图 7 显示端到端训练 10% 时输出空白，而两阶段策略稳定收敛）。

三、水印计算过程

水印计算过程即 WOFA 的 “嵌入→盗用→提取” 全流程，涵盖从原始图像到最终水印还原的完整数学与工程步骤，具体如下：

3.1 步骤 1：水印嵌入（Embed）—— 原始图像→水印图像

输入：原始图像、随机 30 位二进制水印；输出：水印图像

水印→噪声图案：编码器通过 2 个 FC 层将映射为，公式：（为第 1 个 FC 层权重 / 偏置，为第 2 个 FC 层权重 / 偏置，为 ReLU 激活，输出 reshape 为 1×200×200）；
噪声图案→原始图像融合：嵌入器（5 层 U-Net）将与融合，公式简化为：（表示通道维度拼接，U-Net 通过下采样提取的纹理特征与的噪声特征，上采样后输出，像素值归一化到 [0,1]）；
视觉质量约束：通过确保与视觉差异极小（实验中 PSNR=39.76dB，SSIM=0.9945，人眼无法区分）。

3.2 步骤 2：部分图像盗用（Partial Theft）—— 水印图像→融合图像

输入：水印图像、新背景图像；输出：被盗用的融合图像

此步骤模拟恶意用户的盗用行为，对应失真层 II（N₂）的核心操作，分 3 步：

部分掩膜（Partial Masking）：生成随机不规则二进制掩膜（掩膜区域占比 1%-95%），提取中的被盗部分：（为元素 – wise 乘法，区域保留像素，区域为空白）；
几何变换（Geometric Transformation）：对施加平移（±50% 边长）、旋转（±45°）或缩放（±25%），得到变换后的，变换矩阵示例（平移）：（为平移量，超出图像范围的像素用 0 填充）；
背景融合（Background Fusing）：将覆盖到新背景上，生成：（为变换后的掩膜，与位置对应；区域保留背景，区域保留被盗部分）。

3.3 步骤 3：水印提取（Extract）—— 融合图像→原始水印

输入：融合图像输出：还原的二进制水印

融合图像→噪声图案：提取器（5 层 U-Net）从中恢复预测噪声图案，公式简化为：（U-Net 通过下采样过滤中背景的干扰特征，聚焦区域的被盗部分，上采样后输出 1×200×200 的）；
噪声图案→水印解码：解码器通过 “4 卷积 + 2FC” 将解码为：
- 卷积层：提取的全局特征，公式：；
- 全连接层：将卷积特征映射为 30 维向量，公式：（为卷积特征展平向量）；
- 二值化：通过 sigmoid 激活得到（为指示函数，>0.5 取 1，否则取 0）；
提取精度约束：通过和确保与原始水印一致（实验中部分盗用场景下准确率 > 90%）。其中，是原始噪声图案经失真层 I 处理后的输出，与阶段 I 中解码器的输入保持一致，使得提取器恢复的预测噪声图案能够适配解码器的特征分布，保证解码器从中准确解码出与原始水印一致的。

四、核心创新与性能验证

4.1 核心创新点

首次定义部分图像盗用流程：明确 “部分掩膜 – 几何变换 – 背景融合” 三步骤，构建专用数据集（matteImageNet）；
渐进式失真层：随训练进度提升失真强度，平衡模型学习难度与鲁棒性；
两阶段训练：避免端到端训练早坍缩，先优化 “水印 – 噪声” 映射，再优化 “图像 – 水印” 嵌入提取；
U-Net 对称设计：嵌入器与提取器结构对称，确保 “嵌入特征” 与 “提取特征” 的逆兼容性。

4.2 关键性能指标

场景	水印提取准确率（BAR）	视觉质量（PSNR/SSIM/LPIPS）
清洁图像（无盗用）	98.39%	39.76dB / 0.9945 / 0.0188
部分盗用（1%-95% 区域）	95.92%	-（视觉质量针对水印图像）
部分盗用 + 50% 平移	87.93%	–
部分盗用 + 45° 旋转	90.63%	–
部分盗用 + 混合变换（平移 + 旋转 + 缩放）	87.06%	–

对比传统方案（如 HiDDeN、MBRS、StegaStamp），WOFA 在部分盗用场景下准确率提升 20%-40%，且泛化性强（SOIM/matteImageNet 数据集上准确率 > 85%）。

总结

WOFA 通过 “多级网络架构” 实现 “一次嵌入、部分可提取”，通过 “渐进式失真层” 模拟真实盗用场景，通过 “两阶段训练” 保障收敛稳定性，最终解决传统水印无法应对部分图像盗用的痛点。其水印计算过程完整覆盖 “嵌入 – 盗用 – 提取” 全链路，在视觉质量与鲁棒性之间实现优异平衡，为数字图像版权保护提供实用解决方案。

WOFA（Watermarking One for All）网络架构、训练过程与水印计算过程详解

一、网络架构设计

1.1 整体架构概览

1.2 各模块详细设计

（1）编码器（Encoder）：水印→噪声图案的映射

（2）嵌入器（Embedder）：噪声图案→原始图像的融合

（3）失真层（Distortion Layer）：模拟部分图像盗用场景

（4）提取器（Extractor）：融合图像→噪声图案的恢复

（5）解码器（Decoder）：噪声图案→水印的还原

二、训练过程设计

2.1 训练前准备

2.2 阶段 I：训练编码器与解码器（优化 “水印 – 噪声图案” 映射）

目标

流程

关键设计

2.3 阶段 II：训练嵌入器与提取器（优化 “图像 – 水印” 嵌入提取）

目标

流程

关键设计

2.4 训练收敛性保障

三、水印计算过程

3.1 步骤 1：水印嵌入（Embed）—— 原始图像→水印图像

3.2 步骤 2：部分图像盗用（Partial Theft）—— 水印图像→融合图像

3.3 步骤 3：水印提取（Extract）—— 融合图像→原始水印

四、核心创新与性能验证

4.1 核心创新点

4.2 关键性能指标

总结

发送评论 编辑评论

推荐文章

发送评论编辑评论