Forever – Study & Life

图像水印开源汇总

2026-7-07 16:22

|

96

|

0

|

图像水印

109 字

|

1 分钟内

[github author="MariaBulychev" project="Watermarks-Attack-Watermarks" /] Meta FC coming soon[github author="007-li" project="Meta-FC" /] [github author="hurunyi" project="Mask…

CLIP 视觉-语言基础模型

2026-4-19 14:26

|

258

|

0

|

大模型,深度学习

1235 字

|

6 分钟

CLIP（Contrastive Language-Image Pre-training）是 OpenAI 提出的视觉-语言基础模型，核心目标是在共享的嵌入空间中学习图像与文本的语义关联，从而实现强大的零样本（zero-shot）迁移能力。以下从原理、训练、推理三个维度详解：一、核心架构与任务 CLIP 本质是双塔对比学习模型，包含两个独立编码…

大模型显存：张量类型的底层原理

2026-4-18 15:48

|

224

|

0

|

大模型,深度学习

1707 字

|

8 分钟

大模型显存：张量类型的底层原理这篇文章回答两个问题：浮点数核心结构、浮点误差的根本原因？大模型显存：FP32、FP16、BF16等，是什么？大模型训练与推理的显存占用，本质上就是海量张量（Tensor）的存储开销。理解 FP32/FP16/BF16 这些精度格式，需要从浮点数的底层二进制结构讲起。一、浮点数的核心结构（IEEE 754） …

AE、VAE — 基础的生成模型

2026-4-16 15:22

|

245

|

0

|

深度学习

3285 字

|

13 分钟

AE和VAE均基于编码器-解码器的核心架构，但二者的核心定位、数学原理、能力边界完全不同：AE是面向特征学习/数据压缩的确定性无监督模型，VAE是面向生成任务的概率式深度生成模型，VAE从根本上解决了AE无法有效生成新样本的核心痛点。一、AE（AutoEncoder，自动编码器） 1. 核心定义与架构 AE是一种经典的无监督神经网络，核心目标是学…

大模型对齐 Alignment

2026-4-16 15:18

|

247

|

0

|

深度学习

1747 字

|

8 分钟

一、大模型对齐的核心概念大模型对齐（Alignment）的目标是让模型的输出与人类的价值观、偏好和指令保持一致（即“有用、无害、诚实”），解决模型“能力强但不听话”的问题。对齐 vs 微调：核心区别维度微调（Fine-tuning）对齐（Alignment）目标提升模型在特定任务上的能力（如问答、翻译）让模型输出符合人类价值观/偏…

深度学习常用激活函数

2026-4-16 15:15

|

240

|

0

|

深度学习

3810 字

|

16 分钟

一、基础概念激活函数是嵌入神经网络每一层神经元后的非线性变换单元，核心作用是打破线性变换的叠加局限：若无激活函数，多层神经网络等价于单个线性层，无法拟合复杂的非线性关系。同时，激活函数直接决定梯度传播效率、数值稳定性、模型收敛速度与泛化能力。行业通常按饱和特性对激活函数分类：饱和激活函数：当输入$x \to \pm\infty$时，导数趋近于…

优化器Optimizer：Adam、Adamw

2026-4-15 18:47

|

274

|

0

|

深度学习

3051 字

|

13 分钟

深度学习中的优化器旨在通过更新网络参数（权重和偏置）来最小化损失函数。近年来，优化器的发展主要沿着两条主线：动量机制（加速收敛并抑制震荡）和自适应学习率（为不同参数单独设置学习率）。下面我们将目前主流的优化器按发展脉络分类，详细解析它们的原理与公式。 0. 统一符号定义在介绍具体公式前，先统一符号： $\theta_t$: 第 $t$ 步的模型…

权重衰减 Weight Decay

2026-4-11 15:24

|

267

|

0

|

深度学习

1474 字

|

7 分钟

权重衰减是深度学习中最基础、最常用的正则化技术之一。它的核心目的是防止模型过拟合，提高模型在未知数据上的泛化能力。以下是对深度学习中权重衰减的全面解析： 1. 核心思想：什么是权重衰减？在训练神经网络时，模型倾向于学习到非常大的权重值，以便在训练集上做到“极致的拟合”（特别是当模型容量很大时）。但这会导致模型对训练数据中的噪声也进行了拟合，表现…

Swin Transformer

2026-4-11 15:05

|

250

|

0

|

深度学习

4424 字

|

18 分钟

Swin Transformer 是一种基于 Transformer 的视觉模型，由 Microsoft 研究团队提出，旨在解决传统 Transformer 模型在计算机视觉任务中的高计算复杂度问题。其全称是Shifted Window Transformer，通过引入分层架构和滑动窗口机制，Swin Transformer 在性能和效率之间取得了…

LLM生成全流程

2026-4-10 16:55

|

299

|

0

|

深度学习

719 字

|

3 分钟

模型输出 Logits（词表得分） → 步骤1：应用 Temperature 缩放 Logits（核心：调整整体随机性） → 步骤2：应用重复惩罚/No Repeat N-gram 等（可选：过滤/调整 Logits） → 步骤3：筛选 Top-K/Top-P 候选池（过滤低概率 Token） → 步骤4：候选池内概率归一化（确保总和为1） → 步…