CLIP(Contrastive Language-Image Pre-training)是 OpenAI 提出的视觉-语言基础模型,核心目标是在共享的嵌入空间中学习图像与文本的语义关联,从而实现强大的零样本(zero-shot)迁移能力。 以下从原理、训练、推理三个维度详解: 一、核心架构与任务 CLIP 本质是双塔对比学习模型,包含两个独立编码…
大模型显存:张量类型的底层原理 这篇文章回答两个问题: 浮点数核心结构、浮点误差的根本原因? 大模型显存:FP32、FP16、BF16等,是什么? 大模型训练与推理的显存占用,本质上就是海量张量(Tensor)的存储开销。理解 FP32/FP16/BF16 这些精度格式,需要从浮点数的底层二进制结构讲起。 一、浮点数的核心结构(IEEE 754) …