什么是句向量（Sentence Embedding）

AI解读 3个月前硕雀

62 0 0

句向量是把一个完整的句子映射到固定维度的实数向量的技术。通过这种映射，原本长度不定、结构复杂的自然语言句子可以用一个定长向量来表示，从而在机器学习和信息检索等下游任务中直接进行数值计算。句向量能够捕捉句子的语义信息和一定的句法结构，是词向量在句子层面的扩展。

方法	思路	代表模型/技术	关键特点
词向量平均（或加权平均）‍	将句子中每个词的词向量相加后取平均，或依据词频/重要性加权后平均	Word2Vec、GloVe 词向量 + SIF/USIF 加权	实现简单、计算量小，但忽略词序和依赖关系
Doc2Vec / Paragraph Vector	在 Word2Vec 框架中为每个句子（或段落）引入唯一的向量 ID，联合词向量共同训练得到句向量	PV‑DM、PV‑DBOW	能在训练阶段直接学习句子级别的向量，但效果受限于模型容量
基于 RNN / LSTM / GRU 的编码器	使用循环网络逐词编码句子，最后的隐藏状态作为句向量	Seq2Seq 编码器	能捕捉一定的序列信息，计算成本相对较高
Transformer‑based 编码器	采用自注意力机制对句子进行全局建模，常取 CLS token 或池化结果作为句向量	BERT、RoBERTa、ALBERT 等	表现强大，但原始向量存在各向异性问题
对比学习优化	在已有编码器基础上加入正负样本对比学习，使相似句子向量更靠近，异类更远	Sentence‑BERT、SimCSE、SCD、BERT‑Whitening、BERT‑Flow 等	大幅提升句向量的语义相似度度量能力
专用句向量模型/SDK	直接提供端到端的句向量生成服务，支持多语言、快速部署	句向量 SDK（支持 100 种语言）

固定维度：不论句子长度如何，输出向量长度保持一致，便于批量计算。
语义聚合：向量空间中距离（如余弦相似度）能够反映句子之间的语义相似度。
可迁移：训练好的句向量模型可以直接用于多种下游任务，无需重新训练完整网络。
各向异性问题：早期基于 Transformer 的句向量往往聚集在少数方向，导致相似度区分度低，需要后处理（如 Whitening、Flow）或对比学习来改善。

小结
句向量是自然语言处理中的关键技术，将句子转化为固定维度的向量表示，能够在语义相似度计算、文本分类、信息检索等众多任务中发挥桥梁作用。随着对比学习、模型压缩和多模态融合等方向的进展，句向量的质量和应用范围正不断提升。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！