1. 机器如何理解词语?
计算机只认识数字。传统的 One-Hot (独热编码) 方法虽然简单,但有一个致命缺陷:它无法表示词与词之间的关系。
苹果: [1, 0, 0, 0]
香蕉: [0, 1, 0, 0]
距离: 无法判断相似性
Word Embedding (词向量) 将词语映射到一个高维空间(本演示简化为2维)。在这个空间里,意思相近的词,距离更近。
2. 核心数学原理
余弦相似度 (Cosine Similarity)
衡量两个向量方向是否一致。值越接近 1,含义越相似。
$$\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$
词语代数 (Word Analogy)
这是词向量最神奇的特性。向量的加减运算具有语义意义:
国王 - 男人 + 女人 ≈ 王后