1. 机器如何理解词语?

计算机只认识数字。传统的 One-Hot (独热编码) 方法虽然简单,但有一个致命缺陷:它无法表示词与词之间的关系。

苹果: [1, 0, 0, 0]
香蕉: [0, 1, 0, 0]
距离: 无法判断相似性

Word Embedding (词向量) 将词语映射到一个高维空间(本演示简化为2维)。在这个空间里,意思相近的词,距离更近

2. 核心数学原理

余弦相似度 (Cosine Similarity)

衡量两个向量方向是否一致。值越接近 1,含义越相似。

$$\text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}$$

词语代数 (Word Analogy)

这是词向量最神奇的特性。向量的加减运算具有语义意义:

国王 - 男人 + 女人 ≈ 王后

🎮 实验室控制台

鼠标悬停查看词语坐标。

演示:向量推理运算

2D 语义空间投影
皇室/人物 水果 动物
系统就绪。
💡 观察指南:
  • 注意 国王/王后男人/女人 的相对位置。
  • 观察 苹果/香蕉 聚在一起,远离 狼/狗
  • 在真实模型中,这里的维度是 300 维甚至更多,这里通过 PCA 降维到了 2 维。