logo
Public
2
5
WeChat Login

接下来出场的是 transformer#3

Open
created 1 days ago
Edit

No description provided

Creator

@npc/manim(数学大师) 你教会我

NPC
1

NPC

@Zhihang.Li
黎志航你好!🎉 你说要学 Transformer,那我这就来教你!

我制作了一个完整的教学动画,一步步带你理解 Transformer 的核心概念:

📹 TransformerTeaching.mp4

动画包含以下 5 个部分:

1️⃣ 整体架构

展示了 Transformer 的 Encoder-Decoder 结构:

  • Encoder(左侧绿色):输入嵌入 → 位置编码 → 多头自注意力 → Add&Norm → 前馈网络 → Add&Norm,重复 N 次
  • Decoder(右侧橙色):输出嵌入 → 位置编码 → 掩码自注意力 → 交叉注意力 → 前馈网络 → Linear+Softmax
  • 交叉注意力:Encoder 的输出作为 K、V 传给 Decoder

2️⃣ 自注意力机制 (Self-Attention)

  • 输入向量 x 通过三个权重矩阵生成 Query (Q)Key (K)Value (V)
  • 核心公式:Attention(Q, K, V) = softmax(QK^T / √d_k) · V
  • 用中文句子「我爱人工智能」演示注意力权重的可视化

3️⃣ 多头注意力 (Multi-Head Attention)

  • 多个注意力头并行工作,每个头关注不同的语义关系
  • 所有头的输出拼接后,再通过 W^O 线性变换
  • 公式:MultiHead(Q,K,V) = Concat(head_1, ..., head_h) W^O

4️⃣ 位置编码 (Positional Encoding)

  • Transformer 本身没有顺序信息,需要位置编码注入位置信息
  • 使用不同频率的正弦/余弦函数:PE(pos, 2i) = sin(pos / 10000^(2i/d))
  • 不同维度对应不同频率,低维度变化快,高维度变化慢

5️⃣ 前馈网络 (Feed Forward)

  • FFN(x) = max(0, xW_1 + b_1)W_2 + b_2(ReLU 激活)
  • 先将维度扩展 4 倍(d_model → d_ff),再压缩回原维度
  • 对每个位置独立应用

🎯 总结:自注意力 + 多头注意力 + 位置编码 + 前馈网络 + 残差&归一化,这就是 Transformer!你已经学会了!

如果对某个部分想深入了解,随时告诉我,我可以做更详细的动画讲解!💪

Administrator

@npc/manim(数学大师) 篮球半径增加一米,地球增加一米,这两谁的周长增加的多

NPC
1

NPC

@sixther(段超)
段超你好!🏀🌍 这道题的答案是:增加的一样多!

很多人直觉上觉得地球那么大,周长增加肯定更多,但实际上并非如此。

数学推导

周长公式: = 2\pi r$

半径增加 $\Delta r$ 后:
4425\Delta C = 2\pi(r + \Delta r) - 2\pi r = 2\pi \cdot \Delta r4425

关键在于 $\Delta C$ 只与 $\Delta r$ 有关,与原半径 $ 无关!

当 $\Delta r = 1$ 米时:
4425\Delta C = 2\pi \times 1 = 2\pi \approx 6.28 \text{ 米}4425

所以无论是篮球还是地球,周长都增加约 6.28 米

💡 直观理解

想象一根绳子紧贴着圆绕一圈,然后把绳子抬离圆面 1 米高。不管圆多大多小,多出来的绳子长度都一样——因为多出来的长度只取决于绳子离圆面的距离,不取决于圆的大小。

我制作了一个动画来直观展示这个过程 👇

📹 CircumferencePuzzle.mp4

动画包含:

  1. 🏀🌍 篮球和地球的对比展示
  2. 📐 完整的数学推导过程
  3. 🎬 动画演示两个圆半径增加后周长变化
  4. 🎯 最终结论和直观解释
Administrator
529.jpeg

@npc/manim(数学大师) 大师,帮忙算下这道题

NPC
1
Creator

glm 5.1 不支持多模态 @sixther(段超)

NPC

@sixther(段超)
段超,这道题我来帮你解!🎯

题目

已知 ^2 + b^2 = 1$,求 + \sqrt{2},b$ 的最大值

解题过程

方法:柯西不等式

由柯西不等式:

7101(x_1 y_1 + x_2 y_2)^2 \leq (x_1^2 + x_2^2)(y_1^2 + y_2^2)7101

令 = 1,\ x_2 = \sqrt{2},\ y_1 = a,\ y_2 = b$,则:

7101(a + \sqrt{2},b)^2 \leq (1 + 2)(a^2 + b^2) = 3 \times 1 = 37101

因此:

7101a + \sqrt{2},b \leq \sqrt{3}7101

等号成立条件

7101\frac{a}{1} = \frac{b}{\sqrt{2}} \Rightarrow a = \sqrt{2},b7101

代入 ^2 + b^2 = 1$:b^2 + b^2 = 1$,解得:

7101b = \frac{1}{\sqrt{3}},\quad a = \sqrt{\frac{2}{3}}7101

✅ 最大值为 $\sqrt{3}$

几何意义

  • \sqrt{2},b$ 可以看作向量 $ 在方向 $ 上的投影乘以该方向的模长。当 $ 与 $ 同向时取最大值。

📺 动画讲解:

MaxValueProblem.mp4

Administrator

@Zhihang.Li(黎志航) 好像给硬解出来了,6。就是这个数学公式排版不得行

Creator

竟然去下载python ocr了,牛逼

Assignee
None yet
Label
None yet
Priority
None yet
Time period
-
Property
Add custom properties to record and label key information
Participant