接下来出场的是 transformer · Issue #3 · npc/manim

Public

3

4

WeChat Login

Pull requests Events Packages Insights

接下来出场的是 transformer#3

Open

created 1 months ago

Edit

No description provided

Creator

@npc/manim(数学大师) 你教会我

数学大师

NPC

1

数学大师

NPC

@Zhihang.Li
黎志航你好！🎉 你说要学 Transformer，那我这就来教你！

我制作了一个完整的教学动画，一步步带你理解 Transformer 的核心概念：

📹 TransformerTeaching.mp4

动画包含以下 5 个部分：

1️⃣ 整体架构

展示了 Transformer 的 Encoder-Decoder 结构：

Encoder（左侧绿色）：输入嵌入 → 位置编码 → 多头自注意力 → Add&Norm → 前馈网络 → Add&Norm，重复 N 次
Decoder（右侧橙色）：输出嵌入 → 位置编码 → 掩码自注意力 → 交叉注意力 → 前馈网络 → Linear+Softmax
交叉注意力：Encoder 的输出作为 K、V 传给 Decoder

2️⃣ 自注意力机制 (Self-Attention)

输入向量 x 通过三个权重矩阵生成 Query (Q)、Key (K)、Value (V)
核心公式：Attention(Q, K, V) = softmax(QK^T / √d_k) · V
用中文句子「我爱人工智能」演示注意力权重的可视化

3️⃣ 多头注意力 (Multi-Head Attention)

多个注意力头并行工作，每个头关注不同的语义关系
所有头的输出拼接后，再通过 W^O 线性变换
公式：MultiHead(Q,K,V) = Concat(head_1, ..., head_h) W^O

4️⃣ 位置编码 (Positional Encoding)

Transformer 本身没有顺序信息，需要位置编码注入位置信息
使用不同频率的正弦/余弦函数：PE(pos, 2i) = sin(pos / 10000^(2i/d))
不同维度对应不同频率，低维度变化快，高维度变化慢

5️⃣ 前馈网络 (Feed Forward)

FFN(x) = max(0, xW_1 + b_1)W_2 + b_2（ReLU 激活）
先将维度扩展 4 倍（d_model → d_ff），再压缩回原维度
对每个位置独立应用

🎯 总结：自注意力 + 多头注意力 + 位置编码 + 前馈网络 + 残差&归一化，这就是 Transformer！你已经学会了！

如果对某个部分想深入了解，随时告诉我，我可以做更详细的动画讲解！💪

Administrator

@npc/manim(数学大师) 篮球半径增加一米，地球增加一米，这两谁的周长增加的多

数学大师

NPC

1

数学大师

NPC

@sixther(段超)
段超你好！🏀🌍 这道题的答案是：增加的一样多！

很多人直觉上觉得地球那么大，周长增加肯定更多，但实际上并非如此。

数学推导

周长公式： = 2\pi r$

半径增加 $\Delta r$ 后：
4425\Delta C = 2\pi(r + \Delta r) - 2\pi r = 2\pi \cdot \Delta r4425

关键在于 $\Delta C$ 只与 $\Delta r$ 有关，与原半径 $ 无关！

当 $\Delta r = 1$ 米时：
4425\Delta C = 2\pi \times 1 = 2\pi \approx 6.28 \text{ 米}4425

所以无论是篮球还是地球，周长都增加约 6.28 米。

💡 直观理解

想象一根绳子紧贴着圆绕一圈，然后把绳子抬离圆面 1 米高。不管圆多大多小，多出来的绳子长度都一样——因为多出来的长度只取决于绳子离圆面的距离，不取决于圆的大小。

我制作了一个动画来直观展示这个过程 👇

📹 CircumferencePuzzle.mp4

动画包含：

🏀🌍 篮球和地球的对比展示
📐 完整的数学推导过程
🎬 动画演示两个圆半径增加后周长变化
🎯 最终结论和直观解释

Administrator

@npc/manim(数学大师) 大师，帮忙算下这道题

数学大师

NPC

1

Creator

glm 5.1 不支持多模态 @sixther(段超)

数学大师

NPC

@sixther(段超)
段超，这道题我来帮你解！🎯

题目

已知 ^2 + b^2 = 1$，求 + \sqrt{2},b$ 的最大值

解题过程

方法：柯西不等式

由柯西不等式：

7101(x_1 y_1 + x_2 y_2)^2 \leq (x_1^2 + x_2^2)(y_1^2 + y_2^2)7101

令 = 1,\ x_2 = \sqrt{2},\ y_1 = a,\ y_2 = b$，则：

7101(a + \sqrt{2},b)^2 \leq (1 + 2)(a^2 + b^2) = 3 \times 1 = 37101

因此：

7101a + \sqrt{2},b \leq \sqrt{3}7101

等号成立条件

7101\frac{a}{1} = \frac{b}{\sqrt{2}} \Rightarrow a = \sqrt{2},b7101

代入 ^2 + b^2 = 1$：b^2 + b^2 = 1$，解得：

7101b = \frac{1}{\sqrt{3}},\quad a = \sqrt{\frac{2}{3}}7101

✅ 最大值为 $\sqrt{3}$

几何意义

\sqrt{2},b$ 可以看作向量 $ 在方向 $ 上的投影乘以该方向的模长。当 $ 与 $ 同向时取最大值。

📺 动画讲解：

MaxValueProblem.mp4

Administrator

@Zhihang.Li(黎志航) 好像给硬解出来了，6。就是这个数学公式排版不得行

Creator

竟然去下载python ocr了，牛逼

Assignee

None yet

Label

None yet

Priority

None yet

Time period

Property

Add custom properties to record and label key information

Participant

© 2026 Tencent, Inc. Supported by Tencent Cloud

Terms of Service

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111

粤公网安备44030002006058号