On-PolicyDistillation正迅速成为大模型后训练(Post-training)的“第三条道路”：它一边保留RL那种“在自己分布上学习”的优势，一边又像SFT一样提供逐token的密集监督。在Qwen3技术报告中，这种方法以RL约十分之一的算力成本，在AIME’24数学竞赛上拿到74.4%的准确率，反超RL的67.6%。本文从问题动机、算法原理、实现细节到数学推理与个性化助手实验，系统拆解On-PolicyDistillation为何能在推理、个性化和持续学习场景中，成为当前最具性价比的训练范式之一。

文章详情

🗒️

算法

LeetCode

给你一个整数 n，请你判断该整数是否是 2 的幂次方。如果是，返回 true ；否则，返回 false 。如果存在一个整数 $x$ 使得 $n==2^x$ ，则认为 $n$ 是 2 的幂次方。

spacy-llm 是一个强大的库，旨在将大型语言模型（LLMs，如GPT-3、GPT-4）集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持，以及与其他spaCy组件的无缝集成。

本文为“一步步手撸Transformer”系列的第二篇，重点讲解了“多头注意力（Multi-Head Attention）”机制。多头注意力是自注意力（Self-Attention）的一个扩展，首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中，注意力机制主要在三个地方使用：编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入（Query, Key, Value）及其计算公式。同时，文章也解答了关于多头注意力的三个常见疑问：1. 参数$d_k$的计算和其意义；2. 为何在解码器中要使用掩码；3. Q、K、V这三个术语的来源和意义。最后，还给出了多头注意力的代码实现和相关的参考资料链接。

文章详情