🚀 告别昂贵的 RL?On-Policy Distillation:以 1/10 成本实现更强的 Post-Training

On-PolicyDistillation正迅速成为大模型后训练(Post-training)的“第三条道路”:它一边保留RL那种“在自己分布上学习”的优势,一边又像SFT一样提供逐token的密集监督。在Qwen3技术报告中,这种方法以RL约十分之一的算力成本,在AIME’24数学竞赛上拿到74.4%的准确率,反超RL的67.6%。本文从问题动机、算法原理、实现细节到数学推理与个性化助手实验,系统拆解On-PolicyDistillation为何能在推理、个性化和持续学习场景中,成为当前最具性价比的训练范式之一。

🗒️ 面试中的惊慌:2的次幂问题与位运算的神奇

给你一个整数 n,请你判断该整数是否是 2 的幂次方。如果是,返回 true ;否则,返回 false 。如果存在一个整数 $x$ 使得 $n==2^x$ ,则认为 $n$ 是 2 的幂次方。

🗒️ 集成大型语言模型(LLMs)到spaCy NLP管道:新的NLP折腾方案

spacy-llm 是一个强大的库,旨在将大型语言模型(LLMs,如GPT-3、GPT-4)集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持,以及与其他spaCy组件的无缝集成。

🗒️ 一步步手撸Transformer之(二)—— Multi-head Attention

本文为“一步步手撸Transformer”系列的第二篇,重点讲解了“多头注意力(Multi-Head Attention)”机制。多头注意力是自注意力(Self-Attention)的一个扩展,首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中,注意力机制主要在三个地方使用:编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入(Query, Key, Value)及其计算公式。同时,文章也解答了关于多头注意力的三个常见疑问:1. 参数$d_k$的计算和其意义;2. 为何在解码器中要使用掩码;3. Q、K、V这三个术语的来源和意义。最后,还给出了多头注意力的代码实现和相关的参考资料链接。