快速开始 =============== .. note:: 阅读本篇前,请确保已按照 :doc:`安装教程 <./install>` 准备好昇腾环境及 TRL (Transformer Reinforcement Learning) ! 本教程以 DPO 方法为例,讲述如何使用 TRL 在昇腾 NPU 上进行模型的后训练。 前置准备 --------------- 本篇样例代码为 TRL 官方样例,需提前进行下载: .. code-block:: git clone https://github.com/huggingface/trl.git 模型训练 --------------- 进入 TRL 项目目录,依次执行如下命令: .. code-block:: cd examples/scripts python dpo.py 出现如下日志则代表训练成功: :: Tokenizing train dataset: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 62135/62135 [07:11<00:00, 143.85 examples/s] Tokenizing eval dataset: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:06<00:00, 144.73 examples/s] Detected kernel version 4.19.90, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher. 0%| ... | 0/3883 [00:00