时代Java，与您同行！关注微信公众号，关注前沿技术，微信搜索：nowjava或时代Java，也可点击这里扫码关注

时代Java

京东自营 + 国补 iPhone 历史最低价国家补贴享8折

详解 DeepSeek R1 本地训练

欢马劈雪

工程师 (已认证)

原创分享签约作者

发表于教程文章

573

一、本地部署前的准备工作

在进行 DeepSeek R1 本地训练之前，我们需要确保硬件和软件环境都满足相应的要求，为后续的训练工作打下坚实的基础。

1.1 硬件配置要求

CPU：为了保证训练效率，建议使用 4 核以上的 CPU，8 核及以上则能更好地应对复杂的计算任务，如 Intel Core i7 系列或 AMD Ryzen 7 系列处理器，在多线程处理上表现出色，能够显著提升训练速度。

内存：内存的大小直接影响模型训练时的数据处理能力。起步配置为 8GB，但如果要训练较大的模型，如 32B 模型，64GB 内存是更为合适的选择，以确保模型在训练过程中能够流畅运行，避免因内存不足导致的训练中断或速度过慢。

GPU：NVIDIA RTX 系列显卡是不错的选择，推荐使用 3090 及以上型号，显存需达到 24GB+。像 RTX 4090，拥有强大的计算核心和高显存带宽，能极大加速深度学习中的矩阵运算，大幅缩短训练时间。

存储：至少需要 50GB 的可用空间，且使用 SSD 能明显加快数据的读写速度，提高训练效率。在训练过程中，模型参数、训练数据等都需要存储，SSD 的快速读写特性可以减少数据加载时间，让训练进程更加流畅。

1.2 软件环境搭建

操作系统：Windows 10/11 系统具有广泛的兼容性和友好的操作界面，适合普通用户；Ubuntu 20.04 + 则以其开源、稳定和对深度学习框架的良好支持，受到很多专业开发者的青睐。用户可根据自己的熟悉程度和需求进行选择。

安装 Ollama：Ollama 是一款开源的模型管理工具，它支持多版本模型的一键部署，大大简化了模型的安装和管理过程。用户只需在其官方网站（https://ollama.ai/ ）上下载对应操作系统的安装包，按照提示进行安装即可。安装完成后，通过简单的命令就能轻松下载和运行 DeepSeek R1 模型，例如ollama run deepseek-r1:1.5b 就能运行 1.5B 版本的模型。

安装 LM Studio（可选）：LM Studio 是一款可视化界面工具，为用户提供了更直观的交互方式。如果你不喜欢命令行操作，那么 LM Studio 会是一个很好的选择。它可以从官方网站（https://lmstudio.ai/ ）下载安装，安装完成后，在设置中配置好模型路径等参数，就能方便地使用 DeepSeek R1 进行交互，无需记忆复杂的命令。

二、模型下载与环境配置

2.1 选择合适模型版本

DeepSeek R1 提供了多种不同参数规模的模型版本，每个版本在显存需求和适用场景上各有不同，我们需要根据自身硬件条件和使用需求来谨慎选择。

1.5B 版本：该版本模型参数规模为 15 亿，对硬件要求较低，仅需 4GB + 的显存。适用于轻量级测试场景，比如在老旧设备上初步体验模型的功能，或者进行一些简单的文本生成测试。它能在较低配置的电脑上运行，让用户以较小的成本了解 DeepSeek R1 的基本能力。

7B 版本：模型参数达到 70 亿，需要 8GB + 的显存。适合本地开发场景，例如进行小型项目的开发，像开发一个简单的聊天机器人，或者进行一些常规的文本处理任务，如文本摘要、情感分析等，能在普通的开发环境中为开发者提供不错的性能支持。

32B 版本：参数规模为 320 亿，需要 24GB + 的显存。常用于专业任务，如医疗、法律等领域的文本分析，能够处理复杂的专业知识和逻辑推理，为专业人士提供精准的分析和建议。

70B 版本：这是一个参数规模高达 700 亿的大模型，需要 48GB + 的显存，适用于科研级应用，如大规模的数据挖掘和分析、复杂算法的研究等，能为科研工作提供强大的计算和推理能力。

2.2 使用 Ollama 部署

Ollama 是一个便捷的模型部署工具，使用它来部署 DeepSeek R1 模型十分高效。在完成 Ollama 的安装后，我们可以通过简单的命令来下载和运行模型。例如，运行ollama run deepseek-r1:1.5b，Ollama 就会自动从官方源下载 1.5B 版本的 DeepSeek R1 模型，并启动运行。如果需要运行其他版本，只需将命令中的版本号替换即可，如ollama run deepseek-r1:7b。在下载过程中，Ollama 会自动处理模型依赖和环境配置等问题，大大简化了部署流程。下载完成后，我们就可以在命令行中与模型进行交互，输入问题或指令，模型会即时给出回答。例如，输入 “请介绍一下人工智能的发展历程”，模型会迅速生成相关的介绍内容。

2.3 配置可视化界面（LM Studio）

如果希望有一个更直观的交互界面，那么 LM Studio 是一个很好的选择，以下是详细的配置步骤：

下载安装 LM Studio：在 LM Studio 官方网站（https://lmstudio.ai/ ）上，根据自己的操作系统下载对应的安装包。如果是 Windows 系统，下载.exe 格式的安装包，下载完成后，双击安装包，按照安装向导的提示，一步一步完成安装过程，过程中可以选择安装路径等选项。

修改语言为中文：打开安装好的 LM Studio，点击界面右下角的设置图标（形状像一个小齿轮），在弹出的设置菜单中，找到 “language” 选项，在下拉列表中选择 “中文”，这样整个界面就会切换为中文，方便我们操作。

配置模型路径：模型路径指的是本地模型存储的位置。点击 LM Studio 界面左上方的文件夹图标，在弹出的文件选择窗口中，找到之前下载好的 DeepSeek R1 模型所在的文件夹，选中并确认。如果还没有下载模型，可以在 LM Studio 的模型搜索界面中，搜索 DeepSeek R1，选择合适的版本进行下载，下载完成后再进行路径配置。

调整推理参数：在模型加载之前，我们还可以对推理参数进行调整，以获得更好的生成效果。一般来说，温度参数建议设置在 0.6-0.8 之间，温度越高，生成的文本越具有创造性和随机性；温度越低，生成的文本越保守和确定。Top-p 参数设置为 0.95 左右，它表示从概率最高的词汇中选择累计概率达到 Top-p 的词汇进行生成，能有效控制生成文本的多样性和合理性。在 LM Studio 的模型设置界面中，找到对应的参数设置项，输入合适的值即可完成设置。

三、数据投喂与模型训练

在完成模型的部署和环境配置后，接下来就进入到关键的数据投喂与模型训练环节。这一步骤对于提升模型在特定领域的表现和适应性至关重要，通过将针对性的数据输入模型，让模型学习特定的知识和语言模式，从而能够更好地回答相关问题和完成任务。

3.1 数据准备

数据的质量和多样性直接影响模型的训练效果，因此在训练前，我们需要精心准备数据。DeepSeek R1 支持多种数据来源和格式，以满足不同用户的需求。

文档投喂：DeepSeek R1 支持 Word、PDF、Markdown 等常见文档格式。你可以将包含专业知识、业务数据等内容的文档直接投喂给模型。比如在医疗领域，可以投喂医学论文、病例报告等 Word 文档；在法律行业，法律法规的 PDF 文件能为模型提供丰富的知识。在投喂前，要确保文档内容准确、清晰，避免出现错别字、格式混乱等问题，以保证模型能够准确学习其中的信息。

网页抓取：如果你想让模型学习网页上的特定内容，只需输入网页的 URL，模型就能自动解析网页内容。例如，对于行业资讯网站，输入其 URL，模型可以抓取并学习最新的行业动态、技术趋势等信息。但在抓取网页时，要注意遵守网站的使用条款和法律法规，避免侵权行为。

自定义数据集：对于一些结构化的数据，如行业数据库中的数据，我们可以将其整理成 JSON 格式的自定义数据集。在 JSON 数据集中，每个数据项都有明确的字段和结构，模型能够更好地理解和学习其中的逻辑关系。比如电商企业可以将商品信息、用户评价等数据整理成 JSON 格式，用于训练模型以更好地回答与商品相关的问题。

3.2 使用 AnythingLLM 训练

AnythingLLM 是一款功能强大的数据管理工具，它与 DeepSeek R1 相结合，能极大地简化模型训练流程，以下是具体的使用步骤：

安装 AnythingLLM 数据管理工具：访问 AnythingLLM 的官方网站（https://anythingllm.com/ ），根据你的操作系统下载对应的安装包。如果是 Windows 系统，下载.exe 格式的安装包，下载完成后，双击安装包，按照安装向导的提示完成安装过程，在安装过程中可以选择安装路径等选项。

配置 LLM 提供者为 Ollama：打开安装好的 AnythingLLM，点击界面中的设置图标，在弹出的设置菜单中，找到 “LLM 首选项”，在 “提供商” 下拉列表中选择 “Ollama”，这样 AnythingLLM 就会与之前安装的 Ollama 建立联系，从而使用 Ollama 中的 DeepSeek R1 模型进行训练。

上传数据并选择嵌入模型：在 AnythingLLM 的工作区界面，点击 “上传” 按钮，选择之前准备好的数据文件，如 Word 文档、PDF 文件等。上传完成后，在 “Embedder 首选项” 中，选择嵌入模型为 “nomic-embed-text”，该模型能够将文本数据转化为向量表示，便于模型进行学习和处理。

启动训练：一切设置完成后，点击 “开始训练” 按钮，训练时间会根据数据量的大小而有所不同，大约每 1GB 数据需要 1 - 3 小时的训练时间。在训练过程中，要确保计算机的稳定运行，避免因断电、系统故障等原因导致训练中断。训练完成后，模型就会学习到投喂数据中的知识，在后续的使用中，能够基于这些知识给出更准确、更专业的回答。

四、模型调优与性能优化

在完成模型的训练后，为了让模型在实际应用中发挥出最佳性能，我们还需要对模型进行调优和性能优化。这一步骤能够提升模型的准确性、稳定性和响应速度，使其更好地满足我们的需求。

4.1 参数调整技巧

温度（Temperature）：温度参数用于控制模型输出的随机性，取值范围一般在 0 - 1 之间。较低的温度值（如 0.2 - 0.4）会使模型输出更加保守、确定，生成的文本较为常规，适合对准确性要求较高的场景，如撰写正式的报告、法律文书等；较高的温度值（如 0.6 - 0.8）会增加输出的随机性和创造性，生成的文本更加多样化和富有想象力，适合创意写作、故事创作等场景。在实际应用中，我们可以根据具体需求在 0.5 - 0.8 这个范围内进行调整。比如在创作一篇科幻小说时，将温度设置为 0.7，模型可能会生成一些新奇的科幻概念和情节，为创作带来更多灵感。

最大生成长度：它决定了模型一次生成的最大文本长度，单位是 tokens。对于 DeepSeek R1，建议将最大生成长度设置为 32768 tokens，这样可以满足大部分长文本生成的需求。例如在生成一篇长篇论文时，足够的生成长度能让模型完整地阐述观点、分析问题，不会因为长度限制而中断或省略关键内容。但如果设置过长，可能会导致生成时间过长和内存占用过大，所以要根据实际情况进行权衡。

上下文窗口：上下文窗口指模型在处理当前输入时能够参考的历史文本长度，同样以 tokens 为单位。它的大小需要根据具体任务进行设置，默认值为 4096。在对话场景中，较大的上下文窗口能让模型更好地理解对话的历史信息，给出更连贯、相关的回答。比如在进行多轮对话时，模型可以根据之前的对话内容，理解用户的意图和上下文，避免回答出现前后矛盾或不相关的情况。而在处理短文本任务时，较小的上下文窗口可能就足够了，这样可以减少计算资源的消耗，提高处理速度。

4.2 GPU 资源优化

启用 CUDA 加速：CUDA 是 NVIDIA 推出的并行计算平台和编程模型，能够利用 GPU 的并行计算能力加速深度学习任务。在使用 DeepSeek R1 时，确保 CUDA 已经正确安装和配置，在运行模型的命令中添加--gpu参数，即可启用 CUDA 加速。例如，使用 Ollama 运行模型时，命令可以写成ollama run deepseek-r1:7b --gpu，这样模型的计算过程将在 GPU 上进行，大大提高运行速度。

调整 MIG 配置（NVIDIA A30 及以上）：MIG（Multi - Instance GPU）技术允许将一块 GPU 分割成多个独立的实例，每个实例可以独立运行任务，从而提高 GPU 资源的利用率。如果你的 GPU 是 NVIDIA A30 及以上型号，可以通过 NVIDIA Management Library（NVML）工具来配置 MIG。首先，使用nvidia - smi mig - ctl - l命令查看 GPU 支持的 MIG 模式，然后根据实际需求选择合适的模式进行配置，如nvidia - smi mig - ctl - i 0 - c "2g.10gb"表示将 GPU 分割为两个实例，每个实例使用 10GB 显存。这样在同时运行多个模型或任务时，可以更合理地分配 GPU 资源，避免资源浪费。

内存分页技术（LM Studio 专有优化）：LM Studio 采用了内存分页技术，这是一种专有的优化方式，能够更高效地管理内存。在使用 LM Studio 时，它会自动根据模型的需求和系统内存的情况，将内存划分为多个页面，当模型需要访问内存时，能够快速定位到所需的数据，减少内存访问时间，从而提高模型的运行效率。特别是在处理大规模模型和大量数据时，内存分页技术能够显著提升性能，让模型的运行更加流畅。

五、常见问题解决方案

在 DeepSeek R1 本地训练过程中，可能会遇到一些问题，影响训练的顺利进行。下面为大家提供一些常见问题的解决方案，帮助大家快速解决问题，保证训练工作的正常开展。

5.1 依赖项冲突

在安装 DeepSeek R1 及其相关工具时，不同软件包之间可能会出现依赖项冲突的情况，导致安装失败或训练过程中报错。例如，CUDA 版本与深度学习框架（如 PyTorch）的版本不匹配，就可能引发此类问题。

解决方案：严格按照官方文档中指定的版本要求来安装各个依赖项。在安装深度学习框架时，仔细查看官方提供的版本对照表，确保 CUDA 版本与框架版本兼容。如果已经安装了不兼容的版本，可以使用pip install --upgrade --force-reinstall命令重新安装依赖库，强制更新到正确的版本。在安装过程中，密切关注安装日志，及时发现并解决可能出现的冲突问题。

5.2 显存不足

当训练较大规模的模型时，可能会出现显存不足的情况，导致训练中断或无法正常启动。例如，在训练 32B 版本的 DeepSeek R1 模型时，如果 GPU 显存小于 24GB，就很容易出现这种问题。

降低模型精度（FP16→INT8）：将模型的精度从 FP16（半精度浮点数）降低到 INT8（8 位整数），可以显著减少显存的占用。在运行模型的命令中添加相关参数来实现精度调整，如在使用 Ollama 运行模型时，可以添加--dtype int8参数。但需要注意的是，降低精度可能会对模型的准确性产生一定影响，需要在实际应用中进行权衡。

启用内存优化（--auto-devices）：在运行模型时，添加--auto-devices参数，该参数会自动优化内存使用，提高显存的利用率。例如，使用 Ollama 运行模型时，命令可以写成ollama run deepseek-r1:7b --auto-devices，这样模型在运行过程中会根据实际情况更合理地分配内存资源，减少显存不足的问题。

减少 batch_size 参数：batch_size 表示每次训练时输入模型的数据量，减小该参数可以降低显存的占用。在训练脚本中找到设置 batch_size 的地方，将其值适当减小，如从 64 改为 32 。但 batch_size 过小可能会导致训练速度变慢，所以需要根据实际情况进行调整，找到一个平衡显存占用和训练速度的最佳值。

5.3 模型加载失败

模型加载失败是一个常见的问题，可能由多种原因引起，如文件完整性问题、下载源不稳定或 CUDA 驱动版本过低等。例如，在下载模型文件时，如果网络不稳定，可能会导致文件下载不完整，从而在加载模型时失败。

检查文件完整性（哈希校验）：在下载模型文件后，计算文件的哈希值，并与官方提供的哈希值进行比对，以确保文件完整无误。可以使用sha256sum命令来计算文件的哈希值，如sha256sum deepseek-r1-7b.bin，然后将计算得到的哈希值与官方公布的哈希值进行对比。如果哈希值不一致，说明文件可能损坏，需要重新下载。

更换下载源（国内镜像站）：如果从官方源下载模型文件时速度较慢或出现下载失败的情况，可以尝试更换为国内的镜像站。例如，一些知名的开源社区或云平台可能提供了模型文件的镜像下载地址，在这些镜像站下载模型文件，可能会获得更快的下载速度和更稳定的下载体验。在选择镜像站时，要确保其可靠性和安全性，避免下载到被篡改的文件。

更新 CUDA 驱动至最新版本：CUDA 驱动版本过低可能会导致模型无法正常加载，及时更新 CUDA 驱动至最新版本，可以提高模型的兼容性和运行稳定性。访问 NVIDIA 官方网站，下载适用于自己显卡型号的最新 CUDA 驱动程序，按照安装向导的提示进行安装。在安装过程中，要注意备份重要数据，并关闭其他可能影响安装的程序。安装完成后，重新启动计算机，确保驱动生效。

六、实战案例演示

6.1 贪吃蛇游戏代码生成

现在，我们来通过一个具体的例子展示 DeepSeek R1 在实际应用中的强大能力。假设我们想要用 Python 编写一个贪吃蛇游戏，这是一个经典的游戏开发案例，通过 DeepSeek R1 可以快速生成代码框架，大大提高开发效率。

首先，打开与 DeepSeek R1 模型交互的界面，无论是通过命令行（如使用 Ollama）还是可视化界面（如 LM Studio）。在交互界面中，我们输入明确的指令：“帮我用 Python 编写一个贪吃蛇游戏代码，要求包含基本的游戏逻辑，如蛇的移动、食物的生成与碰撞检测，并且使用 turtle 库来实现图形化界面。”

DeepSeek R1 模型会迅速分析我们的需求，并在短时间内生成如下代码：

import turtle
import time
import random
# 窗口设置
window = turtle.Screen()
window.title("贪吃蛇 by Python")
window.bgcolor("black")
window.setup(width=600, height=600)
window.tracer(0)  # 关闭自动刷新
# 蛇头
snake_head = turtle.Turtle()
snake_head.speed(0)
snake_head.shape("square")
snake_head.color("white")
snake_head.penup()
snake_head.goto(0, 0)
snake_head.direction = "stop"
# 食物
food = turtle.Turtle()
food.speed(0)
food.shape("circle")
food.color("red")
food.penup()
food.goto(0, 100)
segments = []  # 蛇身体段
score = 0  # 得分
# 得分显示
pen = turtle.Turtle()
pen.speed(0)
pen.color("white")
pen.penup()
pen.hideturtle()
pen.goto(0, 260)
pen.write("得分: 0", align="center", font=("Arial", 24, "normal"))
# 移动函数
def move():
if snake_head.direction == "up":
y = snake_head.ycor()
snake_head.sety(y + 20)
if snake_head.direction == "down":
y = snake_head.ycor()
snake_head.sety(y - 20)
if snake_head.direction == "left":
x = snake_head.xcor()
snake_head.setx(x - 20)
if snake_head.direction == "right":
x = snake_head.xcor()
snake_head.setx(x + 20)
# 方向控制函数
def go_up():
if snake_head.direction != "down":
snake_head.direction = "up"
def go_down():
if snake_head.direction != "up":
snake_head.direction = "down"
def go_left():
if snake_head.direction != "right":
snake_head.direction = "left"
def go_right():
if snake_head.direction != "left":
snake_head.direction = "right"
# 键盘绑定
window.listen()
window.onkeypress(go_up, "w")
window.onkeypress(go_down, "s")
window.onkeypress(go_left, "a")
window.onkeypress(go_right, "d")
# 碰撞检测
def check_collision():
# 边界检测
if snake_head.xcor() > 290 or snake_head.xcor() < -290:
return True
if snake_head.ycor() > 290 or snake_head.ycor() < -290:
return True
# 身体碰撞检测
for segment in segments:
if snake_head.distance(segment) < 20:
return True
return False
# 主游戏循环
while True:
window.update()
# 检查是否吃到食物
if snake_head.distance(food) < 20:
# 移动食物到随机位置
x = random.randint(-290, 290)
y = random.randint(-290, 290)
food.goto(x, y)
# 增加身体段
new_segment = turtle.Turtle()
new_segment.speed(0)
new_segment.shape("square")
new_segment.color("grey")
new_segment.penup()
segments.append(new_segment)
# 增加得分
score += 10
pen.clear()
pen.write(f"得分: {score}", align="center", font=("Arial", 24, "normal"))
# 移动身体段（从后往前）
for index in range(len(segments) - 1, 0, -1):
x = segments[index - 1].xcor()
y = segments[index - 1].ycor()
segments[index].goto(x, y)
# 移动第一个身体段到头部位置
if len(segments) > 0:
x = snake_head.xcor()
y = snake_head.ycor()
segments[0].goto(x, y)
move()
# 检查碰撞
if check_collision():
time.sleep(1)
snake_head.goto(0, 0)
snake_head.direction = "stop"
# 隐藏身体段
for segment in segments:
segment.goto(1000, 1000)
# 清空身体段列表
segments.clear()
# 重置得分
score = 0
pen.clear()
pen.write(f"得分: {score}", align="center", font=("Arial", 24, "normal"))
time.sleep(0.1)

这段代码实现了一个基本的贪吃蛇游戏，包括蛇的移动控制、食物的随机生成、得分计算以及碰撞检测等功能。开发者可以直接使用这段代码进行测试和运行，也可以根据自己的需求进一步优化和扩展，如添加音效、设置游戏难度级别等。通过这个例子，我们可以看到 DeepSeek R1 在代码生成方面的高效性和准确性，能够为开发者节省大量的时间和精力，快速实现项目的原型开发。

6.2 智能客服系统搭建

搭建智能客服系统是 DeepSeek R1 的一个重要应用场景，它可以帮助企业提高客户服务效率，降低人力成本。下面我们将详细介绍如何利用 DeepSeek R1 搭建一个智能客服系统。

投喂企业知识库

企业知识库是智能客服系统的核心，它包含了企业的产品信息、常见问题解答、业务流程等知识。我们需要将这些知识整理成合适的格式，然后投喂给 DeepSeek R1 模型。

数据收集与整理：收集企业内部的各种文档，如产品手册、FAQ 文档、技术文档等。对这些文档进行整理，去除重复和无关的信息，确保知识的准确性和完整性。例如，对于一家电商企业，产品手册中包含了商品的规格、使用方法、售后服务等信息，这些都需要整理出来，以便模型学习。

选择投喂方式：根据前面介绍的数据准备方法，我们可以选择将整理好的文档直接上传给模型，或者将其转换为自定义数据集后再进行投喂。如果文档格式为 Word、PDF 等常见格式，可以直接使用 AnythingLLM 工具进行上传和训练；如果是结构化的数据，如数据库中的数据，可以将其整理成 JSON 格式的自定义数据集，然后通过特定的接口投喂给模型。

训练对话模型

在投喂企业知识库后，我们需要对 DeepSeek R1 模型进行训练，使其能够理解和回答与企业业务相关的问题。

选择训练工具：使用 AnythingLLM 数据管理工具进行训练，按照前面介绍的步骤，配置好 LLM 提供者为 Ollama，选择嵌入模型为 “nomic-embed-text” 。

设置训练参数：根据实际需求设置训练参数，如训练轮数、学习率等。一般来说，训练轮数越多，模型学习到的知识就越丰富，但也会增加训练时间和计算资源的消耗。在实际应用中，可以通过多次试验，找到一个合适的训练参数组合，以平衡模型的性能和训练成本。例如，对于一个小型企业的智能客服系统，训练轮数可以设置为 5 - 10 轮，学习率设置为 0.001 左右。

启动训练：一切设置完成后，点击 “开始训练” 按钮，等待训练完成。训练时间会根据数据量的大小和模型的复杂程度而有所不同，一般来说，每 1GB 数据需要 1 - 3 小时的训练时间。在训练过程中，可以实时监控训练进度和模型的性能指标，如准确率、召回率等，以便及时调整训练参数。

部署 API 接口

训练完成后，我们需要将模型部署为 API 接口，以便与其他系统进行集成。

展开阅读全文

本文系作者在时代Java发表，未经许可，不得转载。

如有侵权，请联系nowjava@qq.com删除。

编辑于 03-31 18:41:412025-03-31 18:41:41

教程文章

文章订阅