家人们，今天这篇教程绝对是干货中的干货！我将一步一步带你完成 DeepSeek-R1 的部署，就算你是刚入门的技术小白，只要跟着我的节奏走，也能轻松搞定。部署好 DeepSeek-R1，就相当于拥有了自己的专属智能助手，不管是做科研、搞项目开发，还是日常娱乐，都能轻松拿捏，大大提升效率！话不多说，马上进入正题！

一、开工前，先把装备备齐

硬件与基础环境

GPU：NVIDIA RTX 3090/4090 或者更高性能的型号（显存至少要达到 24GB，如果打算进行量化操作，显存最低可降至 12GB ，不过性能可能会受点影响）。
CPU：必须支持 AVX2 指令集，像 Intel i7 10 代 + 或者 AMD Ryzen 5 代 + 这样的处理器就比较合适。
内存：32GB 起步，越大越好，运行起来才更流畅。
硬盘：至少预留 50GB 的可用空间，用来存放模型和相关数据。
操作系统：强烈推荐使用 Ubuntu 22.04 LTS，如果你习惯用 Windows，那 Windows 11 WSL2 也可以，不过记得提前开启 GPU 支持。

二、给模型部署搭好 “脚手架”

步骤 1：搭建 Python 环境小窝

首先，我们用 conda 来创建一个专属的虚拟环境，这就好比给我们的项目搭建一个独立的小房子，里面的各种依赖和配置都不会和其他项目冲突，非常方便管理。

收起

bash

# 使用conda创建虚拟环境（强烈推荐）
conda create -n deepseek python=3.10
conda activate deepseek

运行这两行代码，一个名为 deepseek 的 Python 3.10 虚拟环境就搭建好啦，并且自动激活，接下来安装的所有依赖都会乖乖待在这个环境里。

步骤 2：安装必备 “插件”

收起

bash

# 安装PyTorch（根据CUDA版本选择）
pip install torch==2.1.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 安装Hugging Face库
pip install transformers==4.35.0 accelerate==0.24.0

# 可选：安装vLLM加速推理（如果你有GPU，强烈建议安装）
pip install vllm==0.3.0

这些命令会帮我们安装好运行 DeepSeek-R1 模型所需要的核心工具包。PyTorch 是深度学习的核心框架，Hugging Face 库则为我们提供了方便调用模型的工具，而 vLLM 可以大大加速推理过程，让模型响应更快。

三、把模型 “请回家”

步骤 1：拿到模型 “钥匙”

这一步很关键，我们得去 DeepSeek 官网（或者联系官方商务人员）申请模型的权限，拿到模型权重文件（通常是.safetensors 或.bin 格式）以及配置文件（tokenizer.json 和 config.json）。没有这些文件，模型就没法正常工作哦。

模型文件下载好后，目录结构大概是这样的：

收起

plaintext

deepseek-r1/
├── config.json
├── model-00001-of-00002.safetensors
├── model-00002-of-00002.safetensors
└── tokenizer.model

步骤 2：模型 “入住”

如果是通过官方提供的链接下载模型，就可以用下面的命令：

收起

bash

# 使用wget或官方工具
wget -O deepseek-r1.zip "https://example.com/deepseek-r1"
unzip deepseek-r1.zip -d./models/

这两行命令，第一行负责把模型文件从指定链接下载下来并命名为 deepseek-r1.zip，第二行则是把压缩包解压到当前目录下的 models 文件夹里。

四、让模型 “开口说话”

方法 1：用 Hugging Face Pipeline 小试牛刀（适合测试阶段）

收起

python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "./models/deepseek-r1"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto")  # 自动分配GPU

# 输入提示词
prompt = "如何做西红柿炒鸡蛋？步骤："
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

# 生成文本
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

这段代码的作用是，先从 Hugging Face 库中导入必要的模块，然后加载模型和分词器。接着，我们给模型一个 “如何做西红柿炒鸡蛋” 的问题，模型就会根据训练学到的知识，生成一段制作步骤的文本。

方法 2：用 vLLM 开启高效推理（适合生产环境）

收起

bash

# 启动API服务（单GPU）
python -m vllm.entrypoints.openai.api_server \
  --model./models/deepseek-r1 \
  --tensor-parallel-size 1 \
  --served-model-name deepseek-r1 \
  --port 8000

运行这个命令，就会启动一个基于 vLLM 的 API 服务，通过这个服务，我们可以更方便地与模型交互。

通过 HTTP 调用：

收起

bash

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1",
    "prompt": "中国的首都是哪里？",
    "max_tokens": 50,
    "temperature": 0.7
  }'

这是一个用 curl 命令向刚才启动的 API 服务发送请求的示例，我们询问 “中国的首都是哪里”，模型会在 50 个 token 的限制内，给出一个回答。

五、解锁更多高级玩法

1. 模型量化：给模型 “瘦身”，降低显存占用

收起

python

# 使用bitsandbytes 8-bit量化
from transformers import BitsAndBytesConfig

quant_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0
)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    quantization_config=quant_config,
    device_map="auto"
)

如果你的 GPU 显存不够用，就可以试试模型量化。这段代码使用了 bitsandbytes 库，将模型量化为 8-bit，这样可以大大减少模型占用的显存，同时又能保持一定的性能。

2. 多轮对话：和模型来一场深度交流

收起

python

# 使用Chat模板
messages = [
    {"role": "user", "content": "你好，请介绍DeepSeek-R1"},
    {"role": "assistant", "content": "DeepSeek-R1是一款由深度求索公司开发的大型语言模型..."},
    {"role": "user", "content": "它的训练数据截止到什么时候？"}
]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")
outputs = model.generate(inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

这个代码示例展示了如何和模型进行多轮对话。通过构建一个包含用户和模型交互信息的消息列表，我们可以让模型像聊天一样，根据之前的对话内容给出更合理的回答。

六、遇到问题别慌，这里有解决办法

1. 显存不足（OOM）：GPU “内存告急” 怎么办

启用量化：前面提到的 8-bit/4-bit 量化技术可以显著减少模型对显存的需求。
减少 max_tokens 参数：这个参数控制模型生成文本的长度，适当减小它，可以降低计算量和显存占用。
使用 vLLM 的 PagedAttention 优化：vLLM 提供的这个优化技术可以更高效地管理显存，减少显存碎片，提高利用率。

2. 模型加载失败：模型 “闹脾气” 不加载了

检查模型文件完整性：仔细核对模型文件的大小是否和官方提供的一致，如果文件损坏，肯定是加载不了的。
更新库版本：有时候是因为库的版本太旧，导致和模型不兼容。可以试试用这个命令更新 safetensors 库：pip install safetensors>=0.4.1 。

七、看看模型在实际中的 “超能力”

1. 问答系统：轻松解决各种疑难问题

收起

python

def answer_question(question):
    prompt = f"问题：{question}\n回答："
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=200)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

print(answer_question("量子计算的核心原理是什么？"))

这段代码定义了一个函数，专门用来向模型提问并获取回答。不管是科学问题、生活常识，还是技术难题，都可以丢给模型试试。

2. 代码生成：编程好帮手，一键生成代码

收起

python

prompt = """
用Python写一个快速排序函数，要求：
1. 输入为一个整数列表
2. 返回排序后的列表
代码：
"""
print(answer_question(prompt))

有了这个模型，写代码都轻松多了。只要给出清晰的需求，模型就能帮你生成相应的代码框架，大大提高编程效率。

八、最后再叮嘱几句

安全建议

千万别裸奔：绝对不要把 API 服务直接暴露在公网上，这就好比把家门大敞着，非常危险。可以使用 Nginx 反向代理结合 HTTPS 来增强安全性。
做好身份验证：启用 API 密钥验证，参考 vLLM 文档里的 --api-key 参数设置，这样只有授权的用户才能访问你的模型服务。

性能调优

调整 max_batch_size：合理设置这个参数，可以同时处理多个请求，有效提升吞吐量。
使用 FlashAttention-2 加速：如果你的 GPU 支持，不妨试试这个技术，能进一步提升模型的运行速度。

家人们，按照这个教程一步步操作，你一定能成功部署 DeepSeek-R1！要是在过程中遇到任何问题，欢迎在评论区留言，大家一起交流解决。觉得这篇教程有用的话，别忘了点赞、收藏、转发，让更多的小伙伴受益！ #DeepSeek-R1 #模型部署 #大语言模型 #技术教程

码农必看!手把手带你部署 DeepSeek-R1，小白也能秒变技术大神

一、开工前，先把装备备齐

硬件与基础环境

二、给模型部署搭好 “脚手架”

步骤 1：搭建 Python 环境小窝

步骤 2：安装必备 “插件”

三、把模型 “请回家”

步骤 1：拿到模型 “钥匙”

步骤 2：模型 “入住”

四、让模型 “开口说话”

方法 1：用 Hugging Face Pipeline 小试牛刀（适合测试阶段）

方法 2：用 vLLM 开启高效推理（适合生产环境）

五、解锁更多高级玩法

1. 模型量化：给模型 “瘦身”，降低显存占用

2. 多轮对话：和模型来一场深度交流

六、遇到问题别慌，这里有解决办法

1. 显存不足（OOM）：GPU “内存告急” 怎么办

2. 模型加载失败：模型 “闹脾气” 不加载了

七、看看模型在实际中的 “超能力”

1. 问答系统：轻松解决各种疑难问题

2. 代码生成：编程好帮手，一键生成代码

八、最后再叮嘱几句

安全建议

性能调优

相关推荐

【验证码逆向专栏】vaptcha 手势验证码逆向分析

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

飞牛OS入门安装遇到问题，如何解决?

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

python使用fitz模块提取pdf中的图片

大模型手册: 保姆级用CherryStudio知识库

如何在 iPhone 和 Android 上恢复已删除的抖音消息

码农必看!手把手带你部署 DeepSeek-R1，小白也能秒变技术大神

一、开工前，先把装备备齐

硬件与基础环境

二、给模型部署搭好 “脚手架”

步骤 1：搭建 Python 环境小窝

步骤 2：安装必备 “插件”

三、把模型 “请回家”

步骤 1：拿到模型 “钥匙”

步骤 2：模型 “入住”

四、让模型 “开口说话”

方法 1：用 Hugging Face Pipeline 小试牛刀（适合测试阶段）

方法 2：用 vLLM 开启高效推理（适合生产环境）

五、解锁更多高级玩法

1. 模型量化：给模型 “瘦身”，降低显存占用

2. 多轮对话：和模型来一场深度交流

六、遇到问题别慌，这里有解决办法

1. 显存不足（OOM）：GPU “内存告急” 怎么办

2. 模型加载失败：模型 “闹脾气” 不加载了

七、看看模型在实际中的 “超能力”

1. 问答系统：轻松解决各种疑难问题

2. 代码生成：编程好帮手，一键生成代码

八、最后再叮嘱几句

安全建议

性能调优

相关推荐

【验证码逆向专栏】vaptcha 手势验证码逆向分析

一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案

网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄

C++ std::vector 简介

飞牛OS入门安装遇到问题，如何解决?

系统C盘清理:微信PC端文件清理，扩大C盘可用空间步骤

10款高性能NAS丨双十一必看，轻松搞定虚拟机、Docker、软路由

python使用fitz模块提取pdf中的图片

大模型手册: 保姆级用CherryStudio知识库

如何在 iPhone 和 Android 上恢复已删除的抖音消息

网页转成pdf文件的经验分享网页转成pdf文件的经验分享怎么弄