windows本地部署vllm,运行deepseek大模型

windows本地部署vllm,加载大模型

zxhy0123

8269人浏览 · 2025-02-28 14:34:58

zxhy0123 · 2025-02-28 14:34:58 发布

1.安装 WSL2，启用linux 系统

启用适用于 Linux 的 Windows 子系统：检查 Windows 功能中 “适用于 Linux 的 Windows 子系统” 是否开启，若未开启，可在命令提示符（管理员权限）中执行dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart，之后重启电脑。

检查 WSL2 的要求：对于 64 位系统，版本需 1903 或更高，版本号 18362 或更高；对于 ARM64 系统，版本需 2004 或更高，版本号 19041 或更高。可通过 “win + r”，在搜索框输入 “winver” 查看当前版本。同时，查看电脑是否开启开发人员模式。

启用虚拟机功能：在命令提示符（管理员权限）中执行dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart。

安装 Linux 内核更新包：下载地址为https://wslstorestorage.blob.core.windows.net/wslblob/wsl_update_x64.msi，双击安装。

将 WSL2 设置为默认版本：在命令提示符中执行wsl --set-default-version 2。

安装选择的 Linux 发行版：进入https://docs.microsoft.com/en-us/windows/wsl/install-manual选择合适的系统安装包，如 ubuntu22.04。下载完成后，双击安装，第一次进入 Ubuntu 系统，需要设置用户名、密码等。

2.安装 Anaconda3

先下载 Anaconda3 安装包：https://www.anaconda.com/download/success 下载linux 版本，下载到 D盘下

wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.10-1-Linux-x86_64.sh

运行安装程序

bash Anaconda3-2024.10-1-Linux-x86_64.sh

更新环境变量
bash Anaconda3-2021.11-Linux-x86_64.sh
进入 WSL2 终端 Anaconda3 安装包的目录，如 D 盘可执行cd /mnt/d，然后执行bash Anaconda3-2024.06-1-Linux-x86_64.sh开始安装，安装过程一路回车输入 yes，最后一步建议输入 yes，会将 conda 环境变量写入～/.bashrc 文件中。
安装完成后可使用conda -V查看，若环境变量未生效，可通过vim ~/.bashrc在最后一行添加export PATH=$PATH:/path/to/anaconda3/bin，替换/path/to/anaconda3为实际安装路径，再执行source ~/.bashrc更新环境变量。

3.安装 CUDA
登录 WSL 后，根据 NVIDIA 下载页面的说明安装 CUDA 12.8，依次执行以下命令：也可以参考官方说明：https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=deb_local
原文链接：https://blog.csdn.net/qq_28817739/article/details/145371007

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda-repo-ubuntu2204-12-8-local_12.8.0-570.86.10-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-8-local_12.8.0-570.86.10-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-8

4.安装vllm

pip install vllm

5.模型下载
模型库文件下载：
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
请确保 lfs 已经被正确安装
在 Ubuntu 上安装 Git LFS 可以通过以下步骤进行：

首先，确保你已经安装了 Git。如果你还没有安装 Git，可以通过以下命令安装：

sudo apt update 
sudo apt install git

接下来，安装 Git LFS。可以通过以下命令进行安装：

sudo curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs

然后，启用 Git LFS 扩展。可以使用以下命令启用 Git LFS：

git lfs install

最后，验证 Git LFS 是否已成功安装。可以使用以下命令进行验证：

git lfs version

git lfs install
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B.git

# Load and run the model:
# gpu_memory_utilization 参数控制着 GPU 内存的使用比例，增大该值可以让引擎使用更多的 GPU 内存来存储 KV 缓存
# max_model_len 参数指定了模型支持的最大序列长度，减小该值可以使模型的序列长度适配 KV 缓存的容量。

 vllm serve /mnt/m/damoxing/damoxingweitiao/deepseek-r1-distill-qwen-7b --gpu-memory-utilization 0.92 --max-model-len 90000