CosyVoice2 启用 VLLM 推理模型
启用 VLLM 推理加速可以提高 CosyVoice 的的文字识别速度,启用前后解析时间会缩短一半左右。本教程以 CosyVoice2-0.5B 为例来介绍如何启用 vLLM 加速推理。
启用流程
安装 vLLM 依赖
1 | pip install vllm==v0.9.0 transformers==4.51.3 numpy==1.26.4 -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com |
引入 CosyVoice2ForCausalLM
1 | from vllm import ModelRegistry |
注册 CosyVoice2ForCausalLM
在初始化 AutoModel 之前执行加入以下代码注册模型:
1 | ModelRegistry.register_model("CosyVoice2ForCausalLM", CosyVoice2ForCausalLM) |
增加初始化参数
1 | cosyvoice = AutoModel(model_dir='pretrained_models/CosyVoice2-0.5B', |
注意要找一个显存充足的显卡,可通过
export CUDA_VISIBLE_DEVICES=3来指定 CosyVoice 使用的显卡。

