CosyVoice2 启用 VLLM 推理模型

发表于 2026-03-11 分类于 ASR ， TTS 阅读次数： Changyan：

启用 VLLM 推理加速可以提高 CosyVoice 的的文字识别速度，启用前后解析时间会缩短一半左右。本教程以 CosyVoice2-0.5B 为例来介绍如何启用 vLLM 加速推理。

启用流程

安装 vLLM 依赖

1	pip install vllm==v0.9.0 transformers==4.51.3 numpy==1.26.4 -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

引入 CosyVoice2ForCausalLM

1 2	from vllm import ModelRegistry from cosyvoice.vllm.cosyvoice2 import CosyVoice2ForCausalLM

注册 CosyVoice2ForCausalLM

在初始化 AutoModel 之前执行加入以下代码注册模型：

1	ModelRegistry.register_model("CosyVoice2ForCausalLM", CosyVoice2ForCausalLM)

增加初始化参数

cosyvoice = AutoModel(model_dir='pretrained_models/CosyVoice2-0.5B',
                      fp16=True, 
                      load_vllm=True,
                      load_trt=True, 
                      load_jit=True)

注意要找一个显存充足的显卡，可通过 export CUDA_VISIBLE_DEVICES=3 来指定 CosyVoice 使用的显卡。

参考资料

0%