本发明实施例提供了一种语音合成方法、装置和用于语音合成的装置。其中的方法包括:获取音频训练数据,音频训练数据包括不同音色特征以及不同情感特征的音频数据;根据音频训练数据训练语音合成模型,所述语音合成模型包括不同音色特征的音频训练数据训练得到的音色模型参数,以及不同情感特征的音频训练数据训练得到的韵律模型参数;将待合成的文本数据、至少一个说话人标识、以及情感标识输入语音合成模型,通过语音合成模型输出语音合成数据,语音合成数据包含说话人标识对应的音色特征以及情感标识对应的情感特征。本发明实施例可以合成不同音色特征以及不同情感特征组合的目标音频,可以扩展语音合成模型的适用范围。