本发明的实施例提供了一种语音合成方法、装置、电子设备以及计算机可读存储介质,方法包括:确定待合成文本;将待合成文本转化为待合成国际音标对应的第一ID序列和国际音标对应的声调ID;确定用户选择的目标对象的ID和标准对象的ID;输入至语音合成模型中语音合成模型,依据待合成文本的待合成国际音标序列,预测每个待合成国际音标的时长,语音合成模型根据待合成国际音标对应的第一ID序列、国际音标对应的声调ID、每个待合成国际音标的时长、目标对象的ID以及标准对象的ID进行处理,输出待合成文本的声学特征。能够使得对象在合成非本土语言的时候,能够使用本土说话人,即标准对象的韵律,最终得到更好的语音合成自然度。