他必须把这个因素给考虑进去文字转WAV音频