所以更像是后者文字转WAV音频