严格来说是四种琴音的不同文字转WAV音频