在其原理上都是共通的文字转WAV音频