所以系统也无法借着这种平衡将他们彻底融合文字转WAV音频