双方在几个关键条件问题上都基本取得了一致文字转WAV音频