视讯的辨字系统应该认识文字转WAV音频