dify开发音频文件转文字功能,使用的SPEECH TO TEXT组件,为什么输出的结果是空的?

音频文件有什么限制吗?使用的千问模型,有同行的开发过对应的实例,给解惑一下,或者有其他方案也可以介绍一下。

已解决,是模型的问题,配置的模型可能不支持多模态的语音输入