AudioでSpeech To Textを使用して音声からテキストにしたいのですが、オプションの設定はできないのでしょうか。使用したいオプションは以下の2つです
hallucination-silence-threshold 1
condition-on-previous-text False
AudioでSpeech To Textを使用して音声からテキストにしたいのですが、オプションの設定はできないのでしょうか。使用したいオプションは以下の2つです
hallucination-silence-threshold 1
condition-on-previous-text False
残念ながら、現状では Audio ツールでは細かいオプションの指定はできないようです。
いただいた二つのオプションは Whisper 向けのものだと思いますが、どちらかというとローカルで Whisper を動かすときにコマンドライン引数で使えるようなモノなので、クラウド環境でホスティングされている Whisper モデル(たとえば OpenAI の Transcriptions API)ではそもそも指定できるようにはなっていないようです。
どこかのプロバイダが提供する Whisper モデルで、API レベルでそれらのオプションの指定がサポートされているのであれば、それを直接叩く HTTP リクエストノードを配置するなり、プラグインを作るなりで動かすことはできそうです(が、ぱっと心当たりがなく…… ご存知だったらプラグイン化もできるかもなので教えてください)。