Myu: OpenAIのWhisperがローカル実行でかなりの認識率

2025年12月19日金曜日

最近は、音声認識が、無料でしかもローカル実行で正確に認識できるのには驚きました。コマンドラインで実行できるので、アプリの中で活用できてとても便利だと思います。

バッチファイルです。途中のパスを通すところは、ffmpegのあるパスです。

radio2text.bat

.m4aなど、いったん.wavに変換してから処理しています。

LANGはenが英語、jaが日本語　--languageないとどちらも出します

--output_format srt で時間付き字幕

Qt使えば

if (line.contains(QRegularExpression("[ぁ-んァ-ン一-龯]"))) {

// 日本語

} else {

// 英語

}

のように分けたりもできそうです。

※なお、準備としては ffmpeg以外に、python3.9以上で

pip install -U openai-whisper

をインストールするだけで動くようです。

Myu