最近は、音声認識が、無料でしかもローカル実行で正確に認識できるのには驚きました。コマンドラインで実行できるので、アプリの中で活用できてとても便利だと思います。
バッチファイルです。途中のパスを通すところは、ffmpegのあるパスです。
radio2text.bat
.m4aなど、いったん.wavに変換してから処理しています。
LANGはenが英語、jaが日本語 --languageないとどちらも出します
--output_format srt で時間付き字幕Qt使えば
if (line.contains(QRegularExpression("[ぁ-んァ-ン一-龯]"))) {
// 日本語
} else {
// 英語
}
のように分けたりもできそうです。
※なお、準備としては ffmpeg以外に、python3.9以上で
pip install -U openai-whisper
をインストールするだけで動くようです。
0 件のコメント:
コメントを投稿