0 介绍
和N46Whisper一样,是基于Whisper模型的声音识别工具;区别在于N46是一套现成、调用谷歌算力的在线方案,而FasterWhisperGUI则是可以用本地算力识别的方案!
至于运行效率,参考我的个人情况:R5 5600 + RTX 2070(8G显存)在模型为Systran/faster-whisper-large-v3,模型参数为勾选v3模型
、计算精度float16
、线程数8
、并发数1
的情况下,执行转写一首时长4分40秒的mp3日语asmr音声需要约12分40秒钟,也就是大概每处理一分钟音频需要等待3分钟的情况呢。
1效果
如果所示:在【执行转写】选项卡可以把音频转写为带有时间轴的字幕文件。
识别完成后,可以在【WhisperX】后处理选项卡,进行简单的时间轴修正。