云霞资讯网

剪映目前的最佳平替 - 卡卡字幕助手VideoCaptioner

大家好,我是波导终结者。最近,我做带字幕的视频有点多,如何高效率地打时间轴就成了个问题。搁以前,剪映的语音识别和文稿匹配

大家好,我是波导终结者。

最近,我做带字幕的视频有点多,如何高效率地打时间轴就成了个问题。搁以前,剪映的语音识别和文稿匹配功能确实是实用的,但现在大家也都知道,功能全部要SSVIP才能用,会员也越来越贵。更关键的是很多核心功能仍然在向更高级的VIP迁移,说白了,你钱交了,事后跟你说这个不能用那个不能用,得交更多钱。所以最近我也是找了一圈最佳替代,最终敲定了卡卡字幕助手VideoCaptioner这款软件,跟大家分享。

这是一款免费开源的软件,在Github上可以找到源代码或者安装包,一键安装运行。此处我以Windows版本为例,它的核心功能分为三块,音视频方面的东西自带FFmpeg就略过了。第二块是语音转文字,提供了不少的提口供使用,这里推荐默认的FasterWhisper,本地几G的模型,在线下载即可,非常方便。蓝圈部分是LLM配置,用于语言大模型处理断句,字幕优化甚至是翻译等功能。

不过具体的设置和下载界面,并不在软件的设置页面,而在语音转录这个功能界面。目前FasterWhisper的程序和模型都能在界面里直接下载,免工具基本满速,后续如果有变动再另说。硬盘容量和配置够的话,large-v2或者v3的模型是强烈推荐的,支持显卡加速,效率挺不错的。

至于LLM语言大模型,之前跟大家分享过好几期了,这里感觉就略过吧,反正DeepSeek本地用一用就挺够的了。一般默认参数下,识别的字幕就还挺可以的,如果要求不是特别高,直接用都没问题。如果需要更深处的处理,可以选中“字幕校正”,并且把文稿贴到文稿提示的文本框里,再进行处理。

这里的字幕校正,以及字幕是否分割,分割按句子分段还是按语义分段,以及中文最大字数,文稿提示等,都会对字幕最终的效果产生影响。当前1.3.3版本,还没办法达到剪映文稿匹配的效果,也即文稿原文完全不修改,完全按照文稿进行时间轴和字幕对齐。如果开了字幕校正,虽然可以对齐,但是有时候一些字眼会被大模型替换,如果不开校正,断句有可能跟文稿出现部分错位。总之就是,差不多可以替代80-90%的功能,最后要求高的话,不管哪种方案都需要再检查一遍;要求不高的话直接识别完就用,也没有问题。

另外,刚才有提到过,这款软件也集成了FFmpeg,如果要打硬字幕的话,也可以直接一起生成。在字幕样式里,可以设置主副字幕的样子,不过目前的款式比剪映少一些,像整个字幕背景用矩形填充,以及透明度这些选项暂时还没有,但也够用了。

最后输出的效果还不错,截图如上。对于软件内打硬字幕,目前没有提供编码方式和质量选项,下一个Release应该会加上。Github上也有其他作者修改的分支,已经加上了这个功能,这就是开源软件的好处。或者导出字幕,自己用其他软件合成也没有问题,就看每个人的工作流和需求了。

今天的分享先到这里。文章仅为抛砖引玉,这个免费开源本地工作的方案是目前我发现的最好用的。如果小伙伴有发现更好的“文稿匹配”功能的替代方案,也欢迎一起分享。

感谢大家的观看,点赞和关注,我们下期再见。