ai好好玩-3 讓你可以用更輕鬆的方式語音轉文字的工具 buzz
在上一篇文章中,我介紹了如何使用Anaconda的命令行搭配whisper來將語音轉文字,
但對於很多人來說,命令行的操作模式難度較高,使用也不是特別方便,
正好有網友看完我的文章,給我介紹了另一個也是使用whisper模型,並且有軟體介面可以直接操作的版本,
這個版本將會更加方便簡單,但卻有一些小缺點,
話不多說,馬上開始!
Anaconda、buzz跟whisper是什麼關係,我搞糊塗了
在上一篇文章,我介紹的是用Anaconda來調用whisper,
而這篇又出現了名為buzz的工具,你是不是已經搞不清楚他們誰是誰了呢?
那就讓我幫你梳理一下吧
- 首先,whisper跟buzz都是github平台上的開源項目
- whisper是語音轉文字的AI組件
- 想使用whisper有很多種方式,一種是用
Anaconda
這個軟體包管理器來安裝whisper,並在命令行中,用手打指令的方式調用whisper來將語音轉文字,
另一種方式,就是使用本篇要介紹的工具
buzz
它已經被github上的大神包成了一個安裝包,按照平常安裝軟體的方式安裝完,打開就能用,
且buzz不用打指令,它已經把幾乎所有的功能做到了軟體介面中,可操作的按鈕和選單。
在Anaconda中使用whisper,跟直接使用buzz工具的差異
有了buzz這個工具,是不是就不必再用Anaconda來調用whisper來語音轉文字了呢?
答案是,我仍然還是喜歡用Anaconda來轉文字,
或許在未來,buzz這個工具不斷完善後,我才會考慮拋棄用Anaconda,轉而用buzz來轉文字,
那麼,就讓我告訴你這兩者到底有何差異吧!
- Anaconda命令行使用whisper的優點
- 轉換出的txt檔案會按照識別的狀況換行,閱讀較為方便
- 一條指令即可更新whisper組件
- 可以使用專用於識別英文的模型,對於英文的識別正確率會更高
- 可以在部屬系統環境的時候安裝用獨顯加速的組件
- Anaconda使用whisper的缺點
- 轉換速度較buzz慢
- 需要用Anaconda自己打指令,且中文名檔案可能需要修改檔名成英文或數字,才較為方便打指令
- 第一次使用時需要自己部屬環境,且大陸地區可能存在無法下載相關組件,必須使用vpn來下載的問題
- 使用buzz的優點
- 轉換速度比Anaconda處理得快,原因還在探索中
- 不需自己部屬系統環境,安裝之後打開就能用
- 軟體介面操作簡單,無障礙也不錯
- 可以批量處理大量檔案,並且可以直接選擇有中文名的檔案
- 之前轉換過的檔案會顯示在列表裡,並且也能瀏覽識別結果
- buzz的缺點
- 轉換出的txt檔常會把很多句話放在同一行,不會自動換行,閱讀十分不便,這點非常扣分
- 除了最大的模型,其餘四種模型的識別正確率會略低於Anaconda識別出的結果
- 沒有線上更新功能,有新版本需要到github上重新下載,而且也要buzz的擁有者有跟著whisper的最新動向來更新才行
- 不確定buzz能不能自動判斷,當有獨顯的時候使用獨顯來加速
- 在軟體介面中的模型選單中沒有英文專用模型,不確定是否語言選擇英文就會直接使用英文專用模型
- 結論
如果你特別怕麻煩,想最輕鬆的使用whisper的語音轉文字功能,而且你趕時間,用buzz工具是最方便的選擇,
如果你想用到最新的組件,也不害怕命令行操作,並且想有最好的識別結果,你可以用Anaconda來調用whisper,
要特別注意的是,如果你的用途是為了轉換出字幕檔,那用buzz跟用Anaconda的效果是差不多的,
但如果你只是想閱讀純文字,我會推薦你繼續用Anaconda的命令行版本
下載和github頁面
大陸地區可以下載buzz和模型包,這樣就能直接使用了,不用再連網下載模型,
gaga下載站的載點需要右鍵選另存,並在瀏覽器中選擇保存才能順利下載。
- 下載buzz
點我下載buzz v0.7.2 小羔羊下載站
點我下載buzz v0.7.1 小羔羊下載站- 0.7.2更新了什麼?
增加对OpenAI Whisper API的支持
完成后停止打开转录
添加csv导出
突出显示搜索文本
更新加泰罗尼亚语翻译
添加Swift应用程序
修复Linux版本
设置转录表为多选题
修复录音窗口关闭的问题
升级whisper.cpp
升级稳定的ts
取消转录任务
修复当转录员工作线程在等待新任务时退出时的 "无Python框架 "崩溃问题
更新加泰罗尼亚语翻译
增加国际化的内容
升级到0.7.2
修复错误信息
如果低语转录失败,退出代码为非零,则转录任务失败。
- 0.7.2更新了什麼?
- 下載whisper模型
點我下載whisper大模型 gaga下載站
點我下載whisper四個模型,包括(微小、基礎、小、中) - buzz的github頁面
點我前往buzz的github頁面
安裝
- 下載buzz,並直接打開安裝包,
在buzz的安裝視窗裡,tab找到這個勾選框,並按空格將其打勾
Create a &desktop shortcut 核取方塊 - 打勾之後,按照步驟一路next、install、finish,就完成安裝buzz了。
- 下載whisper模型包,
p.s 如果你身在大陸地區,推薦你從下面的載點直接下載模型包,會比你透過buzz線上下載模型包快 - 打開下載好的模型包,點安裝即可,
這是我製作的自解壓縮包,它會將whisper模型放到這個路徑→
C:\Users\Administrator.cache\whisper
另外,如果你之前就已經使用過Anaconda調用whisper,它的模型也是放在這個位置,
因此,無論你使用buzz還是Anaconda來調用whisper,它們用的模型都是同一個,也放在同個路徑下,
如果你使用的是Anaconda來調用whisper,也可以下載上面的模型直接用 - 到此就可以打開buzz開始用了
使用
- 打開桌面上的
buzz - 加載要處理的檔案
按alt往下,找
Import Media File... Ctrl+O
按enter,
或是直接在buzz的視窗中,按
ctrl+o
都會打開選擇檔案的對話框,在這裡找你要處理的檔案按enter - 接著軟體畫面會讓你選擇相關參數,你需要注意的只有這四個選項
- Task: 下拉式方塊 Transcribe 折疊 Down
這個是切換要不要翻譯的選項,如果要翻譯的話就選
Translate
識別出來的結果就會自動翻譯成英文,目前無法翻譯成其他語言 - Language: 下拉式方塊 Detect Language 折疊 Down
在這裡選擇語言,預設會自動偵測語言,但只會偵測檔案的前30秒,
為了避免有些檔案前面沒有說話的聲音,建議選擇指定語言,例如選擇中文
Chinese
下拉式方塊 Tiny 折疊 Down
這裡用來選擇模型,
Tiny處理速度最快,但效果最差,
而Large速度最慢,但效果最好,
要特別注意的是,使用越大的模型需要占用的硬體資源越多,
如果你想使用大模型,最好要有16g以上的ram(記憶體),根據官方github頁面,
大模型會需要10g的ram,中模型會需要5g的ram,小模型會需要2g的ram,基礎和微小只需1g的ram, - Run 按鈕 Enter
當上面兩個選項都選好之後,找到這個按鈕開心的按enter,就會開始處理了
- Task: 下拉式方塊 Transcribe 折疊 Down
- 接下來,軟體又會回到主介面,上下左右動一動,你可以聽到剛剛加載的檔名和處理進度,
主介面主要分成兩個部分,左邊顯示檔名,右邊顯示處理狀態,
你可以先按左,上下瀏覽所有已經加載的檔案,
往右就能看到這個檔案的處理狀態,例如還在處理時會顯示
In Progress (95%) 資料項目
處理完會顯示
Completed 資料項目 - 要保存結果,你需要先找到左邊的檔案,例如我找到
123.mp3 資料項目
然後使用滑鼠來點兩下- nvda的用戶,按nvda+小鍵盤斜線,將滑鼠移動過去,接著點兩下小鍵盤斜線
- 爭渡讀屏的用戶,按小鍵盤0+小鍵盤減號,然後點兩下小鍵盤斜線
- tab找到
Export 按鈕
按空格 - tab可以看到有三種格式,找到你要的格式按enter
- TXT 純文字
- SRT 常用的影片字幕檔格式
- VTT 瀏覽器的字幕檔格式
- 在彈出的對話框中選擇保存位置並保存,之後就能找到轉換出的檔案看看成果了。
通常我會選擇txt或srt格式,
srt是影片的字幕檔格式,只要把影片字幕檔跟影片放在同一目錄,兩者檔名相同,就能用
poplayer
來一邊看影片,一邊聽字幕了,
關於poplayer如何讓nvda或爭渡讀屏能念字幕檔中的字幕,會在未來的文章中介紹
其他功能
還有一些其他功能,除了能用ocr直接找到這些功能外,也能用nvda的對象瀏覽找到。
- 在buzz視窗裡按兩下alt,讓軟體畫面捲動到最上面
- 按nvda+小鍵盤8,跳到視窗最上面
- 按nvda+小鍵盤2,往下一層
- 按nvda+小鍵盤4,找到
工具列
之後按nvda+小鍵盤2,再往下一層,進入工具列 - 再來按nvda+小鍵盤4、6,就能看到這四個選項,
如果要點選,就用上面介紹過的方式,將滑鼠移動過來並點兩下左鍵- Record 按鈕 錄音直接轉文字
錄音,可以直接設定語言、模型,並直接錄音你麥克風輸入的聲音轉文字 - New Transcription 按鈕 打開要識別的檔案
就跟我們一開始打開檔案一樣,點選後一樣是打開選擇檔案的對話框 - Open Transcript 按鈕 打開識別結果
會打開你最後所選檔案的結果,就跟我們在列表裡,找到檔案點兩下左鍵一樣 - Clear History 按鈕 清除歷史
點選後會將列表及識別結果清空
- Record 按鈕 錄音直接轉文字
ok! 這次就介紹到這裡,我們下篇再見,玩得愉快!