本內容來源於@什麼值得買APP,觀點僅代表作者本人 |作者:網羅燈下黑
創作立場宣告:本人長年熱衷於挖掘各種好玩有趣或稀奇古怪的電腦軟體和手機 App,寫文科生都能看得懂玩得轉的玩機教程,期待和大家的深入探討交流。
今天來反思一下關於 OCR 這一塊的問題。
5 月底,給大家安利了天若 OCR 的最後一個開源版本 5.0,但我一直心中有愧。
一方面我的需求沒有那麼大,把一直用著的天若拉出來其實有點取巧,真正偶爾用一次的情況下,完全可以用 QQ 自帶的文字識別。
另一方面天若那個版本兩三年沒更新了,作者跑去維護別的專案去了,雖然說是接受百度、搜狗、騰訊、有道四個介面。
但公共介面掛了兩個(騰訊、百度),而真正支援用自己申請的介面只有百度一個。
看很多小夥伴其實對百度這個介面並不買單,這是我有愧的地方。
畢竟咱偶爾分享一個應用,就是想讓更多人瞭解到更好用的軟體,違背了初衷我可不幹。
好在那次摸索的 OCR 的時候,瞭解到 PandaOCR 可以支援多個自定義介面。
怎麼說呢,就很強大。
作者也是個爆肝強人,每逢節假日還在那裡更新迭代,比起早早退出舞臺的天若 5.0 更值得拿出來說道說道。
這不,它來了。
PandaOCR
額,今天介紹的版本是 PandaOCR 2.71。
這大概是最後一個免費提供多自定義介面的版本了。
前幾天去 GitHub 上翻 PandaOCR 的時候,發現多了個 Pro 版本。
作者原話,因為前期急著上新功能,結果忽視了執行邏輯混亂以及後續維護成本高的問題。
換句話說,就是作者把舊版的程式碼定性成屎山了。
與其滿頭大漢(不是錯字)的折磨自己,不如重構一遍,跳過那座山,然後就有了 Pro 版。
這是 PandaOCR Pro 5.32:
可問題是 Pro 版只提供有百度的自定義介面,別的介面都成收費服務了。
所以,各種意義上說,PandaOCR 2.71 就成了能免費使用的最後一個版本。
不過作者說啊,這最後一個版本只是不上新功能了,已有的功能介面仍會維護。
對於絕大部分人來說,這就夠了,比如我。
如果你真心喜歡這個濃眉大眼小熊貓,還是可以給作者支援一波。
能做什麼
一款集大成的 OCR 工具有什麼用?
對於文字識別質量而言,那是介面的對比,如果弄不太明白的,可以看看天若 OCR 的那篇文章。
就識別效果而言,搜狗的準確率高些,百度手寫識別的效果更好,有道的識別速度更快,訊飛和 Mathpix 的公式識別更清晰,百度的表格識別也不錯。
所以拋開介面,迴歸到 PandaOCR 自身,它提供了怎樣的方便,才是我們該關心的。
我們重新認識一下它的介面,左邊顯示圖片,右邊則是識別文字和翻譯框,外加一個功能欄:
操作起來很方便,預設快捷鍵「F4」截圖,然後就能呼叫你選擇的介面自動識別。
識別的內容會顯示在桌面,以彈窗的形式顯示,至於顯示的內容,可以在「高階」設定中選擇。
當然,高階設定裡能更改更多東西,比如是否監聽剪下板,是否自動複製識別的內容,甚至字型、截圖方式等等。
雙擊 PandaOCR 的識別和翻譯那一塊,還會有驚喜,開啟監聽剪下板,分分鐘變成一個翻譯軟體。
對了,還有個固定截圖的功能,簡單的說,就是把截圖框固定到桌面一處,然後快捷鍵觸發 OCR 識別。
我看 B 站上已經有人拿它來做遊戲機翻工具了,效果是這樣的。
我就不重複造輪子了,感興趣的可以去研究一下。
PandaOCR 之所以強大,還是因為它支援的介面多,那它到底能使用什麼介面呢?
我從它配置檔案裡看了一下:
支援通用識別:搜狗 + 騰訊 + 百度 + 有道 + 阿里 + 訊飛 + 網校 + SpaceOCR
支援手寫識別:騰訊 + 百度 + 阿里 + 訊飛
支援公式識別:微軟(演示)+ 百度 + 騰訊 + Mathpix + 訊飛
支援表格識別:有道(演示)+ 百度 + 騰訊 + 阿里
支援翻譯:搜狗 + 騰訊 + 百度 + 有道 + 彩雲小譯 + DeepL
是不是看的都有些怵的慌,事實上早先版本的介面更多,最後一個版本應該刪除了近 20 個介面。
但設定起來並不麻煩,右鍵點選左上角的圖示,選擇「編輯配置」,在文字中更改對應的介面就行。
至於怎麼申請介面,又要放哪裡,我這裡還是以百度為例,介紹一下。
申請介面
進入百度 AI 開放平臺,註冊登入個賬號先。
然後在「人工智慧」找到「OCR 文字識別」裡的「通用場景文字識別」。
當然你也可以在這裡找到「OCR 文字識別」:
反正流程不變,選擇「建立應用」。
然後「應用名稱」和「應用描述」都隨便填,記得「應用歸屬」選擇個人。
最後立即建立,從「應用列表」把 API Key 和 Secret Key 記錄下來。
總結一下申請流程,就是註冊登入 - 申請 - 填資訊 - 開通 - 複製 ID 和金鑰 - 在 Panda 中貼上-過載配置檔案。
就是中間這個貼上步驟,PandaOCR 的格式一直是「ID | KEY」,豎線前後都有個空格,最容易出錯的就是這裡了。
縱觀整個流程,相信我,真的沒有你想的那麼難。
我就不光明正大藉著申請介面來水字了,再簡單說說介面免費額度以及注意事項。
百度
我以前見過的這種類似的工具,一般給的介面都是百度的。
無他,實在是百度給的免費額度太多了,通用 OCR 識別的每日額度高達 5 萬。
可惜,這些都成了過往雲煙,5 月底的時候百度把額度改成了未實名 200 次/月,實名 1000 次/月。
所以百度的介面再也不是最香的了,但百度的手寫識別還是挺給力的。
免費額度如下:
通用識別 1000 次/月,高精度通用識別 1000 次/月,表格識別 500 次/月,手寫識別 500 次/月,通用翻譯免費。
騰訊
騰訊雲在開通識別時,有個營業執照,那個不管它,直接選確定就行。
還有就是需要自己申請一下金鑰(賬號資訊-訪問管理),不過那個騰訊雲的翻譯,現在好像只能使用 API 引數呼叫,PandaOCR 應該是用不成了。
至於免費額度,騰訊雲的 OCR + 表格 + 公式介面共用 1000 次/月,翻譯 5 百萬/月。
搜狗
搜狗沒有免費額度,而是直接按次收費的,能免費用的點在於剛開始送的 100 元新使用者註冊券。
而且作者說是得充點錢才能用,我往裡充了一塊錢,正在白嫖那 100 元的新人福利。
有道
和搜狗一樣是按量收費的,新人福利 50 元。
阿里
阿里雲的 OCR 也是按次收費的,最大的優惠應該是不可重複購買的那個每 500 次 0.01 元了。
SpaceOCR
每月有 2.5 萬次的免費額度,不過是個國外的網站,郵箱註冊(親測 QQ 郵箱可用),看不懂的直接機翻就行。
網校
也就是好未來,PandaOCR 只提供了好未來 OCR 的介面,沒有翻譯介面,所以翻譯那個就不用添到專案裡了。
免費額度都是每日 100 次,手寫也是百次(過去好像是每日 10 萬,哭了)。
訊飛
訊飛的 OCR 識別的免費形式,是 90 天的 10 萬次使用,時間到或者用完即止。
DeepL
不陌生吧,翻譯裡的 yyds,它家 API 的免費額度為每月 50 個字元。
但是,亞洲只有個日本,街道那把我給尬住了,所以我放棄了,溜。
Mathpix
註冊登入沒啥的,免費額度每月 1000 次的公式識別,但是建立專案時需要 1 美元的手續費,所以這就意味著你得用到信用卡。
總結
PandaOCR 這個工具,不僅可以像常規 OCR 工具那樣截圖識別,固定截圖和複製翻譯的功能給了它更多的可能。
拿來翻譯論文、做機翻工具都可以,而這都源於大廠的提供的介面。
PandaOCR 就像是一箇中間的掮客,把大廠資源彙集一處,帶來了全新的可能。
不過有一說一,現在白嫖大廠資源是越來越難了。
但要說缺點的話,就是這玩意用起來太複雜了。
但可能很長一段時間,我的 OCR 工具都不會改了,為了寫這一篇文章,我把所有的介面都申請了一遍,不過也算有所得。
下回碰到更好用的OCR,估計我就轉投付費軟體的陣營了。
這一篇到這裡就結束了,我們有緣下篇再見咯。
本文首發於程式設計師不高興,未經授權請勿轉載!
一如既往感謝各位小夥伴的支援和關注!