在「python 乌云账号暴力猜解工具」這邊看到 Tesseract OCR 這個 command line 工具,比想像中的簡單很多...
Tesseract OCR 最新版是 2012 年出的,所以也不需要另外用 ppa 安裝,在 Ubuntu 下可以直接用 apt-get 安裝到 3.02 版:
# apt-get install tesseract-ocr
隨便抓張 CAPTCHA 後直接跑就可以了,像是這張:
跑出來的結果:
$ tesseract a.gif a Tesseract Open Source OCR Engine v3.02 with Leptonica $ cat a.txt 8308
預設的輸出檔名會加上 .txt
是比較討厭的地方,不然就可以用 /dev/stdout
當作輸出檔名處理掉...
指定 /dev/stdout 他還是會嘗試去開啟 /dev/stdout 。
他其實可以輸出到 stdout ,以文中的例子,只要:
tesseract a.gif stdout
就可。
「指定 /dev/stdout 他還是會嘗試去開啟 /dev/stdout.txt 。」
才對,上一個回應少打。
实验了一下,3.02 版本时
tesseract a.gif stdout 会输出到stdout.txt
看了一下,release note 中也写到3.03 才支持 stdout