在「python 乌云账号暴力猜解工具」這邊看到 Tesseract OCR 這個 command line 工具,比想像中的簡單很多...
Tesseract OCR 最新版是 2012 年出的,所以也不需要另外用 ppa 安裝,在 Ubuntu 下可以直接用 apt-get 安裝到 3.02 版:
# apt-get install tesseract-ocr
隨便抓張 CAPTCHA 後直接跑就可以了,像是這張:
跑出來的結果:
$ tesseract a.gif a Tesseract Open Source OCR Engine v3.02 with Leptonica $ cat a.txt 8308
預設的輸出檔名會加上 .txt
是比較討厭的地方,不然就可以用 /dev/stdout
當作輸出檔名處理掉...