用 Tesseract OCR 解 CAPTCHA

在「python 乌云账号暴力猜解工具」這邊看到 Tesseract OCR 這個 command line 工具,比想像中的簡單很多...

Tesseract OCR 最新版是 2012 年出的,所以也不需要另外用 ppa 安裝,在 Ubuntu 下可以直接用 apt-get 安裝到 3.02 版:

# apt-get install tesseract-ocr

隨便抓張 CAPTCHA 後直接跑就可以了,像是這張:

跑出來的結果:

$ tesseract a.gif a
Tesseract Open Source OCR Engine v3.02 with Leptonica
$ cat a.txt
8308

預設的輸出檔名會加上 .txt 是比較討厭的地方,不然就可以用 /dev/stdout 當作輸出檔名處理掉...

3 thoughts on “用 Tesseract OCR 解 CAPTCHA”

  1. 指定 /dev/stdout 他還是會嘗試去開啟 /dev/stdout 。
    他其實可以輸出到 stdout ,以文中的例子,只要:
    tesseract a.gif stdout

    就可。

  2. 实验了一下,3.02 版本时
    tesseract a.gif stdout 会输出到stdout.txt
    看了一下,release note 中也写到3.03 才支持 stdout

Leave a Reply

Your email address will not be published. Required fields are marked *