Home » Posts tagged "ocr"

把嵌上去的字幕重新轉回文字

雖然這篇用的方法很簡單,但因為太符合本 blog 的副標,所以還是寫下來介紹:「Extracting Chinese Hard Subs from a Video, Part 1」。

作者想要把字幕拉出來,他直接把這張圖丟進 OCR,然後失敗 XDDD:

他決定拉出下半段:

再做 thresholding:

最後再 OCR 取得文字:

′…′二′′′'′ 怎么去逯么远的地方 '/′

雖然很粗糙,但已經可以感覺到「幹壞事是進步最大的原動力」的感覺了 XDDD 而且看起來會有續集,會用比較精緻的技巧來處理?

用 Tesseract OCR 解 CAPTCHA

在「python 乌云账号暴力猜解工具」這邊看到 Tesseract OCR 這個 command line 工具,比想像中的簡單很多...

Tesseract OCR 最新版是 2012 年出的,所以也不需要另外用 ppa 安裝,在 Ubuntu 下可以直接用 apt-get 安裝到 3.02 版:

# apt-get install tesseract-ocr

隨便抓張 CAPTCHA 後直接跑就可以了,像是這張:

跑出來的結果:

$ tesseract a.gif a
Tesseract Open Source OCR Engine v3.02 with Leptonica
$ cat a.txt
8308

預設的輸出檔名會加上 .txt 是比較討厭的地方,不然就可以用 /dev/stdout 當作輸出檔名處理掉...

圖片上的文字辨識:Project Naptha

把圖片上的文字辨識直接做成 Google Chrome 的延伸套件,預設就辨識好後讓你可以直接選取:「Project Naptha」。

這是官方提供的範例:

一張含有文字的圖片可以直接 OCR 出來變成文字選擇。

官方網站上有說,這是 client-side javascript:

One of the more impressive things about this project is the fact that it's almost entirely written in client side javascript. That means that it's pretty much totally functional without access to a remote server.

不過預設會傳回去,但可以關掉:

By default, when you begin selecting text, it sends a secure HTTPS request which lacks any kind of identifiable information to the Project Naptha cached remote OCR and Translation service. This allows you to recognize text from an image with much more accuracy than otherwise possible. However, this can be disabled simply by checking the "Disable Lookup" item under the Options menu.

也就是這個選項:

這功能好讚...

紐約公共圖書館提供的 Library:將地圖 OCR 成向量資料...

紐約公共圖書館 (NYPL) 丟出個有趣的東西:「Map polygon and feature extractor」,敘述的地方就有這樣的說明:

Like OCR for maps

可以把這樣的地圖圖檔:

轉成:

這樣子... 也可以 GeoJSON 輸出 :p

這屬於 Open Data 的工作,紐約公共圖書館本身就是全世界第三大圖書館,美國第二大的圖書館 (僅次於第一的國會圖書館與第二的大英圖書館),做完後可以把館內的地圖館藏整個數據化讓人重複使用 (而非僅僅將紙本掃描成圖片資料的「電子化」),這包括了以前的手繪地圖啊...

程式主要是用 Python 寫,另外在 repository 有看到 RScheme 的存在... (GitHub 的統計)

Archives