Tag Archives: ocr

用 Tesseract OCR 解 CAPTCHA

在「python 乌云账号暴力猜解工具」這邊看到 Tesseract OCR 這個 command line 工具,比想像中的簡單很多... Tesseract OCR 最新版是 2012 年出的,所以也不需要另外用 ppa 安裝,在 Ubuntu 下可以直接用 apt-get 安裝到 3.02 版: # apt-get install tesseract-ocr 隨便抓張 CAPTCHA 後直接跑就可以了,像是這張: 跑出來的結果: $ tesseract a.gif a Tesseract Open Source OCR Engine v3.02 with … Continue reading

Posted in Computer, Murmuring, Programming, Security, Software | Tagged , , | 3 Comments

圖片上的文字辨識:Project Naptha

把圖片上的文字辨識直接做成 Google Chrome 的延伸套件,預設就辨識好後讓你可以直接選取:「Project Naptha」。 這是官方提供的範例: 一張含有文字的圖片可以直接 OCR 出來變成文字選擇。 官方網站上有說,這是 client-side javascript: One of the more impressive things about this project is the fact that it's almost entirely written in client side javascript. That means that it's pretty much totally … Continue reading

Posted in Browser, Computer, GoogleChrome, Murmuring, Software | Tagged , , , , , , , , | Leave a comment

紐約公共圖書館提供的 Library:將地圖 OCR 成向量資料...

紐約公共圖書館 (NYPL) 丟出個有趣的東西:「Map polygon and feature extractor」,敘述的地方就有這樣的說明: Like OCR for maps 可以把這樣的地圖圖檔: 轉成: 這樣子... 也可以 GeoJSON 輸出 :p 這屬於 Open Data 的工作,紐約公共圖書館本身就是全世界第三大圖書館,美國第二大的圖書館 (僅次於第一的國會圖書館與第二的大英圖書館),做完後可以把館內的地圖館藏整個數據化讓人重複使用 (而非僅僅將紙本掃描成圖片資料的「電子化」),這包括了以前的手繪地圖啊... 程式主要是用 Python 寫,另外在 repository 有看到 R 與 Scheme 的存在... (GitHub 的統計)

Posted in Computer, Murmuring, Software | Tagged , , , , , , , , , , , | 1 Comment