看到「Mercury Goes Open Source!」這篇,Postlight 的團隊開源了 Mercury Web Parser,程式碼在 GitHub 上的 postlight/mercury-parser 可以取得。
這個版本是用 Node.js 寫的,可以從範例看出用法以及結果:
import Mercury from '@postlight/mercury-parser'; Mercury.parse(url).then(result => console.log(result););
{ "title": "Thunder (mascot)", "content": "<div><div><p>This is the content of the page!</div></div>", "author": "Wikipedia Contributors", "date_published": "2016-09-16T20:56:00.000Z", "lead_image_url": null, "dek": null, "next_page_url": null, "url": "https://en.wikipedia.org/wiki/Thunder_(mascot)", "domain": "en.wikipedia.org", "excerpt": "Thunder Thunder is the stage name for the horse who is the official live animal mascot for the Denver Broncos", "word_count": 4677, "direction": "ltr", "total_pages": 1, "rendered_pages": 1 }
先前其他的軟體與服務可以參考「Evaluating Text Extraction Algorithms」這篇的整理與比較,不過這篇連原網站都不見了... 只能從 Internet Archive 上翻出來。
這個主題有不少團隊都做過 (給一個 html 網頁,抓出實際的內容塊落),但也死了不少團隊... 比較有印象的是 Readability,在 2016 年收掉了:「The Readability bookmarking service will shut down on September 30, 2016.」。
要撈資料可以拿來用...