這兩天的 Hacker News 冒出一些討論在講 Web 上「防機器人」機制要怎麼繞過:
- Avoiding bot detection: How to scrape the web without getting blocked?
- So you want to Scrape like the Big Boys?
第一篇主要是從各種面向都一起討論,從大方向的分類討論 (「Where to begin building undetectable bot?」),另外介紹目前有哪些產品 (在「List of anti-bot software providers」這邊)。
在文章裡有提到一個有意思的工具「puppeteer-extra-plugin-stealth」,主要是在 Node.js 類的環境,查了一下在 Python 上也有 pyppeteer-stealth,不過 Python 版本直接講了不完美 XDDD
Transplanted from puppeteer-extra-plugin-stealth, Not perfect.
第二篇文章在開頭就提到他不是很愛 Proxy,因為 Proxy 很容易偵測。在文章最後面則是提到了兩個方案,第一個是用大量便宜的 Android 手機加上 Data SIM 來跑,另外一個是直接用 Android 模擬器加上 4G 網卡跑。
依照這些想法,好像可以來改善一下手上的 RSS 工具...