Google Groups 脫離 Usenet 系統

先前在「Google Groups 將在 2024/02/22 斷開與 Usenet 的連接」這邊提到的,Google Groups 在 2024/02/22 會斷開與 Usenet 的 NNTP peering,日子到了...

在 Google Groups 上官方更新 banner 訊息了:

從我自己架的 News Server 上也可以從 innreport 中 incoming feed 的各個指標看到差異了:

可以再觀察幾個月看看後續的量,原先使用 Google Groups 的人會跑來 Usenet 上面嗎?或是 Usenet 就繼續萎縮下去...?

Google Groups 將在 2024/02/22 斷開與 Usenet 的連接

在 news.admin.peering 上看到的消息:「Effective February 15, 2024, Google Groups will no longer support new Usenet content」,在 Google Groups 上面也可以看到:

Effective February 15, 2024, Google Groups will no longer support new Usenet content. Posting and subscribing will be disallowed, and new content from Usenet peers will not appear. Viewing and searching of historical data will still be supported as it is done today.

而在 Hacker News 上也有討論「Google Groups ending support for Usenet (support.google.com)」。

話說先前寫的「Google Groups 的 spam 的量又下降了不少...」這篇,後來又有發現不是 Google Groups 的 spam 減少,而是 Cleanfeed 裡面用 SpamAssassin 會造成跑久以後會 100% CPU,反而接收的速度慢下來...

在上了 workaround 後 (每個小時自動重跑一次 innd),可以看到其實完全沒有變少,反而愈來愈多:

倒是後來一直丟 corpus 進去練 SpamAssassin 後看起來效果好很多了,還是會看到一些 spam,但就沒那麼多了...

Google Groups 的 spam 的量又下降了不少...

延續「從 Google Groups 送出來的 spam 數量稍微下降...」這邊的觀察,從 10/22 到 10/29 降了 2/3 左右,再往後拉七天到了 11/5 可以看到又少了 3/4 左右。

另外整個 article volume 看起來也有降很多,從三個不同的 peering 來的量都有降,看起來是從源頭就有做一些事情。

這是 10/22 的量:

這是 10/29 的量:

這是 11/5 的量:

從 Google Groups 送出來的 spam 數量稍微下降...

先前在「Google Groups 的巨量 spam」這邊提到從 Google Groups 倒進 usenet 大量的 spam,最近看起來稍微緩解了一些。

這是 10/22 的量:

這是 10/29 的量:

可以看出來整體被 Perl filter 擋下來的量大幅降低了,在 comp.lang.c 也可以看出來 10/28 後似乎暫時停了...?

只能繼續觀察看看了...

在 Cleanfeed 裡面用 Mail::SpamAssassin 的 Bayesian filter 來擋 Google Groups 的垃圾

本來單純用 Cleanfeed + Mail::SpamAssassin 擋,效果其實不太好:「Google Groups 的巨量 spam」。

後來在 news.software.nntp 討論區裡面有人提到應該要用 sa-learn 訓練:

OK, now you need a ~/.spamassassin directory for your news user and a user_prefs file in that directory. After that you can start adding rules for Usenet spam. You will also need to feed several hundreds of spam and ham articles to sa-learn --spam or sa-learn --ham as the news user. After that, SpamAssassin will gradually improve.

死馬當活馬醫看看,結果看起來效果就出來了:

累積了幾天下來後,單看跑進 comp.lang.c 裡面的 spam 與 Mail::SpamAssassin 這邊擋下來的量,差不多是 99%+ 的量,接下來就是有看到的部分再丟進去 train。

目前看起來唯一的問題就是 Google Groups 的 spam 量真的很大,導致 innd 因為跑 Mail::SpamAssassin 的 bayesian 運算時 CPU usage 會高不少,偶而會撞到 100%,但不是常態所以還好。

繼續觀察看看...

Google Groups 的巨量 spam

Google Groups 的 spam 使得 Usenet 上不少群組都受到波及了,像是 comp.lang.c 的 spam 量已經多到是每天上萬則在上面:

目前看起來 Cleanfeed 擋不住,我試著寫個小 hack (是還蠻 hack 的),在 cleanfeed.local 裡面用 SpamAssassin 過濾,效果也很不好:

目前最佳解應該就是直接擋掉 Google Groups,另外似乎是有人包裝好 NoCeM 出來,也許後續也可以看看...

Usenet 的回春?

看到「Usenet, the OG social network, rises again like a text-only phoenix (theregister.com)」這個討論,原文「USENET, the OG social network, rises again like a text-only phoenix」這篇標題講 Usenet 的回春?

我是覺得 Usenet 要真的回春一定有困難... 但有些客群跑到上面倒是不太意外。

主要是文末提到這幾個 newsgroup 好像可以去看看:

As a big science fiction reader, this vulture enjoys dipping into rec.arts.sf.written and rec.arts.sf.fandom. The computer history group alt.folklore.computers is still pretty busy. There is life in several retrocomputing channels, and we've been enjoying talking about Acorn RISC OS and Fortran among other things.

我自己是因為興趣,所以搞了一個 news server 跑 (在 newsfeed.hasname.com 這邊),然後去接了幾個 peer,架了一個 BBS site 抓一些群組,像是 comp.lang.c 這種很經典的群... 但這也是自己弄起來玩玩而已。

Anyway,也許晚點去看看上面提到的群?

InterNetNews (INN) 在測試 Git

在 mailing list 上看到「Test Git repository for INN」這個消息,看起來 InterNetNews 也在嘗試換到 Git 上了,目前是選擇用 GitHub,在「InterNetNews/inn」這邊。

整個從 CVS 換到 Subversion 再到現在開始進入 Git 的環境了。

沒有全部自己搞的理由也有提到,主要就是免費與方便,然後社群也已經知道 GitHub 是什麼了:

GitHub was chosen because it's (a) free (as in price), (b) widely understood and used already, and (c) easy for me to set up. I know some folks have reservations about GitHub because it's not free software, and I understand, but I don't think we're committing heavily to their platform (everyone who has a clone of the Git repository has all the important data and can move it elsewhere), and other things like GitLab are only open core anyway. Hosting everything on 100% free software (depending on the choice of free software) loses us some useful features (I plan to set up GitHub Actions for CI) and requires more resources that I don't really have to spend on it. That said, everyone is certainly welcome to mirror the Git repository elsewhere if they want.

之後會跑 CI,算是這些年軟體工程必備的工具了...

架了一台 News Server

前陣子跟朋友聊天的時候,才想到好像沒有公開提這件事情...

學術網路上的 news server 似乎都掛差不多了,就花了一些時間用 INN 架了一台 news server,然後找了兩個 peering 對接,給自己的 BBS 站台用:「newsfeed.hasname.com」。

一般目前比較常用的是 news.aioe.org,不過有限制每天最多只能發 40 則:

In order to avoid mass abuses, every IP address is authorized to post no more than 40 messages per day.

有架設 BBS 站又想要弄轉信的朋友可以來戳一下,需要有固定 IP address 就是了。

Google Groups 把 comp.lang.c 給禁了...

Hacker News Daily 上看到的,Google Groupscomp.lang.c 給禁了,連到 https://groups.google.com/g/comp.lang.c 可以看到無法使用的訊息:

警告:內容已遭禁止
comp.lang.c 已被認定為包含垃圾內容、惡意軟體或其他惡意內容。

如要進一步瞭解 Google 網路論壇的內容政策,請參閱這篇關於濫用本服務的說明中心文章,以及我們的《服務條款》。

這樣連歷史資料都看不到了...