看到「Parsing the Infamous Japanese Postal CSV」這篇在抱怨日本郵政提供的 CSV 資料超級糟糕的問題覺得頗「有趣」的,在 Hacker News 上也有人「同病相憐」XDDD:「Parsing the Infamous Japanese Postal CSV (dampfkraft.com)」。
文章作者是「posuto」這個套件的維護人,這個套件讓開發者可以很方便的在 Python 下從郵遞區號推出對應的地點資訊:
import posuto as 〒 ? = 〒.get('〒105-0011') print(?) # "東京都港区芝公園" print(?.prefecture) # "東京都" print(?.kana) # "トウキョウトミナトクシバコウエン" print(?.romaji) # "Tokyo To, Minato Ku, Shibakoen" print(?.note) # None
作者建立的資料是從「読み仮名データの促音・拗音を小書きで表記するもの(zip形式)」這邊取得並且分析,然後這篇文章就是在描述這些 CSV 檔的資料裡面有超級多奇怪的例外,用機器讀取超哭爸的 XDDD (好像不怎麼意外?)
不過最有趣的應該還是他提到的這個:
Oh, and if you need a Win3.1 or DOS program to copy the data onto an IBM H floppy disk, just check the bottom of JP Post's page - they've got you covered.
看起來是頁面下方的這塊:
這就真的太哭爸了啊 XDDD
還有他們每個月更新一次資料,看起來符合某個條件就可以申請(公司大樓、醫院、甚至森大樓每層樓都有一個號碼),然後有的郵遞區號沒有 n 丁目,鄉下地方會寫說某個區域XD