我試著在 Python 上找到 Perl Regular Expression 有提供的 General Category Property,不過沒有找到。而且發現 Python 沒有使用 PCRE。
先參考 Unicode.org 上的文件,Unicode Regular Expressions 這篇,在 Regular Expression 裡使用 General Category Property 指的是 \p{Lu} 這種用法,前面的範例表示大寫字母 (Uppercase Letter),我在用 Perl 切詞的時候用了兩次這種 Regular Expression。
替代的方案是依照 Unicode Regular Expressions 裡的說法去找對應的範圍,然後自己寫 Regular Expression。
Update:Wikipedia 的 Mapping of Unicode characters 比較清楚,直接把 Hex Start 與 Hex End 列出來。