Tag Archives: unicode

用 Unicode 字元當作短網址編碼的服務...

在 Hacker News Daily 上看到的服務:「9m URL Shortener」。 居然用 Unicode 短網址當作編碼的部份... 是很有趣啦,不過因為難以輸入,只適合用在 internet 上的傳遞?而不是讓人輸入的... 有些字在我的電腦上還出不來 XDDD

Posted in Computer, Murmuring, Network, WWW | Tagged , , | Leave a comment

關於 Non-null string 的處理...

上一篇「Filter Input & Escape Output...」有提到 Non-null UTF-8 string 的 filter,結果剛剛洗澡的時候想了想,好像寫錯了? 問題在於「到底是先 de-null 再 iconv(),還是先 iconv() 再 de-null」的問題。 這個問題其實跟 iconv() 成 UTF-8 時遇到不合法字元時怎麼實做有關,也就是 undefined behavior... 由於 \0 是合法的 UTF-8 character,所以我們假設某一種實做是當 iconv() 遇到不合法字元時會用 \0 帶進去: 先 de-null 再 iconv() 這是上一篇文章提到的方法。但在上面提到的 iconv() 實做下卻是有問題的方法。原因很簡單,de-null … Continue reading

Posted in Computer, Murmuring, Programming, Security, Software | Tagged , , , , , , , , , | 2 Comments

非常經典的 UTF-8...

在 Hacker News 文摘上看到「UTF-8 – “The most elegant hack”」這篇。除了維基百科上的資料以外,Rob Pike 與其他人在 2003 年寫的 mail 也是相當重要的資料。 Ken Thompson 與 Rob Pike 兩位發展出來的 UTF-8 被譽為最優雅的 hack 真的一點都不為過。Unicode 1.0 在 1991 年 10 月公佈。之後就陸陸續續有表示的格式出來... 相容於 ASCII 0-127 的 UTF-1 在 1992 年被提出來,但 parsing … Continue reading

Posted in Computer, Murmuring, Programming | Tagged , , , , , , , , , | 7 Comments

把 screen 的 BIG5 換成 UAO (Unicode-At-On,Unicode 補完計畫) 版本...

目前 Ptt 上使用者用的編碼不是單純的 BIG5,而是 BIG5 加上 Unicode 補完計畫的版本 (拿了 BIG5 的造字區去對應某些常用的缺字)。 如果用 BIG5 去看假名就會變這樣: 所以在 Ubuntu (系統內建的 Terminal) 或是 Mac OS X (用 iTerm2) 上 Ptt (以及 Ptt2) 時都是用 BIG5-HKSCS 編碼,可以顯示日文假名: 不過還是可以看出來漢字不太行,所以還是去找了 UAO 的方案... 第一個想法是直接換掉系統的 BIG5,反正只剩下 BBS 用途要用了,就一次換掉。不過找了半天沒看到現成的工具,雖然在「Mozilla 系列與 Big5 … Continue reading

Posted in BBS, Computer, Linux, MacOS, Murmuring, Network, OS, Software | Tagged , , , , , , | 4 Comments

MySQL 的 Unicode 支援程度

MySQL 5.5 之前的版本只支援 Unicode 3.0 (1999 年 9 月發表),但自從 MySQL 5.5 版開始支援 Unicode 5.0 (2006 年 7 月發表),對於常用的 utf8 encoding 就有一些變化要注意... 參考維基百科上對 Unicode 版本的說明:「Unicode#Versions」,以及 MySQL 5.5 的文件:「MySQL :: MySQL 5.5 Reference Manual :: 10.1.10 Unicode Support」。 在 MySQL 5.5 之前,UTF-8 … Continue reading

Posted in Computer, Database, Murmuring, MySQL, Programming, Software | Tagged , , , | Leave a comment

Perl 與 Python 在 Unicode 的處理

我試著在 Python 上找到 Perl Regular Expression 有提供的 General Category Property,不過沒有找到。而且發現 Python 沒有使用 PCRE。 先參考 Unicode.org 上的文件,Unicode Regular Expressions 這篇,在 Regular Expression 裡使用 General Category Property 指的是 \p{Lu} 這種用法,前面的範例表示大寫字母 (Uppercase Letter),我在用 Perl 切詞的時候用了兩次這種 Regular Expression。 替代的方案是依照 Unicode Regular Expressions 裡的說法去找對應的範圍,然後自己寫 Regular … Continue reading

Posted in Computer, Murmuring, Programming, Software | Tagged , , | Leave a comment