Tag Archives: text

Facebook 開源的 fastText

準確度維持在同一個水準上,但是速度卻快了 n 個數量級的 text classification 工具:「FAIR open-sources fastText」。 可以看到 fastText 的執行速度跟其他方法的差距: Our experiments show that fastText is often on par with deep learning classifiers in terms of accuracy, and many orders of magnitude faster for training and evaluation. 除了 open … Continue reading

Posted in Computer, Murmuring, Programming, Science, Social, Software | Tagged , , , , , , , , | Leave a comment

Twitter 宣佈要放寬 140 字限制...

好像跟當初外面傳言的不太一樣... Anyway,Twitter 宣佈放寬 140 字限制:「Coming soon: express even more in 140 characters」。 這個限制的解除一直都有傳言,不過最後出來的結果跟預期的好像不太一樣,主要是三種用法將不計算在 140 字內。分別是 reply 時的 @username、貼圖貼影片時的 url、引用 tweet 時被引用的文字。 所以並不是完全放寬 140 字限制,只是把某些計算方式放寬...

Posted in Computer, Murmuring, Network, Social | Tagged , , , , , , , | Leave a comment

Mac 上的 Cleartext

看到 Mac 上的「Cleartext」這個軟體: A text editor that only allows the 1,000 most common words in English 限制你使用比較簡單的英文,這樣可以讓讀的人比較容易了解 (尤其是非母語的人)。 有種跟 Simple English Wikipedia 的想法很像的感覺: The project uses around 2,000 common English words, and is based on Basic English, an 850-word auxiliary … Continue reading

Posted in Computer, Murmuring, Software | Tagged , , , , , , , , , | Leave a comment

RFC 7763:text/markdown

Markdown 的 RFC:「The text/markdown Media Type」。 This document registers the text/markdown media type for use with Markdown, a family of plain-text formatting syntaxes that optionally can be converted to formal markup languages such as HTML. 雖然是 Category: Informational,但有個標準後是不是有機會在瀏覽器裡面原生支援?

Posted in Computer, Murmuring, Network, Software, WWW | Tagged , , , , | Leave a comment

MySQL 5.7 的 InnoDB 的全文搜尋

在「InnoDB Full-Text : N-gram Parser」這邊看到對 MySQL 5.7 InnoDB 的全文搜尋功能介紹。開頭就有很重要的說明: I’m now very happy to say that in MySQL 5.7.6 we’ve made use of the new pluggable full-text parser support in order to provide you with an n-gram parser that can … Continue reading

Posted in Computer, Database, Murmuring, MySQL, Network, Search Engine, Software | Tagged , , , , , , , , , | 1 Comment

InnoDB 的 BLOB field 存放的方式

這邊的 BLOB field 指的包括 VARCHAR、VARBINARY、BLOB、TEXT 這些常常被拿來放大物件的類型:「Externally Stored Fields in InnoDB」。 這跟 InnoDB 存放的格式 (ROW_FORMAT) 也有關,對於不同的格式都需要分開討論。 看之前需要帶一些背景知識,像是 Database index 裡面講到 index 種類時所提到的 Clustered。 看完後對 MySQL InnoDB 的運作方式會更了解一些,對於規劃 schema 也加減有些幫助。

Posted in Computer, Database, Murmuring, MySQL, Software | Tagged , , , , , , , , , , , | Leave a comment

將 latin1 的表格轉換成 UTF-8 表格...

Percona 的人寫了一篇「utf8 data on latin1 tables: converting to utf8 without downtime or double encoding」,告訴你怎麼將 latin1 的 TEXT 欄位轉成 UTF-8,文章內有提到利用 BLOB 轉。 不確定同樣方式能不能做在 VARCHAR 上面 (用 BINARY 轉?),但不知道會不會有 UNIQUE + prefix support 的問題?有遇到再來測試看看...

Posted in Computer, Database, Murmuring, MySQL, Software | Tagged , , , , , , , | 1 Comment