Skip-gram

一路翻資料翻到 Skip-gram:「A CloserLook at Skip-gram Modelling (PDF)」,不確定是 2005 年 (出自「CiteSeerX — Citation Query A Closer look at Skip-gram modeling」) 還是 2006 年 (出自「CiteSeerX — A Closer Look at Skip-gram Modelling」) 的論文,不過 Google Scholar 是標 2006 年...

Skip-gram 實際上的定義很簡單,就是允許跳幾個字的意思... 依照原論文裡的定義,這個句子:

Insurgents killed in ongoing fighting.

在 bi-grams 的時候是拆成:{insurgents killed, killed in, in ongoing, ongoing fighting}。

在 2-skip-bi-grams 的時候拆成:{insurgents killed, insurgents in, insurgents ongoing, killed in, killed ongoing, killed fighting, in ongoing, in fighting, ongoing fighting}。

在 tri-grams 的時候是:{insurgents killed in, killed in ongoing, in ongoing fighting}。

在 2-skip-tri-grams 的時候是:{insurgents killed in, insurgents killed ongoing, insurgents killed fighting, insurgentsin ongoing, insurgents in fighting, insurgents ongoing fighting, killed in ongoing, killed in fighting, killed ongoing fighting, in ongoing fighting}。

這樣就有辦法在整篇文章都是用「台灣大學」的情況下以「台大」找到文章,解決一些「同義詞」想要解決的問題。

在論文裡有分析 coverage,不過這邊 coverage 是指什麼客觀評估方式就不知道了,等下來找找看到底是什麼...

1 thought on “Skip-gram

Leave a Comment