面試的時候曾經有面試者說手上沒有 big data 可以研究,所以對 big data 的理解僅限於理論,不過我對這種講法就...
網路上有很多資料是很有用的:
- 維基百科的資料庫:「Wikipedia:Database download」。
- niconico 動畫提供的資料:「日大型影片共享網站開放各項數據供學術研究用途下載」。
- 剛剛看到有人整理 Google 放出了哪些資料:「Datasets released by Google」
- AOL 當年的 search data leak (維基百科說明「AOL search data leak」),網路上找一下就可以找到載點。
能玩的東西明明就很多... 另外還可以掃各種公開資料。
有可能是認知不同吧。比方 wikipedia 說的 Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set.