Tag Archives: bigquery

StackOverflow 上離開 Vim 方法的文章...

被拿出來當 PR 宣傳了:「Stack Overflow: Helping One Million Developers Exit Vim」。 由於 Vim 是 Unix-like 系統一定會內建的 editor,所以常常被拿來放在 tutorial 裡面 (考慮到普及性,但完全不熟的初學者就...),或是不小心在輸入 vipw 或是 visudo 之類的指令就中獎了: 可以看到 pageview 破一百萬次了 XDDD 而且流量也都很穩定: 依照地區來拆開的話:(不過沒有照人口數正規化...) 然後做交叉分析,看這些卡在 Vim 的人平常是看什麼其他的文章: 回到資料分析的角度來看,這些東西可以透過有 cookie 的 access log 做到。有 access log … Continue reading

Posted in AWS, Cloud, Computer, GCP, Murmuring, Network, Service, Software | Tagged , , , , , , , , , , , , , , , , , , , , , | Leave a comment

分析 GitHub 上的 Tab 與 Space

作者用 BigQuery 分析了 GitHub 上的 Tab 與 Space 的差異 (是個 flame war 開始的節奏 XDDD):「400,000 GitHub repositories, 1 billion files, 14 terabytes of code: Spaces or Tabs?」。 可以看到除了 C 與 Go 以外,大多數的程式語言都是 Space > Tab。另外在文章下面也有使用的 BigQuery 指令可以參考。

Posted in Cloud, Computer, Database, Murmuring, Network, Programming, Software | Tagged , , , , , , , , , | 3 Comments

Google BigQuery 提供的 Public Datasets

跟 AWS 的「AWS Public Data Sets」一樣,Google Cloud Platform 也提供了類似的服務給使用 Google BigQuery 的人使用:「Google BigQuery Public Datasets」。 目前資料看起來比較少 (因為最近才建立),包括了這六個項目: USA Names Data NYC TLC Trips Hacker News USA Disease Data GDELT Books Corpus NOAA GSOD Weather 在「Other Public Datasets」的地方就是不寫 AWS 的... XD

Posted in AWS, Cloud, Computer, Murmuring, Network, Science | Tagged , , , , , , , , | Leave a comment

用 Google BigQuery 分析 Reddit 釋出的資料

前幾天有提到 Reddit 官方放出全站的投稿以及 comment 資訊:「Reddit 放出完整的全站投稿資料」,馬上就有人拿工具來分析了:「How to Analyze Every Reddit Submission and Comment, in Seconds, for Free」。 這篇的作者是用 Google 的 BigQuery 分析,而 BigQuery 跟 SQL 操作方法類似,所以我猜用 Amazon Redshift 或是 Apache Spark 應該都可以做到類似的事情吧,就看對工具的熟悉度。圖片則是透過 BigQuery 產生 csv 擋,再透過 R 與 ggplot2 產生出來。 … Continue reading

Posted in Cloud, Computer, Database, Murmuring, Network, Programming, Science, Social, Software, WWW | Tagged , , , , , , , , | Leave a comment