Tag Archives: bigquery

分析 GitHub 上的 Tab 與 Space

作者用 BigQuery 分析了 GitHub 上的 Tab 與 Space 的差異 (是個 flame war 開始的節奏 XDDD):「400,000 GitHub repositories, 1 billion files, 14 terabytes of code: Spaces or Tabs?」。 可以看到除了 C 與 Go 以外,大多數的程式語言都是 Space > Tab。另外在文章下面也有使用的 BigQuery 指令可以參考。

Posted in Cloud, Computer, Database, Murmuring, Network, Programming, Software | Tagged , , , , , , , , , | 3 Comments

Google BigQuery 提供的 Public Datasets

跟 AWS 的「AWS Public Data Sets」一樣,Google Cloud Platform 也提供了類似的服務給使用 Google BigQuery 的人使用:「Google BigQuery Public Datasets」。 目前資料看起來比較少 (因為最近才建立),包括了這六個項目: USA Names Data NYC TLC Trips Hacker News USA Disease Data GDELT Books Corpus NOAA GSOD Weather 在「Other Public Datasets」的地方就是不寫 AWS 的... XD

Posted in AWS, Cloud, Computer, Murmuring, Network, Science | Tagged , , , , , , , , | Leave a comment

用 Google BigQuery 分析 Reddit 釋出的資料

前幾天有提到 Reddit 官方放出全站的投稿以及 comment 資訊:「Reddit 放出完整的全站投稿資料」,馬上就有人拿工具來分析了:「How to Analyze Every Reddit Submission and Comment, in Seconds, for Free」。 這篇的作者是用 Google 的 BigQuery 分析,而 BigQuery 跟 SQL 操作方法類似,所以我猜用 Amazon Redshift 或是 Apache Spark 應該都可以做到類似的事情吧,就看對工具的熟悉度。圖片則是透過 BigQuery 產生 csv 擋,再透過 R 與 ggplot2 產生出來。 … Continue reading

Posted in Cloud, Computer, Database, Murmuring, Network, Programming, Science, Social, Software, WWW | Tagged , , , , , , , , | Leave a comment