在「Find Out How Much Traffic a Website Gets」這邊講到了五個分析網站流量的工具,分別是 Alexa、Compete、Similar Web、SEM Rush 以及 Quantcast。
由於你不可能知道其他網站的實際流量,這些都是估算值,就只是拿來參考用的,幫助你稍微有個概念而已 :p
幹壞事是進步最大的原動力
在「Find Out How Much Traffic a Website Gets」這邊講到了五個分析網站流量的工具,分別是 Alexa、Compete、Similar Web、SEM Rush 以及 Quantcast。
由於你不可能知道其他網站的實際流量,這些都是估算值,就只是拿來參考用的,幫助你稍微有個概念而已 :p
Amazon VPC 發表新功能,可以紀錄流量流經 VPC 的 metadata:「VPC Flow Logs – Log and View Network Traffic Flows」。
依照官方的圖片,可以看到資料很陽春 (看起來是 unix timestamp 的欄位,然後出現 6/17,應該是 TCP/UDP?),不過至少有紀錄可以看了:
算是 IPFIX 的一種?
在「Traffic filtration using NIC capabilities on wire speed (10GE, 14Mpps)」這邊看到的技巧。
作者建議另外安裝 driver,因為 Linux kernel 內的 driver 功能有限:「Intel Ethernet Drivers and Utilities」。
重點在 ethtool 這個工具,可以看到條件設定:
ethtool --help: ethtool -N|-U|--config-nfc|--config-ntuple DEVNAME Configure Rx network flow classification options or rules rx-flow-hash tcp4|udp4|ah4|esp4|sctp4|tcp6|udp6|ah6|esp6|sctp6 m|v|t|s|d|f|n|r... | flow-type ether|ip4|tcp4|udp4|sctp4|ah4|esp4 [ src %x:%x:%x:%x:%x:%x [m %x:%x:%x:%x:%x:%x] ] [ dst %x:%x:%x:%x:%x:%x [m %x:%x:%x:%x:%x:%x] ] [ proto %d [m %x] ] [ src-ip %d.%d.%d.%d [m %d.%d.%d.%d] ] [ dst-ip %d.%d.%d.%d [m %d.%d.%d.%d] ] [ tos %d [m %x] ] [ l4proto %d [m %x] ] [ src-port %d [m %x] ] [ dst-port %d [m %x] ] [ spi %d [m %x] ] [ vlan-etype %x [m %x] ] [ vlan %x [m %x] ] [ user-def %x [m %x] ] [ action %d ] [ loc %d]] | delete %d
看起來 stateless 的過濾可以在上面做...
Facebook 推出 Augmented Traffic Control,模擬網路環境:「Augmented Traffic Control: A tool to simulate network conditions」。
可以測這五種變數:
Facebook 的成果是 Python + Django 寫的前端管理界面,實際運作還是透過 Linux 的 iptables。
也有提供 Vagrant 的操作方式讓人「試用」,主要是讓人在本機上就可以用吧?
The Register 的「Even HTTPS can leak your PRIVATE browsing」這篇引用了「I Know Why You Went to the Clinic: Risks and Realization of HTTPS Traffic Analysis」這篇論文。
這篇論文說明,當 ISP 有能力分析所有流量,即使你全部都使用 HTTPS 時,論文裡的方式可以對某些極為敏感的資訊達到 89% 的辨識率:
Our attack identifies individual pages in the same website with 89% accuracy, exposing personal details including medical conditions, financial and legal affairs and sexual orientation.
這是因為 HTTPS 設計上是保護密碼、session key 這類技術上的「機密資訊」。而這個特點只能增加對隱私的保護,無法 100% 保護。
就算不看論文用了哪些資訊與方法,這個領域有很多可以分析的:很直覺就可以想到 ISP 可以看到 Destination IP 資訊,藉以「猜測」是哪個 domain,而 DNS query 資訊也是有幫助的。再來是 HTTP request 的 pattern (像是順序、大小) 再加上對網站結構的了解,也可以分析出不少東西。
如果可以再分析主流瀏覽器、作業系統以及 NAT box 的實做,還可以透過 TCP 的封包再推敲的更細緻。
整套系統利用統計模型架構好後,在 ISP 端大量分析,看起來就是 NSA 擅長的業務?
前幾個禮拜在 Slashdot 上看到政府單位花了 54 萬美金建立藍牙監控網路,利用這些資訊可以分析出車流狀況:「Connecting To Unsecured Bluetooth Car Systems To Monitor Traffic Flow」,引用的報導在:「Bluetooth can help local traffic flow」。
有 3% 到 5% 的車流會有 Discoverable 模式的藍牙裝置,偵測這些 MAC address,就能夠判斷出車子行經的時間點與路線。
不過監控完後能幹什麼啊?我又想到 NSA 了...
最近幾天揭露的文件顯示 NSA 在監聽 Google 與 Yahoo! 在內部機房內的通訊:「NSA infiltrates links to Yahoo, Google data centers worldwide, Snowden documents say」。
不是 Google 與 Yahoo! 之間的通訊,而是 Google 自家資料中心之間交換的資料 (以及 Yahoo! 自家資料中心交換的資料),像是這樣:
重點在右半塊的內部通訊內容未必會被加密...
Switch 與 Router 要內建 Wirespeed IPsec 的時代要來臨了嗎... 40Gbps (甚至 100Gbps) 的 IPsec 能力!XDDD