Tag Archives: big

透過 Deep Learning 辨識人臉馬賽克的技術

在某些新聞報導透漏出了受害者的某些背景身份,於是你手上有了這兩個資料: 符合這些背景身份的四十個人的照片。 人臉被馬賽克後的新聞照片。 現在的問題是,要怎麼判斷出新聞照片裡是哪個人:「Defeating Image Obfuscation with Deep Learning」。 類似這樣的實驗,從 40 個人中找出正確的人,有 50% 的正確率: 也許 50% 不算到能用的程度,但這代表老大哥的技術已經在發展了...

Posted in Computer, Murmuring, Programming, Security | Tagged , , , , , , , , , | Leave a comment

電子書在美國的販售管道與作者的獲利

在美國,五大出版商在電子書拆分上對作者佔的比例不斷的下滑,這也代表話語權不斷的下降,而且愈來愈不需要這些「大」出版商了:「Independent authors are starting to outsell the Big Five」。 這邊所提到的 Big Five 可以在「The Big Five Trade Book Publishers」這邊查到,分別是: Hachette Book Group HarperCollins Macmillan Publishers Penguin Random House Simon and Schuster 另外也可以把 Amazon 當作是電子書產業的大公司。可以看到獨立發行的比率愈來愈高: AuthorEarnings.com has published a report on this … Continue reading

Posted in Book, Computer, Murmuring, Network, Recreation | Tagged , , , , , , , , | Leave a comment

Humble Bundle 對抗信用卡盜刷的方法

Humble Bundle 說明他們如何對抗信用卡盜刷的方法,主要是不斷的降低風險,然後讓人介入的機會降低 (因為人事成本很高):「How Humble Bundle stops online fraud」。 其中第一點是特別想提的: Our first line of defense is a machine-learning-based anti-abuse startup called Sift Science, which we’ve been training for years across 55,000,000 transactions. Given how many orders we process, Sift Science … Continue reading

Posted in Computer, Financial, Murmuring, Network, Science, Security | Tagged , , , , , , , , , , , , , | Leave a comment

Amazon EBS 推出新磁碟種類

Amazon EBS 推出了新的磁碟種類,都是比現在更經濟 (白話文:更便宜) 的方案:「Amazon EBS Update – New Cold Storage and Throughput Options」。 第一種是 Amazon EBS Throughput Optimized HDD,代號是 st1;第二種是 Amazon EBS Cold HDD,代號是 sc1,兩種都是傳統磁頭硬碟。 第一種 st1 重視 sequential 的 throughput: Starts at 250 MB/s for a 1 terabyte … Continue reading

Posted in AWS, Cloud, Computer, Hardware, Murmuring, Network | Tagged , , , , , , , , , , , , , , , | 2 Comments

Amazon S3 與 HDFS 的速度差異

作者繼續以 A Billion Taxi Rides 的資料測試各種差異,這次測了 Amazon S3 與 HDFS 的速度差異:「A Billion Taxi Rides: AWS S3 versus HDFS」。 前半部都在說明測試的環境設定,重點在文章的最後面 (也就是「Benchmarking HDFS」這段),裡面有各種 query 的速度。HDFS 的速度大約是 Amazon S3 的 1.25 到 1.75 倍,作者給的結論是: Though the speed improvements using HDFS are considerable, S3 … Continue reading

Posted in AWS, Cloud, Computer, Murmuring, Network, Software | Tagged , , , , , , , , , , , , , | Leave a comment

拍照後讓程式自動人肉搜索 Social Network 上的照片...

在 social network 上掃了一堆照片後,路上隨便拍照讓程式自動人肉搜索找出可能的對象:「Russian photographer matches random people with social network photos」。 這個計畫叫做「YOUR FACE IS BIG DATA」,作者的照片來源是來自俄羅斯最大的社交網站 VKontakte,而計畫的網站在「Конец анонимности: Идентификация случайных попутчиков」這邊,可以連進去看他自動找出來的圖。 演算法本身並不難,有種老大哥計畫的感覺... 可以想像 Facebook、Instagram 或是 VKontakte 如果自己做了之後拿給政府單位用的情況?

Posted in Computer, Murmuring, Network, Security, Social, WWW | Tagged , , , , , , , , , , , , , | Leave a comment

A Billion Taxi Rides 資料分析系列

Mark Litwintschik 最近在連載 A Billion Taxi Rides 的資料分析系列作品: A Billion Taxi Rides in Redshift A Billion Taxi Rides in Hive & Presto A Billion Taxi Rides on Amazon EMR running Presto A Billion Taxi Rides on Amazon EMR running Spark … Continue reading

Posted in AWS, Cloud, Computer, Database, Murmuring, Network, PostgreSQL, Software | Tagged , , , , , , , , , , | Leave a comment

Stack Overflow 做的 Developer Survey 2016

Stack Overflow 對開發者發問卷後把結果整理出來了:「Stack Overflow Developer Survey 2016 Results」,約 56k 個樣本數: This year, 56,033 coders in 173 countries answered the call. 整個問卷分成五塊區域:Overview、Developer Profile、Technology、Work、Community,其中 Overview 的部份是給時間不多的人看的,整理了一些比較特別或是有趣的重點: Most developers prefer dogs to cats. (But not developers in Germany.) (唔?) 要注意的是,問卷只有英文版本,所以這份問卷明顯對於英文非母語的開發者會有比較低的填寫意願,會造成統計偏差問題,所以在讀之前要注意到: Surveys aren’t perfect. … Continue reading

Posted in Computer, Murmuring, Network, OS, Programming, Science, Social, Software | Tagged , , , , , , , , , , , , , | Leave a comment

用 Google BigQuery 分析 Reddit 釋出的資料

前幾天有提到 Reddit 官方放出全站的投稿以及 comment 資訊:「Reddit 放出完整的全站投稿資料」,馬上就有人拿工具來分析了:「How to Analyze Every Reddit Submission and Comment, in Seconds, for Free」。 這篇的作者是用 Google 的 BigQuery 分析,而 BigQuery 跟 SQL 操作方法類似,所以我猜用 Amazon Redshift 或是 Apache Spark 應該都可以做到類似的事情吧,就看對工具的熟悉度。圖片則是透過 BigQuery 產生 csv 擋,再透過 R 與 ggplot2 產生出來。 … Continue reading

Posted in Cloud, Computer, Database, Murmuring, Network, Programming, Science, Social, Software, WWW | Tagged , , , , , , , , | Leave a comment

LinkedIn 依照他們的資料對美國的大專院校排名

在 Slashdot 上看到 LinkedIn 對美國的大專院校排名:「Be True To Your CS School: LinkedIn Ranks US Schools For Job-Seeking Programmers」。 軟體工程師的部份在這邊:「LinkedIn 大學排名 — 軟體開發人員」。Slashdot 上的 comment 瞬間就戰起來,然後還有人跑出來問怎麼沒有美國外的資料 XDDD CMU 第一名不算奇怪,但 Stanford 意外的後面?

Posted in Computer, Murmuring, Science, Social | Tagged , , , , , , , , | Leave a comment