巨無霸的數據架構大比拼:海量數據如何記錄分析

【推薦本文原因】

想知道大型公司是怎麼紀錄數據的嗎?大數據是每間公司都想擁有的,但你也必須不斷地去重新定義這些數據,並投入非常多的心血,讓這些數據能夠有善運用,本篇文介紹幾個大型公司的大數據集成架構。


數據分析-全球最好的數據架構長什麼樣?我們認為使用事件數據的公司會有很強的競爭優勢。這一點在世界領先的科技公司中似乎都得到了證明。

臉書,亞馬遜,製作的Airbnb,Pinterest的和Netflix的公司的數據工程師團隊一直令人稱奇。他們的工作為軟件和商務的認知設定了新準則。因為他們的產品被廣泛的使用,這些團隊必須不斷重新定義大規模數據分析。他們在數據架構上已經投入數以百萬計的資金,並且擁有比大多數公司的整個工程部門人數還多的數​​據團隊。

如果你對大型公司的大數據框架感到好奇,下面我們將介紹最好的集成架構。

Netflix網飛

儘管擁有9300萬月活躍用戶,網飛在交互上沒有任何缺陷。他們每天可以收集到大概5千億條事件數據,大概佔1.3PB。在高峰時段,他們每秒會記錄800萬條數據。網飛僱傭的數據工程師和分析師超過100人。下面是在網飛之前公佈的公司數據架構的簡圖,主要包括Apache Kafka,彈性搜索,AWS S3,Apache Spark,Apache Hadoop和EMR。

 

臉書

由於擁有超過10億的活躍用戶,臉書的數據庫是世界上最大的數據庫之一,儲存了超過300pb的數據。這些數據會用於各種應用程序,從傳統的批處理,到圖像分析,機器學習和實時交互分析。為了實現大規模交互查詢,臉書的工程師設計了普雷斯托,一個使用特定分析優化的定制分佈式SQL查詢引擎。上千員工在使用這一引擎,這些人每天跨越各種不同的後端數據庫,如Hive,HBase和Scribe,執行超過3萬個查詢。

 

Airbnb愛彼迎

愛彼迎支持超過1億用戶對200萬條房屋記錄進行查詢。另外,愛彼迎可以為用戶智能地提供旅行建議,這對其發展是非常重要的。他們的團隊建立了一個很棒的博客AirbnbEng,去年他們在博客上介紹了愛彼迎的數據架構。在我們去年辦的一個聚會中,愛彼的數據科學部的經理,Elena Grewal說「要建立一個世界級的分析團隊」他提到愛彼的數據團隊已經超過30人,公司每年付給這些職員的薪水超過500萬美元。

 

 

Pinterest品趣志

品趣誌有超過1億的月活躍用戶和超過100億的月頁面訪問量。在2015年,他們的數據團隊的工程師就超過了250個。他們的架構很大程度上依賴於Apache Kafka,Storm ,Hadoop,HBase和Redshift。

 

 

品趣志的團隊不只需要持續記錄巨量的客戶數據,他們還需要給他們的廣告商提供詳細的分析結論。黃鳳波寫「在品趣志的背後:建立品趣志分析系統」,該文章介紹了他們怎樣改進數據分析軟件棧以滿足上述的需求下圖說明他們如何運用Apache Kafka,AWS S3和HBase來實現目標的:

Twitter / Crashlytics

Crashlytics答案團隊建立了用來處理每天百萬記的移動設備事件的架構。

事件接收器

存檔

 

批處理

 

運算速度
組合視圖

 

主圖Photo by Stephen Dawson on Unsplash

文章資料來源為【36Kr】,經TC彙集整理,部分內容為TC創作,未經授權不得轉載。


TC Summary

大數據是目前的趨勢,許多大型公司都想掌握數據,上述幾間大型公司是非常好的集成架構,各自都設立了非常大的團隊,工程師人數超越一般的大公司,必須投入很多的心血,才有辦法有效利用這些數據。

 

《延伸閱讀》

【社群經營】你懂追蹤Instagram數據嗎? 這五大工具讓你懂分析

【數據報告】iOS App Store 十週年用戶統計

【行銷數據】使用GA必了解的入門報表和數據