大數據分析–大數據這個關鍵字從去年紅到今年,早已成為科技業的重要趨勢,研調機構IDC便預測2015年將有超過25%的企業導入巨量資料方案,而美國專業招聘公司羅致恆富(Robert Halt)公布的《2015薪資指南(2015 Salary Guide》更把大數據工程師列為今年薪資漲幅最大的六大行業之一,預計薪資年成長率9.3%,平均年薪119,250美元至168,250美元。
台灣從企業到政府也人人高喊大數據,連向來對新科技接受速度最慢的政府都開始動作。行政院長毛治國甫上任祭出的科技三箭,就有兩箭跟數據息息相關,一個是開放資料,一個是大數據,新北市政府日前也推出全國第一個「傳統產業大數據應用示範計畫」,希望導入大數據分析,幫助金屬、機械和紡織等傳統產業轉型,還在日前的新北大數據論壇活動中請來美國大數據分析與儲存技術公司Teradata首席技術長寶立明(Stephen Brobst)來分享大數據趨勢。
寶立明此次來台除了出席新北大數據論壇分享大數據趨勢,更受邀至行政院與毛治國暢談開放資料政策,分享美國政府開放資料的經驗以供台灣借鏡。寶立明去年被ExecBank選為全美排名第四的CTO(前三名分別是亞馬遜、特斯拉和英特爾),在2500名頂尖CTO中脫穎而出,他不僅是全球一流的數據專家,更曾成功創立三家提供數據服務的公司,後來陸續被IBM、NCR等大廠併購,他也是歐巴馬的創新科技顧問委員會的一員。
身為全球頂尖的大數據專家,寶立明在接受專訪時卻說,他認為大數據這個詞將會在五年內消失,並認為從物理學家到社會學家都會是優秀的數據科學家,以下為寶立明專訪的內容摘要:
(圖說:Teradata首席技術長寶立明認為,以後數據是每家企業的DNA,大數據這個詞將會在五年內消失。照片來源:李欣宜攝。)
內容目錄
1. 大數據這個詞近年來非常火紅,但也有人認為大數據已處在泡沫期,您怎麼看這種人人高喊大數據的現象?
我承認現在整個社會上瀰漫著一股大數據熱潮,但我認為這不失為一種好現象,因為這讓大家注意到這個世界上還有許多尚未被挖掘,並且充滿價值的資料,我認為在這股熱潮當中,其實是有黃金的,但就像你說的,其實還是有很多人不知道大數據是什麼意思,更不知道怎麼用他。
他們以為大數據就是指大數目的數據,事實上,我認為這是大數據中最無趣的部分,我們真正在尋找的是非傳統的、而且未曾被挖掘過的資料,並且從這些資料中去提煉出價值,我相信在五年內我們就不會再使用「大數據」這個詞了,到頭來大數據就只是資料而已,不是嗎?資料是很重要,但是這個世界上還有一大堆以往根本不被視為是資料的資料在那邊等著我們挖掘,到最後,人們會開始回頭分析這些資料,他們會發現,大數據不過就只是數據的一種,大數據、小數據、結構化、非結構化的資料…這些稱呼通通都不重要,因為這些都是資料啊,這是我認為為什麼到最後大數據這個詞彙將會退燒的原因。
2. 你認為數據經濟以後將會成為每個企業的DNA嗎?
是的沒錯,人們將會依據一家公司是否有效地運用數據,來定義這家公司是否成功。大數據這個詞也許是三年前才出現的,但其實它早在十年前就有了,概念比名詞出現得更早,在八年前發生了一個比較重大的轉變,人們從研究一筆交易變成研究互動,我們開始往下鑽研,不只研究一筆交易,更研究真實的顧客體驗,因此我認為雖然不是每一個,但許多大數據應用必須要能夠更妥善了解顧客的行為和體驗。
我認為大數據發展可以分成三階段:
第一階段是.com時期,人們研究log資料,蒐集人們的Cookie和搜尋行為等等,這類分析已經存在很久了,我們不只知道使用者買了什麼東西而已,而是更深層地去分析行為,一筆交易只告訴我價值,但沒有告訴我顧客體驗,大數據想要去分析的是顧客體驗。
第二階段是社交網站,這也是我們現在正在經歷的階段,我們分析Facebook、Twitter、部落格文章…等等等,這可以幫助我們進一步了解顧客行為。
第三階段是物聯網,這是我覺得最有趣的階段,有些企業已經開始分析來自感測器的數據了,在這邊我說的物聯網不只是穿戴式裝置或智慧家庭而已,我說的是機器與機器之間的溝通,這些資料的價值很值得被研究。現在製造業都會訂下一些規矩,例如我們的汽車每半年就要進廠維修,就跟人每年都要去做健康檢查一樣,我認為這是非常過時的想法,一旦我們用感測器去蒐集引擎、汽車和生理數據,我們就可以精確知道何時需要進廠維修或做健康檢查,這就叫做預測性維修(condition based maintenance),這個概念對於促進顧客體驗、效益和健康保險等領域非常重要。
3.你對大數據的定義是什麼?
一般來說我們用3V定義大數據,容量(Volume)、快速(Velocity)與多樣性(Variety),其中我認為最重要的是多樣性,資料不只來自那些傳統管道,有更多來自非傳統管道的非傳統資料產生,我認為價值(Value)是第四個V,人們常常忘了這件事,他們專注於技術,卻忘了創造價值,但這卻是一個大數據計畫能否成功的關鍵:這不只關乎技術,而是你能用技術創造出什麼價值。
4.台灣有許多中小企業,許多中小企業也許認為大數據是個離他們很遙遠的概念,因為他們根本沒有「大數據」,您會給他們什麼樣的建議?
這些小企業一看到大數據就會想說,喔這一定是很大的數據才有辦法做,但數據的量其實從來都不是重點,我認為「大數據」是個非常差勁的命名,因為它讓人們直接聯想到「大」,但數據的大小其實是最無趣的部分,最重要的其實是那些你從來沒有想過可以用的數據以及那些非傳統的資料,我認為這才是人們對大數據應有的認知。
有許多新創企業在思考如何用大數據創造全新的商業模式,例如矽谷最近有一個正在做P2P交易服務的新創公司,比如說我們一起去吃午餐,你買單,然後我透過手機給你我的部份的錢,這不是什麼新的概念,但這家公司有趣的地方他不收任何手續費,而銀行一點都不喜歡這個主意,你知道現在的銀行交易都必須額外負擔手續費,銀行於是說:「你怎麼可以完全不收手續費?」這家公司說,因為這些交易資料本身的價值遠遠超過手續費本身。
從此之後,這家公司會知道你我之間有一種連結,如果我們每個禮拜五都出去吃飯,他們就可以判斷我們之間有強烈連結,如果我們一個月或一年才吃一次,那麼也許我們之間的連結比較弱,這家公司可以藉此判斷人與人之間的關係強弱,你也許會說:那又怎麼樣?這可以幹嘛?這家公司將會知道誰是社交意見領袖,如果他要賣新產品,他可以先從這些人開始著手,例如我也許會買他的東西,但我沒有朋友(笑)所以它就只能賣出一項產品,但你有一百個朋友,你也許是個疑心病比較重的人,所以我要花比較多功夫來說服你買東西,但你一旦用了而且覺得好用,那麼你很有可能會將這個訊息散播給你其他一百個朋友,那我搞不好可以再多賣50個產品,這就是一個善加利用社交數據,而且突破舊有思考模式的例子。
5. 如何用大數據創造商業模式?
這是個頗為複雜的問題,因為大數據是由很多不同元素組成的,我會把大數據認定為是比交易系統更深一層的互動分析,首先,如果你有一筆訂單,你就得到了顧客的價值,但你無法了解他們為什麼如此行動,如果我能夠了解他們的行為喜好,我就可以創造更好的顧客體驗,我創造了更好的顧客體驗,他們就會越買越多,他們會停留更久,如此我當然就可以創造一個非常強大的商業模式。
基本上所有的電商網站都在做這件事情,因為電商網站無法直接與顧客接觸,所以他們必須透過分析數據來與顧客建立關係,這是個很顯而易見的商業模式,如果你不分析數據去改善顧客經驗,顧客就會離你而去。如果就製造業來說,預測性維修是比較常見的大數據商業模式,這跟傳統的維修模式全然不同,這當中的經濟價值差異是數以千萬的美元,就算對中小型企業亦然,如果你知道這些企業每年花多少錢在維修設備和安全改善,你就應該知道預測性維修是門好生意。
6.這些對企業來說是技術層次的問題,但商業嗅覺是否才是如何讓大數據變現的關鍵?
是的,我稱之為直覺,你為了驗證你的假說,於是你設計了一個實驗模型,如果你沒有商業嗅覺,你很可能會實驗了一千次但得到很差的結果,我相信你一定有聽過這個笑話:「一百萬隻猴子也可以寫出莎士比亞等級的著作,只是我們要等很久而已。」你放猴子在那邊一直打字,總會有好的產出的,但這其實不太好,對吧?所以我認為還是需要具備一定的商業眼光。
好的數據科學家和不好的數據科學家的差別就在於他們的商業眼光,我認為這不只是管理階級的職責,而是一個數據科學家的職責之一。
7.大數據專案牽涉到許多跨部門的協作,而不只是IT部門的事,你認為這會更像是一個管理問題而非技術問題嗎?
我的確觀察到許多只專注在技術層面的公司,他們的大數據表現通常都不怎麼好,管理者必須確保你在埋首進行的事是有商業價值的,而不只是在玩技術而已,在麻省理工學院有個詞用來形容這些只埋頭搞技術的人:追隨流行者(Fashionist),這些人盲目追隨科技新潮流,看到雲端運算就趕快跑去搞雲端運算,噢看那邊是大數據耶,大家都有我們一定也要有! 他們不知道為什麼需要,只是因為大家都有,他們就要有,這不是一個好策略。
你必須要思考:這有什麼商業價值?為什麼我需要做這個?所以那些最成功的大數據專案都是由技術部門和商業部門協作而成的,只有技術人員是不可能成功的,但同樣地,只有業務部門也不會成功,他們必須在一起才能創造價值。
而數據分析的技術的關鍵在於,你是否有用對技術,這是許多公司低估的地方,有很多公司混淆了做報告和分析數據的人。比如說美國的教育很重視數學,但我們的統計學教得一蹋糊塗,統計學對於數據分析非常重要,很多人高中畢業後也許幾何、微積分很厲害,但他們連最基本的期望值理論都不懂,他們也不懂交叉分析,但這些技能對於分析數據都是非常重要的,我認為我們的教育體系和企業在培育擁有這方面技能的人才上,投資得太少了。
近年來有很多大學開始開設數據分析課程,我覺得這是一件好事,但問題是等這些人才畢業了,到時候我們對大數據人才的需求已經遠遠超過供給了。
8. 你認為現在要尋找優秀的數據分析學家很困難嗎?
人們常常把電腦科學家和數據科學家混為一談,數據科學家不一定非得要寫程式才能分析數據,當然你不應該害怕科技,如果你害怕新科技那你就不是那個對的人,你需要會使用科技,但重點其實還是在數據,你要會設計實驗、熟悉數學和統計、如何獲取資料和得到結果…等等等。
當然,數學系畢業的人是很好的選擇,但我的經驗是畢業自實驗性科學科系的人也會成為很好的數據科學家,例如:應用物理系、化學系、天文系…等等,因為他們知道怎麼設計實驗、怎麼蒐集數據和得到結果,這讓他們成為優秀的數據科學家。在麻省理工學院我們有個笑話,物理系畢業的人如果不去教物理,他們就失業了。因為除了教物理你還能幹嘛?但現在物理系的人也會是很好的數據科學家,例如eBay最優秀的數據科學家就是物理學家。
你看事情的眼光還需要充滿創意,所以社會學出身的人也會是很好的數據科學家,很多社會學家必須做調查,並且從中蒐集和調查數據,這已經具備了數據科學家該有的特質了。但如果你不具備這種分析數據的背景的話,可能就不是那麼好的候選人了。
文章出處:數位時代