AI投資-編者按:Matt Turck是FirstMark的一名投資者,
機器學習創業公司正在改變我們的工作方式,他從近距離見證了這一點。
最近,Journal聯合創始人Sam DeBrule與Matt Turck交流看法,
二人討論了一些與機器學習創業公司有關的話題。
Sam:能介紹一下你自己嗎?有些人可能不了解,麻煩你稍微介紹一下自己的工作?
Matt:好的。我是紐約FirstMark的合夥人。
只用了短短幾年時間,我們就成為紐約面向早期階段的最大的VC公司,
管理16億美元資產,當中包括去年融入的5億美元。
從投資角度看,我對許多東西感興趣,不過大多時候我特別關注兩個領域。
內容目錄
第一個是「數據世界」,從寬泛的層面定義正是這樣的。
當中包括大數據、機器學習、AI公司,還有一些創業公司,
對於它們來說數據就是「秘密調料」,是核心競爭力,
我們通過一些企業向該領域投資,比如ActionIQ、Dataiku、x.ai 、Sense360、HyperScience。
我還寫了很多博文談論這些主題,同時還運營Data Driven NYC,
這是一個很大的社區,有14000名大數據、AI專家。
第二個重點關注的領域是前沿技術。
所謂前沿技術包括新興計算平台、AR/VR、物聯網,以及其它你能想到的流行詞。
同樣的,我也向這個領域投資,寫博文介紹它,運營一個很大的社區,名叫Hardwired NYC,
裡面有5000多人,大家一起探索前沿技術。
人們炒作AI,但它是真實的機會
Sam:很酷。什麼時候機器學習創業公司進入你的視線,成為投資機會呢?
Matt:當我進入科技行業工作時,基本上只關注數據和分析。
不久之前,我還是搜索軟件創業公司的聯合創始人、企業家,
我們關注貝葉斯算法的應用,貝葉斯是一種機器學習技術,我們用它查找、檢索問題。
所以說,多年來我一直關注機器學習,直到最近一段時間興趣才漸漸深厚起來。
大數據流行,基礎設施完善,我們可以捕捉並處理大量數據,成本更合理,速度更快。
最終這些因素導致機器學習技術飛速進步,在一些領域尤其明顯,
比如需要大量數據才能執行的項目,類似於神經網絡。
成為這個領域的企業家、投資者,現在恰逢其時,我們有一種感覺,
似乎幾十年的努力突然有了回報,孕育了許多的可能性。
人們對AI不斷吹捧,不斷炒作,但它是真實的,並非虛無。
言論相比技術現實有所誇大
Sam:讓們討論一個有爭議的問題。今天有許多大企業正在開發AI,
看看這些企業,就兌現承諾而言,哪家的表現最糟糕?
Matt:就我從市場上聽到的消息來看,可能是IBM。
為什麼?主要是因為IBM極力宣傳,野心很大,這樣導致自己陷入一個尷尬的境地:
承諾太多,同時進入的垂直領域太多。
沒錯,只要你願意投入幾個月時間並投入許多金錢,訓練系統,你的確可以用IBM沃森做許多有趣的事,
但是現實再清楚不過,IBM在宣傳中所說的東西有點誇大,事實上沃森沒有那麼強大。
IBM是一家大公司,所有大公司似乎都背負一個詛咒:
因為公司很龐大,如果想讓業務的規模擴大哪怕一點點,
新業務必須以非常快的速度壯大起來,這樣一來就會給牽涉的每一個人施加很大壓力。
IBM在每一個垂直領域爭奪交易,據我所知,他們失去了許多交易,
因為小企業更專注、更敏捷,IBM輸給了他們。
不過它可是IBM,我們現在還不能將它排除出去。
獲得機器學習人才有點難
Sam:Salesforce會不會走上同樣的道路?
Matt:我可不這樣認為。去年,Salesforce CEO Marc Benioff介紹了愛因斯坦AI系統,
他的言論讓企業內部的人嚇了一跳,當然部分是因為他的個性。
對接創業公司生態系統、收購企業可以帶來很大的變化,
部分是因為你可以獲得更棒的機器學習人才,就現階段而言,獲得人才是一個關鍵要素。
Salesforce與創業生態系統的聯繫更緊密,這點很重要。
它組建了Salesforce Ventures,通過這個分支機構不斷投資,
Marc Benioff還以個人名義向許多不同的創業公司投資,這些創業公司都在研究機器學習。
接入專有數據庫是一個挑戰
Sam:執行AI需要大量的數據,正因如此,創業公司相比大企業處在劣勢位置。
有沒有數據工程師正在尋找辦法用更少的數據優化模型?
Matt:就這點來說創業公司的確處在不利位置,但它們最終會獲得相當多的資源,以前是這樣,未來也是這樣。
就技術角度來說,行業內許多頂尖人物(不只是創業公司)都在嘗試用更少的數據開發更棒的神經網絡。
在可以預見的未來,這個目標就是「聖杯」。
我認識幾家公司,他們取得一些突破,在遷移學習方面研究出一些有趣的技術。
不得不說,這是一個很難的問題,解決要花點時間。
與此同時,創業公司還在尋找辦法進入更大的數據庫。
例如,醫療成像領域的AI公司需要龐大的數據。
據我所知,有幾家企業與一家大醫院合作,拿到一些專有數據,與放射圖像有關。
我還看到一些企業也在做同樣的事,只是它們所處的領域不同,比如碰撞保險、工業機械、農業等領域。
德國有一家創業公司名叫TwentyBn,它建了一個眾包數據庫,裡面有幾百甚至幾千段視頻,
人在攝像頭前演示特定手勢和動作,計算機系統處理之後就可以學習並識別動作。
從本質上講,TwentyBn搭建了自己的數據庫。
曾幾何時,獲得大量數據似乎是一個不可逾越的障礙,不過創業公司正在尋找各種辦法克服困難。
順便說一句,挑戰很多,獲得數據只是其中的一個,有了數據你還要貼上標籤,讓深度學習可以處理。
給數據貼標籤時,創業公司也有許多的資源可以用。
我接觸過幾家創業公司,它組建「小團隊」,裡面的人來自世界各地,
他們給數據貼標籤,工作方式與亞馬遜「Mechanical Turk」差不多。
還有一些企業招募深度學習專家,讓他們給特定數據類型貼標籤,
比如讓外科醫生團隊給複雜的醫療圖像數據貼標籤。
網絡數據效應浮現
Sam:通過Netflix、Spotify、Facebook這樣的產品,許多人感受到「數據網絡效應」帶來的好處。
創業公司如何才能打造強大的下一代「數據網絡」呢?
Matt:不久之前,我曾在博文中討論過「數據網絡效應」,這個主題很有趣。
從理論上講,任何機器學習公司都可以從多個用戶手中提取足夠多的數據,讓算法在數據集中運行,
然後將數據發回去,向每一個獨立客戶學習,這樣就可以形成「數據網絡效應」。
以FirstMark投資公司x.ai為例,這家公司開發AI助手,
安排會議,助手安排的會議越多,算法就會變得越聰明。
算法越聰明,體驗就會越好。體驗越好,就會有更多的人用x.ai安排會議,
公司也就可以拿到更多數據,還有其它東西。這樣「數據網絡效應」就浮現出來了。
數據網絡效應會出現在行多地方,這才是最棒的。 x.ai幫助人們安排會議,加快速度;
Phosphorous 與醫院合作,幫助它們運營基因檢測實驗室,這些場所都會出現。
在B2B領域,要想獲得「數據網絡效應」會困難一些,
因為企業喜歡保護自己的數據,不願意行業內的其它企業使用自己的數據。
儘管如此,我們可以用創造性的解決方法化解這一問題。
幾個月前,Google Research在Federated Learning發表論文,
意思就是說要在數據獨立的前提下促進機器學習行業合作。
這樣就可以解決數據隱私問題,讓各種「數據網絡效應」顯現出來。
不論怎樣,有一點需要注意:數據網絡效應需要很多年才能出現,
因為創業公司要積累客戶,收集足夠多的數據讓自己的模型學習。
一旦這種效應在你的身上形成,那就很有競爭力了。
AI會讓產品的性能大幅提升
Sam:投資者之所以關注AI創業公司,是不是因為它們很快會成為收購目標?
或者說它們有可能成為龐大的獨立企業?
Matt:從VC經濟學的角度看,你必須信奉後一種理念。
沒錯,我們看到大企業收購各類小型AI企業。與此同時,人們或多或少會認同另一個觀點:
AI是下一個大事件,機器學習人才很稀缺。
正因如此,有許多企業更像研究實驗室而不是創業公司,它們很快被收購,有時金額還很高。
對於創始人來說,這樣的結果很好,有時拿到的錢可以改變整個生活。
站在投資者的角度看,這樣的結果不錯,但算不上很好,風險回報率並不高。
現在這種交易形式快走到盡頭了,要改變了。
正是因為這個原因,像我這樣的投資者才會關注垂直AI創業公司。
因為瞄準垂直領域,AI創業公司非常專注,它的定位離大型科技公司很遙遠,
在大企業收購之前也許有足夠的時間壯大起來。
只要定位正確,我相信這些AI企業有時間搶占領先位置,在這段時間裡,
AI會讓企業分化,大量使用機器學習的企業會領先。當然,你必須挑選一個「使用案例」(use case),
讓AI大幅提升產品性能,不是修修補補,而是突破性的提升。
如果使用案例正確,AI創業公司的產品性能可以比現有替代產品好10倍。
如果使用機器學習技術,許多企業的產品性能可以提升10倍。
它可以創造機會,讓企業成為真正的市場領導者。
不論是你是創始人還是投資人,抓住下一個重大市場拐點就是你的使命。
幾年前是SaaS,現在機器學習代表下一輪革命。
最終,機會之窗會關閉,但就目前來說,許多AI優先的企業有機會在自己所處的領域領先,或者開闢新市場。
原文鏈接
翻譯