對話紐約VC公司：我為什麼要投資 AI 創業公司？

AI投資-編者按：Matt Turck是FirstMark的一名投資者，
機器學習創業公司正在改變我們的工作方式，他從近距離見證了這一點。
最近，Journal聯合創始人Sam DeBrule與Matt Turck交流看法，
二人討論了一些與機器學習創業公司有關的話題。

Sam：能介紹一下你自己嗎？有些人可能不了解，麻煩你稍微介紹一下自己的工作？
Matt：好的。我是紐約FirstMark的合夥人。
只用了短短幾年時間，我們就成為紐約面向早期階段的最大的VC公司，
管理16億美元資產，當中包括去年融入的5億美元。
從投資角度看，我對許多東西感興趣，不過大多時候我特別關注兩個領域。

內容目錄

第一個是「數據世界」，從寬泛的層面定義正是這樣的。

當中包括大數據、機器學習、AI公司，還有一些創業公司，
對於它們來說數據就是「秘密調料」，是核心競爭力，
我們通過一些企業向該領域投資，比如ActionIQ、Dataiku、x.ai 、Sense360、HyperScience。
我還寫了很多博文談論這些主題，同時還運營Data Driven NYC，
這是一個很大的社區，有14000名大數據、AI專家。

第二個重點關注的領域是前沿技術。

所謂前沿技術包括新興計算平台、AR/VR、物聯網，以及其它你能想到的流行詞。
同樣的，我也向這個領域投資，寫博文介紹它，運營一個很大的社區，名叫Hardwired NYC，
裡面有5000多人，大家一起探索前沿技術。

人們炒作AI，但它是真實的機會

Sam：很酷。什麼時候機器學習創業公司進入你的視線，成為投資機會呢？
Matt：當我進入科技行業工作時，基本上只關注數據和分析。
不久之前，我還是搜索軟件創業公司的聯合創始人、企業家，
我們關注貝葉斯算法的應用，貝葉斯是一種機器學習技術，我們用它查找、檢索問題。
所以說，多年來我一直關注機器學習，直到最近一段時間興趣才漸漸深厚起來。
大數據流行，基礎設施完善，我們可以捕捉並處理大量數據，成本更合理，速度更快。
最終這些因素導致機器學習技術飛速進步，在一些領域尤其明顯，
比如需要大量數據才能執行的項目，類似於神經網絡。
成為這個領域的企業家、投資者，現在恰逢其時，我們有一種感覺，
似乎幾十年的努力突然有了回報，孕育了許多的可能性。
人們對AI不斷吹捧，不斷炒作，但它是真實的，並非虛無。

言論相比技術現實有所誇大

Sam：讓們討論一個有爭議的問題。今天有許多大企業正在開發AI，
看看這些企業，就兌現承諾而言，哪家的表現最糟糕？
Matt：就我從市場上聽到的消息來看，可能是IBM。
為什麼？主要是因為IBM極力宣傳，野心很大，這樣導致自己陷入一個尷尬的境地：
承諾太多，同時進入的垂直領域太多。
沒錯，只要你願意投入幾個月時間並投入許多金錢，訓練系統，你的確可以用IBM沃森做許多有趣的事，
但是現實再清楚不過，IBM在宣傳中所說的東西有點誇大，事實上沃森沒有那麼強大。
IBM是一家大公司，所有大公司似乎都背負一個詛咒：
因為公司很龐大，如果想讓業務的規模擴大哪怕一點點，
新業務必須以非常快的速度壯大起來，這樣一來就會給牽涉的每一個人施加很大壓力。
IBM在每一個垂直領域爭奪交易，據我所知，他們失去了許多交易，
因為小企業更專注、更敏捷，IBM輸給了他們。
不過它可是IBM，我們現在還不能將它排除出去。

獲得機器學習人才有點難

Sam：Salesforce會不會走上同樣的道路？
Matt：我可不這樣認為。去年，Salesforce CEO Marc Benioff介紹了愛因斯坦AI系統，
他的言論讓企業內部的人嚇了一跳，當然部分是因為他的個性。
對接創業公司生態系統、收購企業可以帶來很大的變化，
部分是因為你可以獲得更棒的機器學習人才，就現階段而言，獲得人才是一個關鍵要素。
Salesforce與創業生態系統的聯繫更緊密，這點很重要。
它組建了Salesforce Ventures，通過這個分支機構不斷投資，
Marc Benioff還以個人名義向許多不同的創業公司投資，這些創業公司都在研究機器學習。

接入專有數據庫是一個挑戰

Sam：執行AI需要大量的數據，正因如此，創業公司相比大企業處在劣勢位置。
有沒有數據工程師正在尋找辦法用更少的數據優化模型？
Matt：就這點來說創業公司的確處在不利位置，但它們最終會獲得相當多的資源，以前是這樣，未來也是這樣。
就技術角度來說，行業內許多頂尖人物（不只是創業公司）都在嘗試用更少的數據開發更棒的神經網絡。
在可以預見的未來，這個目標就是「聖杯」。
我認識幾家公司，他們取得一些突破，在遷移學習方面研究出一些有趣的技術。
不得不說，這是一個很難的問題，解決要花點時間。
與此同時，創業公司還在尋找辦法進入更大的數據庫。
例如，醫療成像領域的AI公司需要龐大的數據。
據我所知，有幾家企業與一家大醫院合作，拿到一些專有數據，與放射圖像有關。
我還看到一些企業也在做同樣的事，只是它們所處的領域不同，比如碰撞保險、工業機械、農業等領域。
德國有一家創業公司名叫TwentyBn，它建了一個眾包數據庫，裡面有幾百甚至幾千段視頻，
人在攝像頭前演示特定手勢和動作，計算機系統處理之後就可以學習並識別動作。
從本質上講，TwentyBn搭建了自己的數據庫。
曾幾何時，獲得大量數據似乎是一個不可逾越的障礙，不過創業公司正在尋找各種辦法克服困難。
順便說一句，挑戰很多，獲得數據只是其中的一個，有了數據你還要貼上標籤，讓深度學習可以處理。
給數據貼標籤時，創業公司也有許多的資源可以用。
我接觸過幾家創業公司，它組建「小團隊」，裡面的人來自世界各地，
他們給數據貼標籤，工作方式與亞馬遜「Mechanical Turk」差不多。
還有一些企業招募深度學習專家，讓他們給特定數據類型貼標籤，
比如讓外科醫生團隊給複雜的醫療圖像數據貼標籤。

網絡數據效應浮現

Sam：通過Netflix、Spotify、Facebook這樣的產品，許多人感受到「數據網絡效應」帶來的好處。
創業公司如何才能打造強大的下一代「數據網絡」呢？
Matt：不久之前，我曾在博文中討論過「數據網絡效應」，這個主題很有趣。
從理論上講，任何機器學習公司都可以從多個用戶手中提取足夠多的數據，讓算法在數據集中運行，
然後將數據發回去，向每一個獨立客戶學習，這樣就可以形成「數據網絡效應」。
以FirstMark投資公司x.ai為例，這家公司開發AI助手，
安排會議，助手安排的會議越多，算法就會變得越聰明。
算法越聰明，體驗就會越好。體驗越好，就會有更多的人用x.ai安排會議，
公司也就可以拿到更多數據，還有其它東西。這樣「數據網絡效應」就浮現出來了。
數據網絡效應會出現在行多地方，這才是最棒的。 x.ai幫助人們安排會議，加快速度；
Phosphorous 與醫院合作，幫助它們運營基因檢測實驗室，這些場所都會出現。
在B2B領域，要想獲得「數據網絡效應」會困難一些，
因為企業喜歡保護自己的數據，不願意行業內的其它企業使用自己的數據。
儘管如此，我們可以用創造性的解決方法化解這一問題。
幾個月前，Google Research在Federated Learning發表論文，
意思就是說要在數據獨立的前提下促進機器學習行業合作。
這樣就可以解決數據隱私問題，讓各種「數據網絡效應」顯現出來。
不論怎樣，有一點需要注意：數據網絡效應需要很多年才能出現，
因為創業公司要積累客戶，收集足夠多的數據讓自己的模型學習。
一旦這種效應在你的身上形成，那就很有競爭力了。

AI會讓產品的性能大幅提升

Sam：投資者之所以關注AI創業公司，是不是因為它們很快會成為收購目標？
或者說它們有可能成為龐大的獨立企業？
Matt：從VC經濟學的角度看，你必須信奉後一種理念。
沒錯，我們看到大企業收購各類小型AI企業。與此同時，人們或多或少會認同另一個觀點：
AI是下一個大事件，機器學習人才很稀缺。
正因如此，有許多企業更像研究實驗室而不是創業公司，它們很快被收購，有時金額還很高。
對於創始人來說，這樣的結果很好，有時拿到的錢可以改變整個生活。
站在投資者的角度看，這樣的結果不錯，但算不上很好，風險回報率並不高。
現在這種交易形式快走到盡頭了，要改變了。
正是因為這個原因，像我這樣的投資者才會關注垂直AI創業公司。
因為瞄準垂直領域，AI創業公司非常專注，它的定位離大型科技公司很遙遠，
在大企業收購之前也許有足夠的時間壯大起來。
只要定位正確，我相信這些AI企業有時間搶占領先位置，在這段時間裡，
AI會讓企業分化，大量使用機器學習的企業會領先。當然，你必須挑選一個「使用案例」（use case），
讓AI大幅提升產品性能，不是修修補補，而是突破性的提升。
如果使用案例正確，AI創業公司的產品性能可以比現有替代產品好10倍。
如果使用機器學習技術，許多企業的產品性能可以提升10倍。
它可以創造機會，讓企業成為真正的市場領導者。
不論是你是創始人還是投資人，抓住下一個重大市場拐點就是你的使命。
幾年前是SaaS，現在機器學習代表下一輪革命。
最終，機會之窗會關閉，但就目前來說，許多AI優先的企業有機會在自己所處的領域領先，或者開闢新市場。

原文鏈接
翻譯