手机看片欧美日韩,久久精品国产主播一区二区,欧美亚洲中日韩中文字幕在线

數據即服務(DaaS)圣經:如何運營一家DaaS公司

Data-As-A-Service Bible: EverythingYou Wanted To Know About Running DaaS Companies

引文:https://blog.safegraph.com/data-as-a-service-bible-everything-you-wanted-to-know-about-running-daas-companies-d4cf4c15c038

數據業務通常被誤解-未做到深刻的理解

過去13年中我運營過2家數據公司以前的LiveRamp和現在的SafeGraph,投資了數十家數據公司,與數百家數據公司的首席執行官會面。并閱讀了大量的數據業務的歷史。我在這里分享我對數據業務的了解-主要是為投資或經營的人編寫的數據業務想法。如果這對你有幫助,聯系我。

DaaS不是真正的SaaS......它也不是Compute

數據業務與SaaS業務有一些相似之處,但也存在一些顯著差異。雖然有很多關于SaaS業務的文章講了它們如何運作,如何獲得杠桿作用,需要注意哪些指標等,但關于數據業務的文章卻很少。這篇文章作為21世紀數據業務應該是什么樣子,尋找什么(作為投資者或潛在員工)以及高管操作手冊的核心概述。

最后,偉大的數據公司看起來像SaaS公司(如Salesforce)和計算服務(如AWS)的丑陋孩子。數據公司有自己獨特的血統,術語,操作節奏等。他們是科技池塘中的一只奇怪的鴨子。這使得評估他們是否是一個好生意更難。

今天的一切都是服務 - 數據公司也不例外

幾乎所有新公司都設立為服務。軟件即服務(如SalesforceSlack,Google應用程序等)在過去二十年中一直在增長。Compute-as-a-Service(如AWS,Google Cloud,Microsoft Azure等)已成為過去十年中訪問服務器的主要手段。現在有驚人的API服務(如Twilio,CheckrStripe等)。數據公司也正在成為服務(“數據即服務”的縮寫詞“DaaS”)。

數據最終是贏家最需要的市場

從長遠來看(市場運作良好且競爭對手理性的警告),數據的利基可以由1或2個參與者主導。這種主導地位并沒有給這些人員帶來定價權。它們實際上可能具有負定價能力(公司可能繼續主導數據市場的方式之一是降低價格以使競爭對手更難競爭)。

隨著數據公司開始占據主導地位,它可以降低價格并獲得更多的市場份額,并利用這些資源在數據上投入更多......從而獲得更多的市場份額(并且周期仍在繼續)。由于數據公司沒有用戶界面并且沒有預測未來,數據公司可以通過擁有正確的事實和提供這些事實的簡單方法(API,可查詢性,自助服務,和集成變得非常重要)。

當然,一些數據市場沒有主導者,而且競爭激烈。這些通常都是壞事。但即使在這些擁有“商品”數據的企業中,通過使用價格和營銷作為杠桿,人們也可能獲得50%以上的市場份額。(相比之下,很難使競爭激烈的SaaS類別競爭力下降......我們將在后面的文章中討論這個問題)。

數據是一項不斷發展的業務

過去十年中最大的主題之一是幫助公司更好地使用第一方數據的產品。如果你投資這一趨勢,那你將掌握以后的10。這些公司包括核心工具(DatabricksCloudera),中間件(LiveRampPlaid),BI(Tableau,Looker),數據處理(Snowflake),日志處理(Splunk)以及許多甚至更多。(注意:作為對這些工具的強大功能的提醒......當我寫這篇文章時,Tableau和Looker的總價格接近200億美元!)

這些產品可幫助公司更好地管理自己的數據

由于更好的工具,互聯網使用,傳感器(如wifi路由器)等,收集的第一方數據量呈指數級增長。公司在管理第一方數據方面越來越好。與此同時,計算成本每年都在急劇下降 - 因此處理數據的成本更低,成本更低。

?

越來越多的人習慣使用數據。“數據科學”是增長最快的職業之一,越來越多的人進入該領域。人們得到更多的技術(由許多工具輔助)和數據科學家的社區快速增長-??KDNuggets報告?“?在六月2017年Kaggle社區跨過一名百萬的會員,并Kaggle電子郵件在2018年9月19日說,他們超過200萬個會員中2018年8月,?“?IBM估計數據科學的人數增長速度超過每年20%。

越來越多的人習慣使用數據。“數據科學”是增長最快的職業之一,越來越多的人進入該領域。人們得到更多的技術(由許多工具輔助)和數據科學家的社區快速增長-??KDNuggets報告?“?在六月2017年Kaggle社區跨過一名百萬的會員,并Kaggle電子郵件在2018年9月19日說,他們超過200萬個會員中2018年8月,?“?IBM估計數據科學的人數增長速度超過每年20%。

第一方數據是不夠的

但除非你的公司是谷歌,Facebook,蘋果,亞馬遜,騰訊或其他12家公司......即使完美地分析你的所有數據,也只能告訴你世界上0.01%的數據。如果您想要超越公司的針孔,您將需要外部數據

甚至五年前,很少有公司能夠利用外部數據。大多數公司仍然沒有分析自己的數據!但隨著公司越來越好地發現內部數據的洞察力,他們會越來越多地從外部尋找數據。至少,這是賭注。今天的數據購買者數量比五年前增加了一個數量級。IAB報告說,即使購買營銷受眾數據(傳統上所有數據中最不準確)也是一項龐大的業務并且還在不斷增長。

盡管如此,今天的數據買家仍然很少。大多數公司都需要應用程序(答案),而不是數據(實質上是一組事實)。今天開始(或投資)數據業務的唯一原因是,如果您認為數據購買者的數量將在未來五年內再增加一個數量級。

數據公司看起來很落后

數據公司最終將出售可證實的事實。因此,數據公司收集和制造有關事物的事實。例如,您可以創建一個關于艾菲爾鐵塔的數據公司,匯編有關其制造的鋼種類的歷史事實,多年來的所有變化,塔的高度,它如何響應風和其他條件, Gus Eiffel的傳記,以及每天從每個角度和每小時拍攝的數百萬張塔的照片。

數據公司是關于真相的。它們是關于過去發生的事情。因此,SafeGraph的座右銘是“我們預測過去。”當然,準確(甚至是可驗證的事實)真的很難(在本文的后面更多內容)。達到一個甚至接近真實的點是一項艱苦的工作。而且沒有可能達到100%真實的方法。雖然數據公司是關于真相的,但預測公司(如預測欺詐,預測信譽,預測選舉等)都與宗教有關。思考數據公司的一個框架是真理與宗教,數據與應用

真理公司專注于發生的事實,宗教公司利用這些事實來幫助預測未來。數據公司更注重銷售原始數據,而應用程序公司則采用原始數據并圍繞它創建某種工作流程。

考慮市場的一種方式是宗教公司經常從真理公司購買......而應用公司經常從數據公司購買。例如,SafeGraph(Truth Data公司)擁有許多應用程序或宗教客戶。


數據是真的非常重要

歷史上數據公司的一個奇怪的事情是它們經常在一個核心價值上失敗:真實性。

精確度(準確度)和召回率(覆蓋率)之間存在巨大的折衷。過去,大多數數據供應商都在優先考慮覆蓋范圍而不是準確性。關于營銷的“人”數據(見下文“人員數據”的討論)尤其如此。一個人擁有數據的實體越多(以及關于每個實體的信息越多),任何一個數據元素的正確性就越小。

不久前,大部分最好的數據實際上是手工編制的。一些最大的數據公司仍然有3000人呼叫中心呼叫和收集數據。隨著數據變得更容易以編程方式收集和合并,我們應該看到更多具有準確數據的公司達到規模。

隨著公司越來越依賴數據(并在數據上建立機器學習模型),事實將變得更加重要。如果您使用數據來預測未來,那么代表過去的數據需要高度準確。當然,沒有數據集是100%真實的......但是好的數據公司都在追求真理。

在數據公司中尋找的一點是它的改進速度。一些數據公司實際上發布了他們的變更日志,記錄了數據隨時間的變化情況。數據提高的速度越快(公司承諾的事實越多),數據公司贏得市場的可能性就越大。贏得市場有很大的收獲。

數據業務的三大支柱:收購,轉型和交付

SafeGraph的總裁兼聯合創始人Brent Perez總是喜歡提醒我,數據公司只做了三件事:

?

1)數據采集

2)數據轉換

3)數據傳遞

第一支柱:數據采集是關于引進原材料

公司有很多方法可以獲取數據,而且每個數據公司都需要至少采用其中一種方式。獲取數據的一些方法是:

  • 數據合作:讓您的客戶向您發送數據(通常是免費的),以換取對數據的分析。Verisk就是一個很好的例子。Clearbit為客戶聯系人提供了出色的數據合作。意外收獲數據有一個很好的數據合作伙伴,花錢的人。Bombora有一個關于B2B購買意圖的合作社。
  • BD交易:創建強大的長期業務開發交易以獲取數據。這些通常需要很長時間才能進行談判并且成本很高。雖然這是固定成本,但會計規則通常要求公司將這些成本計入COGS(即使成本是固定的) -??請參閱數據業務的利潤最初看起來非常糟糕(下圖)。Datalogix(2015年向甲骨文出售)通過與Polk簽訂的長期協??議獲得了很好的收購汽車數據。BD交易往往非常困難,因為大多數公司高估了他們的數據......他們沒有意識到實際使數據有用并將其推向市場所需的大量工作。盡管有許多公司將數據貨幣化作為其當前商業模式的副產品。
  • 公共數據:編制大數據的公司的一個例子是搜索引擎(如谷歌)。他們不直接為數據付費 - 而是抓取網絡(這可能是超級昂貴的)。在這種情況下,獲取數據的成本低于該線。

數據業務的第二大支柱:數據轉型

您的數據采集可能來自數千個來源。您需要將數據融合在一起并使其更有用。

即使您從一些BD交易中獲取數據,您最終也希望將數據集一起繪制,以便跨數據提出問題。這就是真正的魔力(我敢說,“協同效應”)發生的地方。一旦您將天氣數據與迪斯尼樂園的出席結合,您就可以開始提出真正有趣的加入問題。您加入的數據集越多,您可以提出的問題就越多。

有些轉換可能很簡單(比如UTC的本地時間),有些轉換可能非常復雜。數據科學家花費90%的工作來處理數據,而不是構建模型。當它真的應該是相反的方式。因此,簡單地過濾/重復數據本身就是一種有價值的轉變。

您想問的問題包括:如何將所有數據集合在一起?你的“鑰匙”(小學或中學)是什么?您如何確保將正確的數據分配給正確的實體(業務,人員等)?你如何衡量效力/準確度?這個下游對于使數據更有價值有什么影響?

如果數據公司正在使用機器學習(大多數優秀的數據公司都是這樣),那么這就是所有ML魔法發生的步驟。例如,SafeGraph使用計算機視覺和ML來對齊,登記和連接衛星圖像與街道地址和興趣點。

數據轉換非常困難。正如Windfall Data首席執行官Arup Banerjee提醒我的那樣:“你不能只用一個簡單的修復方法修復一個錯誤 - 你當然可以'后處理'并刪除某些數據點,但它并不像A那么容易/ B測試放置主頁按鈕的位置 - 您需要具有高度的保真度和信心。“

第三支柱:數據交付是關于客戶如何訪問數據

  • 它是一個企業解決方案,他們獲得一個大批量文件(通過s3桶或SFTP)?它是API嗎?有自助用戶界面嗎?你有什么與現有平臺(即SFDC,Shopify等)的集成?
  • 數據是否實時流式傳輸?或者每月編制數據?它可靠,及時或可變且不可預測?
  • 數據是否記錄良好且定義明確?或者它包含不可理解的列和糟糕的數據字典?
  • 數據是否記錄了其假設和變化?是否存在“隱藏”過濾器和假設?
  • 數據是否組織成有意義且有用的模式和本體?是否可以輕松加入內部數據或其他外部數據集?或者客戶是否必須構建自己的攝取ETL管道才能使用數據?

偉大的數據公司統一了一個中心主題

數據公司需要獲得杠桿作用,因此數據應該最終與公共密鑰結合在一起。擁有一個可以跨不同元素綁定數據的數據模型非常重要 - 因此擁有某種指導主題非常重要。對于數據庫書呆子,將主題視為具有跨數據集的一系列外鍵的統一主鍵。這不僅適用于數據公司,偉大的中間件公司也應該有一個中心主題來將所有數據拼接在一起。

當然,最好的主題是每個人都能理解的主題,足夠大,可以收集大量有趣的數據,并且可以進行國際化。

數據業務的最大主題是構成我們世界的核心概念:

  • 制品
  • 地方
  • 公司
  • 程序

(我們深入研究了附錄中的每個“主題”)

將靜態數據與時間聯系起來

這些靜態維度(人員,產品,公司,地點等)的數據在時間和時間變化時變得更有價值。如果數據發生了很大變化,您可以為數據收取更多費用(并與訂閱模式保持一致) - 更重要的是,您可以留住客戶,因為數據不僅僅是一次性使用。

例如,對實時交通數據收費有時可能比對街道地圖收費更有價值。這是與物理世界一起使用時間的一個例子。

另一個與物理世界交叉的例子是天氣數據??- 它一直在變化,對許多消費者和行業都至關重要。在像舊金山這樣擁有數百個微氣候的地方,天氣數據本身每100平方米每小時都有變化。

經典時態數據集之一是每次股票價格每股價格。該數據集對任何公共市場投資者都至關重要。這些數據可以追溯到100多年前(一百年前的“滴答”可能是一天,而今天的“滴答”可能是十分之一秒)。

事實上,許多最有價值的數據都與定價有關。例子包括商品定價,租賃定價,亞馬遜商品價格,經濟學人巨無霸指數等。

將數據集鏈接在一起使數據更有價值

數據本身并不是很有用。是的,很高興知道美國獨立宣言于1776年7月4日獲得批準 - 這可以讓你證明你是一個聰明的人,并幫助你在獨立日更享受你的熱狗。但它沒有大量的孤立使用。

數據變得有用的一個重要方法是將數據與其他數據聯系起來。可以連接的數據越多,它就越有用。原因很簡單:數據僅與它可以幫助回答的問題一樣有用。將數據集連接,鏈接和繪制在一起可以讓人們提出更多不同類型的問題。

一個很好的連接關鍵是時間。如今,時間大多是非常標準的(幾個世紀以前就不是這樣)。我們甚至還有一個標準化時區的UTC時間,以便在日本和阿根廷的同一時間發生的事件就這樣表示。

另一個連接鍵是位置(如郵政編碼)。

您可以找到的連接鍵(和連接的數據集)越多,這些數據就越有價值。

讓我們考慮一個簡單的例子。讓我們在股票代碼上獲取數據,并找出公司所有業務的地理位置(地理位置)。然后讓我們來表示每個郵政編碼對公司銷售額的影響。然后我們可以將這些數據(通過時間和地理位置)加入歷史天氣,以查看天氣是否與歷史上的各個運營地點和股票價格有任何關聯。

  • 隨著您不斷加入數據,您可以提出的問題數量呈指數級增長。
  • 隨著數據量的增長,您可以回答的問題數量呈指數級增長。
  • 這意味著如果數據集A的值為X且數據集B的值為Y,則連接兩個數據集的值遠遠大于X + Y.?因為數據市場仍然很小,但價值還不是X * Y ......但未來可能會接近這個數字。

將密鑰構建到數據中以便更容易加入:使其簡單易用

如果您將數據與其他數據集連接起來(即使您沒有從其他數據集中獲利),您的數據將更有價值。這是大多數在數??據公司工作的人都不了解的第一件事。

大多數人認為他們需要囤積數據。但是,如果數據可以與其他有趣的數據集結合,則數據的價值會增加。因此,您應該盡一切可能幫助您的客戶將您的數據與其他數據相結合。使數據易于組合的一種方法是有目的地考慮鏈接它 - 實質上是為其他數據集創建外鍵。

數據公司的SIMPLE首字母縮寫詞 - ID或外鍵。

  • 可存儲。您應該能夠脫機存儲ID。例如,我知道我的SSN和我的工資單系統存儲了我的SSN。
  • 不變的。它不應該隨著時間而改變。一個人的SSN從出生到死亡通常是相同的(除非您參加證人保護計劃)。
  • 細致(高精度)。兩個不同系統中的同一實體應解析為相同的ID。某人聲稱他們擁有不同的SSN應該是非常困難的。
  • 便攜式。我可以輕松地將SSN從一個工資單系統轉移到另一個工資單系統。
  • 價格低廉。ID需要便宜(甚至免費)。如果它太昂貴,交易成本將使其在許多情況下難以使用。SSN本身沒有成本。
  • 成立(高召回)。它需要涵蓋幾乎所有的主題。SSN幾乎涵蓋了每個美國納稅人(以及更多)。

創建SIMPLE鍵以將數據與其他數據集相結合是構建真正有價值的數據公司最重要的事情。除非您計劃轉向世界上的所有數據,否則您的數據需要繪制成其他數據集,最好的方法是簡單。

我希望看到一個積極鼓勵組織共享數據的世界,因為更多的數據共享將帶來更加開放的信息世界。


數據公司的經濟學并不是他們所看到的

大多數數據業務的利潤率最初看起來非常糟糕

數據公司通常在吸引A系列和B系列投資者時遇到很多麻煩,因為開始時利潤率通常看起來非常糟糕。數據公司通常具有購買核心原材料的固定成本,并且由于一些奇怪的會計原因,這些固定成本位于COGS中。因此,利潤最初看起來非常糟糕(有時甚至可能在第一年為負)。

但這些“COGS”并沒有隨著收入而擴大。事實上,隨著公司進入新市場,它們只是階梯功能成本。益百利的執行副總裁邁克爾梅爾茲提醒我,“增長的利潤最終會對成功的數據業務產生極大的吸引力。”

以下是公司數字的示例:

增量利潤最終在成功的數據業務中變得極具吸引力

想象一下,如果你是2013年底看到該業務的B系列投資者那么。投資數據公司的經驗很少(有95%以上的SaaS投資者)會關注這家公司并認為這是一個很長的時間。 - 保證金業務50%。實際情況是,數據成本通常是長期資產,而且由于奇怪的會計規則,它們只存在于COGS中。

數據是一種快速貶值的資產(因為它的大部分價值都是時間性的),但即使是歷史數據也可以有很多價值。而且它是一次性購買,盡可能多次出售。收集數據本身是一項重要的資產 - 只是編譯數據的行為導致了“學習曲線”的護城河。

相比之下,SaaS公司在銷售,營銷和客戶成功方面花費了巨額資金。這些成本中的大部分在技術上都“低于線”,因此SaaS利潤看起來很好。在某些情況下,這些成本確實應該低于這條線,并且真的很高,因為公司管理不善(Vista Equity在收購公司時降低了這些成本已經取得了巨大的成功)。

但其中許多成本都是隱藏的COGS,而這些SaaS公司的真正利潤率實際上并不如宣傳那么好,因為它們的競爭非常激烈。在DaaS公司中,CAC(客戶購置成本)往往會隨著時間的推移而下降(對于相同的客戶類型)。在一些最好的SaaS公司中,CAC最終穩定但很少顯著下降(Vista Equity公司似乎是例外)。

一種看待這種情況的方法是每位員工的ARR(年度經常性收入)。另一件需要關注的是每位員工的凈收入。該指標隨著時間的推移會變得更好還是變得更糟?一旦公司達到一定規模(比如2000萬美元的ARR),該指標每年都會好轉,除非有一些核心戰略投資原因導致其下降。如果ARR /員工越來越好,那么這項業務可能就是一個好的。像谷歌和Facebook這樣的公司每位員工的凈收入非常高 - 比如每位員工超過100萬美元。但是,許多最好的SaaS公司每位員工的收入在10萬美元到20萬美元之間。每位員工的凈收入越多越好。

一個很好的類比是Netflix,它匯集了全球消費者,以證明在內容上花錢。Netflix在內容上花了很多錢,但可以在所有訂閱者中攤銷。當然,這個比喻有點失誤,因為雖然數據很昂貴,但它遠不及創造高質量視頻內容的成本。有些數據業務看起來更像Spotify(必須向內容創建者支付一定比例的收入)。這些企業的“利潤”更合法,更永久。


示例:“Priviconix”

當然,有很多方法可以進行數據采集,并且它們具有不同的成本結構和不同的帳戶規則。讓我們分析Priviconix,一家虛構的公司出售有關隱私政策的數據。它解析了前100,000家公司的隱私政策,并對這些政策進行分析。

(順便說一下,這是一個虛構的例子,但有人應該創辦這樣的公司 - 我很樂意為此提供資金)

可能有供應商已經抓取了前100,000個公司網站,并且可以向您發送其隱私政策的每日文件。假設您每年花費40,000美元購買。該成本位于COGS(線上)。

讓我們說你決定自己做爬行。假設每年花費55,000美元的工資來維持爬行。這些成本(如果你甚至可以計算它們)低于該線。一些首席執行官可能會傾向于選擇55,000美元的選項,因為這會讓她的利潤看起來更好。但實際情況是數據是一樣的。許多投資者并不欣賞這種區別。

當然,這取決于采購數據的模型。BD交易的成本非常高,但合作社的利潤率非常高(通常從一開始就是如此)。根據結構,準確性以及您可以抓取的內容的一致性,公共數據會受到影響。

獲得主導市場份額(并利用收購)

一旦你有一個數據公司的飛輪,你需要在你的利基市場占據市場份額。目標應該是達到50%以上的市場份額。例如,LiveRamp在其利基市場占有超過70%的市場份額。獲得50%市場份額的一種方法是追求一個非常小的利基并堅持不懈地專注于它。當然,您最終需要搬到相鄰的壁龕。

另一種主導市場份額的方法是通過激進的定價。在SaaS領域,這通常是不可能的,因為CAC太高 - 因此降低LTV,即使是暫時的,通常也不是明智的選擇。但是對于DaaS公司來說,CAC可能很低,人們可以找到讓它們隨著時間推移降低的方法。如果是這種情況,那么有一種情況是使用貝索斯“你的保證金是我們的機會”策略進行價格激進。

一旦獲得牽引力,通過收購獲得市場份額優勢的第三個杠桿。SaaS公司在收購競爭對手方面遇到了很多麻煩。這是因為SaaS公司有一個用戶界面 - 因此合并這些工作流程非常困難(而且幾乎從未做過正確)。當SaaS公司收購時,他們傾向于在相鄰的空間購買其他產品,因此他們有更多的產品來銷售他們現有的客戶(以增加每個客戶的LTV)。對于Oracle,Salesforce和其他人來說,這是一個非常成功的戰略。當然,數據公司也可以獲得新產品以銷售給他們的客戶。

但DaaS公司有更多機會收購直接競爭對手。這些DaaS收購有可能更容易成功(和模型),因為他們只能獲得客戶合同(如果他們已經擁有優質產品,尤其如此)。例如,如果有兩家公司在股票代碼上銷售定價數據,那么將這些產品組合起來非常簡單 - 基本上只需購買客戶關系和持續的相關收入。

獲得市場份額優勢的目標不是提高客戶的價格。反之。目標是降低您的CAC,以便為您的客戶降低價格。CAC下降是因為有一個主導者。由于價格下跌,LTV也下跌。但LTV / CAC比率并沒有下降(它們通常會上升)。偉大的DaaS公司就像計算公司(想想AWS)一樣 - 它們每月降低每個基準價格的美元。因此,客戶可以獲得更多的金錢價值,而且這些價值會隨著時間的推?(在SafeGraph,我們的目標是為客戶提供每月至少5%的復合效益 - 這意味著每個數據元的美元每月最少下降5%)。

復合是數據公司的關鍵。數據公司構建的資產隨著時間的推移變得越來越重要。但是在早期很難看到復合,所以人們常常放棄。當然,許多超盈利的數據公司都停止了創新,只是簡單地編制了數據的過去繁瑣的工作(有時幾十年前就完成了)。


商品化你的補充

與所有企業一樣,數據公司希望了解其補充和替代品。數據業務的核心補充是云計算平臺(如亞馬遜網絡服務(AWS),微軟Azure,谷歌云等)和處理數據的軟件工具(其中許多是開源的)并理解數據(像許多機器學習平臺一樣)。工具越強大,計算能力越強,客戶就越有可能購買和使用數據。

事實上,如果您從事數據銷售業務,您可以通過了解客戶使用的其他工具輕松獲得客戶資格。在Snowflake和Looker上花費大量資金的客戶可能更有可能購買您的數據。

另一件需要考慮的事情是如何將數據補充商品化。可能有核心數據使您的高價數據更有用。在這種情況下,您希望確保客戶可以訪問該數據(即使您不銷售它)。實現這一目標的一種方法是開源數據集可能與您的數據保持一致。另一種方法是使用已經免費的數據(如政府數據)加入您的數據。在SafeGraph,我們意識到我們的許多客戶希望將我們的數據與美國人口普查結合起來,但這些數據極難下載和使用 - 所以在黑客一天我們創建了一個更簡單,免費下載的Census Block Group數據。要了解有關商品化 - 補充策略的更多信息,請查看Joel Spolsky的詳細帖子(更多信息:Joel Spolsky)和Gwern

縱向與橫向,數據購買者數量以及DaaS市場的增長

通常,大多數優秀的SaaS公司都會銷售給特定的行業。另一方面,DaaS往往比SaaS更加橫向。數據往往比軟件更加橫向。計算也是橫向的。許多API服務也是如此。

這是因為數據只是解決方案的一部分。它只是一個組件。這是一種成分 - 就像向廚師出售高品質的松露一樣。SaaS(軟件)就是解決方案。SaaS公司解決問題。所以他們通常需要深入了解具體問題。雖然SaaS公司可能不是行政總廚,但他們至少將自己定位為Sous-Chef。

許多DaaS公司不是將數據出售給最終用戶,而是直接出售給軟件公司。大多數終端客戶還不是數據的復雜買家 - 因此DaaS公司尋求低成本(其他技術公司)。當然,情況并非總是如此 - Windfall Data非常成功地將其數據出售給非營利組織和大學(顯然是低技術)。關于數據市場的一個有趣的事情是它在歷史上一直是一個非常糟糕的市場。歷史上很少有公司能夠購買大量外部數據并利用它。事實上,許多公司都在努力利用自己的數據。

例如:對沖基金

就在五年前,11,000只對沖基金中只有大約20只使用了大量的替代數據。今天(截至撰寫本文時為2019年),它仍然只有大約100個基金。但目前有數百家基金正在進行投資,以便更好地管理,提取和使用這些數據。所以五年后,可能會有500個基金。500只仍然只是11,000只基金中的一小部分......但它是近期歷史上的顯著增長。

由于對沖基金行業是一個競爭和整合的行業,可以產生阿爾法信號的增量數據點被視為稀缺資源,不應該被共享(一旦其他參與者知道信號,阿爾法就會收縮直到它消失)。在此期間,有一種購買數據集專有權的做法,這種做法限制了其他對沖基金的數據可用性,并提高了可比數據集的價格。一些最佳基金的數據收購成為競爭優勢的戰場。

對沖基金總是知道替代數據的力量。今天,當涉及到獲取替代數據并將其轉化為洞察力時,該行業發現自己處于更民主化的狀態。計算能力更便宜,有更多和更便宜的供應商提供可比較的數據集和更多合格的數據科學家和工程師,可以雇用他們比5年前更好地完成他們的工作。

這不僅僅是對沖基金的趨勢。每個行業的數據消費增長看起來都是一樣的。

部分這種增長是因為人們正在認識到數據的力量。但大部分原因是由于管理和處理數據的工具的力量增強。我們在SafeGraph上使用Apache Spark來管理我們的數據集。Spark是一個非常強大的工具,它比Hadoop堆棧更強大,更容易使用(這是我們十年前在LiveRamp上使用的)。

SafeGraph的客戶受益于Snowflake,Alteryx,ElasticSearch以及許多其他超強大工具。新的ML工具可以比以往更輕松地從數據中獲取洞察力。這些工具對DaaS來說非常重要:它們為愿意并且能夠購買和接收數據的公司增加了市場。

過去,只有擁有最優秀后端工程師的公司才能從大量數據中收集洞察力。最好的軟件工程師只想為頂級技術公司工作 - 他們可能不想為像星巴克這樣的QSR工作。但現在星巴克可以為Snowflake買單并擁有五年前最好的科技公司所擁有的力量。

數據即服務(DaaS)公司的運營節奏


運行良好的數據評估流程。

幾乎每個數據公司的每個潛在客戶都希望在做出大量購買決策之前評估數據。使您的客戶輕松完成評估過程對任何數據公司都至關重要。您還希望為您的銷售人員提供便利(因為數據公司往往會有很多輪胎踢球者)。

加速數據購買和評估的一種方法是使用免費增值模式或某種自助服務模式(或兩者兼而有之)。例如,SafeGraph有一個簡單的自助服務免費使用優惠券代碼“SpringIntoSafeGraph”100美元免費數據)。一旦公司已經使用了一些數據,它們就是資格預審(如PQL - 產品合格潛在客戶)。

加售是長期重要的

如果您是一家數據公司,并且您的客戶從您的服務中受益(并且他們已對數據進行了評估并認為這是真的),那么您就可以向這些客戶追加新的數據元素。通常,數據公司能夠隨著時間的推移向上銷售其他數據產品或服務。通常,他們首先銷售一種數據產品,然后隨著時間的推移向銷售客戶提供額外的數據產品目錄。

非常重要的是,您在添加SKU時保持質量。這很難做到更慢,而不是稀釋你的品牌。如今大多數大型數據公司都擁有不同質量的SKU,這真的會傷害他們的品牌。他們最好賣掉更少的SKU(或賣掉競爭對手的SKU)。

數據協議以及數據的實際銷售方式

數據可以在很多方面出售。按量,使用權限,SLA等。所有數據協議中包含的一件事是買方的特定權利。這些權利概述了買方可以對數據做些什么。

例如,許多數據協議都是有時限的 - 這意味著在協議終止或到期后需要刪除數據。大多數協議不允許最終買方轉售數據,但有些協議可能具有有限的轉售權或討論衍生數據可以做什么和不能做什么。這些數據權限可能非常復雜,因此您的組織通常可以對其進行標準化,而不是為每個客戶提供大量不同的數據權限。

欺詐,水印等等

“數據”的一個問題是它很容易被復制。幾個世紀以來,地圖制作者不得不應對他們的地圖被復制和被盜。從500年前開始,許多制圖師將虛假數據添加到他們的地圖中(如假街道甚至國家)。然后,如果他們看到再現,他們知道這是他們的。

如今,許多數據公司都在其數據中添加了水印。基本上,他們會將微小的偽數據混合到真實數據中,以便跟蹤它。超級復雜的數據公司將為每個客戶提供不同的水印 - 因此他們可以跟蹤特定客戶的數據泄露。


使用數據的單座模型

許多數據公司實際上并不銷售數據下載(“千克數據”),而是將類似SaaS的單座許可證出售給允許用戶下載數據并使用它的工具。CoStar,Reonomy,Clearbit,Second Measure,Esri,Verisk等創新公司都有這方面的一些版本。每個座位的訂閱模式使定價更簡單,也可以更容易保護數據。但是,單座模型還意味著您的公司需要構建用戶界面,分析等。這可能意味著您很快就會與許多其他解決方案競爭(您將無法將數據出售給您的分析競爭對手)。

將數據導入工作流程可能非常強大。亞歷克斯MacCaw,首席執行官Clearbit,經常提醒我說:“?除非是在它需要的地方的數據是沒有用的。因此,構建優秀的集成和工作流程是公司競爭的關鍵優勢。”您的業??務模式和方法會因您的數據集,合作伙伴,縱向和競爭而有很大差異。

軟件與數據。

目前,大多數公司在軟件上花費的錢比在數據上花費的多。它們的軟件供應商數量通常也是數據供應商的20倍。Ridge Ventures的?GP?亞歷山大·羅森Alexander Rosen)提到“這會在二十年內有所不同嗎?我想會的。“

數據公司很難上手,因為它們只是數據而不是完整的解決方案。這也很難,因為很多數據質量很差 - 所以你需要超越噪音才能吸引任何客戶。好消息是,隨著軟件(如Snowflake等)變得越來越強大,評估數據(在購買過程中)將變得更加容易。


數據公司是unsexy檔案管理員

在一家數據公司工作就像是國會圖書館的檔案管理員。你知道你的工作很重要,但你也知道這是一個幫助其他人發光的配角。您的工作是幫助和支持創新者

檔案工作者的紀念碑很少。他們沒有獲得諾貝爾獎。他們不寫憲法,他們只保留憲法。作為檔案保管員意味著非常謙虛。你是一個無名英雄。您的工作是幫助創新者創新。你不是賽車手,你是維修站工作人員(或者也許只是制造扳手的人)。

有些人自然會對成為檔案保管員的角色感到興奮。他們很高興能夠在后臺工作并具有發揮核心支持作用的內在自我價值。就像百老匯戲劇中的燈光工程師一樣。但并不是每個人都適合幕后工作,那些人不應該在數據公司工作或工作。

(注意:如果您對成為檔案管理員的使命感到興奮,請加入我們的SafeGraph職業生涯

?

附錄:數據主題

“人”是一個非常普遍的主題

人:圍繞一個人的數據。數據可以與電子郵件地址,社會安全號碼,電話號碼,廣告商ID,cookie,姓名和地址以及許多其他關系捆綁在一起。專注于人員數據的數據公司包括Experian,Clearbit,People Data Labs,FullContact和Windfall Data。中間件公司也可以將他們的數據模型建立在人們身上(LiveRamp就是這樣)。幾乎所有使用“身份”一詞來描述其服務的公司都可能基于“人”主題。

人員數據隱私

擁有“人物”主題的一個問題是保護人們隱私的重大責任。其他數據主題(組織,產品,地點,程序等)都沒有大的隱私問題 - 但對于人員數據,隱私是問題。在今天的GDPR,CCPA,等待聯邦監管,要求通過(以及更嚴格審查)Apple,Google,Facebook等隱私要求的情況下尤其如此。保護消費者數據變得至關重要。即使消費者通常不是數據公司的直接客戶,也需要盡一切努力確保她從最終使用該數據中受益。

當你獲得更多關于人的數據時,你也會受到來自外部的攻擊(因為關于人的數據可以被用來從人們那里偷錢)......所以安全變得非常非常重要。有關人員數據的好處之一是難以訪問且無法廣泛使用(或需要合作伙伴網絡訪問)。通常,隱私問題可能是一個特征(而不是錯誤),這會產生可防御性,并且可以圍繞任何可以聚合它的人設置護城河。

真相很難評估

當然,關于人的數據的一個巨大問題是,客戶很難檢查它是否屬實。因此,大多數客戶對數據進行折扣并認為數據非常糟糕(這意味著很難為更好的數據收取額外費用)。

人員數據業務中的壓倒性風向一直朝著可能使得第三方人員數據業務(與消費者沒有直接關系)變得越來越困難的方向發展。新法規(如GDPR)可能會給人們的數據公司帶來很多負擔......但這些法規也為那些做得對,并真正旨在保護消費者的人創造了大量機會。

“產品”主題

另一個很棒的主題是關于產品(或SKU)的主題。您可以瞄準所有產品(如條形碼)或產品的子集。您的大多數電子產品(如智能手機,筆記本電腦,電視等)都帶有唯一標識該設備的序列號。可以啟動整個數據公司了解這些序列號或SKU的其他標識符。

一個例子是RL Polk(現在是IHS Markit的一部分),它傳統上收集了有關汽車的數據。他們的目標是成為關于汽車的最佳數據來源。而不僅僅是汽車的品牌和型號......而是關于實際的個性化汽車。因此,他們使用外鍵,如車牌號碼和單獨的車輛識別碼(VIN)。產品非常重要,它們可以成為真正的利基市場。例如,您可以建立一個出售葡萄酒瓶信息的優秀葡萄酒情報業務。產品的另一個好處是它們沒有隱私問題......只要你不將它們連接到人類,你就可以收集你想要的任何東西。

“公司”一直是個好生意

歷史上另一個好主題是出售有關公司(或組織)的數據。Dun&Bradstreet運行DUNS號碼以唯一識別公司。DUNS被許多組織(包括美國政府,英國政府,聯合國等)使用。它自1963年以來一直存在,但在過去的20年中只是變得更加標準。Dun&Bradstreet與美國聯邦政府簽訂了一份合同,該合同有助于使DUNS成為標準。例如,公司必須注冊DUNS號碼才能與聯邦政府合作或向聯邦政府提交某些文件。

許多政府和組織不僅使用DUNS作為標準,而且還經常需要獲得某些服務(如許多銀行貸款)。由于DUNS是標準的,因此不同的組織可以輕松地在公司上共享信息。例如,如果銀行想要將其貸款重新打包給企業,它會使用DUNS號來描述該業務,以便所有其他方可以更好地評估貸款(因為他們擁有他們信任的業務信息)。與公司相關的數據的另一個例子是股票代碼(以及加入其中的所有財務數據)。

“地方”就是你對物質世界的看法

最古老的數據形式之一是有關某個地方的信息。

地圖已與我們一起存在了數千年。由于國家和城市的地圖變化不大,制圖師一直擔心他們的工作會被復制。因此,從16世紀初開始,地圖制作者開始在他們的地圖中插入假地點 - 包括假街道。

SafeGraph(我工作的地方)專注于有關地方的信息。在撰寫本文時(2019年6月)SafeGraph專注于可以花錢的地方(比如用現金或信用卡支付某些東西)或者可以花時間(比如公園等)。數據包括商店營業時間,地址,地點類別,幾何圖形(例如建筑物多邊形),地點的IP地址等。

SafeGraph發布其完整模式??- 如您所見,一切都連接到一個地方(通過SafeGraph Place ID)。還有許多其他超級成功的地方企業。CoStar是一個令人驚嘆的地方業務(截至撰寫本文時,它們的市值超過200億美元)。他們有關于商業房地產租賃的詳細信息(如每平方英尺的價格,租約長度等)。最初他們收集了來自經紀人的數據(今天他們在大數據合作社中直接從大地主那里獲得了大量數據)。CoreLogic銷售有關住宅物業的數據(如房屋的最后交易價格,臥室數量,平方英尺等)。許多擁有房屋價值數據的B2C網站都是從像CoreLogic這樣的地方獲得的。

“程序”略有不同 - 它是關于如何完成工作的說明

“過程”是關于特定動作的數據。這些在醫學領域最常見。例如,“Lasik手術”是一種程序 - 可能具有某種專業知識,時間長度,設備和價格。程序往往是比人,地點,公司或產品更復雜的數據元素,因為它們通常是將許多人/產品/地點組合成一個動作的東西。但程序仍然有自己的ID,自己的代碼等。

?

蜀ICP備15035023號-4

<rp id="pptpi"><xmp id="pptpi"><th id="pptpi"></th><dl id="pptpi"><pre id="pptpi"><noframes id="pptpi"><code id="pptpi"></code><kbd id="pptpi"><strong id="pptpi"><pre id="pptpi"></pre></strong></kbd>
  • <var id="pptpi"><dl id="pptpi"></dl></var>
    <menu id="pptpi"></menu>

    
    <rt id="pptpi"></rt>
  • <rp id="pptpi"><strong id="pptpi"><meter id="pptpi"></meter></strong></rp>
  • <p id="pptpi"></p>
    主站蜘蛛池模板: 西畴县| 安溪县| 呼和浩特市| 五原县| 隆尧县| 剑阁县| 玉环县| 淮阳县| 廊坊市| 怀仁县| 泸定县| 陆良县| 台中县| 聊城市| 眉山市| 巴林右旗| 集贤县| 阿荣旗| 廉江市| 武义县| 博野县| 英山县| 九江市| 抚州市| 昔阳县| 金川县| 汝阳县| 马关县| 汾西县| 闵行区| 湖北省| 正定县| 甘谷县| 德昌县| 融水| 高陵县| 永胜县| 伊宁县| 隆子县| 本溪市| 大姚县|