大数据成为这个时代的热点词汇,无论是大企业、小企业、传统抑或新兴行业,每一家公司都成为大数据的拥趸,好像有了大数据就能解决所有问题。
企业通过社会、天气、政府数据来预测供应链会否中断。各大网站争向抢夺用户数据,一些公司甚至开始利用大量的文本交流数据建立算法,从而与客户进行对话。
但事实上呢,我们对大数据重要性的痴迷,往往会产生误导。在一些情况下,从数据中能获取有价值的东西,但对于创新者来说,数据量和规模不是关键的因素,找到正确的数据才是关键。
在《大数据时代》一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:1)不是随机样本,而是全体数据;2)不是精准性,而是混杂性;3)不是因果关系,而是相关关系。本文解读一把为什么“不是随机样本,而是全体数据”。
但其实这个推断是有陷阱的,所谓的全体数据,在绝大多数情况下并不是“全体”。即便那些绝对重量级的互联网企业,比如说谷歌、百度、FACEBOOK、淘宝天猫,它们也不可能拥有所谓全体数据。
有时候正确的数据规模也很大,也有的时候正确的数据规模很小。对于创新者,关键在于哪些关键的数据对企业最有帮助,要找到正确的数据。
像我们一说大数据就想到的Uber和滴滴里这个例子里,为了完成自动化指派司机工作,从而减少资源的闲置,他们需要知道潜在的乘客可能在城市的哪些位置对于寻求降低成本的保险公司,他们想知道一个糖尿病患者血糖下降的时候,以帮助自动化进行围绕病人的干预措施,减少不善疾病的影响。
这就是你所需要的数据,通过处理大量的信息找到他们是很好的,如果你通过建立一个新的应用程序来捕获它们更好。
大部分公司花了太多的时间提倡大数据,但是却几乎没有花时间去想清楚哪些数据才是正确的有价值的数据,这样就得不偿失了。