如果数据很大,很多的统计错误可以最终通过大量数据的综合分析而消减掉——这是大数定理。只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。
数据科学大致包含两个概念。其中一个概念是“大数据”,海量的数据经过处理分析被提取出数据化的结论。数据科学中另一个与之相反的概念就是高度专业化的预测建模,因为人们有很多需要依据各种各样的数据来做决定的时候。
这样做可以尽快地让你深入理解数据集。一旦有人给了你一批数据,或者给了你一个实时数据流的接口,你最开始应该做的事情就是找到其中有用的变量然后把它们的图像做出来。如果这批数据是基于时间的,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出它的分布图。如果这些特征每一个变量都具备,那就把它们都画出来吧。你可以用Python或R来作图,或者用Tableau和Excel。
图形建模是用于探索条件概率和在一个系统中随机变量之间相互影响的简单技术。图形建模最美妙的一点就是,在你开始作图的时候,同时就可以用它们来验证你对于整个系统机理作出的假设是否正确。
尽量做更多的图,并且尽可能快地做出来。通过画图来表示事物是怎么运转的,哪怕是最简单的流程图表或者工程图谱都可以。很快地做出很粗糙的图片来查看一批数据是怎样的,从时间序列和柱状图开始。
数据科学的步骤大致是“获取、清洗、探索、建模和解释”。
数据科学大致可以分为描述统计和预测分析两个板块。
locator
和identify
)。