• 数据清理

     如果数据很大,很多的统计错误可以最终通过大量数据的综合分析而消减掉——这是大数定理。只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。

  • 数据科学

     数据科学大致包含两个概念。其中一个概念是大数据,海量的数据经过处理分析被提取出数据化的结论。数据科学中另一个与之相反的概念就是高度专业化的预测建模,因为人们有很多需要依据各种各样的数据来做决定的时候。

  • 可视化的建议

    绘图需要正确的合理的坐标名称。将一个很大的数据集以散点图的形式展示出来并加以解释。聚类,根据宏观散点图挑选其中的不同维度的特征,然后做出不同的局部散点图来展示数据的
  • 快速作图的重要性

     这样做可以尽快地让你深入理解数据集。一旦有人给了你一批数据,或者给了你一个实时数据流的接口,你最开始应该做的事情就是找到其中有用的变量然后把它们的图像做出来。如果这批数据是基于时间的,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出一个时间序列图。如果某个变量有许多的样本,那就画出它的分布图。如果这些特征每一个变量都具备,那就把它们都画出来吧。你可以用Python或R来作图,或者用Tableau和Excel。

  • 图形建模

     图形建模是用于探索条件概率和在一个系统中随机变量之间相互影响的简单技术。图形建模最美妙的一点就是,在你开始作图的时候,同时就可以用它们来验证你对于整个系统机理作出的假设是否正确。

  • 如何从数据中发现故事

     尽量做更多的图,并且尽可能快地做出来。通过画图来表示事物是怎么运转的,哪怕是最简单的流程图表或者工程图谱都可以。很快地做出很粗糙的图片来查看一批数据是怎样的,从时间序列和柱状图开始。

  • 数据科学步骤

     数据科学的步骤大致是“获取、清洗、探索、建模和解释”。

  • 数据科学

     数据科学大致可以分为描述统计和预测分析两个板块

  • 嵌套模型

    嵌套模型是结构方程模型的一种。若甲模型的所有自由参数是乙模型内同类参数的一部分,称甲模型嵌套于乙模型内。在路径图中,甲模型的路径图可从乙模型的路径图去掉部分路径得到。设M为一个模型,不是虚模型也不是饱和模型,则虚模型M。
  • 哑变量

  • 如何识别多重共线性?

  • 多重共线性

  • 残差

    残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。
     
  • DW检验

    DW检验用于检验随机误差项具有一阶自回归形式的序列相关问题,也是就自相关检验。
  • 拟合优度检验

  • 拟合优度

  • 相关系数大小

  • 相关和因果

  • 常用的分布密度

  • 基本R绘图

    R的基本绘图功能有两类图形函数: 高级图形函数, 直接针对某一绘图任务作出完整图形; 低级图形函数,在已有图形上添加内容。 具备有限的与图形交互的能力(函数locator 和identify)。
    页次:2/33 每页20 总数653    首页  上一页  下一页  尾页    转到: