通识教育

什么是概念描述

描述性数据挖掘的最简单类型是概念描述。概念通常指数据的汇集，如 frequent_buyers,graduate_students 等。作为一种数据挖掘任务，概念描述不是数据的简单枚举。概念描述产生
数据归约有哪些策略

数据归约的策略如下：1. 数据方聚集：聚集操作用于数据方中的数据。2. 维归约：可以检测并删除不相关、弱相关或冗余的属性或维。3. 数据压缩：使用编码机制压缩数据集。4. 数值压缩
什么是数据变换

数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:平滑：去掉数据中的噪音。这种技术包括分箱、聚类和回归。聚集：对数据进行汇总和聚集。例如，可以聚集日销售
数据处理之噪音数据

噪音是测量变量的随机错误或偏差，去掉噪音才能让数据整体更平滑，方法如下：1.分箱：分箱方法通过考察“邻居”（即，周围的值）来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。
数据清理之遗漏值

填补遗漏值的方法：1.忽略元组：当类标号缺少时通常这样做（假定挖掘任务涉及分类或描述）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺少值的百分比很高时，它的性
什么是元数据存储

元数据是关于数据的数据。在数据仓库中，元数据是定义仓库对象的数据。对于给定数据仓库的数据名和定义，创建元数据。其它元数据包括对提取数据添加的时间标签、提取数据的源、
什么是虚拟仓库

虚拟仓库是操作数据库上视图的集合。为了有效地处理查询，只有一些可能的汇总视图被物化。虚拟仓库易于建立，但需要操作数据库服务器具有剩余能力。自顶向下开发企业仓库是一种
什么是数据集市

数据集市包含企业范围数据的一个子集，对于特定的用户是有用的。其范围限于选定的主题。例如，一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通
什么是雪花模式

雪花模式是星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加的表中。结果，模式图形成类似于雪花的形状。雪花模式和星形模式的主要不同在于，雪花模式的维表可
什么是星型模式

星形模式：最常见的模型范例星形模式；其中数据仓库包括（1）一个大的、包含大批数据、不含冗余的中心表（事实表）；（2）一组小的附属表（维表），每维一个。这种模式图很象星星爆发，维表围绕中心
什么是数据区分

数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定，而对应的数据通过数据库查询提取。例如，你可能希望将上一年销售增加 10%
什么是时间数据库和时间序列数据库

时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签，每个都具有不同的语义。时间序列数据库存
什么是空间数据库

空间数据库包含涉及空间的信息。这种数据库包括地理（地图）数据库、VLSI 芯片设计数据库、医疗和卫星图象数据库。空间数据可能以光栅格式提供，由 n 维位图或象素图构成。例如，
什么是事务数据库

事务数据库由一个文件组成，其中每个记录代表一个事务。通常，一个事务包含一个唯一的事务标识号(trans_ID)，和一个组成事务的项的列表（如，在商店购买的商品）。事务数据库可能有一些
什么是关系数据库

关系数据库是表的集合，每个表都赋予一个唯一的名字。每个表包含一组属性（列或字段），并通常存放大量元组（记录或行）
什么是网页块粒度的分析算法

在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但是，在PageRank和HITS算法中，没有对这
什么是网站粒度的分析算法

网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级（SiteRank）的计算。SiteRank的计算方法与PageRank类似，但是需
什么是网页粒度的分析算法

PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网
什么是Deep Web 爬虫

Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的
什么是增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

首页

尾页

栏目简介

旨在通过专业设计、体系化梳理的内容帮助高校学生快速了解、系统掌握数据科学相关知识，尽可能学生降低认知门槛、提高学习效率。

什么是概念描述

数据归约有哪些策略

什么是数据变换

数据处理之噪音数据

数据清理之遗漏值

什么是元数据存储

什么是虚拟仓库

什么是数据集市

什么是雪花模式

什么是星型模式

什么是数据区分

什么是时间数据库和时间序列数据库

什么是空间数据库

什么是事务数据库

什么是关系数据库

什么是网页块粒度的分析算法

什么是网站粒度的分析算法

什么是网页粒度的分析算法

什么是Deep Web 爬虫

什么是增量式网络爬虫

栏目简介

热点推荐

猜你喜欢