聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。
倍数与番数同样属于相对数,但使用时容易混淆。
比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构;比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。
频数是指一组数据中个别数据重复出现的次数,频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度。
百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或百分数。百分比通常采用百分号(%)来表示,如8%,50%,168%等。由于百分比的分母都是100,也就是都以1%作为度量单位,因此便于比较,在数据分析中的应用非常广泛。
在日常生活中提到的平均数,一般是指算术平均数,就是一组数据的算术平均值,即全部数据累加后除以数据个数。
数据分析报告其实是对整个数据分析过程的一个总结与呈现,通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,以供决策者参考。所以数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
每个人看待事物都有自己的理解方式,所以数据分析师在展现结果的时候一定要保证绝大部分人对结果的理解是一致的。
数据挖掘其实是一种高级的数据分析方法。数据挖掘就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求
数据处理是数据分析的基础。通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性。
收集资料的来源主要有数据库、公开出版物、互联网、市场调查等