我学的专业是电路与系统,就是设计电路的,一直学到硕士(只要喜欢,转行永远不迟)。
毕业后我去了一家世界500强企业,从事的是搭建手机通信芯片里面一个小电路的工作。干了一年半,在转行的念头中挣扎了半年,然后裸辞回家,思考人生。
待业家中7个月,期间干了很多事儿,也想清楚了很多事儿,便一头扎进大数据行业,用了一年从excel都用不太溜的小白成长为现在的数据分析主管(偏数据挖掘)。
转行穷三年,一点都没错,如果用薪资概括我的转行历程,就是这样的
转行前月入五位数 --> 转行初期五位数的第一位直接抹掉 --> 现在薪资是转行初期*400%
这就是我的转行经历,说来三言两语,但其中坎坷只有自己知道。
另外,有很多朋友问我:现在转行是不是太迟了?转行大数据行业是不是太难了?
这些朋友中有前同事,有之前一起学习的战友,也有刚毕业的大学生。我想,读到这篇文章的你或多或少也会有这样的疑问和担忧。
所以,我特别想分享两个观点:
1)只要喜欢,转行永远不迟
生命那么长,怎么会因为做了几年某个方向的工作,就把自己的标签贴牢了呢?就我个人经历而言,我花了7年学习电路专业知识,花了1.5年从事电路设计工作,到头来还是扎进了另一个毫不相干的行业。
2)别被高大上的名词唬住,大数据的逼格没有你想象的那么高
即使是偏技术的数据挖掘端,我们平时大多数时间也是在清洗数据,而不是你想象的在鼓捣AI(人工智能)。
就我个人经历而言,转行之前我的知识全在硬件方面,软件一窍不通(excel都用不咋溜),但只要你愿意在别人打游戏追剧逛街的时候,默默学习相关知识,你也可以攻下“大数据”。
现在进入数据分析行业两年了,平时会面试一些同学,我发现一个共性:
大部分应届生,或者转行的同学,对于数据分析行业的理解有较大偏误(或者干脆没想过……)
所以我单独提一章出来,从一个从业者的角度说说对数据分析行业的理解,希望能让“数据分析行业”在你脑海中有一个清晰的地图,也希望能够帮助陷入转行挣扎的你看清方向。
数据分析行业是大数据行业的儿子,它的兄弟姐妹包括:数据采集、数据工程、数据产品等。简单来说,他们之间是这样协作的:
数据采集端主要负责采集相关的数据,这些数据既可以来自埋点,也可以来自爬虫。采集量的话,比如我所在公司主攻电商大数据,就京东平台而言,月产品抽样采集量一般在三千万左右。
数据工程端简单来说主要负责结构化存储海量数据,使得采集到的数据以及历史数据以最优化的方式被存储以及调用,涉及到的知识点在于数据库方面,从最基础的SQL到Hadoop集群、分布式存储、NoSQL等。
数据分析端主要负责将待挖掘的数据清洗、挖掘、分析,给出数据背后的洞察和建议,此方向又可细分为偏业务的数据分析和偏技术的数据挖掘,后面我们细讲。
数据产品端也可以理解为懂数据分析的产品经理,此方面我涉猎不多,就不多做评价啦。
数据分析较为新兴,因此其岗位职责划分也是各家有各家的说法,不过总体可以概括为以下两个方向:
1. 偏业务的数据分析方向 2. 偏技术的数据挖掘方向
我们分别说一说上面这个图里的职位。
1)数据分析师(偏分析),此方向更看重逻辑思维,比如你思考框架的完整性、思维的灵活性。相比于比较传统的商业分析师、行业分析师,除了对业务的深入理解之外,你需要有对数据有更敏锐的嗅觉。此方向是大多数人转行大数据行业的起点,你需要熟练office软件、excel等,薪资在大数据行业中处于中下水平。
2)数据分析师(偏数据),此方向更看重数据处理基础,比如从数据库中按需求取数、按需求统计数据等,相比偏分析的数据分析师,你需要更加熟练excel、sql等。当然,对业务的理解也非常重要,因为有时候你从数据出发的建议对分析端会有巨大帮助。此方向是从数据分析师向数据挖掘等技术岗升级的路线之一,你需要熟练sql、excel等,薪资相对偏分析的数据分析师有一定提升,但天花板不够高。
1)数据挖掘工程师,此方向更看重数据技术,比如统计学基础、数据库操作(SQL等)编程基础(python等)、机器学习基础(分类模型等),同时你还需要对业务有一定程度的理解(要不怎么挖掘数据呢?)。
数据挖掘工程师的主要工作是利用已有的算法模型,对业务数据进行清洗、建模、分析(用轮子) 此方向薪资远大于数据分析师,天花板也较高,不过升级有一定难度。
2)算法工程师,此方向更看重理论基础,比如机器学习算法原理、相关数学原理等。算法工程师的主要工作一般是研究算法、为公司的相关业务需求优化算法(造轮子、修轮子、优化轮子)。
此方向薪资非常高,天花板也高,不过一是升级难度大,二是市场需求没有数据挖掘等方向大,一般是大型大数据公司才会需要这个岗位,比如BAT(中小公司由于成本问题,一般用轮子就好,最多稍稍优化一下已有的轮子)
这就是目前数据分析行业的升级地图,希望能够帮助迷茫的你看清数据分析行业的样子,更快找到适合自己的发展方向,少走弯路。
p.s. 以上技能要求我给的是最低要求,实际你应该掌握包括但不限于我给出的技能要求
相信我,只要你愿意在别人打游戏追剧逛街的时候,默默学习,你也可以攻下“大数据”,我的这条路是普适的,你也可以。
之前零基础转行数据分析,虽然买了很多课程、看了很多回答,我还是走了很多弯路,回想起来,如果有人能在那时给我一条清晰的升级路线和学习方向,我至少可以节省6个月的学习时间,所以当我有能力为后来者点明方向时,我会尽我所能为后来者理清学习方向。
下面是我的学习路线,为避免你看糊涂,我把我走的弯路去掉了,只留下从0到1这条直直的学习路线,如果你想转行数据分析,多看几遍,以后你会来感谢我的。
关键知识点:excel基本函数(sumif,countif,left,rand等)、lookup(vlookup/hlookup),数据透视表
学习时长:一周(一天4小时算)
学习资源:个人不建议一来就搞一本厚厚的大部头,根据我说的关键知识点,自行搜索用法+练习即可
关键知识点:增删改查,特别是条件查询(where, group by, order by等)
学习时长:一周半(一天4小时算)
关键知识点:numpy,pandas,matplotib,seaborn包的熟练使用
注意,python可以干的事儿太多了,从web开发到算法模型,瞄准你的目标-数据分析,专注学我说的这几个包就可以了
学习时长:6周(一天4小时算)
学习资源:《利用python进行数据分析》,主讲numpy和pandas用法,浏览一遍,用作工具书
关键知识点:概率论、假设检验、分布(泊松、二项、正态等)、统计抽样等
学习时长:3周(一天4小时)
学习资源:《深入浅出统计学》比较适合小白入门,书很厚,别怕,都是图
关键知识点:线性代数:线性代数:矩阵运算,矩阵特征(秩、迹、特征值特征矩阵、相似矩阵、正定矩阵、逆矩阵、非奇异、行列式)、线性相关,向量空间,向量范数,矩阵范数,最小二乘法,最大似然估计
微分:极限,导数,偏导数,泰勒展开,梯度下降法,牛顿法
凸优化:基本概念(凸集合,凸函数,上境图,凸组合,凸包),凸优化(拉格朗日对偶性,对偶问题,KKT条件,拉格朗日乘数法)
学习时长:4周(一天4小时算,最好学过高等数学)
2)数据挖掘算法
关键知识点:分类、回归、聚类、关联规则挖掘、降维等
学习时长:4周先把分类回归理论和代码搞定,剩下4周搞定后面的,理论理解更重要
学习资源:
《统计学习方法》经典,主讲分类算法,偏理论推导
《机器学习实战》过瘾,对着《统计学习方法》来一套,保证你对理论明明白白
《机器学习》周志华老师的,也是经典
暂略
想把所有板块的知识学完再学下一个:错!举个例子,python可以做的事情太多了,你要把python学完再进行下一步么?怎么办?学我说的关键知识点就够了。
先学技术,在搞分析:错!分析比技术门槛低得多,如果你想转行数据分析,建议从偏分析的数据分析师入手,比如自己写个分析报告作为敲门砖,技术可以在工作后利用下班时间学习。剩下的坑待补充。
相信我,只要你愿意在别人打游戏追剧逛街的时候,默默学习,你也可以攻下“大数据”。