现在如今,大数据/人工智能/算法等行业慢慢的与大多数开发人员工作贴合越来越紧密。很多同学干了5,6年的web开发,整天除了业务,除了curl和对接第三方之外,很少能从技术工作中找到乐趣,还有很多同学对目前从事的web开发这块产生了厌倦。随着行业的流行,慢慢的一部分同学想更进一步的做技能提升一下,想进入大数据的行业。但是又无从下手。今天我们开始来给大家普及下大数据相关的学习系列。
首先我们进入到想要进入到大数据这个行业,我们要知道大数据是什么的?数据从哪里来?再需要依靠大数据可以做哪些业务产生什么价值,然后再了解大数据需要哪些技术,以这样子的一个方向来逐步推荐,更能让大家学习起来得心应手。
一、数据从哪里来?
在我们的工作中,数据与我们息息相关。我们日常的衣食住行都可以产生各种各样的数据,比如我们坐公交刷卡,坐地铁刷卡都可以产生数据,那么一个城市,一个省份的公交地铁出行数据是不是就非常多,当这些数据聚集起来后,我们就可以说自己进入了大数据行业。同时我们的食方面,各种app提供各种店铺,美食,图片,介绍等信息,当日活超过十万,百万后,每天能产生非常多的数据,当这些数据聚集起来后,我们就可以说自己进入了大数据行业。同时我们的衣方面,各种电商的店铺,衣服款式、尺寸、风格等信息满目玲琅,当这些数据聚集起来后,我们就可以说自己进入了大数据行业。还有我们的住,日常大家接触到的房屋信息,租房信息等,各种数据交汇在一起,我们也可以说自己进入了大数据行业。
所以总结来说,大数据是一个行业的统称,比较模糊,数据的来源主要还是基于我们的日常和其他特殊渠道。当数据量聚集较大后,我们可以利用这些数据产生价值,这就代表我们进入了大数据行业了。
二、大数据可以用数据产生什么价值
我最开始接触大数据的时候是10年,当时国内在开始大数据风,当时基于微博,微信的火爆,我们当时采集这些feeds流及文章后,把这些数据做了整理,应用于广告推荐行业。当然目前大家在常见的社交、电商等平台上能看到比较多的就是广告推荐行业。根据个人喜好,给你推荐不同的商品,促进商品的成交率。除了广告推荐行业是大家常见的之外,常见的另外一种常见就是监控行业,这个也是目前大部分toB企业在做的,举个例子,例如水电站,根据日常收集的水流信息,综合评估,自动化控制发电机的启用数量。为水电站实现利润最大化。
所以总结来说,大数据主要就是根据收集的数据,然后把这些数据业务化,为企业实现更大的利润目标。
三、大数据需要学习什么?
上两个我们介绍了数据从哪来,能产生什么价值,这里我们就来看看依靠什么方式去收集数据,去创造价值。
首先很重要,做任何数据一定要提前了解,数据从哪来,有哪些数据,这些数据我们要创造什么样的价值,再去想着技术方案落地的事情。
首先很重要,做任何数据一定要提前了解,数据从哪来,有哪些数据,这些数据我们要创造什么样的价值,再去想着技术方案落地的事情。
首先很重要,做任何数据一定要提前了解,数据从哪来,有哪些数据,这些数据我们要创造什么样的价值,再去想着技术方案落地的事情。
重要的事情说三遍。为什么要说这个呢?因为很多学习大数据的同学很茫然,老抱怨我们没有那么多数据,我们目前不存在做大数据的环境,我学了hadoop这些也不会搞大数据。为了解惑这里,所以一定要看上面的提示。
1、我不知道大数据学了干什么?
答:建议看看上面第二条,仔细看看我们手里的数据,想办法找目标,比如我们现在手里只有一份user表的数据,有姓名,年龄,学历等信息,那我们可不可以创造一个目标,分析下这些人的学习,哪些人学历比较低,但是年龄还比较年轻的,我们可不可以做个推荐系统?给他推荐学历教育?
2、我们没有那么多数据怎么办?
答:根据上诉1的例子,我们找到了目标,没有那么多的数据,我们是否可以随机生成几千万,几亿条上面的user表数据。
3、我们只是做做demo,和实际工作相差很大。
答:这里的demo其实和实际工作已经很贴近了,比如上诉1和2里面,当我们做了demo之后,在实际工作中无外乎user表的字段比demo多,流程比较复杂一点(可能会涉及到数据收集,清洗,整理等)但是核心是一样的,就是做学历教育推荐嘛。
好了上面开胃小菜,给大家介绍了学习大数据的一些困惑,接下来我们就进入整体,转行大数据需要学习哪些技术?
上面这张图就是一个比较普适的大数据技术生态系统。里面涵盖的技术有:
Hadoop Hbase Hive Spark Flink Sqoop Flume Kafka 等等
同时上面的技术生态完整的给大家列出了一个普适的大数据架构图,有:
数据来源层 数据传输层 数据存储层 数据管理层 数据计算层 任务调度层 业务应用层
大家可以好好先看看,体会体会,后期我们会挨个的讲解这些信息。
最后再补充一下:
学习大数据,一定离不开运维的工作,在大家日常做大数据工作中比较重要的几个技能点有:
数据的观察敏锐感(初级:10%,中级:30%,高级:70%,架构师:100%) 数据的整理条理性(初级:30%,中级:50%,高级:90%,架构师:100%) 技术的开发(初级:20%,中级:60%,高级:90%,架构师:70%) 运维工作(初级:10%,中级:50%,高级:80%,架构师:90%)
这几个技能点与从事大数据开发相关工作的人员密不可分,括号里面的主要是对应开发人员的标准百分比,比如技术的开发,初级开发人员占比至少要20%,以此类推。这个占比是我描述的大概情况。实际的比例应该要按照每个公司的每个岗位的具体职责来进行划分。
还没有评论,来说两句吧...