接上篇《大数据学习入门(一)大数据需要学什么》,上一篇我们介绍了大数据应该学习什么,这一篇呢,我们来介绍下一个稍微完整一点的大数据平台都有哪些系统,这些系统都有哪些能力,下面挨个介绍一下。
一、数据采集平台
痛点 | 平台能力 | 描述 |
数据处理能力支撑不足,不同数据量缺乏合理的方案 | 数据采集 | 提供多种数据量级的处理支撑,全量或增量数据百万级、千万级以上数据支持 |
数据源与数据类型支持不完整 | 提供丰富的数据源支撑 |
|
提供多种格式与类型的数据管理 | 结构化 |
非结构化 |
离线数据
|
实时数据 |
ETL可视化配置支持 | 提供丰富的数据处理组件 |
|
无需编码通过拖拽配置节点,即可完成简单的数据ETL作业 |
|
保障数据质量(格式或数据项),避免ETL产生的脏数据,影响后期数据分析 | 针对表数据格式与数据集的格式校验功能 |
|
对不满足的格式进行数据标记,并发邮件提醒,有效保障数据的质量 |
|
作业运行情况及时掌握 | 提供完善的任务执行日志记录 |
|
任务执行情况直观查看 |
|
任务异常提供邮件提醒 |
|
二、大数据治理平台
痛点 | 平台能力 | 功能 | 描述 | 描述 |
理清数据结构避免形成数据沼泽 |
| 元数据采集 | 元数据信息 |
|
血缘信息 |
|
数据分层定义 |
|
|
大数据平台中数据关系梳理 | 数据仓库关系维护 |
|
提升数据质量,保障后续数据分析的准确性 | 检测业务系统元数据质量是否满足要求 | 质量规则配置 |
|
|
数据元定义 | 数据范围 |
|
可选值 |
|
数据格式 |
|
数据质量检测插件支持 | 数据完整性 |
|
数据时效性 |
|
数据规范性
|
|
数据一致性 |
|
数据准确性 |
|
数据关联性 |
|
促进数据质量稳步提升 | 可配置质量评估策略 | 评价维度 |
|
评分等级 |
|
定期检测数据质量并生成检测报告 | 统计维度 | 按年 |
按月 |
按季度 |
按数据库 |
按评估策略给出质量检测得分 |
|
检测有问题数据生成工单 | 工单详情查看 |
|
问题数据导出
|
|
工单指派 |
|
简化数据建模流程 |
| 在线定义逻辑模型 |
|
|
| 在线定义物理模型 | 物理表逆向生成物理模型 |
|
逻辑模型生成物理模型
|
|
物理模型生成物理表 |
|
促进行业数据标准落地 |
| 提供数据标准在线配置功能 | 可在线配置数据元信息 |
|
可定义数据集信息 |
|
| 提供对象核查功能 | 基于数据源定期检测源数据标准落地情况 |
|
生成数据核查报告 |
|
促进数据资产管理与应用 |
| 提供资源编排功能,可基于数据源展示资源数据内容 | 生成动态列表 | 数据导入 |
数据导出
|
高级查询 |
生成动态表单 |
|
数据资产情况统计 |
|
|
及时捕获数据实施过程中的问题,并进行告警 |
| 告警配置 | 元数据核查 |
|
数据质量校验 |
|
调度任务运行情况 |
|
订阅的元数据变更 |
|
| 告警消息提醒 | 系统消息 |
|
短信提醒 |
|
邮件提醒 |
|
三、数据服务开放平台
功能 | 描述 |
多数据源支持 | 可配置mysql、oracle、sqlserver、h2、mongodb、elasticsearch、presto等标准的数据源 |
可扩展其他数据源 |
多租户支持 | 可同时支持读个服务提供方发布数据服务,可同时支持多个服务订阅方自主进行服务订阅 |
丰富的服务组件支持 | 目前包括的插件有黑白名单、告警、负载、熔断、限流等插件 |
可基于数据服务需求进行其他业务类功能插件的扩展 |
服务开放性与安全性 | 配套服务市场,订阅方可自由申请想接入的服务 |
服务申请审核通过后,将提供对应服务调用的凭证信息 |
四、API服务网关
平台能力 | 功能 | 描述 |
协议切换支持 | 支持将http转换成https |
|
支持将webservice接口转换为rest接口 |
|
标准化的服务约束 |
| 代理后的服务,可提供标准化的签名验证和数据加解密支持 |
丰富的服务组件支持 | 包含丰富的插件支持 | 黑白名单 |
告警 |
负载 |
熔断 |
限流 |
可基于API网关需求进行其他业务类功能插件扩展 |
|
服务开放性和安全性 | 配套服务市场,订阅方可自由申请想接入的服务 |
|
服务申请审核通过后,将提供对应服务调用的凭证信息 |
|
五、数据可视化分析
平台能力 | 功能 | 描述 |
自助可视化建模 | 业务人员可在线自助进行可视化报表定制 |
|
支持基于数据模型拖拽智能生成可视化组件 |
|
支持可视化组件样式在线配置 |
|
丰富的建模图表支持 | 提供丰富的可视化组件,对业务人员友好 |
|
折线图、柱状图、数电图、饼图、桑基图、雷达图等 |
|
自动布局的Dashboard(仪表盘) |
|
可自由布局的Display(大屏) |
|
丰富的交互性支持 | 可在线配置多样自助交互式报表 | 高级过滤 |
高级控制 |
钻取 |
下载 |
分享 |
六、大数据基础平台
能力 | 描述 |
解决大数据组件众多,部署困难的问题 | 大数据组件搭建力气,配合全套兼容的组件版本 |
通过一步步的安装向导简化了集群安装过程 |
可以在线快速安装大数据生态圈组件(如:hadoop,spark,hbase,hive等) |
解决缺乏监控与告警问题 | 内置各组件关键的运维指标(metrics) |
可设置告警阈值,自动检测并告警 |
使集群环境配置调整更容易 | 组件集群管理便捷,组件参数配置可直接在线调整 |
调整后将自动应用各子节点 |
多项目集约化使用,多租户支持 | 在线创建租户并分配对应资源信息 |
有效的隔离各租户的数据权限与计算能力 |
七、日志分析系统
能力 | 描述 |
提供日志的采集、日志查询与可视化分析支持 |
|
内置丰富的日志分析可视化指标 |
|
自定义指标统计分析 | 提供可视化界面,基于采集的日志数据进行自定义维度统计分析 |
八、运维监控系统
能力 | 描述 |
具备完善的监控功能 | 可监控业务模型运行情况 |
可监控业务组件运行情况 |
可监控系统运行情况 |
可支持监控数据可视化 | 可进行监控数据的可视化展示 |
内置丰富的监控可视化指标 | 可对主流应用的核心指标进行收集,如redis,mysql,tomcat,nginx等 |
系统层和网络层exporter用以监控服务器或网络等 |
九、分布式文件存储系统
能力 | 描述 |
对上层应用开发透明 | 兼容posix接口,可以是的上层应用的开发变得简单,并且大大降低新用户的学习难度 |
| 解决方案的引入对上层业务系统或基础部组件是透明的,除Path路径外,无需其他任何调整 |
多项目集约化使用,多租户支持 | 为降低存储成本,应用和服务都使用了共享的存储基础设施 |
| 在多租户高并发的条件下,提供了对大文件和小文件的随机/顺序性读写的支持 |
数据存储安全性和可靠性 | 默认支持高可用,在少数副本失效的情况下,数据库本身能够自动进行数据修复和故障转移,对业务透明 |
扩展性 | 对节点提供可扩展性,可以动态加入一个或多个服务节点,既满足了应用的需要,也增强了集群的整体性能 |
十、大数据分析型数据仓库
能力 | 描述 |
秒级延迟下实时数据分析 | 可支持为百亿以上数据集定义数据模型并构建立方体 |
可以与hadoop数据进行亚秒级交互 |
可以实时OLAP,秒级延迟下进行实时数据的多维度分析 |
模型分析简单易操作,无需编写代码即可进行数据建模分析 | 为hadoop提供标准sql支持大部分查询功能 |
与BI工具无缝整合 |
以上10个系统就是差不多囊括一个大数据平台应有的系统和解决方案能力,每一个系统都有自己的专业解决的业务痛点,大家在实际操作大数据的过程中,可以多看看上诉10个系统,把这些系统能干什么,如何做这些梳理清楚,那么在实际的工作中就能非常得心应手。
职场就是一场游戏,但游戏不是人生的全部。别太纠结眼前的得失,也别总被焦虑绑住。努力让自己积累更多底气吧,未来的你一定会感谢现在的自己。因为那个时候,你会发现,人生的主动权,终于掌握在自己手里了。
-- 展开阅读全文 --
还没有评论,来说两句吧...