Doris目前在很多做数据类业务的公司都会或多或少的涉及到,特别是有的公司没有专业的大数据团队,但是业务的核心又是处理数据这种。那么此时Doris就是比较良好的选择。从这篇文章开始,我们将开始更新Doris相关的文章。这篇文章我们介绍下什么是Doris
从上面的图示可以看出,Doris是一个master-slave这样的架构模式。他由很多的Fe节点组成(元数据管理),同时特还由很多的Be节点组成(用于存储数据)。
所以综合来看,要了解Doris,我们可以总结为以下几点:
1)Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。
2)Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效!
3)Apache Doris是一个MPP类型的数据库,那么什么是MPP呢?MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果 ( 与 Hadoop 相似 )。
4)Doris 主要解决 PB 级别的数据量(如果高于 PB 级别,不推荐使用 Doris 解决,可以考虑用 Hive 等工具),解决结构化数据,查询时间一般在秒级或毫秒级。
5)Doris 由百度大数据部研发 ( 之前叫百度 Palo,2018年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过200个产品线在使用,部署机器超过1000台,单一业务最大可达到上百 TB。
6)百度将 Doris 贡献给 Apache 社区之后,许多外部用户也成为了 Doris 的使用者,例如新浪微博,美团,小米等著名企业。
那么Doris有哪些特点呢?我们总结了如下几点:
1)数仓查询加速:PB级别数据毫秒/秒级延时、海量数据无缝应用、极大幅度提升查询效率
2)多源联邦查询:跨多数据源,统一查询入口、过滤条件下推,显著提升查询性能、满足业务人员多元化的查询需求
3)实时数仓构建:流式数据高效导入、实时业务数据洞察、统一大数据平台架构和数据流
4)交互式数据分析:结合BI构建交互式数据分析应用、对海量数据自助探查和多维度分析、实现对业务的深层探索和快速决策
那么Doris有哪些核心优势呢?
1)性能:
高效列式存储引擎和现代化MPP架构,结合多种加速方式,实现极致的查询性能
2)简单易用:
完全兼容MySQL协议和标准SQL,用户使用友好,能与已有系统框架轻松融合
3)场景丰富:
在离线一体,通过灵活的资源配置策略可同时支持高并发点查询和高吞吐大查询
4)稳定可靠:
多种策略保证系统高可用,单点故障和系统升级对线上业务无任何影响
备注:
doris这两年发展非常的迅速。Doris最开始主要是百度技术团队研发的,后来贡献给了apache,因此有了Doris这个开源的产品。目前社会上也有很多的一些商业公司基于Doris做二次开发,并作出自己的产品,在此给大家列举一下:
一、PALO
这个是百度内部使用的Doris版本,目前PALO在百度云里面提供对应的服务,并且版本目前看起来和Doris是同步的。
二、SelectDB
这个也是一家开源技术公司在Doris的版本基础上进行二次开发,在底层进行了大量的优化,目前也是作为一款商业产品在对外进行服务。
三、StarRocks
这个也是一家国内公司在Doris的版本基础上进行二次开发,在底层进行大量优化,对外提供服务的一款商业化产品。
近几年Doris在技术圈非常的火,所以相信在未来会有越来越多的公司基于Doris进行二次开发,做出相关商业化产品。
以上就是Doris的一些初步的知识点,后面我们会挨个介绍Doris,然后基于Doris做一些实战相关的分享。
还没有评论,来说两句吧...