Doris进行数据导入的时候,可以通过调整哪些参数进行优化,进而提高导入效率?

提问者:帅平 问题分类:数据库
Doris进行数据导入的时候,可以通过调整哪些参数进行优化,进而提高导入效率?
4 个回答
素梦瑾然
素梦瑾然
还可以通过调整fe和be的配置参数,提高compaction的速度来提升导入效率,具体配置如下:
1、BE参数
max_base_compaction_task_num_per_disk:默认值 2,每个磁盘最大compaction任务数 (视情况增大)
vertical_compaction_num_columns_per_group:默认值 5,在列式 compaction 中,组成一个合并组的列个数 (视情况增大)
max_base_compaction_threads :默认值 2, Base Compaction 线程池中线程数量的最大值,-1 表示每个磁盘一个线程。(视情况增大)
2、FE参数
async_loading_load_task_pool_size:默认值10, loading_load任务执行程序池大小。该池大小限制了正在运行的最大 loading_load任务数。当前,它仅限制 broker load的 loading_load任务的数量。
发布于:1个月前 (03-26) IP属地:
今夜星满天
今夜星满天
如果是Broker Load的方式进行数据提交,可优化的参数有:
并行度调优:
设置任务参数:load_parallelism=8、send_batch_parallelism=1。(后者仅在关闭 memtable 前移时生效)
调整 FE 全局参数:max_broker_concurrency=10。
发布于:1个月前 (03-26) IP属地:
逾
如果是Routine Load的方式进行数据提交,可优化的参数有:
任务配置:
增大批次参数:max_batch_interval=60s 
max_batch_size=1G。(注意数据可见性的时间要求)
调整并发数:desired_concurrent_number需小于 BE 的routine_load_consumer_pool_size(默认 10)。
Fe:max_routine_load_task_num_per_be=1024,max_routine_load_task_concurrent_num=256
Be:routine_load_consumer_pool_size=10
发布于:1个月前 (03-26) IP属地:
♀如此美
♀如此美
如果是stream load的方式进行数据提交,可优化的参数有:
设置sync_tablet_meta=false(无高可用需求时),减少元数据同步。
控制并发数不超过 BE 的 HTTP Server 线程数(默认 48)(be 参数webserver_num_workers)。
发布于:1个月前 (03-26) IP属地:
我来回答