impala在实际使用过程中有哪些需要优化的点?

提问者:帅平 问题分类:大数据
impala在实际使用过程中有哪些需要优化的点?
3 个回答
ヤ
使用profile输出底层信息计划,在做相应环境优化:
参数优化:
num_remote_hdfs_io_threads
num_hdfs_worker_threads 
coordinator_rpc_threads
default_pool_max_requests
mem_limit
idle_query_timeout
idle_session_timeout
fe_service_threads
use_local_tz_for_unix_timestamp_conversions
发布于:12个月前 (07-20) IP属地:四川省
午后的阳光让人昏沉
午后的阳光让人昏沉
Impala网络io方面的优化有:
1.避免把整个数据发送到客户端
2.尽可能的做条件过滤
3.使用limit字句
4.输出文件时,避免使用美化输出
5.尽量少用全量元数据的刷新
发布于:12个月前 (07-20) IP属地:四川省
细腻长发姐
细腻长发姐
Impala大致的优化注意点有:
1、尽量将StateStore和Catalog单独部署到同一个节点,保证他们正常通信。
2、通过对Impala Daemon内存限制(默认256M)及StateStore工作线程数,来提高Impala的执行效率。
3、SQL优化,使用之前调用执行计划
4、选择合适的文件格式进行存储,提高查询效率。
5、避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间表,将小文件数据存放到中间表。然后通过insert…select…方式中间表的数据插入到最终表中)
6、使用合适的分区技术,根据分区粒度测算
7、使用 compute stats进行表信息搜集,当一个内容表或分区明显变化,重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时进行查询。
发布于:12个月前 (07-20) IP属地:四川省
我来回答