全部面试刷题微服务数据库消息队列搜索引擎大数据运维 go语言人工智能

impala在实际使用过程中有哪些需要优化的点？

提问者：帅平问题分类：大数据

Impala

发布于：3年前 (2023-07-20) IP属地：四川省

3 个回答

ヤ

使用profile输出底层信息计划，在做相应环境优化：
参数优化：

num_remote_hdfs_io_threads
num_hdfs_worker_threads 
coordinator_rpc_threads
default_pool_max_requests
mem_limit
idle_query_timeout
idle_session_timeout
fe_service_threads
use_local_tz_for_unix_timestamp_conversions

发布于：3年前 (2023-07-20) IP属地：四川省

午后的阳光让人昏沉

Impala网络io方面的优化有：

1.避免把整个数据发送到客户端
2.尽可能的做条件过滤
3.使用limit字句
4.输出文件时，避免使用美化输出
5.尽量少用全量元数据的刷新

发布于：3年前 (2023-07-20) IP属地：四川省

细腻长发姐

Impala大致的优化注意点有：

1、尽量将StateStore和Catalog单独部署到同一个节点，保证他们正常通信。
2、通过对Impala Daemon内存限制（默认256M）及StateStore工作线程数，来提高Impala的执行效率。
3、SQL优化，使用之前调用执行计划
4、选择合适的文件格式进行存储，提高查询效率。
5、避免产生很多小文件（如果有其他程序产生的小文件，可以使用中间表，将小文件数据存放到中间表。然后通过insert…select…方式中间表的数据插入到最终表中）
6、使用合适的分区技术，根据分区粒度测算
7、使用 compute stats进行表信息搜集，当一个内容表或分区明显变化，重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时进行查询。

发布于：3年前 (2023-07-20) IP属地：四川省

我来回答