Flink作业性能瓶颈的常见原因有哪些?

提问者:帅平 问题分类:面试刷题
Flink作业性能瓶颈的常见原因有哪些?
1 个回答
单身成瘾i
单身成瘾i
Flink作业性能瓶颈的常见原因主要有:
资源不足(CPU、内存、网络):TaskManager 频繁反压(Backpressure),CPU/内存利用率持续高位。
数据倾斜:部分 Task 处理速度显著落后,Web UI 显示 SubTask 的 Records Sent 差异大。
检查点和状态管理开销:Checkpoint 耗时过长或频繁失败,作业吞吐量下降。
网络传输瓶颈:反压出现在 Shuffle 边界,网络缓冲区利用率饱和。
代码效率低下(如UDF复杂、序列化问题):单个算子处理延迟高,CPU 热点在特定函数。
并行度设置不合理:部分算子 SubTask 闲置,而其他 SubTask 满载。
外部系统性能问题:Sink 写入延迟高,Source 消费速度不足。
JVM性能问题(GC、内存泄漏):TaskManager 频繁 Full GC,任务随机失败。
发布于:1个月前 (05-19) IP属地:
我来回答