正文

Flink应用开发系列（二十二）数据集转换之rebalance函数

Rae V管理员 /2023-08-10/1.05 K阅读/0评论

0810

此篇文章发布距今已超过1087天，您需要注意文章的内容或图片是否可用！

在flink的Dataset开发中，我们可以从外部读取数据源，此时在线上的集群运行中，读取数据源之后，会为任务拆分多个task任务，此时有的task可能拿到的数据比较多，计算时间比较久，有的task可能拿到的数据比较少，计算时间比较短，这样子对于整个业务来说，总体来看造成了数据不均衡的效果，同时也很浪费集群资源。那么怎么办呢？

这里就可以用到我们本文提到的rebalance函数，rebalance函数就是把分区的数据再均衡一下，消除数据倾斜的作用，下面我们用代码演示一下：

package org.example;

import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;

import java.util.Arrays;

public class RebalanceFunJob {

    public static void main(String[] args) throws Exception{


        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        DataSource<Tuple2> datasources = env.fromCollection(Arrays.asList(
                new Tuple2("张三", "16"),
                new Tuple2("李四", "17"),
                new Tuple2("王五", "18")
        ));

        datasources.rebalance();

    }
}

这里运行看不到结果，在flink集群中运行会观察到相关的情况，所以本文不贴图了。最后按照惯例，附上本案例的源码，登录后即可下载。

登录访问

本站用户 免费查看

登录账号

您未登录，请登录或注册后查看

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路