在上一个案例里面我们演示了使用spark structured streaming对接kafka的数据,但是在代码里面编写比较简单,这里我们完整的列举下使用到的kafka信息参数。
一、必选参数:
序号 | 参数 | 值 | 说明 |
1 | kafka.bootstrap.servers | host1:port1, host2:port2 | Kafka服务器列表,逗号分隔 |
2 | subscribe | topic1, topic2 | 这个数据源要读取的主题名列表,以逗号分隔。 |
3 | subscribePattern | topic.* | 使用正则模式表示要读取数据的主题,比subscribe要灵活。 |
4 | assign | {topic1:[1,2], topic2:[3,4]} | 指定要读取数据的主题的分区。这个信息必须是json格式。 |
二、可选参数:
序号 | 参数 | 值 | 默认值 | 说明 |
1 | startingOffsets | earliest, latest 每个主题的开始偏移位置, json格式字符串,例如: { "topic1":{"0":45, "1":-1}, "topic2":{"0":-2} } | latest | earliest:意味着主题的开始处 latest:意味着主题中的任何最新数据当使用JSON字符串格式时,-2代表在一个特定分区中的earliest offset,-1代表在一个特定分区 中的latest offset |
2 | endingOffsets | Latest json格式字符串,例如: { "topic1":{"0":45, "1":-1}, "topic2":{"0":-1} } | latest | latest:意味着主题中的最新数据 当使用JSON字符串格式时,-1代表在一个特定分区中的latest offset。当然-2不适用于此选项 |
3 | maxOffsetsPerTrigger | none | Long,例如,500 | 此选项是一种速率限制机制,用于控制每个触发器间隔要处理的记录数量。如果指定了一个值,它表示所有分区的记录总数,而不是每个分区的记录总数。 |
还没有评论,来说两句吧...