正文

Spark系列（五十三）Spark Structured Streaming对接kafka的配置参数

Rae V管理员 /2022-12-14/849阅读/0评论

1214

此篇文章发布距今已超过1256天，您需要注意文章的内容或图片是否可用！

在上一个案例里面我们演示了使用spark structured streaming对接kafka的数据，但是在代码里面编写比较简单，这里我们完整的列举下使用到的kafka信息参数。

一、必选参数：

序号	参数	值	说明
1	kafka.bootstrap.servers	host1:port1, host2:port2	Kafka服务器列表，逗号分隔
2	subscribe	topic1, topic2	这个数据源要读取的主题名列表，以逗号分隔。
3	subscribePattern	topic.*	使用正则模式表示要读取数据的主题，比subscribe要灵活。
4	assign	{topic1:[1,2], topic2:[3,4]}	指定要读取数据的主题的分区。这个信息必须是json格式。

二、可选参数：

序号	参数	值	默认值	说明
1	startingOffsets	earliest, latest 每个主题的开始偏移位置， json格式字符串，例如： { "topic1":{"0":45, "1":-1}, "topic2":{"0":-2} }	latest	earliest：意味着主题的开始处 latest：意味着主题中的任何最新数据当使用JSON字符串格式时，-2代表在一个特定分区中的earliest offset，-1代表在一个特定分区中的latest offset
2	endingOffsets	Latest json格式字符串，例如： { "topic1":{"0":45, "1":-1}, "topic2":{"0":-1} }	latest	latest：意味着主题中的最新数据当使用JSON字符串格式时，-1代表在一个特定分区中的latest offset。当然-2不适用于此选项
3	maxOffsetsPerTrigger	none	Long，例如，500	此选项是一种速率限制机制，用于控制每个触发器间隔要处理的记录数量。如果指定了一个值，它表示所有分区的记录总数，而不是每个分区的记录总数。

真正的成长, 源于内心的觉醒和不懈的努力, 你的信念和行动, 将铺就通往更好的自己的道路

-- 展开阅读全文 --

继续看这个主题

spark系列 Spark Kafka

相关阅读

发表评论取消回复

评论列表（暂无评论，849人围观）

还没有评论，来说两句吧...

目录[+]