3 个回答
批处理机制:为了提高效率,Flume尽可能的以事务为单位来处理事件,而不是逐一基于事件进行处理。spooling directory source以100行文本作为一个批次来读取(BatchSize属性来配置,类似数据库的批处理模式)。批处理的设置尤其有利于提高file channel的效率,这样整个事务只需要写入一次本地磁盘,大大提升速度。
发布于:1个月前 (02-08) IP属地:四川省
At-least-once:Flume采用at-least-one来保证source产生的每一个事件都会至少到达sink一次。虽然有可能导致数据重复,但是为了保证数据的可靠性,at-least-one还是可以接受的。
发布于:1个月前 (02-08) IP属地:四川省
事务机制:Flume使用两个独立的事务分别负责soucrce到channel和channel到sink的事件传递。spooling directory source 为文件的每行创建一个事件,当事务中的事件都传递到channel且提交成功时,source就会将该文件标记为完成。channel到sink也是如此。如果因为某种原因使得事件无法记录,那么事务将会回滚。所有事件都会保存在channel中,等待重新传递。
发布于:1个月前 (02-08) IP属地:四川省
我来回答
您需要 登录 后回答此问题!