一、消息丢失的时机?
-
生产端消息丢失
问题:因为网络异常导致消息发送失败,此时可能会产生消息丢失的情况,重试后可能产生消息重复生产的情况。
解决:超时重试,并在消费端保证幂等性。 -
消息队列中消息丢失
问题:如kafka是将数据存储在磁盘,如果每条消息写入时都立马存储在磁盘中会产生很多随机IO,随机IO耗时很高,因此数据是先写入缓冲区中,再根据特定的时机刷新到磁盘中,减少随机IO的开销。假设还未刷新到磁盘就出现宕机情况,则会产生消息丢失的情况。
解决:可以考虑以集群方式部署Kafka服务,通过部署多个副本备份数据保证消息尽量不丢失。 -
消费端消费时丢失
问题:消费者消费消息的进度是记录在消息队列集群中的,而消费的过程分为三步:接收消息、处理消息、更新消费进度。消费端网络抖动或者消费端业务逻辑异常导致中断,此时会产生消息丢失的情况。
解决:一定要等到消息接收和处理完成后才能更新消费进度,但是这也会造成消息重复的问题,比方说某一条消息在处理之后消费者恰好宕机了,那么因为没有更新消费进度,所以当这个消费者重启之后还会重复地消费这条消息。