Apache Kafka 是一个分布式流数据平台,用于高吞吐量、持久性、可扩展的发布和订阅消息。它具有高度的可靠性,被广泛用于构建实时数据流处理、日志收集和数据管道等应用。

基本架构

1. 主题(Topic):

  • 主题是消息的逻辑分类
  • 生产者将消息发布到特定的主题中,而消费者可以订阅一个或多个主题来接收消息
  • 主题可以有多个分区,以实现横向扩展和负载均衡

2. 分区(Partition):

  • 分区是主题的物理存储单元,将主题分成多个部分
  • 每个分区在磁盘上都有一个日志文件,用于持久性存储消息
  • 每个主题可以被分为多个分区,每个分区都是一个有序的、不可变的消息序列
  • 分区可以分布在不同的 Broker 上,以实现数据的并行处理和负载均衡

3. 副本(Replica):

  • Kafka 支持副本机制,每个分区可以有多个副本,其中一个是领导者(Leader),其余是追随者(Follower)
  • 主副本负责处理读写请求,而从副本只负责复制主副本的数据
  • 副本是分区的备份,用于提供冗余和容错性

4. 生产者(Producer):