面试必备之kafka生产者发送流程+优化
liuian 2025-03-29 19:29 17 浏览
Kafka发送流程与优化经验:从“发个消息”到“发个火箭”
大家好,我是你们的Kafka老司机,今天咱们来聊聊Kafka的消息发送流程和优化经验。如果你觉得Kafka只是一个“发消息”的工具,那你就太小看它了!它可是分布式系统中的“火箭发射器”,能把你的消息以光速送到目的地。不过,想要驾驭这枚“火箭”,你得先了解它的发射流程,再掌握一些优化技巧。废话不多说,系好安全带,咱们出发!
1. Kafka发送流程:从“发个消息”到“发个火箭”
1.1 消息发送的基本流程
当你调用KafkaProducer.send()方法时,你以为只是简单地发了个消息?No no no,这背后可是有一场精密的“火箭发射”流程:
- 消息封装:你把消息打包成一个ProducerRecord,就像把货物装进火箭的货舱。
- 序列化:Kafka会把你的消息序列化成字节数组,就像把货物压缩成适合发射的形态。
- 分区选择:Kafka会根据分区策略(比如轮询、哈希等)决定把消息发送到哪个分区,就像选择火箭的发射轨道。
- 消息累加:消息会被暂存到一个叫RecordAccumulator的缓冲区,就像把货物暂时存放在发射台的仓库里。
- 批次发送:Kafka会把多个消息打包成一个批次(Batch),然后通过Sender线程发送到Broker,就像把多个货物一次性发射到太空。
- Broker接收:Broker收到消息后,会把它写入对应的分区日志(Log Segment),就像把货物安全送到太空站。
1.2 关键组件解析
- ProducerRecord:消息的载体,包含主题、分区、键、值等信息。
- RecordAccumulator:消息的缓冲区,负责暂存消息并打包成批次。
- Sender线程:负责从缓冲区取出批次,并通过网络发送到Broker。
- 分区器(Partitioner):决定消息发送到哪个分区。
- 序列化器(Serializer):把消息对象转换成字节数组。
2. Kafka发送优化:从“火箭发射”到“光速传送”
2.1 优化目标
Kafka发送消息的性能优化,主要围绕以下几个目标:
- 提高吞吐量:让Kafka能同时发送更多的消息。
- 降低延迟:让消息尽快到达Broker。
- 减少资源消耗:让Kafka在发送消息时占用更少的CPU、内存和网络带宽。
2.2 优化技巧
技巧1:调整批次大小(batch.size)
- 默认值:16 KB
- 优化建议:如果你的消息量很大,可以适当增加批次大小(比如32 KB或64 KB),这样可以减少网络请求的次数,提高吞吐量。
- 注意事项:批次大小不能太大,否则会导致消息延迟增加。
技巧2:调整缓冲区大小(buffer.memory)
- 默认值:32 MB
- 优化建议:如果你的消息量非常大,可以增加缓冲区大小(比如64 MB或128 MB),这样可以避免缓冲区满了导致消息发送阻塞。
- 注意事项:缓冲区大小不能无限增加,否则会占用过多内存。
技巧3:调整消息压缩(compression.type)
- 默认值:none(不压缩)
- 优化建议:如果你的消息内容较大,可以启用压缩(比如gzip、snappy或lz4),这样可以减少网络传输的数据量,提高吞吐量。
- 注意事项:压缩会增加CPU开销,需要根据实际情况权衡。
技巧4:调整消息确认机制(acks)
- 默认值:1(Leader副本确认)
- 优化建议:
- 如果你对消息可靠性要求不高,可以设置为0(不需要确认),这样可以提高吞吐量。
- 如果你对消息可靠性要求很高,可以设置为all(所有副本确认),但会增加延迟。
- 注意事项:acks=all可能会导致性能下降,需要根据业务需求选择。
技巧5:调整重试机制(retries和retry.backoff.ms)
- 默认值:retries=2147483647(无限重试),retry.backoff.ms=100
- 优化建议:
- 如果你的网络环境不稳定,可以增加重试次数和重试间隔。
- 如果你的网络环境稳定,可以减少重试次数,避免不必要的延迟。
- 注意事项:重试次数过多可能会导致消息重复发送,需要结合幂等性机制使用。
技巧6:启用幂等性(enable.idempotence)
- 默认值:false
- 优化建议:如果你需要保证消息的精确一次(Exactly Once)语义,可以启用幂等性。
- 注意事项:启用幂等性会增加一些性能开销。
3. 实战经验:从“踩坑”到“起飞”
3.1 踩坑1:消息发送阻塞
问题描述:消息发送时,send()方法阻塞,导致程序卡住。
解决方案:
- 检查buffer.memory是否设置过小,导致缓冲区满了。
- 检查网络连接是否正常,Broker是否可用。
3.2 踩坑2:消息丢失
问题描述:消息发送成功,但Broker没有收到。
解决方案:
- 检查acks设置,确保消息被Broker确认。
- 启用幂等性,避免消息重复或丢失。
3.3 踩坑3:性能瓶颈
问题描述:消息发送吞吐量低,延迟高。
解决方案:
- 调整batch.size和linger.ms,优化批次发送。
- 启用消息压缩,减少网络传输数据量。
4. 总结:从“发个消息”到“发个火箭”
Kafka的消息发送流程看似简单,但背后却隐藏着许多细节和优化点。通过调整批次大小、缓冲区大小、压缩方式等参数,你可以让Kafka从“发个消息”变成“发个火箭”,轻松应对高并发、大流量的场景。
当然,优化是一个持续的过程,需要根据实际业务需求和环境不断调整。希望这篇文章能帮你少走弯路,早日成为Kafka的“火箭发射专家”!如果你觉得有用,别忘了点赞、收藏、转发三连哦!我是你们的Kafka老司机,下次再见!
相关推荐
- 面试问了解Linux内存管理吗?10张图给你安排的明明白白!
-
来源:https://www.cnblogs.com/NanoDragon/p/12736887.html今天来带大家研究一下Linux内存管理。对于精通CURD的业务同学,内存管理好像离我们很远...
- Linux Kernel 6.12震撼发布:实时性能飙升,开启全新计算时代!
-
概述LinusTorvalds在邮件列表中宣布推出LinuxKernel6.12,该版本带来了多项重要的更新和功能增强。更新亮点PREEMPT_RT支持主要内容:LinuxKernel...
- linux Grub2功能、常见配置及使用方式
-
Grub2(GrandUnifiedBootloaderversion2)是一款功能强大的引导加载程序,提供了以下功能和常见配置:多操作系统支持:Grub2可以加载和引导多个操作系统,包括不同...
- Linux内核必备知识点-platform总线详解
-
platform总线是学习linux驱动必须要掌握的一个知识点。本文参考已发布:Linux3.14内核一、概念嵌入式系统中有很多的物理总线:I2c、SPI、USB、uart、PCIE、APB、AHB...
- linux kernel内核的头文件获取、安装等方法
-
交叉编译时经常会用到这些头文件。下载合适版本的linux地址:https://mirrors.aliyun.com/linux-kernel/https://mirrors.edge.kernel.o...
- 600个常用 Linux 命令,收藏备用!
-
本文为Linux命令大全,从A到Z都有总结,建议大家收藏以便查用,或者查漏补缺!A命令描述access用于检查调用程序是否可以访问指定的文件,用于检查文件是否存在accton用于打开或关闭记帐进程或...
- Linux 中 `/proc/cpuinfo`文件中最常见的标志
-
/proc/cpuinfo是一个虚拟文件系统,在Linux系统中提供有关CPU(中央处理器)的信息。通过读取该文件,您可以获取有关处理器的详细信息,如型号、频率、核心数、缓存大小等。本文将介绍...
- 600个Linux命令大全,从A到Z,2023年收藏大吉!
-
本文为Linux命令大全(有PDF),从A到Z都有总结,建议大家收藏以便查用,或者查漏补缺!A命令描述access用于检查调用程序是否可以访问指定的文件,用于检查文件是否存在accton用于打开或关闭...
- Linux下如何查看硬件信息?
-
我们在Linux下进行开发时,有时也需要知道当前的硬件信息,比如:CPU几核?使用情况?内存大小及使用情况?USB设备是否被识别?等等类似此类问题。下面良许介绍一些常用的硬件查看命令。lshwls...
- 从PXE到GRUB到VHD文件启动
-
今天玩点花活儿,之前的文章再探从VHD文件中启动Windows及Grub双启动VHD文件+TinyCoreLinux中研了一下GRUB和VHD文件的关联应用,那么结合PXE又会是怎么样的呢?...
- bootra1n教学:Windows用户用U盘Linux实现checkra1n越狱方法
-
checkra1n越狱工具在前几天推出Linux版本,相信对于Windows用户可能也看得很模糊,甚至要切割硬碟到安装Linux系统太过于繁杂,这篇要来教大家最简易最快速利用U盘Linux...
- 不了解NUMA,就看不懂Linux内核
-
哈喽,我是子牙,一个很卷的硬核男人深入研究计算机底层、Windows内核、Linux内核、Hotspot源码……聚焦做那些大家想学没地方学的课程。为了保证课程质量及教学效果,一年磨一剑,三年先后做了这...
- Linus Torvalds接受微软Hyper-V升级 下一代Linux启动会更快
-
虽然Windows的粉丝和Linux的粉丝经常喜欢进行激烈的键盘大战,但操作系统的制造商们自己也了解彼此的优缺点。毫无疑问,微软也明白这一点,事实上,它甚至鼓励用户尝试Linux,尽管是使用...
- deepin使用笔记——开机卡LOGO,无法正常关机的解决办法
-
第一次使用deepin操作系统,很容易遇到几种情况:1,开机卡LOGO,无法进入系统。2,开机可以进入系统,但是进入系统后桌面环境无法正常打开,一直卡着什么都不能用。3,开机后看似一切正常,但关机的时...
- 如何检查Linux系统硬件信息?从CPU到显卡,一网打尽!
-
你可能会问:“我为什么要关心硬件信息?”答案很简单:硬件是Linux系统的根基,了解它可以帮你解决很多实际问题。比如:性能调优:知道CPU核心数和内存大小,才能更好地调整程序运行参数。故障排查:系统卡...
- 一周热门
-
-
Python实现人事自动打卡,再也不会被批评
-
Psutil + Flask + Pyecharts + Bootstrap 开发动态可视化系统监控
-
一个解决支持HTML/CSS/JS网页转PDF(高质量)的终极解决方案
-
再见Swagger UI 国人开源了一款超好用的 API 文档生成框架,真香
-
【验证码逆向专栏】vaptcha 手势验证码逆向分析
-
网页转成pdf文件的经验分享 网页转成pdf文件的经验分享怎么弄
-
C++ std::vector 简介
-
python使用fitz模块提取pdf中的图片
-
《人人译客》如何规划你的移动电商网站(2)
-
Jupyterhub安装教程 jupyter怎么安装包
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- table.render (33)
- uniapp textarea (33)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- react-admin (33)
- vscode切换git分支 (35)
- vscode美化代码 (33)
- python bytes转16进制 (35)