ClickHouse存算分离之存储策略
liuian 2025-01-08 15:17 61 浏览
上一篇文章中我们用S3表引擎简单快速的实现了存算分离。本文在S3表引擎的基础上聊聊实现存算分离的存储策略。
minio是什么?
MinIO 是一款基于 Go 语言的高性能、可扩展、云原生支持、操作简单、开源的分布式对象存储产品。
MinIO将对象存储的固有优势与一套强大的特性、一个非常简单、直观的界面和一组扩展的集成结合在一起。它的独特之处在于,它是用云原生技术从头开始构建的,简单、快速、持久和高度可扩展。由于相信复杂的解决方案是不可扩展的,极简主义的设计理念形成了MinIO架构设计的基础。这就是minio成为在几个关键方面都很出色的系统的原因。
Minio的特点:
- 高性能:作为高性能对象存储,在标准硬件条件下它能达到55GB/s的读、35GG/s的写速率
- 可扩容:不同MinIO集群可以组成联邦,并形成一个全局的命名空间,并跨越多个数据中心
- 云原生:容器化、基于K8S的编排、多租户支持
- Amazon S3兼容:Minio使用Amazon S3 v2 / v4 API。可以使用Minio SDK,Minio Client,AWS SDK和AWS CLI访问Minio服务器。
- 可对接后端存储: 除了Minio自己的文件系统,还支持DAS、 JBODs、NAS、Google云存储和Azure Blob存储。
- SDK支持: 基于Minio轻量的特点,它得到类似Java、Python或Go等语言的sdk支持
- Lambda计算: Minio服务器通过其兼容AWS SNS / SQS的事件通知服务触发Lambda功能。支持的目标是消息队列,如Kafka,NATS,AMQP,MQTT,Webhooks以及Elasticsearch,Redis,Postgres和MySQL等数据库。
- 有操作页面
- 功能简单: 这一设计原则让MinIO不容易出错、更快启动
- 支持纠删码:MinIO使用纠删码,在最高冗余度配置下,即使丢失1/2的磁盘也能恢复数据
ClickHouse的特征
ClickHouse支持S3协议利用外部存储。
- 使用S3表引擎直接读取服从S3协议的外部数据
- ClickHouse提供了使用S3作为MergeTree引擎的存储支持。ClickHouse存储卷允许从MergeTree表引擎中抽象物理磁盘,类型支持S3。
ClickHouse的存储策略
S3包容性是云原生应用的硬性要求,Minio支持S3兼容,这意味着ClickHouse可以与Minio进行通信,作为ClickHouse可用的磁盘。
S3函数和S3表引擎允许我们使用熟悉的 ClickHouse 语法查询 S3 中的数据。但是,关于数据管理功能和性能是有限的。不支持主索引,不支持缓存,文件插入需要由用户管理。
因此,ClickHouse 认识到 S3 代表了一种有吸引力的存储解决方案,尤其是在“较冷”数据的查询性能不太重要的情况下,用户寻求将存储和计算分开的解决方案。为了实现此目的,clickhouse提供了对使用 S3 作为MergeTree引擎的存储的支持。这将使用户能够利用 S3 的可扩展性和成本效益,以及 MergeTree 引擎的插入和查询性能。
存储层
ClickHouse 数据部分可以根据存储策略在卷和填充率之间移动,从而创建存储层的概念。
存储层解锁了冷热架构,其中最新数据(通常也是查询最多的)只需要高性能存储(例如 NVMe SSD)上的少量空间。随着数据老化,查询时间的 SLA 会增加,查询频率也会增加。历史数据可以存储在速度较慢、性能较低的存储(如 HDD)或对象存储(如 S3)上。
创建磁盘
要将 S3 存储桶用作磁盘,我们必须首先对ClickHouse进行配置,要么扩展配置.xm,要么最好在conf.d 下创建一个新文件。
S3 磁盘声明的示例如下所示:
<clickhouse>
<storage_configuration>
...
<disks>
<s3>
<type>s3</type>
<endpoint>https://sample-bucket.s3.us-east-2.amazonaws.com/tables/</endpoint>
<access_key_id>your_access_key_id</access_key_id>
<secret_access_key>your_secret_access_key</secret_access_key>
<region></region>
<metadata_path>/var/lib/clickhouse/disks/s3/</metadata_path>
</s3>
<s3_cache>
<type>cache</type>
<disk>s3</disk>
<path>/var/lib/clickhouse/disks/s3_cache/</path>
<max_size>10Gi</max_size>
</s3_cache>
</disks>
...
</storage_configuration>
</clickhouse>
创建存储策略
配置后,此“磁盘”可由策略中声明的存储卷使用。对于下面的示例,我们假设 s3 是我们唯一的存储。这忽略了更复杂的热-冷架构,其中数据可以根据 TTL 和填充率重新定位。
<clickhouse>
<storage_configuration>
<disks>
<s3>
...
</s3>
<s3_cache>
...
</s3_cache>
</disks>
<policies>
<s3_main>
<volumes>
<main>
<disk>s3</disk>
</main>
</volumes>
</s3_main>
</policies>
</storage_configuration>
</clickhouse>
创建表
假设已将磁盘配置为使用具有写入访问权限的存储桶,那么就应该能够创建一个表,并将数据直接流式传输到 s3 支持的表。
建表语句示例
CREATE TABLE trips_s3
(
`trip_id` UInt32,
`pickup_date` Date,
`pickup_datetime` DateTime,
`dropoff_datetime`DateTime,
`pickup_longitude` Float64,
`pickup_latitude` Float64,
`dropoff_longitude`Float64,
`dropoff_latitude` Float64,
`passenger_count` UInt8,
`trip_distance` Float64,
`tip_amount` Float32,
`total_amount` Float32,
`payment_type` Enum8('UNK'= 0, 'CSH' = 1, 'CRE' = 2, 'NOC' = 3, 'DIS' = 4)
)
ENGINE = MergeTree
PARTITION BY toYYYYMM(pickup_date)
ORDER BY pickup_datetime
SETTINGS index_granularity = 8192, storage_policy='s3_main'
在创建存储策略时,我们已经指明了S3磁盘为’ s3_main’,建表语句中需要配置’ storage_policy='s3_main'’。
插入数据
INSERT INTO trips_s3 SELECT trip_id, pickup_date, pickup_datetime, dropoff_datetime, pickup_longitude, pickup_latitude, dropoff_longitude, dropoff_latitude, passenger_count, trip_distance, tip_amount, total_amount, payment_type FROM s3('https://ch-nyc-taxi.s3.eu-west-3.amazonaws.com/tsv/trips_{0..9}.tsv.gz', 'TabSeparatedWithNames') LIMIT 1000000;
根据硬件的不同,后面的 1m 行插入可能需要几分钟才能执行。您可以通过 system.processes 表确认进度。随意将行计数调整到 10m 的限制。
如何将 S3 对象存储用作 ClickHouse 磁盘详细配置见Integrating S3 with ClickHouse | ClickHouse Docs
相关推荐
- windows7怎么下载主题(windows 7主题下载)
-
1、打开win7系统电脑左下角“开始”菜单,找到【控制面板】点击打开;2、进入控制面板界面,右上方【查看方式】更改为“小图标”,然后找到【管理工具】打开;3、进入“管理工具”,点击打开【服务】选项;4...
- 计算机计算器(计算机计算器区别)
-
计算器是现代人发明的可以进行数字运算的电子机器。现代的电子计算器能进行数学运算的手持电子机器,拥有集成电路芯片,但结构比电脑简单得多,可以说是第一代的电子计算机(电脑),且功能也较弱,但较为方便与廉价...
- 联想台式电脑价格(联想台式电脑价格一览表)
-
配置如下主板sis-651CPUIntelCeleronProcessor2.00GHz硬盘希捷ST3160215A(150G)新显示器即插即用监视器(LCSA771LXH-GJ769F3)显卡SiS...
- 华为手机驱动官网下载(华为手机驱动官网下载不了)
-
华为手机驱动程序安装方法:1:首先把华为手机连接电脑,在手机下拉通知栏中选择“设备文件管理(MTP)”或者“作为USB存储设备连接”或者“仅充电”的模式选择,进入USB计算机连接菜单选择“PC助手(...
- win7系统设置定时关机任务(win7定时关机怎么设置方法)
-
在Win7系统中,可以通过“任务计划程序”来设置定时自动关机。首先打开“任务计划程序”,选择“创建基本任务”,按照向导步骤设置任务名称、触发器(选择“按计划时间安排”并设置时间)、操作(选择“程序启动...
- 126免费邮箱登录入口官网电脑版
-
126邮箱是网易的一个免费邮箱登录入口在浏览器输入:mail.126.com浏览器进入126邮箱网站之后,即可自行登录126邮箱账号。如何在手机上登录126邮箱1、打开手机,找到并打开网易邮箱软件。2...
- windows优化大师软件平台(windows优化大师是实用程序吗)
-
最新版本:优化大师V7.99Build10.1221,最新的优化大师版本已可以兼容Vista,开发小组,将发布7.99.10.621的全新版本,带全新首页专业版的功能,免费。you...
- 台式电脑如何更换鼠标(台式电脑怎么换鼠标键盘)
-
是的,台式电脑可以更换键盘和鼠标。键盘和鼠标通常使用标准的USB接口连接到电脑,因此只需拔下原有的键盘和鼠标,然后插入新的键盘和鼠标即可。这样可以根据个人喜好和需求选择适合自己的键盘和鼠标,提高使用体...
- 笔记本电脑如何重置系统(笔记本电脑重置系统会怎么样)
-
重装系统建议使用U盘来完成。用U盘(16G左右就行)装系统,应先将U盘制作为可引导系统的盘(就是启动盘)。然后将系统文件复制到该U盘的GHO文件夹或ISO文件夹中(系统文件是GHO文件就复制到GHO中...
- 显卡最新消息(50系super显卡最新消息)
-
不会的,电脑里面的软件都是安装在硬盘里面,注册信息也是在硬盘,跟显卡没有任何关系。所以显卡换了,电脑系统和数据都不会有任何改变。CPU、显卡、内存是电脑运行必备的硬件,它们是处理数据的硬件,不会存储数...
- ios是什么意思手机(苹果手机ios是啥意思)
-
对的,ios是苹果手机搭载的系统,但是不仅仅是应用在iphone手机哦,在苹果台式电脑、笔记本电脑、平板电脑以及苹果其它设备都是搭载的ios系统。它是苹果公司开发的独立且封闭性的操作系统,不对外公开,...
- 什么网站可以免费下载电影(在哪个网站下载电影免费)
-
1.ITunesMovieTrailers苹果的预告片库,库中影片的画质都很不错,基本上覆盖了当前的主流电影,以美国电影居多,国内的片子比较少,如果需要从中下载,那么下载时需要配合浏览器的资源嗅探...
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
