百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

ClickHouse存算分离之存储策略

liuian 2025-01-08 15:17 48 浏览



上一篇文章中我们用S3表引擎简单快速的实现了存算分离。本文在S3表引擎的基础上聊聊实现存算分离的存储策略。

minio是什么?

MinIO 是一款基于 Go 语言的高性能、可扩展、云原生支持、操作简单、开源的分布式对象存储产品。

MinIO将对象存储的固有优势与一套强大的特性、一个非常简单、直观的界面和一组扩展的集成结合在一起。它的独特之处在于,它是用云原生技术从头开始构建的,简单、快速、持久和高度可扩展。由于相信复杂的解决方案是不可扩展的,极简主义的设计理念形成了MinIO架构设计的基础。这就是minio成为在几个关键方面都很出色的系统的原因。

Minio的特点:

  • 高性能:作为高性能对象存储,在标准硬件条件下它能达到55GB/s的读、35GG/s的写速率
  • 可扩容:不同MinIO集群可以组成联邦,并形成一个全局的命名空间,并跨越多个数据中心
  • 云原生:容器化、基于K8S的编排、多租户支持
  • Amazon S3兼容:Minio使用Amazon S3 v2 / v4 API。可以使用Minio SDK,Minio Client,AWS SDK和AWS CLI访问Minio服务器。
  • 可对接后端存储: 除了Minio自己的文件系统,还支持DAS、 JBODs、NAS、Google云存储和Azure Blob存储。
  • SDK支持: 基于Minio轻量的特点,它得到类似Java、Python或Go等语言的sdk支持
  • Lambda计算: Minio服务器通过其兼容AWS SNS / SQS的事件通知服务触发Lambda功能。支持的目标是消息队列,如Kafka,NATS,AMQP,MQTT,Webhooks以及Elasticsearch,Redis,Postgres和MySQL等数据库。
  • 有操作页面
  • 功能简单: 这一设计原则让MinIO不容易出错、更快启动
  • 支持纠删码:MinIO使用纠删码,在最高冗余度配置下,即使丢失1/2的磁盘也能恢复数据

ClickHouse的特征

ClickHouse支持S3协议利用外部存储。

  • 使用S3表引擎直接读取服从S3协议的外部数据
  • ClickHouse提供了使用S3作为MergeTree引擎的存储支持。ClickHouse存储卷允许从MergeTree表引擎中抽象物理磁盘,类型支持S3。

ClickHouse的存储策略

S3包容性是云原生应用的硬性要求,Minio支持S3兼容,这意味着ClickHouse可以与Minio进行通信,作为ClickHouse可用的磁盘。

S3函数和S3表引擎允许我们使用熟悉的 ClickHouse 语法查询 S3 中的数据。但是,关于数据管理功能和性能是有限的。不支持主索引,不支持缓存,文件插入需要由用户管理。

因此,ClickHouse 认识到 S3 代表了一种有吸引力的存储解决方案,尤其是在“较冷”数据的查询性能不太重要的情况下,用户寻求将存储和计算分开的解决方案。为了实现此目的,clickhouse提供了对使用 S3 作为MergeTree引擎的存储的支持。这将使用户能够利用 S3 的可扩展性和成本效益,以及 MergeTree 引擎的插入和查询性能。

存储层

ClickHouse 数据部分可以根据存储策略在卷和填充率之间移动,从而创建存储层的概念。

存储层解锁了冷热架构,其中最新数据(通常也是查询最多的)只需要高性能存储(例如 NVMe SSD)上的少量空间。随着数据老化,查询时间的 SLA 会增加,查询频率也会增加。历史数据可以存储在速度较慢、性能较低的存储(如 HDD)或对象存储(如 S3)上。

创建磁盘

要将 S3 存储桶用作磁盘,我们必须首先对ClickHouse进行配置,要么扩展配置.xm,要么最好在conf.d 下创建一个新文件。

S3 磁盘声明的示例如下所示:

<clickhouse>

<storage_configuration>

...

<disks>

<s3>

<type>s3</type>

<endpoint>https://sample-bucket.s3.us-east-2.amazonaws.com/tables/</endpoint>

<access_key_id>your_access_key_id</access_key_id>

<secret_access_key>your_secret_access_key</secret_access_key>

<region></region>

<metadata_path>/var/lib/clickhouse/disks/s3/</metadata_path>

</s3>

<s3_cache>

<type>cache</type>

<disk>s3</disk>

<path>/var/lib/clickhouse/disks/s3_cache/</path>

<max_size>10Gi</max_size>

</s3_cache>

</disks>

...

</storage_configuration>

</clickhouse>

创建存储策略

配置后,此“磁盘”可由策略中声明的存储卷使用。对于下面的示例,我们假设 s3 是我们唯一的存储。这忽略了更复杂的热-冷架构,其中数据可以根据 TTL 和填充率重新定位。

<clickhouse>

<storage_configuration>

<disks>

<s3>

...

</s3>

<s3_cache>

...

</s3_cache>

</disks>

<policies>

<s3_main>

<volumes>

<main>

<disk>s3</disk>

</main>

</volumes>

</s3_main>

</policies>

</storage_configuration>

</clickhouse>

创建表

假设已将磁盘配置为使用具有写入访问权限的存储桶,那么就应该能够创建一个表,并将数据直接流式传输到 s3 支持的表。

建表语句示例

CREATE TABLE trips_s3

(

`trip_id` UInt32,

`pickup_date` Date,

`pickup_datetime` DateTime,

`dropoff_datetime`DateTime,

`pickup_longitude` Float64,

`pickup_latitude` Float64,

`dropoff_longitude`Float64,

`dropoff_latitude` Float64,

`passenger_count` UInt8,

`trip_distance` Float64,

`tip_amount` Float32,

`total_amount` Float32,

`payment_type` Enum8('UNK'= 0, 'CSH' = 1, 'CRE' = 2, 'NOC' = 3, 'DIS' = 4)

)

ENGINE = MergeTree

PARTITION BY toYYYYMM(pickup_date)

ORDER BY pickup_datetime

SETTINGS index_granularity = 8192, storage_policy='s3_main'

在创建存储策略时,我们已经指明了S3磁盘为’ s3_main’,建表语句中需要配置’ storage_policy='s3_main'’。

插入数据

INSERT INTO trips_s3 SELECT trip_id, pickup_date, pickup_datetime, dropoff_datetime, pickup_longitude, pickup_latitude, dropoff_longitude, dropoff_latitude, passenger_count, trip_distance, tip_amount, total_amount, payment_type FROM s3('https://ch-nyc-taxi.s3.eu-west-3.amazonaws.com/tsv/trips_{0..9}.tsv.gz', 'TabSeparatedWithNames') LIMIT 1000000;

根据硬件的不同,后面的 1m 行插入可能需要几分钟才能执行。您可以通过 system.processes 表确认进度。随意将行计数调整到 10m 的限制。

如何将 S3 对象存储用作 ClickHouse 磁盘详细配置见Integrating S3 with ClickHouse | ClickHouse Docs

相关推荐

搭建一个20人的办公网络(适用于20多人的小型办公网络环境)

楼主有5台机上网,则需要一个8口路由器,组网方法如下:设备:1、8口路由器一台,其中8口为LAN(局域网)端口,一个WAN(广域网)端口,价格100--400元2、网线N米,这个你自己会看了:)...

笔记本电脑各种参数介绍(笔记本电脑各项参数新手普及知识)

1、CPU:这个主要取决于频率和二级缓存,频率越高、二级缓存越大,速度越快,现在的CPU有三级缓存、四级缓存等,都影响相应速度。2、内存:内存的存取速度取决于接口、颗粒数量多少与储存大小,一般来说,内...

汉字上面带拼音输入法下载(字上面带拼音的输入法是哪个)

使用手机上的拼音输入法打成汉字的方法如下:1.打开手机上的拼音输入法,在输入框中输入汉字的拼音,例如“nihao”。2.根据输入法提示的候选词,选择正确的汉字。例如,如果输入“nihao”,输...

xpsp3安装版系统下载(windowsxpsp3安装教程)

xpsp3纯净版在采用微软封装部署技术的基础上,结合作者的实际工作经验,融合了许多实用的功能。它通过一键分区、一键装系统、自动装驱动、一键设定分辨率,一键填IP,一键Ghost备份(恢复)等一系列...

没有备份的手机数据怎么恢复

手机没有备份恢复数据方法如下1、使用数据线将手机与电脑连接好,在“我的电脑”中可以看到手机的盘符。  2、将手机开启USB调试模式。在手机设置中找到开发者选项,然后点击“开启USB调试模式”。  3、...

电脑怎么激活windows11专业版

win11专业版激活方法有多种,以下提供两种常用的激活方式:方法一:使用激活密钥激活。在win11桌面上右键点击“此电脑”,选择“属性”选项。进入属性页面后,点击“更改产品密钥或升级windows”。...

华为手机助手下载官网(华为手机助手app下载专区)

华为手机助手策略调整,已不支持从应用市场下载手机助手,目前华为手机助手是需要在电脑上下载或更新手机助手到最新版本,https://consumer.huawei.com/cn/support/his...

光纤线断了怎么接(宽带光纤线断了怎么接)

宽带光纤线断了可以重接,具体操作方法如下:1、光纤连接的时候要根据束管内,同色相连,同芯相连,按顺序进行连接,由大到小。一般有三种连接方法,分别是熔接、活动连接和机械连接。2、连接的时候要开剥光缆,抛...

深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
  • 深度操作系统安装教程(深度操作系统安装教程图解)
win7旗舰版和专业版区别(win7旗舰版跟专业版)

1、功能区别:Win7旗舰版比专业版多了三个功能,分别是Bitlocker、BitlockerToGo和多语言界面; 2、用途区别:旗舰版的功能是所有版本中最全最强大的,占用的系统资源,...

万能连接钥匙(万能wifi连接钥匙下载)

1、首先打开wifi万能钥匙软件,若手机没有开启WLAN,就根据软件提示打开WLAN开关;2、打开WLAN开关后,会显示附近的WiFi,如果知道密码,可点击相应WiFi后点击‘输入密码’连接;3、若不...

雨林木风音乐叫什么(雨林木风是啥)

雨林木风的创始人是陈年鑫先生。陈年鑫先生于1999年创立了雨林木风公司,其初衷是为满足中国市场对高品质、高性能电脑的需求。在陈年鑫先生的领导下,雨林木风以技术创新、产品质量和客户服务为核心价值,不断推...

aics6序列号永久序列号(aics6破解序列号)

关于AICS6这个版本,虽然是比较久远的版本,但是在功能上也是十分全面和强大的,作为一名平面设计师的话,AICS6的现有的功能已经能够应付几乎所有的设计工作了……到底AICC2019的功能是不是...

win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
  • win7正在启动windows 卡住(win7正在启动windows卡住了 进入安全模式)
手机可以装电脑系统吗(手机可以装电脑系统吗怎么装)

答题公式1:手机可以通过数据线或无线连接的方式给电脑装系统。手机安装系统需要一定的技巧和软件支持,一般需要通过数据线或无线连接的方式与电脑连接,并下载相应的软件和系统文件进行安装。对于大部分手机用户来...