百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

MySQL中JSON的存储原理(mysql中json字段操作)

liuian 2025-07-06 14:06 18 浏览

前言:表中有json字段后,非索引查询性能变得非常糟糕

起因是我有一张表,里面有json字段后,而当mysql表中有200w数据的时候,走非索引查询性能变得非常糟糕需要3到5s。因此对mysql的json类型做了梳理

先说建表建议

对于大宽主表的建表的建议是,拆成2个表,把需要用来查询的字段放到主表,其他的字段全部放在扩展表。varchar类型的字段,长度尽可能短

一、JSON在硬盘中的存储原理

MySQL采用二进制格式存储的 JSON 值,在磁盘存的是doc对象,内含type & value。

doc ::= type value
type ::=
  0x00 |       // small JSON object
  0x01 |       // large JSON object
  0x02 |       // small JSON array
  0x03 |       // large JSON array
  0x04 |       // literal (true/false/null)
  0x05 |       // int16
  0x06 |       // uint16
  0x07 |       // int32
  0x08 |       // uint32
  0x09 |       // int64
  0x0a |       // uint64
  0x0b |       // double
  0x0c |       // utf8mb4 string
  0x0f         // custom data (any MySQL data type)
value ::=
  object  |
  array   |
  literal |
  number  |
  string  |
  custom-data


  • MySQL对JSON对象存储是分段的,存储的最前面为存放当前对象的元素个数,以及整体占的大小
  • type主要是标识类型(大json对象、小json对象、大json数组、小json数组、literal、int16、uint16、int32、uint32、int64、uint64、double、string、custom自定义类型);
  • value包含object、array、literal、number、string、custom-data(与type类型对应);
  • 当需要读取JSON值的时候,二进制格式的结构使服务器能够直接通过键或数组索引查找子对象或嵌套值,而无需读取文档中它们之前或之后的所有值。
  • 当需要写JSON值的时候,从二进制形式转换到内存中的结构化DOM,并使用JSON值的递归树表示与解析树紧密对应;

二、JSON在内存中的占据空间原理

对于varchar(255) 类型的字段,硬盘上是按照真实空间存储,而加载到内存中后,内存中的长度是varchar定义的长度255存储

JSON在内存中占用的空间资料没查到,但是应该是根据实际空间占用,因为json中存了实际长度

三、JSON类型最大长度和溢出页的概念

JSON最大存储长度为4G,但是实际能存多少还取决于mysql设置的一次更新最大包的大小(默认1M),

思考下Innodb聚簇索引的特征, 会建立一个主键索引并把整行数据放到一起。那么如果有一个字段是JSON类型或者Text或者varchar(1000)这种长字段的存在,是否会应为一行数据太大,mysql一页16K会不会放不下?

即使放下了 走主键索引是否会太慢?

先说结论,

第一、mysql一页16K至少可以放了两条数据

第二、mysql有一个行溢出的概念, 5.7之后的默认行格式为dynamic,特点是对于VARCHAR(M)、Text、JSON类型的数据,只在聚簇索引行存放真实数据的地址。而真实的数据放到溢出页里面。这样就能保证16K一页能尽可能密集,进而提升索引查询效率

添加图片注释,不超过 140 字(可选)

看到这应该能理解为何用非索引查询很慢,原因是要跳转寻找真实数据

四、JSON索引

MySQL 5.7 针对JSON的索引做了优化,具体方式就是通过生成列来实现JSON某个字段的索引。通俗的来说就是针对JSON指定的列抽取出来,通过冗余该字段的方式来实现索引

目前支持两种生成列形式,即Virtual Generated Column(虚拟生成列)和Stored Generated Column(存储生成列),支持在生成列上定义二级索引(不能与普通列定义联合索引),仅支持本表的非生成列定义生成列。

  • Virtual Generated Column不会将这一生成列的数据持久化到磁盘上(仅将虚拟列的元数据信息存在于相关系统表中),不支持针对虚拟列进行Update & Insert 的操作。在对应普通列InsertUpdate操作时会消耗额外的写负载,因为更新虚拟生成列索引时需要将衍生列值计算出来,并写到索引里;这样就避免了每次读取数据行时都需要进行一次衍生计算。
  • Stored Generated Column 会将数据持久化到磁盘上,在存储生成列上定义索引其实和普通列上定义索引无区别,性能上也不如虚拟索引,会导致聚簇索引变得更大更占空间。
-- 定义虚拟生成列
ALTER TABLE `user` ADD COLUMN `v_sign_time` BIGINT ( 20 ) 
GENERATED ALWAYS AS ( attachment -> '$.sign_time' ) Virtual NULL AFTER attachment;
-- 定义索引
ALTER TABLE `user` ADD INDEX `idx_sign_time` (`v_sign_time`);

相关推荐

总结下SpringData JPA 的常用语法

SpringDataJPA常用有两种写法,一个是用Jpa自带方法进行CRUD,适合简单查询场景、例如查询全部数据、根据某个字段查询,根据某字段排序等等。另一种是使用注解方式,@Query、@Modi...

解决JPA在多线程中事务无法生效的问题

在使用SpringBoot2.x和JPA的过程中,如果在多线程环境下发现查询方法(如@Query或findAll)以及事务(如@Transactional)无法生效,通常是由于S...

PostgreSQL系列(一):数据类型和基本类型转换

自从厂子里出来后,数据库的主力就从Oracle变成MySQL了。有一说一哈,贵确实是有贵的道理,不是开源能比的。后面的工作里面基本上就是主MySQL,辅MongoDB、ES等NoSQL。最近想写一点跟...

基于MCP实现text2sql

目的:基于MCP实现text2sql能力参考:https://blog.csdn.net/hacker_Lees/article/details/146426392服务端#选用开源的MySQLMCP...

ORACLE 错误代码及解决办法

ORA-00001:违反唯一约束条件(.)错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。ORA-00017:请求会话以设置跟踪事件ORA-00018:超出最大会话数ORA-00...

从 SQLite 到 DuckDB:查询快 5 倍,存储减少 80%

作者丨Trace译者丨明知山策划丨李冬梅Trace从一开始就使用SQLite将所有数据存储在用户设备上。这是一个非常不错的选择——SQLite高度可靠,并且多种编程语言都提供了广泛支持...

010:通过 MCP PostgreSQL 安全访问数据

项目简介提供对PostgreSQL数据库的只读访问功能。该服务器允许大型语言模型(LLMs)检查数据库的模式结构,并执行只读查询操作。核心功能提供对PostgreSQL数据库的只读访问允许L...

发现了一个好用且免费的SQL数据库工具(DBeaver)

缘起最近Ai不是大火么,想着自己也弄一些开源的框架来捣腾一下。手上用着Mac,但Mac都没有显卡的,对于学习Ai训练模型不方便,所以最近新购入了一台4090的拯救者,打算用来好好学习一下Ai(呸,以上...

微软发布.NET 10首个预览版:JIT编译器再进化、跨平台开发更流畅

IT之家2月26日消息,微软.NET团队昨日(2月25日)发布博文,宣布推出.NET10首个预览版更新,重点改进.NETRuntime、SDK、libraries、C#、AS...

数据库管理工具Navicat Premium最新版发布啦

管理多个数据库要么需要使用多个客户端应用程序,要么找到一个可以容纳你使用的所有数据库的应用程序。其中一个工具是NavicatPremium。它不仅支持大多数主要的数据库管理系统(DBMS),而且它...

50+AI新品齐发,微软Build放大招:拥抱Agent胜算几何?

北京时间5月20日凌晨,如果你打开微软Build2025开发者大会的直播,最先吸引你的可能不是一场原本属于AI和开发者的技术盛会,而是开场不久后的尴尬一幕:一边是几位微软员工在台下大...

揭秘:一条SQL语句的执行过程是怎么样的?

数据库系统能够接受SQL语句,并返回数据查询的结果,或者对数据库中的数据进行修改,可以说几乎每个程序员都使用过它。而MySQL又是目前使用最广泛的数据库。所以,解析一下MySQL编译并执行...

各家sql工具,都闹过哪些乐子?

相信这些sql工具,大家都不陌生吧,它们在业内绝对算得上第一梯队的产品了,但是你知道,他们都闹过什么乐子吗?首先登场的是Navicat,这款强大的数据库管理工具,曾经让一位程序员朋友“火”了一把。Na...

详解PG数据库管理工具--pgadmin工具、安装部署及相关功能

概述今天主要介绍一下PG数据库管理工具--pgadmin,一起来看看吧~一、介绍pgAdmin4是一款为PostgreSQL设计的可靠和全面的数据库设计和管理软件,它允许连接到特定的数据库,创建表和...

Enpass for Mac(跨平台密码管理软件)

还在寻找密码管理软件吗?密码管理软件有很多,但是综合素质相当优秀且完全免费的密码管理软件却并不常见,EnpassMac版是一款免费跨平台密码管理软件,可以通过这款软件高效安全的保护密码文件,而且可以...