MySQL存储Json字符串遇到的问题与解决方法

来自：网络

时间：2022-12-27

阅读：

环境依赖

Python 2.7
MySQL 5.7
MySQL-python 1.2.5
Pandas 0.18.1

在日常的数据处理中，免不了需要将一些序列化的结果存入到MySQL中。这里以插入JSON数据为例，讨论这种问题发生的原因和解决办法。现在的MySQL已经支持JSON数据格式了，在这里不做讨论；主要讨论如何保证存入到MySQL字段中的JsonString能被正确解析。

问题描述

# -*- coding: utf-8 -*-
import MySQLdb
import json

mysql_conn = MySQLdb.connect(host='localhost', user='root', passwd='root', db='test', port=3306, charset='utf8')
mysql_cur = mysql_conn.cursor()

increment_id = 1
dic = {"value": "<img src=\"xxx.jpg\">", "name": "小明"}
json_str = json.dumps(dic, ensure_ascii=False)

sql = "update demo set msg = '{0}' where id = '{1}'".format(json_str, increment_id)
mysql_cur.execute(sql)
mysql_conn.commit()
mysql_cur.close()

应用场景抽象如上所示，将一个字典经过经过Json序列化后作为一个表字段的值存入到Mysql中，按照如上的方式更新数据时，发现落库的JsonString反序列化失败；落库结果和反序列化结果分别如下所示：

原因分析

对于字符串中包含引号等其他特殊符号的处理思路在大多数编程语言中都是相通的：即就是通过转义符来保留所需要的特殊字符。Python中也不例外，如上所示，对于一个字典{"value": "<img src="xxx.jpg">", "name": "小明"}，要想在编译器里正确的表示它，就需要通过对转义包裹xxx.jps的两个双引号，不然会提示错误，所以它的正确写法为：{"value": "<img src=\&;xxx.jpg\&;>", "name": "小明"}；将序列化后的String作为参数传入待执行的sql语句中，通过编辑器的debug模式查看的效果如下所示：

而这句sql经过编译器解析后传入到MySQL去执行的本质为：'update demo set msg = '{"source": "<img src="xxx.jpg">", "type": "图片"}' where id = '1'，因此落库的实际结果其实并不是目标字典对应的序列化结果，而是目标数据对应的字面字符串值。

解决方案

可以通过转义符替换、修改sql书写方式或通过DataFrame.to_sql()三种方式来解决。

方案一转义符替换

通过上文可以了解到，是因为\\"xxx.jpg\\"的本质即就是"xxx.jpg"，所以数据库读到的也就是{"source": "<img src="xxx.jpg">", "type": "图片"}，从而导致插入的结果并不能被正确反序列化。可以通过简单粗暴的转义符替换方式来解决这个问题：json_str.replace('\\', '\\\\')，这样就保证最终的解析结果为\&;xxx.jpg\&;。

方案二修改sql书写方式

  def execute(self, query, args=None):
        del self.messages[:]
        db = self._get_db()
        if isinstance(query, unicode):
            query = query.encode(db.unicode_literal.charset)
        if args is not None:
            # 通过调用内置的解析函数literal，将目标参数按照原义解析
            # 解析的依据详见源码的MySQLdb.converters
            if isinstance(args, dict):
                query = query % dict((key, db.literal(item))
                                     for key, item in args.iteritems())
            else:
                query = query % tuple([db.literal(item) for item in args])
        try:
            r = None
            r = self._query(query)
        except TypeError, m:
            if m.args[0] in ("not enough arguments for format string",
                             "not all arguments converted"):
                self.messages.append((ProgrammingError, m.args[0]))
                self.errorhandler(self, ProgrammingError, m.args[0])
            else:
                self.messages.append((TypeError, m))
                self.errorhandler(self, TypeError, m)
        except (SystemExit, KeyboardInterrupt):
            raise
        except:
            exc, value, tb = sys.exc_info()
            del tb
            self.messages.append((exc, value))
            self.errorhandler(self, exc, value)
        self._executed = query
        if not self._defer_warnings: self._warning_check()
        return r

查看MySQL-python的execute源码(如上所示)可以发现，在传入待执行的sql语句的同时，还可以传入参数列表/字典；让MySQL-Python来帮我们进行sql语句的拼接和解析操作，修改上述样例的实现方式：

increment_id = 1
dic = {"value": "<img src=\"xxx.jpg\">", "name": "小明"}
json_str = json.dumps(dic, ensure_ascii=False)

sql = "update demo set msg = %s where id = %s"
mysql_cur.execute(sql, [json_str, increment_id])
mysql_conn.commit()
mysql_cur.close()

通过走读源码发现参数经过literal()方法将Python的对象转化为对应SQL数据的字符串格式；在编译器Debug模式下可以看到最终将\\"xxx.jpg\\"转化为\\\\\\"xxx.jpg\\\\\\"。至于为什么是六个反斜杠我自己也不太清楚；不过姑且可以这样理解：把literal方法的操作可以假定为有一次的序列化，因为给定的数据源是\&;，所以序列化的结果为应该为\\"，即就是四个反斜杠；因为\&;代表的即就是”，而期望落库的结果为"，所以需要再添加两个反斜杠。这种解释不是那么准确和严谨，但是有利于帮助理解，若有了解底层机制和原理的，还请留言指教。

推荐使用

方案三 DataFrame.to_sql()

处理数据离不开Panda工具包；Pandas的DataFrame.to_sql()方法可以便捷有效的实现数据的插入需求；同样该方法也能有效的规避上述这种序列化结果错误的情况，因为DataFrame.to_sql()底层的实现逻辑类似于方案二，也是通过参数解析的方式来拼接sql语句，核心源码如下所示，同于不难发现，DataFrame.to_sql()只能支持insert操作，适用场景比较局限。对于有唯一索引的表，当待插入数据与数据表中有冲突时会报错，实际使用时需要格外注意。

def insert_statement(self):
        names = list(map(text_type, self.frame.columns))
        flv = self.pd_sql.flavor
        wld = _SQL_WILDCARD[flv]  # wildcard char
        escape = _SQL_GET_IDENTIFIER[flv]

        if self.index is not None:
            [names.insert(0, idx) for idx in self.index[::-1]]

        bracketed_names = [escape(column) for column in names]
        col_names = ','.join(bracketed_names)
        wildcards = ','.join([wld] * len(names))
        # 只支持Insert操作
        insert_statement = 'INSERT INTO %s (%s) VALUES (%s)' % (
            escape(self.name), col_names, wildcards)
        return insert_statement

补充：

补充：不同情况

1.模糊查询json类型字段

存储的数据格式（字段名 people_json）：

{“name”: “zhangsan”, “age”: “13”, “gender”: “男”}

代码如下（示例）：

select * from table_name  where people_json->'$.name' like '%zhang%'

2.精确查询json类型字段

存储的数据格式（字段名 people_json）：

{“name”: “zhangsan”, “age”: “13”, “gender”: “男”}

代码如下（示例）：

select * from table_name  where people_json-> '$.age' = 13

3.模糊查询JsonArray类型字段

存储的数据格式（字段名 people_json）：

[{“name”: “zhangsan”, “age”: “13”, “gender”: “男”}]

代码如下（示例）：

select * from table_name  where people_json->'$[*].name' like '%zhang%'

4.精确查询JsonArray类型字段

存储的数据格式（字段名 people_json）：

[{“name”: “zhangsan”, “age”: “13”, “gender”: “男”}]

代码如下（示例）：

select * from table_name  where JSON_CONTAINS(people_json,JSON_OBJECT('age', "13"))

总结

MySQL大小写敏感的处理方式及代码示例MySQL是一种常用的关系型数据库管理系统，它在处理大小写敏感的问题时需要特别注意。在MySQL中，默认情况下是大小写不敏感的，即不区分大小

2024-03-15 21:10:08

MySQL触发器的定义与使用方法详解MySQL触发器是一种特殊的存储过程，可以在表发生特定事件时自动执行。触发器可以用于实现数据的自动化处理、数据一致性维护等功能。本文将

2024-03-15 21:09:41

MySQL数据库中外键的作用及用法详解在MySQL数据库中，外键是用来建立表与表之间关联的重要工具，它能够确保数据完整性，并且提供了一种方式来维护表与表之间的关系。本文将详细介

2024-03-15 21:09:25

MySQL UPDATE语句是否会导致表被锁定？MySQL 是一个流行的关系型数据库管理系统，广泛用于各种应用程序中。在数据库操作中，UPDATE 语句用于更新表中的数据。但是，一个常见的问题

2024-03-15 21:09:08

MySQL中的布尔类型是一种非常实用的数据类型，它用于存储逻辑值，只能取两种值：TRUE或FALSE。在MySQL中，布尔类型也被称为BOOL或BOOLEAN，可以用TINYINT(1)来表示。在本文中，我们将深

2024-03-15 21:08:53

如何设计合理的 MySQL 复合主键？在数据库设计中，主键是一项非常重要的概念，它可以帮助我们唯一地标识每一行数据。在 MySQL 中，我们可以选择使用单一主键或者复合主键。复合主键

2024-03-15 21:08:36

MySQL数据库中unique索引的优势及应用场景在MySQL数据库中，unique索引是一种特殊的索引，它可以保证列中的值是唯一的。在实际应用中，unique索引具有许多优势，并且适用于多种场景

2024-03-15 21:08:22

MySQL 时间戳是一个十分重要的数据类型，它可以存储日期、时间或者日期加时间。在实际的开发过程中，合理地使用时间戳可以提高数据库操作的效率，并且方便进行时间相关的查询和计

2024-03-15 21:08:05

MySQL数据库中的unique索引：用法与注意事项MySQL是一种非常流行的开源关系型数据库管理系统，可以用于存储和管理大量的数据。在MySQL中，我们经常会使用索引来提高数据的检索和

2024-03-15 21:07:48

MySQL.proc表是MySQL数据库中存储存储过程和函数信息的系统表，通过深入了解其结构及用途，可以更好地理解存储过程和函数在MySQL中的运行机制，并进行相关的管理和优化。下面将详

2024-03-15 21:07:32

在数据库管理中，触发器是一种强大的工具，能够帮助我们实现数据库操作的自动化。MySQL作为一款广泛应用的开源数据库管理系统，也提供了触发器功能，我们可以利用MySQL触发器来实现

2024-03-15 21:07:14

MYSQL 一个事务在提交的时候能够保证binlog和redo log是同时提交的，并且能在宕机恢复后保持binlog 和redo log的一致性。先来看看什么是redo log 和binlog，以及为什么要保持它

2024-03-15 00:54:55

转载至我的博客 https://www.infrastack.cn ，公众号：架构成长指南在并发一致性控制场景中，我们常常用for update悲观锁来进行一致性的保证，但是如果不了解它的机制，就进行使用，很

2024-03-13 00:03:43

1 介绍AOF（Append Only File）持久化：以独立日志的方式存储了 Redis 服务器的顺序指令序列，并只记录对内存进行修改的指令。
当Redis服务发生雪崩等故障时，可以重启服务并重新执行

2024-03-12 12:07:28

大家好，我是小康，今天我们来聊下 Redis 的几种架构模式，包括主从复制、哨兵和集群模式。前言：设想一下，你的咖啡馆在城市中太受欢迎，导致每天都人满为患。为了缓解这种压力，你决定

2024-03-11 00:01:36

前言:每次你在游戏中看到玩家排行榜，或者在音乐应用中浏览热门歌单，有没有想过这个排行榜是如何做到实时更新的？当然，依靠 Redis 即可做到。在技术领域，我们经常听到「键值存储」

2024-03-11 00:00:34

2024-03-10 23:58:29

Oracle数据库中修改系统日期方法详解在Oracle数据库中，修改系统日期的方法主要涉及到修改NLS_DATE_FORMAT参数和使用SYSDATE函数。本文将详细介绍这两种方法及其具体的代码示

2024-03-09 23:16:03

解决Oracle错误3114的有效方法分享，需要具体代码示例Oracle数据库是常用的企业级关系型数据库管理系统，但在使用过程中经常会遇到各种错误。其中，错误3114是一个比较常见的错误

2024-03-09 23:15:49

解决Oracle中空表无法成功导出的技巧在Oracle数据库中，有时候在导出数据时会遇到空表无法成功导出的问题。这种情况可能会给数据库管理员带来一定的困扰，因为即使表中没有数据

2024-03-09 23:15:34

如何提升Oracle DBA的权限管理技巧在Oracle数据库管理中，权限管理是至关重要的一项工作。作为一名Oracle DBA，掌握权限管理技巧能够有效地保护数据库的安全性，保障数据的完整性

2024-03-09 23:15:18

在Oracle数据库开发中，编写存储过程来判断表是否存在是一项常见的任务。在数据库开发中，存储过程是一段预先编译的代码块，用于实现特定的功能或逻辑。通过编写存储过程来判断表

2024-03-09 23:15:03

在Oracle数据库中，Blob和Clob是两种用于存储大数据类型的数据字段。Blob代表二进制大对象（Binary Large Object），通常用于存储二进制数据，例如图片、音频、视频等；而Clob代表字符

2024-03-09 23:14:46

Sybase和Oracle都是在企业级数据库领域备受青睐的两大数据库管理系统。它们在功能、性能、可靠性等方面都有各自的优势，并且在实际应用中常常被广泛使用。本文将从不同角度来

2024-03-09 23:14:27

Oracle中的LPAD函数是用来在字符串左侧填充特定字符，使字符串达到指定长度的函数。在实际应用中，LPAD函数常用于处理字符串对齐的需求，尤其是在数据库查询结果展示或报表生成过

2024-03-09 23:14:11

Oracle数据库中存储过程是一种特定类型的存储过程，用于在数据库中执行一系列的SQL语句和数据操作。在实际的数据库开发工作中，有时候我们需要判断某个表是否存在于数据库中，这

2024-03-09 23:13:57

Blob和Clob是Oracle数据库中两种常见的数据类型，用于存储大量的二进制数据和字符数据。本文将分析Blob和Clob数据类型的差异，并从各自的优势和劣势进行比较。一、Blob数据类型

2024-03-09 23:13:42

空表导出是数据库管理中常见的操作，但有时候遇到空表导出却遇到了困难，这时候我们需要使用一些特定的策略和技巧来解决问题。在Oracle数据库中，空表导出的困难通常出现在导出后

2024-03-09 23:13:28

Oracle数据库中的LPAD函数是一种用于在字符串左侧填充指定字符的函数，可以帮助我们对字符串进行格式化处理。LPAD函数的语法为：LPAD(要填充的字符串,总长度,填充字符)。接下来

2024-03-09 23:13:13

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2021-01-28

2020-03-22

2021-01-21

2020-10-28

MySQL存储Json字符串遇到的问题与解决方法

目录

环境依赖

问题描述

原因分析

解决方案

方案一 转义符替换

方案二 修改sql书写方式

方案三 DataFrame.to_sql()

补充：不同情况

总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道

方案一转义符替换

方案二修改sql书写方式