2022-10-27 334
01 引言
MySQL根据不同的应用场景,支持的模糊搜索方式有多种,例如应用最广泛的可能是Like匹配和RegExp正则匹配,二者虽然用法和原理都很相似,但实际上匹配原则却不尽相同,其中Like要求模式串与整个目标字段完全匹配才检索该记录,而RegExp则是要求目标字段包含模式串即可。
对于简单的判断模式串是否存在类型的模糊搜索,应用MySQL内置函数即可实现,例如Instr()、Locate()、Position()等。
当然,提到MySQL查询性能就不得不提到索引,对于字段模糊查询需求,我们也可以考虑添加全文索引(Fulltext)。
注:本文所用MySQL版本8.0.19,可视化工具Navicat Primium。
02 4种模糊查询
为了便于描述和测试不同模糊查询方式结果,首先给出一个简单的测试用数据表tests如下:
其中,tests表仅含有一个名为words的字段,并对该字段添加全文索引。表中共有6条记录。
Like算作MySQL中的谓词,其应用与is、=、>和<等符号用法类似。Like主要支持两种通配符,分别是"_"和"%",其中前者代表匹配1个任意字符,常用于充当占位符;而后者代表匹配0个或多个任意字符。从某种意义上讲,Like可看作是一个精简的正则表达式功能。
例如,在如上表中查找所有以"hello"开头的记录,则其SQL语句为:
1SELECTwordsFROMtestsWHEREwordsLIKE'hello%';
查询结果:
如果想查找所有以"hello"开头且至少含有6个字符的记录,则可简单修改SQL语句如下:
1SELECTwordsFROMtestsWHEREwordsLIKE'hello_%';
查询结果:
另外:当在Like模式字段中,若不包含任何"_"和"%"通配符,则等价于"=",表示精确匹配,例如查询语句……Like "hello",则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。
正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。
如前所述,Like匹配原则是要求模式串与整个目标字段匹配时,才返回该条记录;而RegExp中则是当目标字段包含模式串时即返回该条记录。例如如下SQL语句将返回所有包含"hello"的记录:
1SELECTwordsFROMtestsWHEREwordsREGEXP'hello';
而在Like中这样的写法仅返回记录="hello"的记录。为了限定正则表达式以某个模式串开头或者结尾,可以通过添加"^"和"$"标识符来限定,例如仍然搜索以"hello"开头的目标字段,则其SQL语句为:
1SELECTwordsFROMtestsWHEREwordsREGEXP'^hello';
对于包含某些特定模式串的模糊搜索,可以通过MySQL内置函数实现。可以完成这一功能的函数包括Instr()、Locate()和Position()等,其功能语法很相近,均是返回子串在字符串中的索引,且索引下标从1开始,当子串不存在是返回0。需要注意的是三个函数中子串和字符串的先后顺序是不一致的。例如以下语句均成功检索,且返回目标索引1
1SELECTINSTR("hello,world",'hello');--1 2SELECTLOCATE('hello',"hello,world");--1 3SELECTPOSITION('hello'in"hello,world");--1
应用以上3个内置函数,搜索上述测试表中包含"hello"的记录,则相应SQL语句为:
1SELECTwordsFROMtestsWHEREINSTR(words,'hello'); 2SELECTwordsFROMtestsWHERELOCATE('hello',words); 3SELECTwordsFROMtestsWHEREPOSITION('hello'inwords);
抛开索引谈查询性能,都是耍流氓!
全文索引是MySQL中索引的一种,曾经仅在引擎为MyISAM的表中支持,从5.6版本开始在InnoDB中也开始支持全文索引,支持的字段格式包括CHAR、VARCHAR和TEXT。在如上已经添加了全文索引的tests表中,仍然查询包含"hello"的记录,应用全文索引查询的SQL语句为:
1SELECTwordsFROMtestsWHEREMATCH(words)against('hello');
实际上,MATCH(words) against(‘hello’)返回的是字段words对目标字符"hello"的匹配程度:当不存在任何匹配结果时,返回0;否则,根据匹配次数的多少和位置先后返回一个匹配度。例如,如下SQL语句返回表中每条记录对目标字段"hello"的匹配度:
1SELECTMATCH(words)against('hello')FROMtests;
返回结果如下:
03 查询性能对比
为了对比以上4种模糊搜索方式的性能,我们这里构建一个规模较大且更具一般性的数据表。本文选择采集若干条英文格言,用于创建目标数据库。
1CREATETABLEIFNOTEXISTSsayings(saysTEXT,FULLTEXT(says));
在网上找了个英文格言的网站,并写了一个python小爬虫爬取页面全部300条英文格言,爬虫源码如下(为了增加记录条数,将300条记录重写100词,即数据库中包含30000条记录):
1frompyqueryimportPyQueryaspq 2frompymysqlimportconnect 3 4doc=pq(url='http://www.1juzi.com/new/43141.html',encoding='gb18030') 5items=doc("div.content>p:nth-child(2n+1)").items() 6hots=[item.text()foriteminitems] 7withconnect(host="localhost",user="root",password="123456",db='teststr',charset='utf8')ascur: 8sql_insert='insertintosayingsvalues(%s);' 9for_inrange(100): 10cur.executemany(sql_insert,hots)
注:如果对pyquery爬虫运用感兴趣,可移步:用pyquery5行代码爬取百度热点新闻一文
对爬取的英文短句写入创建的数据表中,结果如下:
既然是英文励志格言短句,那么我们就来查询其中包括"success"的记录。
1--LIKE通配符 2SELECTsaysFROMsayingsWHEREsaysLIKE'%success%' 3>OK 4>时间:0.036s 5 6--REGEXP正则匹配 7SELECTsaysFROMsayingsWHEREsaysREGEXP'success' 8>OK 9>时间:0.053s 10 11--内置函数查找 12SELECTsaysFROMsayingsWHEREINSTR(says,'success') 13>OK 14>时间:0.045s 15 16SELECTsaysFROMsayingsWHERELOCATE('success',says) 17>OK 18>时间:0.044s 19 20SELECTsaysFROMsayingsWHEREPOSITION('success'insays) 21>OK 22>时间:0.047s 23 24--全文索引 25SELECTsaysFROMsayingsWHEREMATCH(says)against('Success') 26>OK 27>时间:0.006s
可见,全文索引速度最宽,领先其他方式接近一个量级;Like通配符速度其次,但与其他几种查询方式效率相差不大。
通过Explain查询计划,我们可以发现全文索引方式由于应用了索引而无需全表查询,所以执行速度快,而其他三种模糊查询方式均为执行全表查询。
全文索引查询计划
Like通配符查询计划
实际上,对于添加索引的字段应用Like查询时,可以应用索引加速查询,为勒验证全文索引条件下是否仍然可以应用索引,我们进行第二组性能测试:
1SELECTsaysFROMsayingsWHEREsaysLIKE'success%' 2>OK 3>时间:0.015s 4 5SELECTsaysFROMsayingsWHEREsaysREGEXP'^success' 6>OK 7>时间:0.046s 8 9SELECTsaysFROMsayingsWHEREINSTR(says,'success')=1 10>OK 11>时间:0.042s 12 13SELECTsaysFROMsayingsWHERELOCATE('success',says)=1 14>OK 15>时间:0.051s 16 17SELECTsaysFROMsayingsWHEREPOSITION('success'insays)=1 18>OK 19>时间:0.049s 20 21SELECTsaysFROMsayingsWHEREMATCH(says)against('Success') 22>OK 23>时间:0.007s
可以看到,修改后的Like查询效率提升明显,并大幅超过其他方式。但解释查询计划发现,虽然possible_key显示了索引字段,但实际仍然未应用任何索引(key为null),即仍然进行全表查询(Type = All)。之所以带来速度上的大幅提升,仅仅是因为对’success%’要比’%success%’执行字符串匹配要快得多(后者要整列匹配,前者仅需匹配开头的单词即可),而与索引无关。
Like’success%’仍然无法应用全文索引
所以,得到的结论是Like通配符无法有效利用全文索引加速查询,但在特定模式下的查询速度可快于通配符%模式下的查询。
04 总结
本文探讨了MySQL中4中模糊查询方式,包括:
原文链接:https://77isp.com/post/9843.html
=========================================
https://77isp.com/ 为 “云服务器技术网” 唯一官方服务平台,请勿相信其他任何渠道。
数据库技术 2022-03-28
网站技术 2022-11-26
网站技术 2023-01-07
网站技术 2022-11-17
Windows相关 2022-02-23
网站技术 2023-01-14
Windows相关 2022-02-16
Windows相关 2022-02-16
Linux相关 2022-02-27
数据库技术 2022-02-20
抠敌 2023年10月23日
嚼餐 2023年10月23日
男忌 2023年10月22日
瓮仆 2023年10月22日
簿偌 2023年10月22日
扫码二维码
获取最新动态