在hive的查询里面我们还会涉及到正则表达式的查询匹配,这里主要使用的函数是:regexp_extract函数。
这个regexp_extract函数的使用方法是:regexp_extract(str,regexp,idx),这里一共有3个值,意思分别是:
str:要匹配的字符串 regexp:正则表达式 idx:返回结果,意思是取表达式的哪一部分作为结果,默认是1
下面我们列举下hive中支持的正则表达式的列表:
符号 | 功能 |
---|---|
/ | 做为转义,即通常在“/”后面的字符不按原来意义解释,如/b/匹配字符“b”,当b前面加了反斜杠后//b/,转义为匹配一个单词的边界。-或-对正则表达式功能字符的还原,如““匹配它前面元字符0次或多次,/a/将匹配a,aa,aaa,加了"/"后,/a//将只匹配”a“。 |
^ | 匹配一个输入或一行的开头 ,/^a/匹配”an A“,而不匹配”An a“ |
$ | 匹配一个输入或一行的结尾,/a$/匹配”An a“,而不匹配”an A“ |
* | 匹配前面原字符0次或多次,/ba*/将匹配b,ba,baa |
+ | 匹配前面元字符1次或多次,/ba*/将匹配ba,ba,baaa |
? | 匹配前面元字符0次或1次,/ba?/将匹配b,ba |
(x) | 匹配x保存x在名为9的变量中 |
{n} | 精确匹配n次 |
{n,} | 匹配n次以上 |
{n,m} | 匹配n-m次 |
[xyz] | 字符集(character set),匹配这个集合中任一一个字符(或元字符) |
[^xyz] | 不匹配这个集合中的任何一个字符 |
[/b] | 匹配一个退格符 |
/b | 匹配一个单词的边界 |
/B | 匹配一个单词的非边界 |
/d | 匹配一个数字字符,//d/=/[0-9]/ |
/D | 匹配一个非数字字符,//D/=/[^0-9]/ |
/n | 匹配一个换行符 |
/r | 匹配一个换行符 |
/S | 匹配一个空白字符,包括/n,/r,/f,/t,/v等 |
/w | 匹配一个可以组成单词的字符,包括下划线,如[/w]匹配”$5.98“中的5,等于[a-zA-Z0-9] |
/W | 匹配一个不可以组成单词的字符,如[/W]匹配”5.98“中的$,等于[^a-zA-Z0-9] |
最后我们演示一个案例:使用hive的正则表达式进行查询:
select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) 得到结果:abc
还没有评论,来说两句吧...