正则表达式-hive sql中的$1和$2

文章详细解释了如何在HSQL的SQL查询中使用正则表达式处理带单位的带宽数据,涉及匹配、替换和单位转换的操作,如G、K、M等。

 #下面sql中的正则理解(HSQL)#
with tt AS (
   select '100000M(Committed Mainland China:0M Burst to 0M, Committed Others:40000M Burst to 100000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:0M Burst to 10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:3500M Burst to 10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:5000M Burst to 10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:50M Burst to 10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M, Committed Others:10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:100M Burst to 1000M, Committed Others:900M Burst to 9000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:100M Burst to 100M, Committed Others:4900M Burst to 9900M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:3000M Burst to 10000M)'  as BANDWIDTH union all
   select '10000M(Committed Mainland China:0M Burst to 0M, Committed Others:4500M Burst to 10000M)'  as BANDWIDTH 
)
select tt.BANDWIDTH,
 regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+[GMKgmk]).*",'$2'),
CASE WHEN regexp_replace(UPPER(regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+[GMKgmk]).*",'$2')),"[\\d\\.]+([GMKgmk])",'$1') ='G' THEN regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+)[GMKgmk].*",'$2')*1024.0
    WHEN regexp_replace(UPPER(regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+[GMKgmk]).*",'$2')),"[\\d\\.]+([GMKgmk])",'$1') ='K' THEN regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+)[GMKgmk].*",'$2')/1024.0
    WHEN regexp_replace(UPPER(regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+[GMKgmk]).*",'$2')),"[\\d\\.]+([GMKgmk])",'$1') ='M' THEN regexp_replace(TT.BANDWIDTH,"(Share Bandwidth |\\.)?([\\d\\.]+)[GMKgmk].*",'$2')+0.0
    ELSE 0.0
END,
regexp_replace(TT.BANDWIDTH,"([\\d]+[GMKgmk]).*",'$1')
from tt;

# 相关知识及其扩展 #
一、$1、$2的含义
(pattern)
匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9属性。要匹配圆括号字符,请使用“”。

二、正则的几个比较难理解的元字符
语法与释义:

基础语法 "^([]{})([]{})([]{})$"

  正则字符串 = "开始([包含内容]{长度})([包含内容]{长度})([包含内容]{长度})结束" 

  ?,*,+,\d,\w 这些都是简写的,完全可以用[]和{}代替,在(?:)(?=)(?!)(?

  初学者可以忽略?,*,+,\d,\w一些简写标示符,学会了基础使用再按表自己去等价替换

实例:

  字符串;tel:086-0666-88810009999

  原始正则:"^tel:[0-9]{1,3}-[0][0-9]{2,3}-[0-9]{8,11}$" 

  速记理解:开始 "tel:普通文本"[0-9数字]{1至3位}"-普通文本"[0数字][0-9数字]{2至3位}"-普通文本"[0-9数字]{8至11位} 结束"

  等价简写后正则写法:"^tel:\d{1,3}-[0]\d{2,3}-\d{8,11}$" ,简写语法不是所有语言都支持。

比较难理解:
(?:pattern)
非获取匹配,匹配pattern但不获取匹配结果,不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。

(?=pattern)
非获取匹配,正向肯定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)
非获取匹配,正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值