ClickHouse用UDF解析XML字符串和XML文件

server/2024/9/23 2:35:40/

一.如果是读取xml文件的时候,文件入库需要使用文件读取UDF

创建了1个测试文件

wsdFileRead(): 直接读取文件内容

SELECT wsdFileRead('/home/temp/wsd_test.xml')Query id: 09b6e5fe-7169-43f7-b001-90e2eeabb8da┌─wsdFileRead('/home/temp/wsd_test.xml')─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ <?xml version="1.0" encoding="UTF-8"?><des>  <context>    <ANNOUNCEMENT_START_TIME>20240416</ANNOUNCEMENT_START_TIME>    <LAND_DISTRICT>1101202</LAND_DISTRICT>    <FIELD_NUM>12</FIELD_NUM>    <TRA_AGENCY_CODE>11110000MB03920782F</TRA_AGENCY_CODE>    <PUB_SERVICE_PLAT_CODE>121100002400591890H</PUB_SERVICE_PLAT_CODE>    <UNIT_ADDRESS>TEST1</UNIT_ADDRESS>    <LAND_PROJECT_NAME>TEST2</LAND_PROJECT_NAME>  </context></des> │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘1 row in set. Elapsed: 0.002 sec.

wsdFileReadB64(): 读取文件内容并base64加密

SELECT wsdFileReadB64('/home/temp/wsd_test.xml')Query id: 76ea5d06-7802-4f71-98e5-0728d9b0372e┌─wsdFileReadB64('/home/temp/wsd_test.xml')──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iVVRGLTgiPz48ZGVzPiAgPGNvbnRleHQ+ICAgIDxBTk5PVU5DRU1FTlRfU1RBUlRfVElNRT4yMDI0MDQxNjwvQU5OT1VOQ0VNRU5UX1NUQVJUX1RJTUU+ICAgIDxMQU5EX0RJU1RSSUNUPjExMDEyMDI8L0xBTkRfRElTVFJJQ1Q+ICAgIDxGSUVMRF9OVU0+MTI8L0ZJRUxEX05VTT4gICAgPFRSQV9BR0VOQ1lfQ09ERT4xMTExMDAwME1CMDM5MjA3ODJGPC9UUkFfQUdFTkNZX0NPREU+ICAgIDxQVUJfU0VSVklDRV9QTEFUX0NPREU+MTIxMTAwMDAyNDAwNTkxODkwSDwvUFVCX1NFUlZJQ0VfUExBVF9DT0RFPiAgICA8VU5JVF9BRERSRVNTPlRFU1QxPC9VTklUX0FERFJFU1M+ICAgIDxMQU5EX1BST0pFQ1RfTkFNRT5URVNUMjwvTEFORF9QUk9KRUNUX05BTUU+ICA8L2NvbnRleHQ+PC9kZXM+ │
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘1 row in set. Elapsed: 0.002 sec.

二.如果处理clickhouse的字段含有xml字符串的情况

1.导入自定义UDF 

函数名

  • wsdXpathArrB64('参数1',参数2)
  • wsdXpathB64('参数1‘,'参数2')

2.wsdXpathB64

此函数参数1传递字段值,需要base64编码,保证了xml字段数据如果含有特殊符号也可以解析成功,

参数2传递xpath表达式

这里我随便选取一个时间节点它的表达式是/des/context/ANNOUNCEMENT_START_TIME

具体使用 

SELECT decodeURLComponent(base64Decode(submit_content)) AS ROUTE_WAY
FROM
(SELECT wsdXpathB64(base64Encode(submit_content), '/des/context/ANNOUNCEMENT_START_TIME') AS submit_contentFROM WSD_CONTENTWHERE sid = '001100005c20f73c4232b626dba00fa921ce'
)
LIMIT 4Query id: f0dc9ace-c05d-4a47-b12f-f7102093fa57┌─ROUTE_WAY─┐
│ 20240416  │
└───────────┘

3.wsdXpathArrB64

第一个参数和上面的函数一样,base64编码后的字段

第二个参数传一个xpath表达式的数组

具体如下

SELECTsid,decodeURLComponent(base64Decode(submit_content[1])) AS ROUTE_WAY,decodeURLComponent(base64Decode(submit_content[2])) AS DATA_NO,decodeURLComponent(base64Decode(submit_content[3])) AS DATA_KEY,decodeURLComponent(base64Decode(submit_content[4])) AS CA_KEY,decodeURLComponent(base64Decode(submit_content[5])) AS DATA_EN,decodeURLComponent(base64Decode(submit_content[6])) AS DATA_TYPE,FROM
(SELECTwsdXpathArrB64(base64Encode(replaceRegexpAll(submit_content, '\\+', ' ')), ['/des/title/ROUTE_WAY', '/des/title/DATA_NO', '/des/title/DATA_KEY', '/des/title/CA_KEY', '/des/title/DATA_EN', '/des/title/DATA_TYPE']) AS submit_content,sidFROM CEN_SUBMIT_CONTEXT_600WHERE sid = '0011726f801b96724c0790f9a38e3593cca7'
)Query id: 147b7dba-f694-4cbc-84cd-85f781244d20Row 1:
──────
sid:                     0011726f801b96724c0790f9a38e3593cca7
ROUTE_WAY:               0
DATA_NO:                 600
DATA_KEY:                ff8080818d548044018e59dc7ac10bde
CA_KEY:                  88888888889999999999
DATA_EN:                 DEAL_BEHAVIOR_INFO
DATA_TYPE:               1

4.解析xml文件

##使用不带base64加密的函数
SELECTwsdXpathB64(base64Encode(wsdFileRead('/home/temp/wsd_test.xml')), '/des/context/ANNOUNCEMENT_START_TIME') AS xx,base64Decode(xx) AS yyQuery id: d9db0f57-e187-4137-ba92-3024b5fe8e61┌─xx───────────┬─yy───────┐
│ MjAyNDA0MTY= │ 20240416 │
└──────────────┴──────────┘1 row in set. Elapsed: 0.004 sec.###使用带base64加密的函数
SELECTwsdXpathB64(wsdFileReadB64('/home/temp/wsd_test.xml'), '/des/context/ANNOUNCEMENT_START_TIME') AS xx,base64Decode(xx) AS yyQuery id: 55a5da4b-46d6-4205-9844-3cd2c17a3a2b┌─xx───────────┬─yy───────┐
│ MjAyNDA0MTY= │ 20240416 │
└──────────────┴──────────┘1 row in set. Elapsed: 0.005 sec.


http://www.ppmy.cn/server/23162.html

相关文章

加速软件定义汽车进程:安波福推出全栈式软硬件平台

随着智能汽车行业的飞速发展&#xff0c;“软件定义汽车”也得到了越来越多行业人士的认可&#xff0c;成为了汽车行业的大势所趋。为了推动和加速软件定义汽车的进程&#xff0c;也有越来越多的科技企业在为其不断添砖加瓦。 2024北京国际车展期间&#xff0c;安波福正式对外展…

小米汽车充电枪继电器信号

继电器型号&#xff1a; 参考链接 小米SU7&#xff0c;便捷充放电枪拆解 (qq.com)https://mp.weixin.qq.com/s?__bizMzU5ODA2NDg4OQ&mid2247486086&idx1&sn0dd4e7c9f7c72d10ea1c9f506faabfcc&chksmfe48a110c93f2806f6e000f6dc6b67569f6e504220bec14654ccce7d…

STM32xx系列单片机串口数据收发

1. 串口初始化 void ShockWaveHandle_USART2Init(void) {GPIO_InitTypeDef GPIO_InitStruct;NVIC_InitTypeDef NVIC_InitStruct;// RCC_APB1PeriphClockCmd: usart2 is hanging under APB1, only usart1 is hanging under APB2RCC_APB1PeriphClockCmd(RCC_APB1Periph_USART2 |…

笔记:能量谱密度与功率谱密度(二)

目录 一、ESD与PSD的定义、单位、性质 二、对ESD与PSD的直观理解 三、总结&#xff1a; 某物理量的“分布”在离散系统中&#xff0c;各点(纵坐标含义&#xff09;的物理意义仍然是该物理量&#xff0c;而在连续系统中&#xff0c;各点&#xff08;纵坐标含义&#xff09;的物…

C语言如何使⽤字符串指针作为函数参数?

一、问题 如何使⽤字符串指针作为函数参数呢&#xff1f; 二、解答 将字符串以实参的形式传递给函数的形参&#xff0c;使⽤指针将字符串传递给函数。下⾯就来看⼀个示例程序&#xff0c;代码如下。 #include <stdio.h> #include <string.h> int comp(char *str1…

19 JavaScript学习:调试

JavaScript 调试 调试是指在程序运行过程中&#xff0c;通过检查程序的运行状态、输出结果等信息&#xff0c;来发现程序中的错误并对其进行修复的过程。在JavaScript中&#xff0c;调试通常包括以下几种方式&#xff1a; 使用console.log()方法&#xff1a;在代码中插入consol…

web3 入门记录

密码学 柯尔霍夫原则&#xff0c;也被称为克尔克霍夫定律&#xff0c;是密码学中的一个核心原则。这个原则简单来说&#xff0c;就是指一个密码系统即便在除了密钥之外的所有信息都被公开的情况下&#xff0c;仍然应该是安全的。 为了更好地理解这个原则&#xff0c;我们可以…

HTML5 常见的语义标记(布局)

HTML5 常见的语义标记(布局) <header> 显示网站名称、主题或者主要信息 <nav> 网站的连接菜单 <aside> 用于侧边栏 <main> 表示页面的主要显示内容, 页面有且只有一个, 不应该被任何其他结构标签包含, 不能是以下元素的后代: section/nav/footer/h…