Spark处理方法_提取文件名中的时间

news/2024/10/25 3:28:27/

需求描述

        通过读取目录下的类似文件的datapath路径的文件名及文件内容,需要将读取的每一个文件的文件名日期解析出来,并作为读取当前文件内容递归读取当前文件一个df列,列名为“时间”;后面就是读一个文件,解析一下时间,将时间添加到所读文件的dataframe中,相当于给每一个读的文件内容添加了当前读取文件解析出来的时间列,以此递归循环。读取每一个文件后都要加上一列此文件解析出来的时间,形式如下

  Reading file: hdfs://master.test.com:8020/data/测试文件/_L_20231025095119.txtReading file: hdfs://master.test.com:8020/data/测试文件/_L_20231026095119.txtReading file: hdfs://master.test.com:8020/data/测试文件/_L_20231027095119.txt


内容形式如下

  文件名:L_20231025095119.txt文件内容:id,imsi,lon,lat......文件名:L_20231026095119.txt文件内容:id,imsi,lon,lat......文件名:L_20231027095119.txt文件内容:id,imsi,lon,lat......我要的文件内容输出形式为id,imsi,lon,lat,20231025095119...id,imsi,lon,lat,20231026095119...id,imsi,lon,lat,20231027095119......

代码片段:

...
...
//打印读取目录下的文件名
println("文件datapath路径")
if (dataPath.isEmpty) {println("No files to read.")
} else {for (path <- dataPath) {println(s"Reading file: $path")}
}
// 解析时间字段
// 提取文件名中的时间部分,格式为:"_L_20231111095119.txt" 中的 "20231111095119"
// 由于文件名是按目录读取的,因此要变成字符串形式并以逗号隔开
val filePath = dataPath.mkString(",")
val fileName = filePath.split("/").last.stripSuffix(".csv")
val timeStr = fileName.split("_").last
val year = timeStr.substring(0, 4)
val month = timeStr.substring(4, 6)
val day = timeStr.substring(6, 8)
val hour = timeStr.substring(8, 10)
val minute = timeStr.substring(10, 12)
val second = timeStr.substring(12, 14)
val time = s"$year-$month-$day $hour:$minute:$second"
println(time)
// 输出时间类似:2023-03-01 09:51:19
...
...
val rddAll = if(dataPath.isEmpty){sc.emptyRDD[(LongWritable,Text)]
} else {sc.newAPIHadoopRDD(jobConf,classOf[CombineTextInputFormat],classOf[LongWritable],classOf[Text])}val firstLine = {if(rddAll.take(1).length == 0){null} else {val firstLineTemp = rddAll.first()._2getAfterSplitArray(delimiter,new String(firstLineTemp.getBytes,0,firstLineTemp.getLength,encoding))}
}
...
...
val outDF = sqlc.createDataFrame(outRDD,schema)
//2修改
val outDF1 = outDF.withColumn("时间", lit(time))
outDF1.show()


http://www.ppmy.cn/news/1207905.html

相关文章

RapidSSL证书

RapidSSL是一家经验丰富的证书颁发机构&#xff0c;主要专注于提供标准和通配符SSL证书的域验证SSL证书。在2017年被DigicertCA收购后&#xff0c;RapidSSL改进了技术并开始使用现代基础设施。专注于为小型企业和网站提供基本安全解决方案的SSL加密。RapidSSL它具有强大的浏览器…

【C语言从入门到放弃 6】递归,强制类型转换,可变参数和错误处理详解

C语言是一种功能强大的编程语言&#xff0c;具有许多高级特性&#xff0c;包括强制类型转换&#xff0c;递归&#xff0c;可变参数和错误处理。在本文中&#xff0c;我们将深入了解这些特性&#xff0c;并提供简单的示例来帮助理解。 递归 递归是一种函数调用自身的技术&…

基于Python的IP地址转换

今天&#xff0c;我要和大家分享一个有趣的话题——IP地址转换。你曾经在网络设置中遇到过IP地址吗&#xff1f;那些一串看起来很复杂的数字&#xff0c;让人不禁想知道它们背后隐藏着什么秘密。不用担心&#xff0c;我将通过使用Python来解开这个谜团&#xff0c;并向大家展示…

尼得科电机的强大性能,将列车门和屏蔽门的开合变得从容而安全

城市脉动&#xff0c;人流涌动。 无论城市轨道交通还是远途铁路运输&#xff0c; 尼得科电机的强大性能&#xff0c;将列车门和屏蔽门的开合变得从容而安全。 尼得科的电机方案&#xff0c;有助于列车门稳准开闭&#xff0c;保障乘客安全无忧。高效驱动&#xff0c;让乘客的行程…

2.docker镜像的导入导出

目录 概述docker 常用命令下载导出导入镜像结束 概述 docker 常用命令 本章节使用到的命令&#xff0c;总结在此&#xff0c;后面有使用案例。 命令作用docker images显示镜像docker rmi $(docker images -q)删除系统上所有的镜像docker rmi -f强制删除多个镜像 &#xff1a…

Node.js中的文件系统(file system)模块

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

maven POM文件总体配置说明

<project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd "> <!-- 父项目的坐…

Figma切图,轻松上手!

对于UI设计师来说&#xff0c;在设计网页或移动应用界面时&#xff0c;不仅需要考虑视觉效果和用户体验&#xff0c;还需要考虑实际开发过程中的实现。例如&#xff0c;与开发人员合作&#xff0c;将设计草案中的图片、图标、插图等元素转换为网页或移动应用程序的代码&#xf…