DARPA TC-e3/e5数据集bin转json

news/2024/10/20 13:49:01/

关于这个数据集的一些基本信息就不赘述了,参考我之前的博客。DARPA TC-engagement5数据集官方工具可视化
两个方法:修改ELK可视化工具或直接使用自带的工具前者相对灵活,因为losgstash可以通过配置过滤器来修改字段;可以通过output选项设置文件名参数直接对日志进行分类,比如按事件类型写到相应的文件。但是目前有点小问题,每次json文件超过4.3G就会自动断掉,猜测应该是linux的文件大小有限制。这一点也可以在另一个自带的consumer工具中体现出来。后者更稳定,但是如果需要进一步研究其参数。

1. 修改可视化工具

官方给的工具是将解析的数据存到elasticsearch的,但是数据集的解压增长率非常恐怖,对空间要求很高。因此针对这个问题,我对工具主要进行了两个修改:

  • 利用logstash的插件直接将json输出到本地文件,删掉了grafana
  • 参考engagement3的数据格式重写logstash过滤器,对字段进行了删减和修改,剔除不必要字段。

修改之后的工具包放到了我的github-TC_Tool_modified,开源不易,记得star一下,感激不尽!

1.1 文件树介绍

在这里插入图片描述

文件内容
theia存放原始数据的文件夹
elasticsearch数据库,已经不需要了,但是logstash以来这个数据库,所以还是保留了
logs存放json文件的地方
logstash日志收集器,负责收集解压出来的log4j日志,然后输出到本地文件
docker-compose.yml镜像的配置文件
TCCDMDatum.avsc一个模式文件,用于规范化数据格式,负责从log到json的转换
tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar官方的java包,用于解压、读取并参考上述数据规范生成标准格式的数据通过socket发送

1.2 可修改配置

1.2.1 elastic search的内存限制(非必要)

docker-compose.yml中存在对于elasticsearch的内存限额,如果1G对于你的机器存在负担,可以尝试改为512、256等。
在这里插入图片描述

1.2.2 初始日志输出地址

我们可以通过命令java -Dlog4j.debug=true -cp .:tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar main.java.com.bbn.tc.DASImporter [原属数据路径] [模式文件路径] [输出IP] [输出端口] -v启动对于原始日志的解压和解析,启动前确保已有JAVA环境且logstash已成功启动。如果你采用C/S模式,这里的IP和端口可以修改为需要的地址。

1.2.3 初始日志接收地址

logstash负责接收Java包发送来的日志进行处理和输出到本地文件,可修改的的东西主要为4个:

  • docker-compose.yml中挂载的本地路径。
    在这里插入图片描述

  • logstash/pipline/logstash.conf中的监听端口。如果有修改发送地址,此处也应该修改为对应的端口
    在这里插入图片描述

  • logstash/pipline/logstash.conf中的过滤器。如果有额外需求,可以通过修改过滤器对字段进行调整

filter {json {source => "message"}mutate {//移除不必要字段remove_field=>["message","timestamp","file","@version","path","thread","host","method","priority","logger_name","class"]}//转换时间格式mutate {convert => {"[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos]" => "string"}}mutate {gsub => ["[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos]", "\d{6}$", ""]}date {match => ["[datum][com.bbn.tc.schema.avro.cdm20.Event][timestampNanos]", "UNIX_MS"]timezone => "America/New_York"locale => "en"  target => "@timestamp"}
}
  • logstash/pipline/logstash.conf中的输出文件的命名规则。为了避免单个文件过大,这里采用以小时为单位的时间格式命名。注释掉的输出方式为控制台输出,可以打开用以观察是否正常接收到数据,正式转换时再注释掉。
    在这里插入图片描述

1.3 启动方式

TC_Tool_modified/目录下使用docker-compose up -d启动日志接收器。需要docker环境和docker-compose包。
在任何目录下使用1.2.2中的命令格式启动日志解析器。如:

java -Dlog4j.debug=true -cp .:tc-das-importer-1.0-SNAPSHOT-jar-with-dependencies.jar main.java.com.bbn.tc.DASImporter ./theia/ ./TCCDMDatum.avsc 127.0.0.1 4712 -v

2. java-consumer

下载工具包ta3-java-consumer.tar.gz并解压。
参考根目录下的README进行安装。
ta3-java-consumer\tc-bbn-kafka目录下新建一个python脚本,如bin2json.py,粘贴如下代码进去,修改其中的bin_path.bin文件的绝对地址,注意一定要是绝对地址,然后运行该脚本等待转换完成即可。

import os
import time
# the path of .bin files
bin_path="/media/njust3001/disk/TC_e5/theia/"
dir_list=os.listdir(bin_path)
# print(len(dir_list))for cur_file in dir_list:# gets the absolute pathpath=os.path.join(bin_path,cur_file)# print(path)command="./json_consumer.sh "+pathos.system(command)time.sleep(10)print("susseful convert "+curfile)

本质上是能够通过./json_consumer.sh [filepath]直接运行的,但是后面的参数不能是文件夹只能是具体文件,所以额外写了脚本。转换出来的json文件默认在ta3-java-consumer\tc-bbn-kafka目录下,该工具包是支持自定义路径的,有需要可以自行研究。


http://www.ppmy.cn/news/1026045.html

相关文章

小程序具体开发

window 导航栏 属性名类型默认值作用navigationBarTitleText string字字符串导航栏标题内容navigationBarBackgroundColorHexcolor#000000设置导航栏背景颜色(比如荧黄色 #ffa)navigationBarTextStylestringwhite设置导航栏标题的颜色(仅含有…

量化交易可视化(10)-等高线图

等高线图的含义 等高线图(Contour plot)是一种二维图形展示方式,用于表示函数在二维平面上的等高线。等高线图的每条等高线代表函数在该高度上的取值相同的点的集合。 等高线图的绘制方法 在matplotlib中,可以使用contour()函数…

记一次前端直接上传图片到oss报错

前端直接上传图片到阿里云oss,相关过程官网和网上资料已经很详细,不做赘述。 但这个过程比较复杂,前后端对接过程中很容易出现报错,这里遇到了以下报错,不容易排查。 请求显示net::ERR_NAME_NOT_RESOLVED错误,catch输…

闲鱼卖货:新手容易踩坑的7个地方。赶紧看看有没有中招?

科思创业汇 大家好,这里是科思创业汇,一个轻资产创业孵化平台。赚钱的方式有很多种,我希望在科思创业汇能够给你带来最快乐的那一种! 这是我以前的一个学生收到的第一个非法通知。他告诉我,他当时很害怕,…

阿里云预装LAMP应用导致MySQL不显示访问密码如何解决

😀前言 本篇博文是关于阿里云云服务器ECS部署MySQL过程中出现的一下坑,希望能够帮助到您😊 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家…

饥荒开服教程——游戏

饥荒开服教程——游戏 1. 开服环境2. 开服步骤2.1 创建集群2.2 安装服务端2.3 上传mod2.4 启动脚本2.5 上传地图2.6 设置访问令牌2.7 修改配置 3. 服务器命令3.1 关闭服务器3.2 回档 记录一些在饥荒联机版开服中遇到过的问题。 参考:3分钟创建你的饥荒联机专属服务…

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等

项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实…

web后端解决跨域问题

目录 什么是跨域问题 为什么限制访问 解决 什么是跨域问题 域是指从一个域名的网页去请求另一个域名的资源。比如从www.baidu.com 页面去请求 www.google.com 的资源。但是一般情况下不能这么做,它是由浏览器的同源策略造成的,是浏览器对js施加的安全…