AI知识架构之数据采集

server/2025/2/25 6:07:13/
aidu_pl">

数据采集

  • 数据格式
    • 结构化数据:以固定格式和结构存储,如数据库中的表以及 Excel 表格,易于查询和分析。
    • 半结构化数据:有一定结构但不如结构化数据严格,XML 常用于数据交换,JSON 在 Web 应用中广泛用于数据传输和存储。
    • 非结构化数据:无预定义结构,文本、图像、音频和视频属于此类,处理和分析这类数据需特定技术。
    • 实时数据流:由传感器和物联网设备实时产生,需实时处理以获取及时洞察。
  • 采集方法
    • 基于文件传输:通过 FTP(文件传输协议)或 SFTP(安全文件传输协议)在不同系统间传输数据文件。
    • 数据库导入:利用 JDBC(Java 数据库连接)或 ODBC(开放数据库互连)标准接口从数据库提取数据。
    • 网络爬虫:通过发送 HTTP 请求获取网页内容,再解析 HTML 提取数据,但需遵守网站的 robots 协议。
    • 消息队列:像 Kafka 和 RabbitMQ,可异步处理和缓冲数据,在高并发场景下保证数据的可靠传输。
    • 数据集成工具:Talend 和 Informatica 等工具提供图形化界面,简化复杂的数据集成任务。
    • 传感器数据获取:从各类传感器采集物理世界的数据,如温度、湿度等。
  • 数据质量把控
    • 准确性提升策略:通过数据验证、与权威数据源比对等方式提高数据准确性。
    • 完整性检查措施:检查数据记录和字段是否完整,确保无遗漏。
    • 一致性保障手段:保证数据在不同系统和存储中的一致性,避免冲突。

数据清洗

  • 数据质量问题
    • 缺失值:因数据录入遗漏、系统故障等原因产生,影响数据分析结果准确性。
    • 重复值:包括记录重复和字段重复,会干扰分析并浪费存储资源。
    • 错误值:格式错误(如日期格式错误)或逻辑错误(如年龄为负数)影响数据可用性。
    • 异常值:偏离其他数据的离群点,可能由数据录入错误或真实异常情况导致。
  • 清洗技术
    • 缺失值处理:可删除缺失值过多的记录,或用均值、中位数等填充,也可采用插补技术如线性插补。
    • 重复值删除:依据唯一标识或相似度匹配算法找出并删除重复记录。
    • 错误值纠正:通过数据验证规则和模式匹配纠正错误。
    • 异常值处

http://www.ppmy.cn/server/170491.html

相关文章

【C语言】结构体内存对齐问题

1.结构体内存对齐 我们已经基本掌握了结构体的使用了。那我们现在必须得知道结构体在内存中是如何存储的?内存是如何分配的?所以我们得知道如何计算结构体的大小?这就引出了我们今天所要探讨的内容:结构体内存对齐。 1.1 对齐规…

docker 改了镜像源为阿里云,还是下载失败

我是windows系统,在学习docker,刚开始执行docker run hello-world还是失败,然后改了镜像源为阿里云,还是失败,后来去查资料,除了阿里云还配置了很多其他镜像源,才好使 "registry-mirrors&q…

使用 Grafana 监控 Spring Boot 应用

随着软件开发领域的不断发展,监控和可观测性已成为确保系统可靠性和性能的关键实践。Grafana 是一个功能强大的开源工具,能够为来自各种来源的监控数据提供丰富的可视化功能。在本篇博客中,我们将探讨如何将 Grafana 与 Spring Boot 应用程序…

蓝桥备赛(一)- C++入门(上)

一、工具安装 Dev-C安装:https://www.bilibili.com/video/BV1kC411G7CS 一般比赛会用到Dev-C, 但是Dev-C还是有自身的局限性 , 后续的博客学习中 , 必要的时候 , 会使用VS2022 , 下面是VS2022的安装和使用教程。 VS202…

【备赛】在keil5里面创建新文件的方法+添加lcd驱动

一、先创建出文件夹和相应的.c和.h文件 因为在软件里面创建出的是在MDk文件那里面的,实际上是不存在你的新文件夹里的。 二、在keil5软件里面操作 1)添加文件夹 -*---------------------------------------------------------- 这里最好加上相对路径&…

JavaWeb校园二手交易平台(附源码+数据库脚本)

本项目基于JavaWeb开发的校园二手交易平台。涵盖交易平台基本功能,系统通过JavaWebJSP结合Mysql数据库进行开发实现,功能完整,美观大方,具体页面及功能如下: ​ 感谢阅读! 如需获取完整项目源码及更多项目…

网络安全专业好就业吗?

网络安全是一个涉及领域非常广泛的行业,几乎涵盖了所有行业。无论是金融、医疗、互联网,还是教育、政府机构等,都需要网络安全人才来保障其安全运行,因此也得到了个人及企业的高度重视。那么网络安全专业好就业吗?我们一起来看看…

CSS `transform` 属性详解:打造视觉效果与动画的利器

CSS transform 属性详解:打造视觉效果与动画的利器 引言一、transform 属性简介二、平移(Translation)三、旋转(Rotation)四、缩放(Scale)五、倾斜(Skew)六、组合变换&am…