AI知识架构之数据采集

news/2025/2/26 12:07:21/
aidu_pl">

数据采集

  • 数据格式
    • 结构化数据:以固定格式和结构存储,如数据库中的表以及 Excel 表格,易于查询和分析。
    • 半结构化数据:有一定结构但不如结构化数据严格,XML 常用于数据交换,JSON 在 Web 应用中广泛用于数据传输和存储。
    • 非结构化数据:无预定义结构,文本、图像、音频和视频属于此类,处理和分析这类数据需特定技术。
    • 实时数据流:由传感器和物联网设备实时产生,需实时处理以获取及时洞察。
  • 采集方法
    • 基于文件传输:通过 FTP(文件传输协议)或 SFTP(安全文件传输协议)在不同系统间传输数据文件。
    • 数据库导入:利用 JDBC(Java 数据库连接)或 ODBC(开放数据库互连)标准接口从数据库提取数据。
    • 网络爬虫:通过发送 HTTP 请求获取网页内容,再解析 HTML 提取数据,但需遵守网站的 robots 协议。
    • 消息队列:像 Kafka 和 RabbitMQ,可异步处理和缓冲数据,在高并发场景下保证数据的可靠传输。
    • 数据集成工具:Talend 和 Informatica 等工具提供图形化界面,简化复杂的数据集成任务。
    • 传感器数据获取:从各类传感器采集物理世界的数据,如温度、湿度等。
  • 数据质量把控
    • 准确性提升策略:通过数据验证、与权威数据源比对等方式提高数据准确性。
    • 完整性检查措施:检查数据记录和字段是否完整,确保无遗漏。
    • 一致性保障手段:保证数据在不同系统和存储中的一致性,避免冲突。

数据清洗

  • 数据质量问题
    • 缺失值:因数据录入遗漏、系统故障等原因产生,影响数据分析结果准确性。
    • 重复值:包括记录重复和字段重复,会干扰分析并浪费存储资源。
    • 错误值:格式错误(如日期格式错误)或逻辑错误(如年龄为负数)影响数据可用性。
    • 异常值:偏离其他数据的离群点,可能由数据录入错误或真实异常情况导致。
  • 清洗技术
    • 缺失值处理:可删除缺失值过多的记录,或用均值、中位数等填充,也可采用插补技术如线性插补。
    • 重复值删除:依据唯一标识或相似度匹配算法找出并删除重复记录。
    • 错误值纠正:通过数据验证规则和模式匹配纠正错误。
    • 异常值处

http://www.ppmy.cn/news/1575001.html

相关文章

大语言模型学习路径与开源模型推荐

互联网各领域资料分享专区(不定期更新): Sheet 正文 一、入门级开源模型推荐 1. GPT-2(小参数版) 特点:由OpenAI推出,117M参数的版本对硬件要求较低,适合新手理解生成式模型的基本原理(如自回归生成、注意力机制)。学习方向:可尝试文本生成、对话模拟等任务,结合论…

git 命令 设置别名

在Git中,您可以通过以下命令查看所有的alias(别名): git config --get-regexp alias 这个命令会列出所有配置的alias,例如: alias.st.status alias.co.checkout alias.br.branch ... 如果您想查看某个特定a…

“国补”带火手机换新,出售旧手机应如何保护个人信息安全

在“国补”政策的推动下,手机换新热潮正席卷而来。“国补”以其诱人的补贴力度,成功激发了消费者更换手机的热情。无论是渴望体验最新技术的科技爱好者,还是对旧手机性能不满的普通用户,都纷纷投身到这场手机换新的浪潮之中。 随着大量消费者参与手机换新,二手手机市场迎来…

vue3学习3-route

创建路由器: 应用路由器: 路由展示区RouterView 和 路由跳转RouterLink: 路由组件(在路由配置文件中配置的)一般放到pages/views文件夹下 路由组件切换的时候执行的是 挂载/卸载操作 onMounted / onUnmouted 路由器两…

国产单片机开发汽车气压表胎压计解决方案

一、技术原理 (一)压力传感技术 压电式压力传感器:利用压电材料的压电效应,当压力作用于压电材料时,会产生与压力成正比的电荷。通过测量电荷的大小,经过转换电路可得到对应的压力值。这种传感器响应速度快…

docker 安装 seafile 企业云盘

以下是 Docker 安装 Seafile 的详细步骤,涵盖基础安装和常用配置: 一、准备工作 安装 Docker 和 Docker Compose 确保系统已安装 Docker 和 Docker Compose。 创建工作目录 mkdir ~/seafile && cd ~/seafile二、使用官方简化镜像 Seafile 提供…

可狱可囚的爬虫系列课程 13:Requests使用代理IP

一、什么是代理 IP 代理 IP(Proxy IP)是一个充当“中间人”的服务器IP地址,用于代替用户设备(如电脑、手机等)直接与目标网站或服务通信。用户通过代理IP访问互联网时,目标网站看到的是代理服务器的IP地址&…

深入理解 Redis 设计与集群管理

redis 作为一款高性能的键值存储系统,广泛应用于缓存、消息队列和实时分析等场景。随着业务需求的增长,如何有效地管理和扩展 Redis 实例成为了开发者关注的重点。本文将围绕 Redis 的核心设计思想、常见问题及其解决方案展开讨论,并深入介绍…