预测知识 | 机器学习预测模型局限性

news/2024/11/21 1:37:15/

预测知识 | 机器学习预测模型局限性

目录

    • 预测知识 | 机器学习预测模型局限性
      • 问题描述
      • 未来发展
      • 参考资料

问题描述

  • 数据基础设施:要构建模型,必须有数据,且有多来源的大数据。这一切都离不开数据基础设施的建设和发展。

  • 错误数据输入:数据质量是任何分析的基石,如果数据的数据质量很差甚至错误,那么得到的结果也将是不可靠或错误的,正所谓garbage in,garbage out!因此,高质量数据来源是人工智能研究的基础。

  • 数据漂移:这指的是用来决策的数据和模型训练的数据存在很大差异。可想而知,这种情况下模型性能势必不佳。数据飘移包括如下几种,1)协变量漂移,指的是预测因素在两个数据集上分布差异很大;2)先验概率漂移,指的是两个数据集上结局发生率不同;3)概念漂移,指的是协变量和结局之间的关系随时间而变化。因此,要使构建的模型好,一定要解决数据漂移问题,这也是为什么研究论文中,需要开展训练集和测试集比较的原因所在(备注:期望结果是,训练集和测试集不存在差异)。

  • 缺乏外部验证:目前研究文献中所构建的预测模型,绝大多数仅做了内部验证,而缺乏有效的外部验证。原因很简单,数据比较难获取罢了。但是外部验证这个东西,也是一个相对宽泛的概念,其包括了同一个队列非同一时段的时间外部验证,也包括不同队列来源的验证。所以,在数据有限时,不妨试试时间外部验证。

  • 有限的泛化能力:泛化能力指的是模型在应用到新数据集时的表现。尽管现在很多文献,包括顶刊发表的模型,其报告的性能很高,但是泛化能力却不得而知。尤其是模型构建时,受限于研究数据,其仅代表了当时背景下的人群特征,一旦泛化到更一般人群时,其模型预测效果可能大打折扣。

  • 模型黑盒问题:当下算力越来越快,模型越来越复杂。在人工智能研究中,你可能很难找到类似线性回归、决策树这种易于理解的小而简的模型了。事实上正是如此,越来越多研究追求大而复杂的模型,旨在提高预测效果。但是,一个不可避免的问题就是,模型可解释性很差。关于如何解决该问题,也衍生出一门学问,即可解释性机器学习。

在这里插入图片描述

未来发展

机器学习作为人工智能领域的重要分支,在未来发展方面有许多潜力和趋势。

  • 深度学习的进一步发展:深度学习已经在图像识别、语音识别、自然语言处理等领域取得了巨大成功。未来,深度学习模型的架构和算法可能会进一步改进,以提高模型的性能和效率。

  • 迁移学习和增强学习的应用扩展:迁移学习和增强学习是机器学习中的重要技术,用于在不同任务和环境中进行知识迁移和决策优化。未来,这些技术可能会在更广泛的应用领域得到应用,例如自动驾驶、智能机器人等。

  • 解释性机器学习和可解释性人工智能:随着机器学习模型的复杂性增加,解释性机器学习和可解释性人工智能变得越来越重要。未来,研究人员可能会更加关注如何解释和理解机器学习模型的决策过程,以及如何提高模型的可解释性和可信度。

  • 自动化机器学习:自动化机器学习旨在简化机器学习的流程,使非专业人士也能够轻松应用机器学习技术。未来,自动化机器学习工具和平台可能会进一步发展,提供更智能、高效的模型选择、特征工程和超参数调优等功能。

  • 联邦学习和隐私保护:联邦学习是一种分布式学习方法,可以在保护数据隐私的同时进行模型训练与更新。随着对数据隐私的关注增加,联邦学习和隐私保护技术可能会在未来得到更广泛的应用。

  • 结合领域知识的机器学习:结合领域知识和机器学习技术可以提高模型的性能和鲁棒性。未来,研究人员可能会更加关注如何将领域知识融入到机器学习模型中,以提高模型的学习能力和泛化能力。

  • 可持续性和公平性的机器学习:可持续性和公平性是未来机器学习发展中的重要议题。研究人员和从业者可能会更加关注如何构建可持续和公平的机器学习模型,避免模型的偏见和歧视。

需要注意的是,以上只是一些可能的未来发展方向,随着科技的不断进步和应用需求的变化,机器学习的发展将是一个不断演化和创新的过程

参考资料

[1] Reference: Development and validation of predictive models for unplanned hospitalization in the Basque Country: analyzing the variability of non-deterministic algorithms


http://www.ppmy.cn/news/1030646.html

相关文章

安全问题「一锅端」,数据安全风险评估落地实践

数据安全风险评估是《数据安全法》明确的数据安全基础制度之一,也是重要数据处理者应尽的数据安全保护义务。今年5月,《网络安全标准实践指南—网络数据安全风险评估实施指引》发布,作为数据安全领域的一项重磅级指引,明确提出了网…

骨传导运动耳机推荐?这几款耳机不仅配置高性价比也高!

目前,骨传导运动耳机是运动圈颇受欢迎的耳机之一,骨传导耳机就是基于骨传导原理设计制造的。骨传导耳机把声音转化为不同频率的振动,通过振动颅骨使人感知到声音。由于能够“敞开”双耳,骨传导耳机解决了传统耳机长时间佩戴不适以…

LangChain手记 Models,Prompts and Parsers

整理并翻译自DeepLearning.AILangChain的官方课程:Models,Prompts and Parsers 模型,提示词和解析器(Models, Prompts and Parsers) 模型:大语言模型提示词:构建传递给模型的输入的方式解析器:…

计算机网络-物理层(二)- 传输方式

计算机网络-物理层(二)- 传输方式 串型传输与并行传输 串行传输:是指数据是一个比特一个比特依次发送的,因此在发送端和接收端之间,只需要一条数据传输线路即可 并行传输:是指一次发送n个比特而不是一个比特,因此发送…

Qt应用开发(基础篇)——滚屏区域基类 QAbstractScrollArea

一、前言 QAbstractScrollArea滚屏区域抽象类继承于QFrame,QFrame继承于QWidget,是QListview(列表浏览器)、QTableview(表格浏览器)、QTextEdit(文本编辑器)、QTextBrowser(文本浏览器)等所有需要滚屏区域部件的抽象基类。 框架类QFrame介绍 QAbstractSc…

第二章 分组与交叉

分组报表 分组报表有2种创建方式,一种是通过编辑器的方式,一种是通过菜单向导的方式进行创建。 通过编辑器 选择报表-数据集。 点击【增加】,选择【SQL】检索,点击【确定】按钮。 选择客户表,点击【确定】按钮。 选…

Windows 11清除无效、回收站、过期、缓存、补丁更新文件

Windows 11与之前的Windows版本类似,也需要定期清理无效、垃圾、过期、缓存文件来保持系统性能和存储空间的优化。以下是在Windows 11中进行这些清理操作的一些建议方法: 磁盘清理工具 Windows 11内置了磁盘清理工具,可以帮助你删除临时文件…

C#委托事件的区别

在C#中,委托(delegate)和事件(event)经常一起使用,但它们之间确实有一些基本的区别: 委托(Delegate):委托是一个引用类型,它可以引用一个或多个具…