信息抽取(NLP)是什么技术有哪些应用?

embedded/2024/12/28 3:45:43/

信息抽取是将非结构化的信息转化为结构化信息的过程。一般应用于电商平均分析、知识图谱和大模型训练。

不同模型的对比

1. 规则模型

  • 优点
    • 简单直观:基于人工设定的规则,不需要大量的数据集进行训练,只要规则制定者对目标信息有清晰的理解即可开始构建。例如,对于一些具有严格格式的文本内容(如身份证号码识别,按照固定的数字位数和结构)或者特定领域内非常规则的用语(比如某些科学术语的识别),简单且效果较好。
    • 可解释性强:每一个抽取结果都能够根据设定的规则清晰地解释。比如在根据特定语法规则抽取句子中的主语和谓语时,如果出现抽取错误,可以很容易检查出是哪一条规则出现问题。
  • 缺点
    • 缺乏泛化性:只能处理符合预先设定规则的情况,一旦文本的格式或者内容稍微变动,可能就无法正确抽取。例如,在处理不同语言习惯下的相同语义表达时,如果规则是按照某一种特定语言习惯制定的就难以适应其他习惯。
    • 难以处理复杂结构:对于复杂的语言结构和语义关系,规则的制定会变得十分复杂,当规则数量庞大时甚至可能会相互冲突。例如在解析复杂的倒装句或者包含多重修饰关系的句子时。


http://www.ppmy.cn/embedded/149348.html

相关文章

taro中实现带有途径点的路径规划

前言 taro中实现带有途径点的路径规划 import React, {useState, useEffect} from "react"; import {View, Map, ScrollView} from tarojs/components import Taro, {useRouter} from tarojs/taro; import request from ../../request; import api from ../../reque…

Spring Boot 中 Map 的最佳实践

在Spring Boot中使用Map时,请遵循以下最佳实践: 1.避免在Controller中 直接使用Map。应该使用RequestBody 接收-个DTO对象或者 RequestParam接收参数,然后在Service中处 理Map。 2.避免在Service中 直接使用原始的Map。应该使用Autowired 注入-个专门…

elementUI——upload限制图片或者文件只能上传一个——公开版

最近在写后台管理系统时,遇到一个需求,就是上传图片,有且仅能上传一张。 效果图如下: 功能描述:上传图片时,仅支持单选,如果上传图片成功后,展示图片,并隐藏添加图片的…

Linux shell脚本用于常见图片png、jpg、jpeg、webp、tiff格式批量转PDF文件

Linux Debian12基于ImageMagick图像处理工具编写shell脚本用于常见图片png、jpg、jpeg、webp、tiff格式批量转PDF文件,”多个图片分开生成多个PDF文件“或者“多个图片合并生成一个PDF文件” BiliBili视频链接: Linux shell脚本对常见图片格式批量转换…

Qt笔记:网络编程UDP

一、铺垫 1.Qt框架使用的网络结构的基础就是Linux学习的网络编程基础;所以使用Qt写客户端,使用Linux写服务端;两者是可以实现互联的 二、UDP 网络编程UDP使用套路: 1.首先在.pro文件中加上network,使Qt可以搭载网络…

将 ASP.NET Core 应用程序的日志保存到 D 盘的文件中 (如 Serilog)

将 ASP.NET Core 应用程序的日志保存到 D 盘的文件中,可以使用第三方日志库(如 Serilog)来实现。Serilog 是一个流行的日志库,支持将日志输出到文件、控制台、数据库等多种目标。 以下是实现步骤: 1. 安装 Serilog 相…

构建一个rust生产应用读书笔记7-Mock编码浪子

编写单元测试是确保代码质量、稳定性和可维护性的关键步骤,尤其是在采用测试驱动开发(TDD)方法时。对于 EmailClient 组件的测试,我们确实应该从小处着手,先保证组件本身的功能正确无误,然后再逐步集成到更…

【CSS in Depth 2 精译_094】16.2:CSS 变换在动效中的应用(下)——导航菜单的文本标签“飞入”特效与交错渲染效果的实现

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第五部分 添加动效 ✔️【第 16 章 变换】 ✔️ 16.1 旋转、平移、缩放与倾斜 16.1.1 变换原点的更改16.1.2 多重变换的设置16.1.3 单个变换属性的设置 16.2 变换在动效中的应用 16.2.1 放大图标&am…