NLP 序列标注任务核心梳理

news/2024/9/28 17:13:59/

句向量标注

  • 用 bert 生成句向量
  • 用 lstm 或 bert 承接 bert 的输出,保证模型可以学习到内容的连续性。此时 lstm 输入形状为:
    pooled_output.unsqueeze(0)
    (1, num_sentence, vector_size)

应用场景

  • 词性标注
  • 句法分析
    • 文本加标点
      • 相当于粗粒度的分词任务
        • 将不同的符号做映射
        • 根据映射完成数据的处理
  • 命名实体识别
    ner 任务
  • 中文分词
    寻找词的边界
  • 远程监督
    滚雪球思路,在语料库中,从一个实体,找新的实体,携带新实体继续循环预测找新实体

CRF

pip install torch-crf
from torchcrf import CRF
  • 限制实体的类别到类别之间的转移关系
    在这里插入图片描述
    • 模型的输出即发射矩阵
      模型可以是 bert、GRU、LSTM 等等。
    • 当模型足够好时,使用 crf 前后结果可能不大(几个百分点的提升)
      如果使用 crf 后效果不明显,则不应该使用 crf
      使用 crf 会多出大量的计算,如转移矩阵、篱笆墙解码的处理
  • CRF 核心逻辑
    • 开始转移矩阵
      开始到每个可能标签的转移概率
      label_num
    • 结束转移矩阵
      每个可能标签到结束的转移概率
      label_num
    • 状态转移矩阵
      任意两个相邻标签间的转移概率
      label_num * label_num
    • 篱笆墙解码
      • 假设每组节点平均数量为 D,B 为 beamSize
      • beam search
        • 保存n 条最高概率的路径
          仅保存一条时,称为贪婪解法
        • 仅计算高概率路径的转移概率
        • 时间复杂度 n * D * B
          B=D 时
          beam search = 维特比解码
        • 维特比解码
          • 保留从上一层全部节点,到当前层每个节点中,最高概率的一条路径
          • 时间复杂度 n * D^2
        • 暴力求解
          时间复杂度 D^n
        • 除了暴力求解,都有可能错过最优解
      • 发射矩阵
        seq_len * label_num
  • 实体标签重叠问题
    • 忽略较短的实体
    • 使用 moe 思路,分别用对应类型的 label,构建和输出 fc 和 loss,最后把所有 loss 求和
    • 用生成式模型处理
  • 有时,可以用规则进行实体识别
    正则表达式
    re.search(pattern, string)
    re.match(pattern, string)
    re.findall(pattern, string)
    re.sub(pattern, string)
    re.split(pattern, string)
    
    规则
    在这里插入图片描述
  • 输入与输出是等长的序列
    • 对序列中的每个时间步做分类
      例如在文本中时间步就是一个字或词
    • 需要对每个时间步都打上标签
  • 本质上相当于每个节点都要做一次分类,做一次 loss

http://www.ppmy.cn/news/1530998.html

相关文章

【初阶数据结构】详解二叉树 - 树和二叉树(三)(递归的魅力时刻)

文章目录 前言1. 二叉树链式结构的意义2. 手搓一棵二叉树3. 二叉树的遍历(重要)3.1 遍历的规则3.2 先序遍历3.3 中序遍历3.4 后序遍历3.5 遍历的代码实现3.5.1 先序遍历代码实现3.5.2 中序遍历代码实现3.5.3 后序遍历代码实现 4. 统计二叉树结点的个数5.…

LeaferJS 动画、状态、过渡、游戏框架

LeaferJS 现阶段依然专注于绘图、交互和图形编辑场景。我们引入游戏场景,只是希望让 LeaferJS 被更多有需要的人看到,以充分发挥它的价值 LeaferJS 为你带来了全新的游戏、动画、状态和过渡功能,助你实现那些年少时的游戏梦想。我们引入了丰富…

社交电商中“信任”基础与“链动 2+1 模式 O2O 商城小程序”的价值探索

摘要:本文深入探讨了在基于社交的商业模式中,“信任”作为重要基础条件的关键作用。详细分析了在产品同质化日益严重的当下,人与人之间口口相传的宣传方式优势。同时,全面引入“链动 21 模式 O2O 商城小程序”,深入阐述…

某文书网爬虫逆向

一、抓包分析 请求参数和响应数据都有加密 二、逆向分析 老方法、下xhr断点 加密实现逻辑都在这个方法里 执行到这的时候,在向下跟栈数据就已经渲染出来了,说明是在这个方法里进行的解密 解密方法,data.result为加密数据,data.s…

【重学 MySQL】四十、SQL 语句执行过程

【重学 MySQL】四十、SQL 语句执行过程 select 语句的完整结构select 语句执行顺序SQL 语句执行原理 select 语句的完整结构 SELECT 语句是 SQL(Structured Query Language)中用于从数据库表中检索数据的核心语句。一个完整的 SELECT 语句结构可以包括多…

9.22学习记录

进程间通信方式 管道、有名管道、共享内存、消息队列、信号、信号量、套接字 JVM内存模型 私有:程序计数器、本地方法栈、虚拟机栈 公有部分:堆、方法区 equals和hashcode有什么区别和联系? equals默认比较两个对象的引用,但…

根据软件架构设计与评估的叙述开发一套机器学习应用开发平台

案例 阅读以下关于软件架构设计与评估的叙述,回答问题 1和问题 2。 【说明】 某公司拟开发一套机器学习应用开发平台,支持用户使用浏览器在线进行基于机器学习的智能应用开发活动。该平台的核心应用场景是用户通过拖拽算法组件灵活定义机器学习流程&…

一键转换:Python如何轻松将PPT转换为PDF

哈喽,大家好,我是木头左! 准备工作:安装必要的Python库 在开始之前,确保你的系统中已经安装了Python环境。接下来,需要安装python-pptx和pdf2image这两个库。可以通过pip命令进行安装: pip install python-pptx pdf2image如果你使用的是Anaconda,那么可以使用: con…