自然语言处理基础及应用场景

news/2024/12/14 16:55:44/

自然语言处理定义

让计算机理解人所说的文本 语音
Imitation Game 图灵测试 行为主义 鸭子理论

自然语言处理的基本任务

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

应用:

  • 搜索引擎 Search Engines and Ads
        文本匹配
            查询quary和文档document的相似度
            quary和个性化广告
        匹配质量
  • 知识图谱 knowledge graph 2012Google提出
  • 机器阅读 Machine Reading
  • 人类助手 Personal Assistant
  • 机器翻译 Machine Translation
  • 情感分类和意见挖掘 Sentiment Analysis and Opinion Mining
  • 计算社会科学 Computational Social Science

基础概念

词表示 Word Representation

- 词相似度
- 词关系
  1. 用和词有关的一些词来表示当前词
    缺点:细微差距丢失、 新的词义缺失、 主观性问题、 数据稀疏、 大量人工
  2. One-Hot Representation
    向量维度 = 词表长度
    缺点:增加了相似词之间的距离
  3. Represent Word by Context
    利用上下文来表示这个词
  4. Co-Occurrence Counts
    包含了上下文信息,上下文出现的频度,稠密向量
    缺点:词表越大,存储需求大,频度出现少的词,上下文出现的就少,词表示会变得稀疏因而效果不好
  5. 深度学习 Word Embedding
    Word2Vec 词向量 将词汇投射到低维空间

语言模型

主要完成两个工作:
联合概率:计算一个序列的词成为一句话的概率是多少(一句话人能读懂的概率)
条件概率:根据前面的词,预测下一个词

传统语言模型的基本假设:

一个未来的词,只会受到前面的词的影响

N-gram Model

前面出现N - 1个词,第N个词的概率是多少
问题:很少考虑长前文,统计是稀疏的;还是One-Hot编码,每个词是一个符号

Neural Language Model

神经网络模型 每个词表示为一个低维的向量

大模型范式

预训练(无标注、自监督) + 微调

四大步骤

预训练->监督式微调->奖励建模->强化学习
预训练占算例99%以上
问答对1w-10w
奖励建模和强化学习,基于人类反馈的强化学习,RLHF


http://www.ppmy.cn/news/1555068.html

相关文章

Hadoop中几种列式存储的区别和联系

第一章 相关理论 1.1 Parquet格式介绍 1.1.1 起源与发展 Parquet,作为Hadoop生态系统中的一种新型列式存储格式,由Cloudera和Twitter公司联手开发,并已跻身至Apache软件基金会的顶级项目之列。自其诞生以来,便以高效的压缩和编…

机器学习环境

如果没有指定 Python 版本,通常建议使用 Python 的最新稳定版本,因为它通常会包含最新的功能和安全修复。对于大多数库来说,Python 3.8、3.9 和 3.10 都是广泛支持的版本。以下是考虑到兼容性和稳定性的改进后的环境配置: 指定 Py…

iOS 环境搭建教程

本文档将详细介绍如何在 macOS 上搭建 iOS 开发环境,以便进行 React Native 开发。(为了保证环境一致 全部在网络通畅的情况下运行) 1. 安装 Homebrew Homebrew 是 macOS 的包管理工具,我们将通过它来安装开发所需的工具。 安装…

路径规划之启发式算法之十六:和声搜索算法(Harmony Search, HS)

和声搜索算法(Harmony Search, HS)是一种新兴的启发式全局搜索算法,是一种模拟音乐家即兴演奏过程的群体智能优化算法。这种算法由Zong Woo Geem等人在2001年提出,灵感来源于音乐家在寻找和声时的创造性思维过程。HS算法通过模拟音乐家演奏音乐时的选择过程来寻找问题的最优…

nginx设置反向代理接口超时时间

在Nginx中设置反向代理接口超时时间,你需要使用proxy_read_timeout指令。这个指令定义了Nginx等待被代理服务器响应的最长时间。如果在这个时间内没有收到响应,Nginx将关闭连接。 以下是一个配置示例,其中设置了10秒的超时时间: …

3D 生成重建037-GAUSSIANANYTHING通过点云与外观的混合策略进行3dgs生成

3D 生成重建037-GAUSSIANANYTHING通过点云与外观的混合策略进行3dgs生成 文章目录 0 论文工作1 论文方法2 实验结果 0 论文工作 虽然现有的三维内容生成方法取得了显著进展,但它们在生成高质量、易编辑且可控的三维模型方面仍然面临着挑战。现有的方法通常依赖于代…

【html网页页面010】html+css制作茶品牌文创网页制作含视频元素(7页面附效果及源码)

茶主题品牌文创网页制作 🥤1、写在前面🍧2、涉及知识🌳3、网页效果完整效果(7页):代码目录结构:page1、主页page2、精品包装page3、茶园一角page4、品牌地带page5、衍生品page6、联X我们page7、视频详情页 &#x1f30…

活动预告 |【Part1】Microsoft Azure 在线技术公开课:基础知识

课程介绍 参加“Azure 在线技术公开课:基础知识”活动,培养有助于创造新的技术可能性的技能并探索基础云概念。参加我们举办的本次免费培训活动,扩充自身的云模型和云服务类型知识。你还可以查看以计算、网络和存储为核心的 Azure 服务。 课…