【想法】NLP的基石-Word Embedding

news/2024/10/30 15:23:23/

这两天突然想到一个问题:什么NLP的基础?依照我目前的理解,我想应该是word embedding,即对文本的表示。这其中又包含两个概念,similaritycontext

让我们来思考一下人类的语言系统,我们是怎么理解一个词的意义的?在此之前,我们先回忆一下货币的出现。在货币出现之前,人们其实是以物易物的。比如我们知道“一颗珍珠”可以换“10块石头”,这两种东西本身是没有价值的,他们彼此赋予了对方意义,这其实就是一种similarity。

回到语言上,比如对“好”这个字,我们如何理解其意义?如果让我解释,我一定会说,“好”就是表示“正面的”,“积极的”,“美的东西”。这其实就是代表,这些词之间具备相似性。所以说,词或字本身没有意义,是相似度将一些词关联起来,赋予了彼此意义。这就是为什么在NLP中,以similarity为基础来学习文本表征

同时,一个词在不同上下文中会有不同的意思(其实就是和不同词的相似度比较大)。比如“你这个人真好”,“好”与“善良的”相似度比较大,在“你这个字写的真好”中,“好”就与“漂亮的”相似度比较高。我们常说,语义受context影响,其实就是说,context影响similarity,在不同context中,词与词之间的similarity会改变


http://www.ppmy.cn/news/1543130.html

相关文章

MATLAB人脸考勤系统

MATLAB人脸考勤系统课题介绍 该课题为基于MATLAB平台的人脸识别系统。传统的人脸识别都是直接人头的比对,现实意义不大,没有一定的新意。该课题识别原理为:先采集待识别人员的人脸,进行训练,得到人脸特征值。测试的时…

贵州鑫宏远农业-始终致力于推动现代农业的科技创新与发展

贵州鑫宏远农业科技有限公司,是一家在高科技农业领域深耕细作、锐意进取的企业。自成立以来,我们始终致力于推动现代农业的科技创新与发展,业务全面覆盖农业科学研发、组织培养生产、专业育苗培植、半成品及成品精细化养护、市场销售以及全方…

String的长度有限,而我对你的思念却无限延伸

公主请阅 1. 为什么学习string类?2. string类的常用接口2.1 string类对象的常见构造2.1.1 string 2.2 operator[]2.3 迭代器2.4 auto自动推导数据类型2.5 范围for2.6 迭代器第二层2.7 size和length获取字符串的长度2.8 max_size 获取这个字符串能设置的最大长度2.9 …

政务大模型:数字政府建设新引擎

政务大模型是人工智能技术与政府业务深度融合的产物,是数字政府建设的新引擎。政务大模型在数据要素整合、政务服务优化、政府决策支持等方面具有显著优势,能够推动政府管理更科学、决策更精准、服务更高效。随着技术的不断进步和应用场景的不断拓展&…

「Mac畅玩鸿蒙与硬件7」鸿蒙开发环境配置篇7 - 使用命令行工具和本地模拟器管理项目

本篇将讲解在 macOS 上配置 HarmonyOS 开发环境的流程,聚焦 hvigorw 命令行工具的使用。我们将以创建 HelloWorld 项目为例,演示使用 hvigorw 进行项目构建、清理操作,并通过 DevEco Studio 的本地模拟器进行预览,帮助提升项目开发…

telnet 密码模式 访问路由器

telnet 密码访问华为路由器 模拟被访问路由 sy [Huawei]int g0/0/0 //选中 g0/0/0端口 [Huawei-GigabitEthernet0/0/0]ip add 192.168.1.1 24 //设置端口ip [Huawei]user-interface vty 0 4 //配置vty [Huawei-ui-vty0-4]set authentication password cipher huawei123 //设置…

【MATLAB源码-第187期】基于matlab的人工蜂群优化算法(ABC)机器人栅格路径规划,输出做短路径图和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 Artificial Bee Colony(ABC)算法是一种模仿蜜蜂觅食行为的优化算法,它通过模拟蜜蜂群体的社会结构和行为来解决数学优化问题。本文将详细介绍ABC算法的基本原理、算法流程、以及在实际应用…

华为配置 之 GVRP协议

目录 简介: 配置GVRP: 总结: 简介: GVRP(GARP VLAN Registration Protocol),称为VLAN注册协议,是用来维护交换机中的VLAN动态注册信息,并传播该信息到其他交换机中&…