【Python机器学习】NLP——一个简陋的聊天机器人

目录

正则表达式

一个简答的聊天机器人

另一种方法


正则表达式就是一种FSM,同时它也给出了一种可能的NLP方法,即基于模式的方法。

正则表达式

现实生活中,密码锁其实就是一台简单的语言处理机。密码锁不能阅读和理解课本,但是它可以理解“锁的语言”。当试图“告诉”它一个“密码”组合时,它可以理解。挂锁密码是与锁语言的“语法”(模式)匹配的任何符号序列。更重要的是,挂锁可以判断“锁语句”是否匹配一条特别有意义的语句,该语句只有一条正确的“回复”:松开锁扣。

正则表达式正是如此,它特别简单,但又不那么简单,我们在聊天机器人中还不能使用它,但是希望它能识别关键短语或指令来解锁特定的动作或行为。这种语言就像锁语言一样,是一种形式语言,这是因为它对如何编写和解释一条可接受的语句有着严格的规定。

形式语言是自然语言的子集。很多自然语言中的语句都可以用形式语言的语法(如正则表达式)来匹配或生成。

正则表达式使用了一类特殊的称为正则语法的形式语言语法。正则语法的行为可预测也可以证明,而且足够灵活,可以支持市面上一些最复杂的对话引擎和聊天机器人。Amazon Alexa和Google Now都是依赖正则语法的主要基于模式的对话引擎。深奥、复杂的正则语法规则通常可以用一行称为正则表达式的代码来表示。

Python中有一些成功的聊天机器人框架,比如will,它们完全依赖这种语言来产生一些有用和有趣的行为。

正则表达式虽然主要用于搜索和序列匹配,但任何可以在文本中查找匹配的方法都非常适合用于对话,一些聊天机器人(比如will),对于知道如何恢复的语句,会使用搜索方式在用户语句中查找字符序列。然后,这些识别出的序列会触发一段事先设置好的回复,该回复满足这个特定正则表达式的匹配。同样的正则表达式也可以用来从语句中提取有用的信息。聊天机器人可以把这些信息添加到知识库中,而该知识库收集了有关用户或用户所描述世界的知识。

处理这种语言的机器可以被看作是一个形式化的数学对象,称为有限状态机FSM)或确定性有限自动机DFA)。下图是FSM在“嵌套”的自动机世界中所处的位置:

下面是形式语言的形式数学解释:

(from 凯尔-戈尔曼)

1、大多数编程语言都来自上下文无关语言这一类;

2、上下文无关语言使用上下文无关语法进行高效的解析;

3、正则语言也可以有效地进行解析,并广泛用于字符串匹配的计算中;

4、字符串匹配应用程序基本不需要上下文无关的表达能力;

5、有很多类型的形式语言,下面是其中的一些(按复杂性从高到低):

        递归可枚举的

        上下文有关的

        上下文无关的

        正则

而对自然语言是想下面的这样的:

1、不是正则的;

2、不是上下文无关的;

3、用任何形式语法都无法定义。

一个简答的聊天机器人

下面粗略的构建一个聊天机器人,需要手工编写正则表达式,以匹配人们可能的说话方式。基于模式匹配的聊天机器人是严格受控的聊天机器人的一个例子。在基于现代机器学习的聊天机器人技术发展之前,基于模式匹配的聊天机器人十分普遍。

现在我们来构建一个FSM,也就是一个可以“说”正则语言的正则表达式,我们可以通过编程来理解诸如“01-02-03”这样的正则语言语句。更高的一点是,我们希望它能理解诸如“open sesame”或者“hello lily”之类的问候语。亲社会聊天机器人的一个重要特点是能够回复别人的问候。

在机器通信协议中,我们定义了一个简单的握手协议,每条消息在两台机器之间来回传递之后,都有一个ACK(确认)信号。但是,我们这里的机器将会和那些说“good morning,lily.”之类的用户进行互动。我们不希望它想对话或web浏览会话开始时同步调制解调器或http链接而发出一串ACK消息,相反,我们在对话握手开始时使用正则表达式来识别几种不同的问候语:

python">import re
r='(hi|hello|hey)[ ]*([a-z]*)'
print(re.match(r,'hello Tom',flags=re.IGNORECASE))
print(re.match(r,'hi ho,hi hi,it`s off to work ...',flags=re.IGNORECASE))
print(re.match(r,'hey, what`s up',flags=re.IGNORECASE))

在正则表达式中,我们可以使用方括号指定某个字符类,还可以使用短横线(-)来表示字符的范围而不需要逐个输入。因此,正则表达式"[a-z]"将匹配任何单个小写字母,即"a"到"z"。字符类后面的星号(*)表示可以匹配任意数量的属于该字符类的连续字符。

下面我们把正则表达式写得更细致,以匹配更多的问候语:

python">r=r"[^a-z]*([y]o|[h']?ello|ok|hey|(good[ ])?(morn[gin']{0,3}|afternoon|even[gin']{0,3}))[\s,;:]{1,3}([a-z]{1,20})"
re_greeting=re.compile(r,flags=re.IGNORECASE)
print(re_greeting.match('Hello Tom'))
print(re_greeting.match('Hello Tom').groups())
print(re_greeting.match('Good morning Tom'))
print(re_greeting.match('Good evening Tom jerry').groups())

上述代码的第一行(正则表达式)包含了很多逻辑,可以匹配很多问候语。但是如果有人打招呼的语句是“Good manning...”就无法匹配,在机器学习和医学诊断中,这被称为假阴性分类错误。它也会与人类不太可能说的话相匹配,即出现了假阳性的错误。假阳性错误和假阴性错误的同时存在意味着我们的正则表达式既过于宽松又过于严格。我们必须做更多的努力来改进匹配的短语,使机器人表现得更像人类。

下面,通过添加一个输出生成器最终得到一个只用一种技巧(正则表达式)的聊天机器人

python">my_names=set(['tom','jerry','rose','bot','tom','robot','chatbot'])
curt_names=set(['hal','you','u'])
greeter_name=''
match=re_greeting.match(input())
if match:at_name=match.groups()[-1]if at_name in curt_names:print('Good one.')elif at_name.lower() in my_names:print('Hi {},How are you'.format(greeter_name))

运行这个脚本,用“Hello Tom”这样的短语和机器人聊天,它会回答“Hi ,How are you”。如果用一个不礼貌的名字来称呼机器人,它就会不回答。

受计算资源所限,早期的NLP研究人员不得不使用人类大脑的计算能力来设计和手动调整复杂的逻辑规则从自然语言字符串中提取信息。这成为基于模式的NLP方法。这些模式就像正则表达式那样,可以不仅仅是字符序列模式。NLP还经常涉及词序列、词性或者其他高级的模式。核心的NLP构建模块(如词干还原工具和分词器)以及复杂的端到端NLP对话引擎(聊天机器人)都是通过这种方式,即基于正则表达式和模式匹配来构建的。基于模式匹配NLP方法的艺术技巧在于,使用优雅的模式来获取想要的内容,而不需要太多的正则表达式代码行。

另一种方法

如果我们有一个巨大的数据库,该数据库由数千甚至上百万人类的对话数据构成,这些数据包括用户所说的语句和回复。那我们构建聊天机器人的一种方法是,在数据库中搜索与用户对聊天机器人刚刚“说过”的话完全相同的字符。

但是,如果有书写错误或者变异,那么就会出问题。位和字符序列都是离散的,它们要么匹配,要么不匹配,然而我们希望机器人能够度量字符序列之间的意义差异

当使用字符序列匹配来度量自然语言短语之间的距离时,具有相似含义的短语(比如good、okey)通常会有不同的字符序列,当我们通过清点逐个字符的匹配总数来计算距离时,它们反而会得到较大的距离。但对于具有完全不同含义的序列(比如bad和bar),反而会得到过于接近的结果。

有一些方法有时可以为结果添加足够的“模糊性”,以放置聊天机器人犯微小的拼写错误。但两个字符串不相似时,这些度量方法无法捕捉它们之间关系的本质。它们有时也会把拼写上存在小差异的词紧密联系在一起,而这些小差异可能并不是真正的拼写错误,比如bad和bar。

为数值序列和向量设计的距离度量方法对一些NLP应用程序来说非常有用,如拼写校正器和专有名词识别程序。所以,当这些距离度量方法有意义时,我们可以使用这些方法。但是,针对那些我们对自然语言的含义比对拼写更感兴趣的NLP应用程序来说,有更好的方法。对应NLP应用程序,我们使用自然语言词和文本的向量表示以及这些向量的一些距离度量方法。

如果我们收到一个语句,我们可以计数、在字典中查找短序列,这部字典收集了所有我们以前见过的词,每次查找到序列就在字典中的该条目旁边做一个标记。我们还可以在其他记录本中做一个标记来表明词出现在哪条消息中,并为以前读过的所有文档创建百科全书式的索引,这个文档称为语料库,在索引中累出的词或者序列的集合称为词库

在努力统计收到消息中的词信息时,我们将词装箱并将他们存储为位向量,就像硬币或词条分拣器一样,后者将不同种类的词条定向到一边或另一边,形成一个级联决策,将它们堆积在底部的箱子中。我们的分拣机必须考虑数十万种可能的词条“面额”,每种面额对应说话人或作家可能使用的一个词。我们将每个短语、句子或文档输入词条分拣机,其底部都会出来一个向量,向量的每个槽中都有词条的计数值。其中的大多数计数值都为0,即使对于冗长的大型文档也是如此。把语言中的每个词的计数值呈现出来,而不把它们按照任何序列和顺序排列,这可能也有问题。当然,如果只是一个简短的句子,那么可能在大多数情况下我们都能把它们重新排列成其原始或期望的顺序和意义。

下图是NLP流水线中如何在分词器之后加入词条分拣机的过程,这里的词条分拣机草图中包含了一个停用词过滤器和一个罕见词分类器。字符串从顶部流入,词袋向量从底部词条栈中词条的高低堆叠中创建。

事实证明,机器可以很好的处理这种词袋,通过这种方式能够收集即便是中等长度的文档的大部分信息内容。在词条排序和计数之后,每篇稳定都可以表示为一个向量,即该文档中每个词或词条的整数序列。

这是一个语言的向量空间模型。这些栈和它们包含的每个词的数目被表示成一个长向量,该向量包含了许多0、1或2,这些数字散落在词所属栈出现的位置。这些词的所有组合方式构成的向量称为向量空间。该空间中向量之间的关系构成了我们的模型,这个模型视图预测这些词出现在各种不同的词序列集合(通常是句子或文档)中的组合。在Python中,我们可以将这些稀疏向量表示为字典。Python中的Counter是一种特殊的字典,它存储对象(包括字符串),并按我们想要的方式为对象计数:

python">from collections import Counter
print(Counter("Guten Morgen Tom".split()))
print(Counter("Good morning Tom!".split()))

可以想象,我们把能找到的所有文档、语句、句子甚至单个词,一个一个地输入到这台机器。我们会在每个语句处理完之后,对底部每个槽汇总的词条计数,我们称之为该语句的向量表示。机器以这种方式产生的所有可能的向量称为向量空间。这种表示文档、语句和词的模型称为向量空间模型。它允许我们使用线性代数来对这些向量进行运算,计算距离和自然语言语句的统计信息,这些信息有助于我们用更少的人工代码来解决更广泛的问题,同时也使得NLP流水线更加强大。

一个关于词袋向量序列的统计学问题是:在特定的词袋下最可能出现的词组合是什么?或者,如果用户输入一个词序列,那么数据库中最接近用户提供的词袋向量的词袋是什么?这其实是一个搜索查询。输入词是用户可能在搜索框中输入的词,最接近的词袋向量对应于要查找的目标文档或网页。高效回答上述两个问题的能力足以构建一个机器学习聊天机器人,随着我们给它提供的数据越来越多,它也会变得越来越好。

也许这些向量不像以前用过的任何向量,它们的维度非常高。从一个大型语料库汇总得到的3-gram词汇表可能有数百万个维度。


http://www.ppmy.cn/news/1516125.html

相关文章

nodejs搭建代理服务器解决跨域问题

1.安装express、http-proxy-middleware npm install express http-proxy-middleware2.根据情况额外再安装一个nodemon,可以在检测到文件变化时自动重启应用程序,省去了手动重启的麻烦 npm install nodemon搭建代理服务器 node index.js const express require(e…

大数据系统测试——大数据系统解析(上)

各位好,我是 道普云 欢迎关注我的主页 希望这篇文章对想提高软件测试水平的你有所帮助。 在本文中我们一起来看一下大数据系统每一个层次需要解决的技术问题和对应的一些技术需求。以此来作为学习大数据系统测试的基础。 数据收集层主要是进行数据源的分布式、…

图了个图 - 目前最满意的AI修图软件

图了个图是一款完全免费无广告的AI修图软件,系统占用极低,可以通过AI处理图片。具体功能请查看截图,功能丰富多样。登录后即可享受永久会员,所有功能全开放。目前只有安卓版,后续还会继续更新更多功能。 链接&#xf…

等保测评中的安全测试方法

等保测评,即信息安全等级保护测评,是我国网络安全领域的重要评估机制,用于验证网络系统或应用是否满足相应的安全保护等级要求。在等保测评中,安全测试方法扮演着至关重要的角色。本文将详细介绍等保测评中常用的安全测试方法及其…

用阿里云“无影”搭建《黑神话:悟空》电脑环境

目录 《黑神话:悟空》 阿里云无影试用版概述 阿里云无影云电脑试用版情况 具体详细过程(搭建环境) 《黑神话:悟空》 《黑神话:悟空》作为一款高品质的国产游戏,对硬件配置有一定的要求。根据公开发布的…

TypeSript5 联合类型|类型断言

联合类型 | 类型断言 交叉类型 联合类型 (|) //例如我们的手机号通常是13XXXXXXX 为数字类型 这时候产品说需要支持座机 //所以我们就可以使用联合类型支持座机字符串 let myPhone: number | string 010-820 //这样写是会报错的应为我们的联合类型只有数字和字符串并没有布…

Web-ssrfme--redis 未授权访问攻击

目录 1、题目源码 2、测试ssrf 3、发现主机 4、发现服务 5、redis 未授权访问攻击 6&#xff0c;拿flag 1、题目源码 <?php highlight_file(__file__); function curl($url){ $ch curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_HEADER…

Docker绑定挂载使用手册

目录 目标 官方文档 绑定挂挂载&#xff08;Bind mounts&#xff09; 简介 基本创建方法 控制读写权限&#xff08;默认有读写权限&#xff09; 为什么绑定挂载不适合做数据库持久化 为什么绑定挂载更适合做热部署 临时挂载&#xff08;tmpfs mounts&#xff09; 简介…

开发者社区✖️外滩大会「创新者舞台」——《特斯拉,不止于车》

备受瞩目的“2024 Inclusion外滩大会”将于2024年9月5日至7日在上海黄浦世博园区盛大开幕。 外滩大会云集了蚂蚁集团、清华大学、复旦大学、上海交通大学、同济大学、浙江大学、上海报业集团、外滩投资集团等在学术界和产业界享有科技盛誉的组织。 大会将延续 “科技创造可持续…

Cambridge Pixel推出综合安防软件平台VSD-C2

Cambridge Pixel公司专注于雷达数据处理与目标跟踪技术&#xff0c;雷达显控软件。从2012年以来&#xff0c;Cambridge Pixel公司一直专注于开发以雷达和摄像头为核心的联动安防产品。为此先后推出了VSD, RadarWatch, Alarm Server, Camera Manager等一系列产品&#xff0c;应用…

【计算机网络】名词解释--网络专有名词详解

在网络通信中&#xff0c;有许多专业术语和概念&#xff0c;它们共同构成了网络通信的基础。以下是一些常见的网络术语及其定义和相互之间的关系&#xff1a; 一、网络基础 1.1 电路交换&#xff1a;电路交换是一种在数据传输前建立专用通信路径的通信方式。在通信开始前&…

鹭鹰优化算法SBOA优化RBF神经网络的扩散速度实现多数入多输出数据预测,可以更改数据集(MATLAB代码)

一、鹭鹰优化算法介绍 鹭鹰优化算法&#xff08;Secretary Bird Optimization Algorithm, SBOA&#xff09;是一种新型的元启发式算法&#xff0c;它于2024年4月由Youfa Fu等人提出&#xff0c;并发表在SCI人工智能二区顶刊《Artificial Intelligence Review》上。该算法的灵感…

鸿蒙界面开发(四):支付宝首页开发实战

利用了层叠布局和一个scroll滚动组件。 包括底部导航、顶部导航、主体的滚动窗口。 主体的滚动窗口又包括一个快捷导航栏和一个导航窗口、以及主体部分 import text from ohos.graphics.text;Entry Component struct Index {State message: string Hello World;//支付宝首页b…

【Electron】桌面应用开发快速入门到打包Windows应用程序

electron 实现桌面应用开发快速入门到打包Windows应用程序 一、基本介绍 ‌‌Electron 是一个使用‌ JavaScript、‌HTML 和‌ CSS 构建桌面应用程序的框架。它通过将‌Chromium和‌Node.js嵌入到其二进制文件中&#xff0c;允许开发者使用JavaScript代码库创建跨平台的桌面应…

JDK、JRE、JVM之间的关系

三者为包含关系&#xff0c;如下图&#xff1a; JDKjava development kit&#xff08;Java开发工具包&#xff09;JDK JRE java开发工具&#xff08;Java&#xff0c; javac&#xff0c;javadoc&#xff0c;javap等&#xff09;&#xff0c;是用于java开发的最小环境。JREj…

【机器学习】 7. 梯度下降法,随机梯度下降法SGD,Mini-batch SGD

梯度下降法,随机梯度下降法SGD,Mini-batch SGD 梯度下降法凸函数(convex)和非凸函数梯度更新方向选择步长的选择 随机梯度下降SGD(Stochastic Gradient Descent)梯度下降法&#xff1a;SGD: Mini-batch SGD 梯度下降法 从一个随机点开始决定下降方向&#xff08;重要&#xff…

【docker】使用github action来自动发布项目到dockerhub

本文首发于 ❄️慕雪的寒舍 使用github action来自动发布项目到dockerhub。参考 https://msdemt.github.io/p/github-action-build-docker/ 博客 1.准备工作 1.1 dockerhub token https://hub.docker.com/settings/security 登录dockerhub&#xff0c;在用户的account settin…

Ubuntu清除缓存的方法--防止系统崩溃

前情提要&#xff1a;虚拟机出现过好几次的崩溃&#xff0c;终于同事发给了一个可以清除缓存的 1&#xff09;崩溃1&#xff1a;之前将虚拟机放置在某盘中&#xff0c;该盘后续一直有别的东西存入&#xff0c;导致ubuntu直接打不开&#xff0c;后续就将虚拟机直接放在电脑单独…

以简单的例子从头开始建spring boot web多模块项目(五)-thymeleaf引擎

继续向里面加&#xff0c;这次是引入thymeleaf渲染引擎。 使用这个引擎的很多&#xff0c;主要是以下几个优点&#xff1a; Thymeleaf是适用于Web和独立环境的现代服务器端Java模板引擎。Thymeleaf的主要目标是为您的开发工作流程带来优雅的自然模板 -HTML可以在浏览器中正确显…

如何安装和高级 AMP for WP

当 WordPress 是支持 AMP 的 WEB 站点时&#xff0c;主要通过两个插件支持 AMP。 一个是AMP插件。 这个插件也参与谷歌的开发&#xff0c;并被确认为AMP项目的官方插件。 我最初也安装了这个AMP插件&#xff0c;但我不知道是否能够共存的常规网站和AMP兼容网站&#xff0c;很难…