Midjourney技术浅析(二):文本预处理过程

news/2025/1/3 16:02:58/

Midjourney 的用户通过输入文本描述(Prompts)来生成高质量的图像。为了将用户输入的文本转化为机器可理解的格式,并提取其中的语义信息,Midjourney 依赖于强大的自然语言处理(NLP)预处理技术。

一、NLP 预处理概述

NLP 预处理是自然语言处理的第一步,其主要目的是将原始文本转换为机器可理解的格式,并去除噪声信息,为后续的语义理解、特征提取和模型训练做好准备。

Midjourney 的 NLP 预处理过程主要包括以下几个步骤:

1.分词(Tokenization): 将文本分割成单词、词组、符号等基本单元。

2.词形还原(Lemmatization): 将单词还原为其基本形式(词根)。

3.去除停用词(Stop Words Removal): 去除对语义理解没有帮助的常用词。

4.拼写纠错(Spell Correction): 纠正文本中的拼写错误。

5.其他预处理步骤: 例如去除标点符号、转换为小写、去除特殊字符等。

二、详细步骤与模型

2.1 分词(Tokenization)

目标: 将连续的自然语言文本分割成更小的、基本的语义单元(tokens),例如单词、词组、标点符号等。

方法:

1.基于规则的词法分析器:

  • 使用正则表达式或预定义的规则来分割文本。
  • 例如,使用空格、标点符号等作为分隔符。

2.基于统计的词法分析器:

  • 使用统计模型(例如隐马尔可夫模型(HMM)、条件随机场(CRF))来学习文本分割的规律。

3.基于深度学习的词法分析器:

  • 使用神经网络模型(例如 LSTM、Transformer)进行序列标注任务,将文本分割成 tokens。

Midjourney 使用的模型: 基于深度学习的词法分析器,例如 BERT Tokenizer 或 SentencePiece Tokenizer

  • BERT Tokenizer: 使用 WordPiece 算法,将单词拆分为子词(subword),以处理词汇表外的单词和稀有词。
  • SentencePiece Tokenizer: 一种无监督的分词器,可以将文本分割成任意长度的子词。

示例:

输入文本:  "The quick brown fox jumps over the lazy dog."
分词结果:  ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog", "."]
2.2 词形还原(Lemmatization)

目标: 将单词还原为其基本形式(词根),以减少词汇表大小,并统一语义。

方法:

1.基于规则的词形还原:

  • 使用预定义的规则和词典将单词转换为词根。
  • 例如,将“running”还原为“run”,将“better”还原为“good”。

2.基于统计的词形还原:

  • 使用统计模型(例如 HMM)来学习单词形态变化的规律。

3.基于深度学习的词形还原:

  • 使用神经网络模型(例如 LSTM、Transformer)进行序列标注任务,将单词还原为词根。

Midjourney 使用的模型: 基于深度学习的词形还原器,例如 spaCy 的词形还原器 或 Stanford NLP 的词形还原器

示例:

输入单词:  "running"
词形还原结果:  "run"
2.3 去除停用词(Stop Words Removal)

目标: 去除对语义理解没有帮助的常用词,例如“the”、“is”、“at”等。

方法:

1.使用预定义的停用词表:

  • 预定义的停用词表包含常见的停用词,例如英语中的“the”、“is”、“at”等。
  • 去除 tokens 中出现在停用词表中的单词。

2.基于统计的方法:

  • 使用统计方法(例如词频-逆文档频率(TF-IDF))来识别停用词。
  • 词频越高,逆文档频率越低的单词越有可能是停用词。

Midjourney 可能使用的方法: 使用预定义的停用词表,并结合统计方法进行优化。

示例:

输入 tokens:  ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog", "."]
去除停用词后:  ["quick", "brown", "fox", "jumps", "over", "lazy", "dog", "."]
2.4 拼写纠错(Spell Correction)

目标: 纠正文本中的拼写错误,以提高文本质量。

方法:

1.基于词典的方法:

  • 使用词典和编辑距离算法(例如 Levenshtein 距离)来识别和纠正拼写错误。

2.基于统计语言模型的方法:

  • 使用统计语言模型(例如 n-gram 模型)来评估拼写纠正后的文本的概率。

3.基于深度学习的方法:

  • 使用神经网络模型(例如 Transformer)进行序列到序列的拼写纠正任务。

Midjourney 使用的模型: 基于深度学习的拼写纠错器,例如 BERT Spell Checker 或 GECToR(Grammatical Error Correction: Token Classification with Transformers)。

示例:

输入文本:  "Thiss is a exampel of speling corection."
拼写纠错后:  "This is an example of spelling correction."

http://www.ppmy.cn/news/1559895.html

相关文章

过圆外一点与圆相切的直线

文章目录 1.问题描述2.已知条件3.求解4.code 1.问题描述 过定点与圆相切的直线,一般分为三种情况,a 定点在圆上(一个解)。b 定点在圆内(无解)。c 定点在圆外(两个解)。前面一节讨论…

Spring Boot缓存

文章目录 Spring Boot缓存1. SpringBoot开启MyBatis缓存ehcache2. Spring Boot原生缓存基于Redis 的Cacheable 注解使用 Spring Boot缓存 1. SpringBoot开启MyBatis缓存ehcache 引入依赖 <!--添加缓存--> <dependency><groupId>org.springframework.boot&l…

5_SparkGraphX讲解

SparkGraphX讲解 1、为何使用SparkGraphiX图处理&#xff1f; 许多大数据以大规模图或网络的形式呈现&#xff0c;尤其是许多的非图结构的大数据&#xff0c;常会被转换为图模型进行分析。 图数据结构能够很好地表达数据之间的关联性。 2、图——基本术语认知 概念&#xf…

创建用于预测序列的人工智能模型,用Keras Tuner探索模型的超参数。

上一篇&#xff1a;《创建用于预测序列的人工智能模型&#xff08;五&#xff09;&#xff0c;调整模型的超参数》 序言&#xff1a;在完成初步的模型研发后&#xff0c;接下来的重点是探索和优化超参数。通过合理调整超参数&#xff08;如学习率、动量参数、神经元数量等&…

21.<基于Spring图书管理系统②(图书列表+删除图书+更改图书)(非强制登录版本完结)>

PS&#xff1a; 开闭原则 定义和背景 开闭原则&#xff08;Open-Closed Principle, OCP&#xff09;&#xff0c;也称为开放封闭原则&#xff0c;是面向对象设计中的一个基本原则。该原则强调软件中的模块、类或函数应该对扩展开放&#xff0c;对修改封闭。这意味着一个软件实体…

T7 TensorFlow入门实战——咖啡豆识别

&#x1f368; 本文為&#x1f517;365天深度學習訓練營 中的學習紀錄博客&#x1f356; 原作者&#xff1a;K同学啊 | 接輔導、項目定制 一、前期准备 1. 导入数据 # Import the required libraries import numpy as np import PIL,pathlib from PIL import Image import ma…

PostgreSQL的一主两从集群搭建部署 (两同步)

一、实验环境 虚拟机名IP身份简称keep-postgres12-node1192.168.122.87主节点node1keep-postgres12-node2192.168.122.89备节点node2keep-postgres12-node3192.168.122.90备节点node3 二、安装数据库 源码包方式&#xff08;主&#xff09; 1、创建用户 [rootkeep-postgre…

矩阵线性方程组

矩阵可以是任何形状 当矩阵的行数等于列数,称之为方阵,那么它就有行列式 矩阵的公式 矩阵分块法 Matrix(母体) 克拉默法则 线性方程组 注意初等列变换不是一个同解变换 初等变换与秩 XAB 可以用初等列变换但是不推荐,还是使用初等行变换.用转置思想求解 ( X A ) T…