检测敏感词功能

server/2024/11/14 6:46:33/

今天策划给我一个任务  ——  检测昵称中是否含有敏感词功能,然后丢给我两个压缩包,我解压一看:

有的txt文件是一行一个词:

有的txt文件是按逗号分隔开:

不管是什么格式的总之量非常多,把我这辈子脏话都囊括了🥶


读取TXT文件数据

然后我得先对这些txt文件进行处理转换成我们能用的格式:一开始我直接for循环查找是否含有敏感词,后边找资料看到一个DFA算法。

using System;
using System.Text;
using System.Collections.Generic;
using System.IO;public class Program
{static void Main(){//换行的txt文件List<string> list = LineFeed();//带有逗号的txt文件Comma();string name = "假如这是敏感词";//检测昵称中是否含有敏感词CensorText(name, list);Console.Read();}static void CensorText(string text, List<string> list){foreach (string line in list){if (text.Contains(line)){Console.WriteLine("昵称中存在无法使用的字符,请修改后再次确认");}}}//用换行分割的txt文件static List<string> LineFeed() {string filePath = "E:\\C#Project\\PBZ\\反动词库.txt"; // 替换为你的 txt 文件路径List<string> lines = ReadTxtFile(filePath);string a = "";foreach (string line in lines){a += "\"" + line + "\",";}Console.WriteLine(a);return lines;}static List<string> ReadTxtFile(string filePath){List<string> lines = new List<string>();try{using (StreamReader sr = new StreamReader(filePath)){string line;while ((line = sr.ReadLine()) != null){lines.Add(line);}}}catch (Exception e){Console.WriteLine("读取文件时出现错误: " + e.Message);}return lines;}//用逗号分隔的txt文件static void Comma() {string filePath = "E:\\C#Project\\PBZ\\GFW补充词库.txt"; // 替换为你的 txt 文件路径List<string> elements = ReadTxtFile1(filePath);string a = "";foreach (string element in elements){a += "\"" + element + "\",";}Console.WriteLine(a);}static List<string> ReadTxtFile1(string filePath){List<string> elements = new List<string>();try{using (StreamReader sr = new StreamReader(filePath)){string line = sr.ReadLine();if (line != null){string[] splitElements = line.Split(',');foreach (string element in splitElements){elements.Add(element);}}}}catch (Exception e){Console.WriteLine("读取文件时出现错误: " + e.Message);}return elements;}
}

这样处理过后的数据就是List<string>,或者可以处理成数组、集合都可以 

我把处理出来的数据放在HashSet中

/// <summary>
/// 敏感词词库
/// </summary>
public static HashSet<string> MaskWord = new HashSet<string>
{"敏感词1","敏感词2","敏感词3","..."
}

C#版DFA算法

然后通过C#版的DFA算法判断昵称中是否含有敏感词返回bool型放在工具类中使用:

java实现敏感词过滤(DFA算法) - AlanLee-Java - 博客园

敏感词管理(DFA算法实现)_dfa算法初始化map-CSDN博客

敏感词过滤-DFA算法-CSDN博客

/// <summary>
/// 检测敏感词
/// </summary>
/// <param name="text">要检测的词</param>
/// <param name="MaskWord">敏感词词库</param>
/// <returns></returns>
public static bool CheckSensitiveWords(string text)
{Dictionary<string, Dictionary<string, string>> stateMap = new Dictionary<string, Dictionary<string, string>>();Dictionary<string, string> currentState = new Dictionary<string, string>();char[] chars;foreach (string word in MaskWord){currentState = stateMap.ContainsKey("0") ? stateMap["0"] : new Dictionary<string, string>();Dictionary<string, string> nextState;chars = word.ToCharArray();for (int i = 0; i < chars.Length; i++){string c = chars[i].ToString();string nextStateKey = i == chars.Length - 1 ? "end" : (i + 1).ToString();if (currentState.ContainsKey(c)){nextState = stateMap[currentState[c]];}else{nextState = new Dictionary<string, string>();stateMap[currentState.Count.ToString()] = nextState;currentState[c] = currentState.Count.ToString();}currentState = nextState;currentState["end"] = "end";}}currentState = stateMap.ContainsKey("0") ? stateMap["0"] : new Dictionary<string, string>();chars = text.ToCharArray();for (int i = 0; i < chars.Length; i++){string c = chars[i].ToString();if (currentState.ContainsKey(c)){currentState = stateMap[currentState[c]];if (currentState.ContainsKey("end")){return true; // 匹配到敏感词}}else{currentState = stateMap.ContainsKey("0") ? stateMap["0"] : new Dictionary<string, string>();}}return false; // 未匹配到敏感词
}

http://www.ppmy.cn/server/141792.html

相关文章

Kafka新节点加入集群操作指南

一、环境准备 1. Java环境安装 # 安装JDK apt-get update apt-get install openjdk-8-jdk -y2. 下载并解压 wget https://archive.apache.org/dist/kafka/2.8.1/kafka_2.13-2.8.1.tgz tar xf kafka_2.13-2.8.1.tgz mv kafka_2.13-2.8.1 kafka二、配置环境变量 1. 创建kafka…

在uniapp当中隐藏掉默认tabbar并且使用自己的tabbar

1. 修改配置 "tabBar": {"custom": true,"selectedColor": "#ffdead","list": [{"pagePath": "pages/index/index","text": "首页"}] },//在引入自定义Tabbar组件的时候在载入的时…

C++(Qt)软件调试---内存泄漏分析工具MTuner (25)

C(Qt)软件调试—内存泄漏分析工具MTuner &#xff08;25&#xff09; 文章目录 C(Qt)软件调试---内存泄漏分析工具MTuner &#xff08;25&#xff09;[toc]1、概述&#x1f41c;2、下载MTuner&#x1fab2;3、使用MTuner分析qt程序内存泄漏&#x1f9a7;4、相关地址&#x1f41…

Django中文教程

⬇️整理了一些Django的笔记&#xff0c;有兴趣的工友可以看看⬇️ 《Django中文教程》

react 中 FC 模块作用

React.FC 是一个泛型类型&#xff0c;用于定义函数组件的类型 一、类型定义和代码可读性 1. 明确组件类型 使用React.FC定义一个组件时&#xff0c;使得组件的输入&#xff08;props&#xff09;和输出&#xff08;返回的 React 元素&#xff09;都有明确的类型定义。 impo…

计算机视觉 ---常见图像文件格式及其特点

常见的图像文件格式及其特点如下&#xff1a; JPEG&#xff08;Joint Photographic Experts Group&#xff09; 特点&#xff1a; 有损压缩&#xff1a;通过丢弃一些图像数据来实现高压缩比&#xff0c;能显著减小文件大小&#xff0c;适合用于存储照片等色彩丰富的图像。但过…

【科普小白】LLM大语言模型的基本原理

一、要了解LLM大模型的基本原理就要先来了解一下自然语言处理&#xff08;NLP&#xff09;。 NLP 是 AI 的一个子领域&#xff0c;专注于使计算机能够处理、解释和生成人类语言&#xff0c;主要任务包括&#xff1a;文本分类、自动翻译、问题回答、生成文本等。到底是NLP促生了…

软间隔支持向量机

软间隔支持向量机 ​ 我们先直接给出软间隔支持向量机的形式&#xff1a; P min ⁡ ω , b , ζ 1 2 ∥ ω ∥ 2 2 − C ∑ i 1 m ζ i s . t . y i ( ω x i b ) ≥ 1 − ζ i , i 1 , 2 , 3.. m ζ i ≥ 0 , i 1 , 2 , 3.. m P \min_{\omega,b,\zeta} \frac{1}{2}\Ve…