使用sklearn训练语种识别模型

使用sklearn训练语种识别模型

ops/2025/1/11 16:01:22/

分析：

训练语种识别模型使用的是sklearn的MultinomialNB方法，MultinomialNB是一种基于贝叶斯定理的分类算法，特别适用于处理具有离散特征的分类问题，如文本分类中的单词计数。它属于朴素贝叶斯算法的一种，主要应用于高维度的特征空间，常见于文档分类、垃圾邮件识别等领域‌。

识别结果与模型的内容和大小有关，结果不一定准确，仅供参考。

代码：

python">import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_splittexts = ['ケーブルタイプ', 'コネクタタイプ', 'シェルタイプ', '対応デバイス', '対応電話モデル', '材質','Connector Type', 'Display Type', 'Finish Type', 'Outer material', 'Model name', 'Grip type'
]
langs = ['ja', 'ja', 'ja', 'ja', 'ja', 'ja','en', 'en', 'en', 'en', 'en', 'en'
]# 划分训练集、测试集
X_train, X_test, y_train, y_test = train_test_split(texts, langs, test_size=0.1, random_state=42)
model = make_pipeline(CountVectorizer(ngram_range=(1, 3), analyzer='char'), MultinomialNB())
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)# 保存模型
joblib.dump(model, 'model.joblib')
# 加载模型
load_model = joblib.load('model.joblib')print(f"Model accuracy: {accuracy:.4f}")
print(load_model.predict(['Color', 'スタイル']))

运行结果：

http://www.ppmy.cn/ops/149193.html

相关文章

RS-232串口和普通串口介绍

RS-232串口和普通串口介绍

RS-232串口和普通串口的区别主要体现在标准和信号电平的不同，虽然“串口”通常指的是基于串行通信的接口，但不同的串口标准在硬件实现和使用场景上有些不同。 RS-232串口 vs 普通串口的区别 RS-232 是一种具体的串行通信协议标准，而“普通串口”这个词通常是指没有明确标准定…

阅读更多...

JS点击对应复选框，对应内容区域隐藏

JS点击对应复选框，对应内容区域隐藏

如果页面上的内容是正常显示的，则复选框默认勾选点击复选框之后对应的区域就会隐藏 <div class"setting"><img src"./img/setting.png" alt""><div class"setBox"><label for"idBox" styl…

阅读更多...

基于滑动窗口的限流方案

基于滑动窗口的限流方案

一、实现原理根据Redis有序集合(sorted set)结构特点,sorted set的member作为独立的请求元素，score作为时间戳逻辑图如下物理图如下二、代码实现 DistributedSlidingWindowLimiter.java文件 Resource private JedisClient jedisClient;/*** 滑动窗口* 该方法…

阅读更多...

智慧城市可行性研究报告（第三章）

智慧城市可行性研究报告（第三章）

3 市警用地理平台建设 3.1 项目建设依据 3.1.1 政策依据（1）“十三五”平安中国建设规划（征求意见稿）规划强调公安信息化在公安行业所发挥的重要作用，强调强化基础信息采集、大数据汇集应用、情报综合研判、公共安全视频监控建设联网应用，加强专业化指挥力量建设，加强扁…

阅读更多...

机器学习特征重要性之feature_importances_属性与permutation_importance方法

机器学习特征重要性之feature_importances_属性与permutation_importance方法

一、feature_importances_属性在机器学习中，分类和回归算法的 feature_importances_ 属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过 feature_importances_ 属性，您可以了解哪些特征对模型的预测最为重要…

阅读更多...

【网络协议】EIGRP - 第一部分

【网络协议】EIGRP - 第一部分

概述本文将给出有关距离矢量路由协议操作的基础概念、探讨 EIGRP 的基本原理并说明如何进行基本配置和验证。文章目录概述距离矢量路由协议EIGRP算法协议相关模块 (PDM)可靠传输协议 (RTP)EIGRP 数据包类型Hello 数据包Update 数据包确认包 (ACK)查询和回复包 EIGRP 路由传…

阅读更多...

《通过财报看企业》

《通过财报看企业》

“借贷关系”“净资产收益率”“财务报表”、净利润、盈利能力、现金流第1章净利润：决定一家公司的股价能涨多高企业经营：存货周转率企业市值：市值净利润市盈率龙头企业：行业内收入规模最大、盈利能力最强，…

阅读更多...

RNN心脏病预测-Pytorch版本

RNN心脏病预测-Pytorch版本

本文为为🔗365天深度学习训练营内部文章原作者：K同学啊一导入数据 import numpy as np import pandas as pd import torch from torch import nn import torch.nn.functional as F import seaborn as sns from sklearn.preprocessing import Standard…

阅读更多...

最新文章