使用sklearn训练语种识别模型

ops/2025/1/11 16:01:22/

分析:

        训练语种识别模型使用的是sklearn的MultinomialNB方法,MultinomialNB是一种基于贝叶斯定理的分类算法,特别适用于处理具有离散特征的分类问题,如文本分类中的单词计数。它属于朴素贝叶斯算法的一种,主要应用于高维度的特征空间,常见于文档分类、垃圾邮件识别等领域‌。

        识别结果与模型的内容和大小有关,结果不一定准确,仅供参考。

代码:

python">import joblib
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_splittexts = ['ケーブルタイプ', 'コネクタタイプ', 'シェルタイプ', '対応デバイス', '対応電話モデル', '材質','Connector Type', 'Display Type', 'Finish Type', 'Outer material', 'Model name', 'Grip type'
]
langs = ['ja', 'ja', 'ja', 'ja', 'ja', 'ja','en', 'en', 'en', 'en', 'en', 'en'
]# 划分训练集、测试集
X_train, X_test, y_train, y_test = train_test_split(texts, langs, test_size=0.1, random_state=42)
model = make_pipeline(CountVectorizer(ngram_range=(1, 3), analyzer='char'), MultinomialNB())
model.fit(X_train, y_train)
accuracy = model.score(X_test, y_test)# 保存模型
joblib.dump(model, 'model.joblib')
# 加载模型
load_model = joblib.load('model.joblib')print(f"Model accuracy: {accuracy:.4f}")
print(load_model.predict(['Color', 'スタイル']))

运行结果:


http://www.ppmy.cn/ops/149193.html

相关文章

RS-232串口和普通串口介绍

RS-232串口和普通串口的区别主要体现在标准和信号电平的不同,虽然“串口”通常指的是基于串行通信的接口,但不同的串口标准在硬件实现和使用场景上有些不同。 RS-232串口 vs 普通串口的区别 RS-232 是一种具体的串行通信协议标准,而“普通串口”这个词通常是指没有明确标准定…

JS点击对应复选框,对应内容区域隐藏

如果页面上的内容是正常显示的&#xff0c;则复选框默认勾选 点击复选框之后对应的区域就会隐藏 <div class"setting"><img src"./img/setting.png" alt""><div class"setBox"><label for"idBox" styl…

基于滑动窗口的限流方案

一、实现原理 根据Redis有序集合(sorted set)结构特点,sorted set的member作为独立的请求元素&#xff0c;score作为时间戳 逻辑图如下 物理图如下 二、代码实现 DistributedSlidingWindowLimiter.java文件 Resource private JedisClient jedisClient;/*** 滑动窗口* 该方法…

智慧城市可行性研究报告(第三章)

3 市警用地理平台建设 3.1 项目建设依据 3.1.1 政策依据 (1)“十三五”平安中国建设规划(征求意见稿) 规划强调公安信息化在公安行业所发挥的重要作用,强调强化基础信息采集、大数据汇集应用、情报综合研判、公共安全视频监控建设联网应用,加强专业化指挥力量建设,加强扁…

机器学习特征重要性之feature_importances_属性与permutation_importance方法

一、feature_importances_属性 在机器学习中&#xff0c;分类和回归算法的 feature_importances_ 属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用&#xff0c;通过 feature_importances_ 属性&#xff0c;您可以了解哪些特征对模型的预测最为重要…

【网络协议】EIGRP - 第一部分

概述 本文将给出有关距离矢量路由协议操作的基础概念、探讨 EIGRP 的基本原理并说明如何进行基本配置和验证。 文章目录 概述距离矢量路由协议EIGRP算法协议相关模块 (PDM)可靠传输协议 (RTP)EIGRP 数据包类型Hello 数据包Update 数据包确认包 (ACK)查询和回复包 EIGRP 路由传…

《通过财报看企业》

“借贷关系”“净资产收益率”“财务报表”、净利润、盈利能力、现金流 第1章 净利润&#xff1a;决定一家公司的股价能涨多高 企业经营&#xff1a;存货周转率 企业市值&#xff1a;市值净利润市盈率 龙头企业&#xff1a;行业内收入规模最大、盈利能力最强&#xff0c;…

RNN心脏病预测-Pytorch版本

本文为为&#x1f517;365天深度学习训练营内部文章 原作者&#xff1a;K同学啊 一 导入数据 import numpy as np import pandas as pd import torch from torch import nn import torch.nn.functional as F import seaborn as sns from sklearn.preprocessing import Standard…