如何在Qt使用uchardet库

devtools/2024/10/20 10:12:27/

如何在 Qt 中使用 uchardet 库

文章目录

  • 如何在 Qt 中使用 uchardet 库
    • 一、简介
    • 二、uchardet库的下载
    • 三、在Qt中直接调用
    • 四、编译成库文件后调用
      • 4.1 编译工具下载
      • 4.2 uchardet源码编译
      • 4.3 测试编译文件
      • 4.4 Qt中使用
    • 五、一些小问题
      • 5.1 测试文件存在的问题
      • 5.2 uchardet库相关
    • 六、写在最后

一、简介

相信对编程熟悉的朋友有时候都会碰到这样一个问题——乱码

大家应该都知道,这是由于文件编码格式不正确导致的相关问题,即在文件编写和阅读的时候采取的编码格式不同,于是造成了我们阅读上的困难。

对于众多编译器,都有转文件编码与识别文件编码的相关功能,因此我们经常看到他们的身影。

在这里插入图片描述

如上图所示分别为 windows记事本、Notepad++、VsCode 所提供的文件编码格式识别。

而在网上搜索到的绝大多数方式是使用 python 中的 chardet 模块进行文件编码格式的判断。其实该库就是我们本次使用的 uchardet 库,其只是被开发者适配成了 python 版本。由于有关该库的 C++ 使用示例太少,所以就有了这篇文章,希望能给各位大佬提供思路!!!

那么我在这里简单介绍一下 uchardet 库。

uchardet(Universal Charset Detector)是一个强大的开源项目,它可以帮助我们自动识别文本的字符集编码。

uchardet 基于 MozillaCharDet 算法,该算法经过大量实际数据训练,具有高度的准确性。其核心功能是通过分析字节序列的统计特性,判断出最可能的字符编码类型,支持如 UTF-8、GBK、ISO-8859-1 等多种常见的字符集。

项目采用 C++ 编写,易于跨平台集成,并且拥有简洁的 API 接口,使得开发者可以轻松地将 uchardet 整合到他们的应用中。此外,项目还提供了 Python 绑定,方便 Python 开发者使用。

项目地址(下载方式后续过程中我会进行阐述,因此不用着急下载!!!):

  • BYVoid/uchardet: An encoding detector library ported from Mozilla (github.com)

  • uchardet / uchardet · GitLab

项目网站主页:

  • uchardet (www.freedesktop.org)

以上信息来源为以下文章,感谢作者分享!!

  • 探索高效字符检测:深入理解uchardet-CSDN博客

由此,我们对 uchardet 有了初步的认识,那么如何将其应用到项目工程中,是本文的重点。这里我将使用 Qt 对该库进行操作,同理使用 C++ 亦可实现。

在项目开始之前,简单介绍一下我所使用的配置环境:

开发平台:

  • Window 10
  • Qt 5.12.3

编译环境

  • MinGW 64-bit

二、uchardet库的下载

由于网上资料实在是太少,所以说下载也是一件难事,不过本文推荐以下下载方式:

Index of /software/uchardet/releases (www.freedesktop.org)

  • 如无法点击跳转可自行复制网址:https://www.freedesktop.org/software/uchardet/releases/

打开以后得到如下页面:

在这里插入图片描述

截至本文章撰写时间 2024/6/27,其版本更新到 0.0.8

而我们需要下载的是 uchardet-0.0.8.tar.xz,这是稳定的发行版,可以正常使用。这里对新手朋友说一句,不要直接从 Github 上下载,而要去里面的 Release 下载,否则,你下载的文件大概率无法运行。因为没有 Release 的项目,大概率正在开发,其中不免存在或多或少的问题,盲目尝试不会让我们事半功倍!!!

回归正题,对上述下载的文件解压以后得到如下图所示的文件结构。

在这里插入图片描述

那么到这里该库的源码下载完成!!!后续我们将对其进行使用。


三、在Qt中直接调用

这种方法可以实现功能,但不推荐。因为直接使用其源码文件导入到 Qt 中,会增加很多文件,对我们的阅读体验不是很好,但这里也做介绍,感兴趣的朋友可以阅读。

  1. 新建 Qt 项目,将 uchardet 源码中的 src 文件夹复制到 Qt 项目文件中:

    在这里插入图片描述

  2. 然后在 Qt 中按照如下步骤添加库文件:

    在这里插入图片描述

    如图所示,在项目文件夹上 右键,点击 Add Existing Directory

    在这里插入图片描述

    如图所示,对 uchardet.cpp 文件取消勾选。

    在这里插入图片描述

    对项目中已有的文件取消勾选!!!然后点击 OK,此时我的项目结构为:

    在这里插入图片描述

  3. 我在 UI 文件中创建了一个按钮,用来测试该库是否可行,如下所示:

    在这里插入图片描述

  4. 对按钮使用转到槽,实现其 released 槽函数。

    • widget.h 文件中进行如下更改:

      #ifndef WIDGET_H
      #define WIDGET_H#include <QWidget>#include <QFileDialog>
      #include <QDebug>/* 增加 uchardet 库头文件 */
      #include "src/uchardet.h"namespace Ui {
      class Widget;
      }class Widget : public QWidget
      {Q_OBJECTpublic:explicit Widget(QWidget *parent = nullptr);~Widget();private slots:void on_pushButton_released();private:Ui::Widget *ui;
      };#endif // WIDGET_H
    • widget.cpp 文件中对按钮的槽函数进行实现

      /*! *  @File        : widget.cpp*  @Brief       : 按钮槽函数*  @Details     : 详细说明*  @Param       : 参数*  @Return      : 返回值*  @Author      : Liu Jiahao*  @Date        : 2024-06-27 16:42:05*  @Version     : v1.1*  @Copyright   : Copyright By Liu Jiahao, All Rights Reserved*  */
      void Widget::on_pushButton_released()
      {QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)");if (filePath.isEmpty()) {return;}QFile file(filePath);// 文件打开成功if (file.open(QIODevice::ReadOnly | QIODevice::Text)) {QByteArray buff = file.readAll();uchardet_t ud = uchardet_new();uchardet_handle_data(ud, buff.constData(), buff.size());uchardet_data_end(ud);const char* encoding = uchardet_get_charset(ud);QString result = QString::fromLatin1(encoding);uchardet_delete(ud);qDebug() << "该文件的编码格式为:" << result;}file.close();
      }

由此,完成了对该库的调用,这种方法较为简单,缺点就是会导入大量的源代码。

当我们运行程序点击按钮打开一个文件后,将会打印出该文件的编码格式,其运行结果如下图所示:

在这里插入图片描述

这里我做了一个简单的动图用于演示实现效果,如下所示:

在这里插入图片描述


四、编译成库文件后调用

Qt 中最常用的一般都是将所需库编译后调用,而 uchardet 也是可以进行这样的操作的,只不过实现起来有一点繁琐,需要我们自己进行编译。

4.1 编译工具下载

我们编译需要使用 MinGW-w64 进行编译,因此需要对该文件进行下载。

Releases · niXman/mingw-builds-binaries (github.com)

  • 如无法点击跳转可自行复制网址:https://github.com/niXman/mingw-builds-binaries/releases

截至本文章撰写时间 2024/6/27,其版本更新到 13.2.0

我们可以看到下图所示的内容:

在这里插入图片描述

各个版本有何区别,感兴趣的朋友可以自行搜索,这里将不再赘述!!!本文着重讲解如何使用 uchardet,望谅解!!!

这里我电脑是 64 位的,故我下载 x86_64-13.2.0-release-win32-seh-ucrt-rt_v11-rev0.7z,下载后解压得到以下文件信息:

在这里插入图片描述

任意一个盘都可以,我这里直接解压在了 C 盘,大家不要学我!!!

  • 尽量解压到一个自己好找的地方,后续需要使用这个地址!!!

然后打开 设置->系统->系统信息->高级系统设置->环境变量,按照图中所示步骤进行点击:

在这里插入图片描述

我这里电脑没有装中文,但界面几乎一致。

我之前将其解压到 C:/mingw64/ 目录下,因此这里我需要向环境变量中加入其 bin 文件,如下所示:

在这里插入图片描述

此时我们打开控制台(快捷键 win + R 后输入 cmd 最后回车),在其中输入 gcc -v 得到以下信息:

在这里插入图片描述

即证明安装完成,但还有一步需要操作。

打开 MinGW-w64 的安装目录,进入其 bin 文件,找到 mingw32-make.exe 文件将其复制一份重命名为 make.exe,如下所示:

在这里插入图片描述

这样做是为了我们后续使用命令时,能够方便的使用 make 命令,而不是 mingw32-make

此时再次使用控制台,输入 make -v 或者 mingw32-make -v 都能输出以下内容:

在这里插入图片描述

至此,结束安装编译工具的工作。接下来需要编译 uchardet 源码。

4.2 uchardet源码编译

同样打开控制台,这里我们需要提前将源码文件复制一份,这样方便我们出错后有回转的余地,而不是每次都要重新下载源码。我这里将复制的源码文件夹命名为 uchardet-copy,然后输入命令行,去到复制源码的文件夹,命令如下:

cd <复制后源码文件夹的路径>

运行结果如图所示:

在这里插入图片描述

此后依次输入以下命令:

mkdir build
cd build
cmake .. -G "MinGW Makefiles"
make

不出意外的话将会在 uchardet-copy/build/ 目录中生成类似的文件结构:

在这里插入图片描述

4.3 测试编译文件

后续一切操作都是基于我复制源码的文件夹,即 uchardet-copy 文件夹下的!!!

  1. 首先,需要我们进入 uchardet-copy/build/src 目录下找到 libuchardet.dll 文件,将其复制到 uchardet-copy/build/test 中:

    在这里插入图片描述

  2. 打开控制台,进入 uchardet-copy/build/test 目录中,同样使用 cd 命令:

    cd <写入自己文件路径>
    
  3. 然后在 uchardet-copy/build/test 目录中新建一个文件,我这里新建的 a.txt 文件,默认采用的是 UTF-8 编码格式,此时命令窗口中输入你想检测的文件,我使用以下命令行:

    uchardet-tests.exe a.txt
    

    得到以下内容:

    在这里插入图片描述

    可以看到其编码格式为 UTF-8,检测结果正确!

由此可以看到我们编译结果成功!!!其他编码格式相关的测试大家可以自行验证,这里不再赘述!!!

4.4 Qt中使用

通过上一步编译后我们已经得到了相关的 .a.dll 文件,其路径位于我上述所讲的 uchardet-copy/build/src 文件夹,将 .a 以及 .dll 复制到我们新建的 Qt 项目文件中。

这里需要注意的是,由于我电脑是64位的,我下载的 MinGW 也是64位版本,因此编译出的 dll 文件也是用于64位操作系统的。所以,建立 Qt 项目时,注意所需 Qt 编译环境,应当是 MinGw 64-bit!!!

除此之外,还需要添加 .h 文件,其路径位于 uchardet-copy/src 文件夹内,同样需要将其复制到我们自己的 Qt 项目文件夹中,我这里新建了文件夹 uchardet 并将相关文件复制在该文件中,如下所示:

在这里插入图片描述

然后我们需要在工程文件中导入该动态库(具体操作不予细说,这里只介绍重要部分)。

  1. 导入动态库:

    在这里插入图片描述

    具体在 .pro 文件中添加的东西为:

    win32: LIBS += -L$$PWD/uchardet/ -luchardetINCLUDEPATH += $$PWD/uchardet
    DEPENDPATH += $$PWD/uchardet
    
  2. 与本文第三小节类似,在 UI 文件中添加一个按钮:

    在这里插入图片描述

  3. 具体代码也与第三小节类似,这里简单赘述:

    widget.h 中有以下代码:

    #ifndef WIDGET_H
    #define WIDGET_H#include <QWidget>#include <QDebug>
    #include <QFileDialog>#include <uchardet/uchardet.h>namespace Ui {
    class Widget;
    }class Widget : public QWidget
    {Q_OBJECTpublic:explicit Widget(QWidget *parent = nullptr);~Widget();private slots:void on_pushButton_released();private:Ui::Widget *ui;
    };#endif // WIDGET_H

    widget.c 文件中实现其槽函数:

    /*!*  @File        : widget.cpp*  @Brief       : 打开文件槽函数*  @Details     : 详细说明*  @Param       : 参数*  @Return      : 返回值*  @Author      : Liu Jiahao*  @Date        : 2024-06-28 14:43:15*  @Version     : v1.1*  @Copyright   : Copyright By Liu Jiahao, All Rights Reserved**/
    void Widget::on_pushButton_released()
    {QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)");if (filePath.isEmpty()) {return;}QFile file(filePath);// 文件打开成功if (file.open(QIODevice::ReadOnly | QIODevice::Text)) {QByteArray buff = file.readAll();uchardet_t ud = uchardet_new();uchardet_handle_data(ud, buff.constData(), buff.size());uchardet_data_end(ud);const char* encoding = uchardet_get_charset(ud);QString result = QString::fromLatin1(encoding);uchardet_delete(ud);qDebug() << "该文件的编码格式为:" << result;}file.close();
    }
    
  4. 其运行结果也与第三小节类似,只是采用了不同的调库方式,这里就不再进行赘述。

值得注意的是,该库并不能确保百分百检测出的文件类型正确,同时,文件中如果没有文本信息,也是无法检测出来的。


五、一些小问题

在对该库的使用过程,也发现一些或多或少的小问题,在这一小节将进行阐述。

5.1 测试文件存在的问题

细心的朋友可能会注意到,在 uchardet/test 中有很多文件夹,如下所示:

在这里插入图片描述

其中均为不同语言的不同编码格式文件,例如 en 为英语,其中包含文件 ascii.txt,也就意味着该文件编码格式为 ascii,但是我们将此文件复制到 uchardet-copy/build/test 中进行测试的时候,发现其并不能输出任何东西,如下所示:

在这里插入图片描述

通过对 uchardet-copy/testuchardet-tests.c 文件的阅读,其中包含以下代码:

/* In a unit test, 0 means success, other returned values mean failure. */
success = (strcmp(charset, expected_charset) != 0);
if (success) {fprintf(stderr, "success: %d, Got %s, expected %s\n", success, charset, expected_charset);
}

通过对这代码的分析可以知道,charset 为检测出的文件编码格式类型,而 expected_charset 为期望的文件编码格式类型。再往上看,有以下代码:

expected_charset = strrchr(filename, '/');
if (expected_charset == NULL)
{expected_charset = filename;
}
else
{expected_charset++;
}
expected_charset = strtok(expected_charset, ".");

我们通过阅读这段代码,可以知道,其进行的操作是把你输入的文件名去后缀并保存起来,使其成为 expected_charset 变量。

那么上述问题迎刃而解,例如,我们输入的文件名是 ascii.txt,经过其检测后得出其编码格式为 ascii,那么对于 success = (strcmp(charset, expected_charset) != 0); 这一句代码而言,得到的结果 success 必定为 0,故没有输出。

可以看的出来,作者这样做的目的是,当文件编码格式和文件名相同时,判定为真,则不进行输出。当文件编码格式和文件名不相同时,判定为假,输出错误信息。

其实这对我们开发而言,并没有多大关系,也不影响我们使用这个库进行编码识别的操作,只是我在开发过程中遇到这个问题的一些感想。希望能对本文读者有所帮助!!!

5.2 uchardet库相关

由于编码格式众多且繁杂,且该库长时间没有进行更新,难免会有一些小问题,导致识别文件编码格式不准确。但这都是在我们可以承受的范围之内。

另外肯定有人好奇,我怎么知道这个库为什么这么用。实际上,我在网上找了大量资料,对于该库的描述实在是太少,偶然间看到一位大佬写的文章:C++ 自动检测编码_uchardet c++±CSDN博客

顿时恍然大悟,于是我也去查看了 Notepad++ 的源码文件:

在这里插入图片描述

并且,notepad++ 为了解决该库无法识别出 UTF-8 BOM、UTF-16BE BOM、UTF-16LE BOM 的问题,专门对这几个类型进行了单独的判断:

在这里插入图片描述

在这里插入图片描述

那么综合来讲,该库的性能以及使用体验还是不错的,大家感兴趣可以自行尝试。


六、写在最后

本文介绍了 如何在Qt中使用uchardet库,同时该库也可适用于C++。以及使用过程中存在的一些小问题

本文中的代码后续会逐步开源,欢迎关注,敬请期待!!!

欢迎广大读者提出问题以及修改意见,本人看到后会给予回应,欢迎留言,后续会逐步进行开源!!!
另外,由于文章是作者手打的文字,有些地方可能文字会出错,望谅解,也可私信联系我,我对其进行更改。

  • 个人CSDN账号:刘梓谦_-CSDN博客

  • Gitee:刘佳豪 (liu-jiahaohappy) - Gitee.com

  • GitHub:Jiahao-Liu29 (github.com)


http://www.ppmy.cn/devtools/57424.html

相关文章

Linux RHEL 8.6在安装PostgreSql时提示缺少en_US.UTF-8

解释&#xff1a; 这个报错通常表示在Linux RHEL 8.6系统上&#xff0c;系统本身没有安装英文&#xff08;美国&#xff09;的UTF-8编码字符集。UTF-8是一种对Unicode字符集进行编码的方式&#xff0c;它被广泛用于支持各种语言的字符显示。 解决方法&#xff1a; 安装英文UT…

C++学习第十三天——stack/queue的使用及底层剖析双端队列容器适配器

✨ 少年的旅途应是星辰大海 &#x1f30f; &#x1f4c3;个人主页&#xff1a;island1314 &#x1f525;个人专栏&#xff1a;C学习 &#x1f680; 欢迎关注&#xff1a;&#x1f44d;点赞 &#x1f442;&am…

Linux系统常用Conda命令(不断更新!)

&#xff08;1&#xff09;查看conda版本 conda --version &#xff08;2&#xff09;查看已创建的所有conda虚拟环境 conda env list 或 conda info -e &#xff08;3&#xff09;创建conda虚拟环境 conda create --name YourTestEnv python3.10 或 conda create --n You…

Echarts地图实现:山东省报考人数

Echarts地图实现&#xff1a;山东省报考人数 效果预览 设计思路 数据可视化&#xff1a;选择地图作为数据展示的方式&#xff0c;可以直观地展示山东省不同城市的报考人数分布。交互性&#xff1a;通过ECharts的交互功能&#xff0c;如提示框&#xff08;tooltip&#xff09;…

js【最佳实践】遍历数组的八种方法(含数组遍历 API 的对比)for,forEach,for of,map,filter,reduce,every,some

遍历方法返回值使用场景备注副作用for 循环——遍历数组通用可以改变原数组forEach 循环——遍历数组ES5 新增&#xff0c;不支持中断和异步可以改变原数组for of 循环——遍历数组ES6 新增可以改变原数组map格式化后的数组格式化数组的API不会改变原数组filter过滤后的数组过滤…

【WEB前端2024】3D智体编程:乔布斯3D纪念馆-第42课-多人联机-实时互动

【WEB前端2024】3D智体编程&#xff1a;乔布斯3D纪念馆-第42课-多人联机-实时互动 使用dtns.network德塔世界&#xff08;开源的智体世界引擎&#xff09;&#xff0c;策划和设计《乔布斯超大型的开源3D纪念馆》的系列教程。dtns.network是一款主要由JavaScript编写的智体世界…

Linux进程管理

查看进程 语法&#xff1a; ps [-e -f] 选项&#xff1a; -e &#xff0c;显示出全部的进程 选项&#xff1a; -f &#xff0c;以完全格式化的形式展示信息&#xff08;展示全部信息&#xff09; 一般来说&#xff0c;固定用法就是&#xff1a; ps -ef列出全部进程的全部信息。…

二维码登录的原理

二维码登录的原理: 二维码登录是一种基于移动设备和网络技术的便捷登录方式。其原理主要依赖于以下几个关键要素: 随机生成:服务器端随机生成一个具有唯一性和时效性的二维码。编码信息:这个二维码包含了特定的登录信息,例如用户标识、会话标识、时间戳等。扫描识别:用户…