韩语字符分析

devtools/2025/2/4 3:44:16/

查看unicode文档,发现韩语字符有11172个,这是19×21×28,其实就是19+21+28=68个符号的排列组合。分析如下:
第一部分:
가까나다따라마바빠사싸아자짜차카타파하
去掉右边的那个“卜”,共19个符号。
第二部分:
가개갸걔거게겨계고과괘괴교구궈궤귀규그긔기
忽略左边的横折,注意看卜、H等,共21个。
第三部分:
가각갂갃간갅갆갇갈갉갊갋갌갍갎갏감갑값갓갔강갖갗갘같갚갛
注意看下边的变化,第一个下边什么也没有,第二个开始是7、77、7人等,共28个。
上述三个部分排列组合,产生19×21×28=11172个字符。此处不再罗列这一万多个符号,可以用以下程序输出:

for ch in range(0xac00,0xac00+11172):print(chr(ch),end='')

unicode 16.0中共有符号154998个,到现在为止,还没有发现哪个字体能支持所有这些符号。设想中,汉字用字根拼接而成,韩语也放弃这一万多个字符,使字符总数降低到6万,可以用2字节表示,也方便制作字体。
具体方案:
在unicode BMP中,即最开始的216个符号,有CJK ext A,包含6592个字符,从3400到4DBF,这一段可以替换成韩语68个字母,和汉字的结构描述符、字根。
例:
闻→门字框(在外)+耳+(字结尾)
靐→(品字结构)+雨字头(在上)+田+(字结尾)
添加了“字结尾”之后,方便进行分析,例如字数统计。字结尾就像是英语的空格一样。
多数汉字可拆分成两部分,算上字结尾,是三个符号。一个汉字变成了三个符号,编码长度变成了三倍。而表达相同的意思,英语字母数是汉语的三倍。汉语编码变长后,长度接近一样长了。同时,韩语也是一个字变三个字,表示相同的意思,需要的字节数和汉语、英语都一样了。


http://www.ppmy.cn/devtools/155894.html

相关文章

《苍穹外卖》项目学习记录-Day7缓存菜品

我们优先去读取缓存数据,如果有就直接使用,如果没有再去查询数据库,查出来之后再放到缓存里去。 微信小程序根据分类来展示菜品,所以每一个分类下边的菜品对应的就是一份缓存数据,这样的话当我们使用这个数据的时候&am…

深度学习:基于MindNLP的RAG应用开发

什么是RAG? RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合检索(Retrieval)和生成(Generation)的技术,旨在提升大语言模型(LLM)生…

Maven全解析:第二个项目 IDEA 整合 Maven

创建Maven 项目目录(注意以下所有引用包路径,设置成自己的包路径): src/main/java ----存放项目的 .java 文件、 src/main/resoutces ---存放项目资源文件,如 Spring,MyBatis 配置文件 src/test/java ---存放所有测试 .java…

每日一博 - 三高系统架构设计:高性能、高并发、高可用性解析

文章目录 引言一、高性能篇1.1 高性能的核心意义 1.2 影响系统性能的因素1.3 高性能优化方法论1.3.1 读优化:缓存与数据库的结合1.3.2 写优化:异步化处理 1.4 高性能优化实践1.4.1 本地缓存 vs 分布式缓存1.4.2 数据库优化 二、高并发篇2.1 高并发的核心…

leetcode27.删除有序数组中的重复项

目录 问题描述判题标准示例提示 具体思路思路一思路二 代码实现 问题描述 给你一个非严格递增排列的数组nums,请你原地删除重复出现的元素,使每个元素只出现一次,返回删除后数组的新长度。元素的相对顺序应该保持一致 。然后返回nums中唯一元…

关于DNN检测中替换caff用Tensorflow的注意事项

首先确保计算机中有python标准库,之后在环境变量中加入python的路径,这样在管理员的cmd中才不会出现tf_text_graph_ssd.py无法编译的情况,之后要在python的环境下添加opencv,不然会导致无法生成pbtxt文件,从而std::str…

机器学习算法在网络安全中的实践

机器学习算法在网络安全中的实践 本文将深入探讨机器学习算法在网络安全领域的应用实践,包括基本概念、常见算法及其应用案例,从而帮助程序员更好地理解和应用这一领域的技术。"> 序言 网络安全一直是信息技术领域的重要议题,随着互联…

JavaScript系列(54)--性能优化技术详解

JavaScript性能优化技术详解 ⚡ 今天,让我们继续深入研究JavaScript的性能优化技术。掌握这些技术对于构建高性能的JavaScript应用至关重要。 性能优化基础概念 🎯 💡 小知识:JavaScript性能优化涉及多个方面,包括代…