基于FPGA的数字信号处理(4)--浮点数的定点化

ops/2025/1/15 21:59:53/

写在前面

首先要说明的是,题目《浮点数定点化》中所谓的 浮点数 并不是指 IEEE754 规定的 单精度浮点数 或者 双精度浮点数 等格式,而是指10进制小数。所以说白了,这篇文章要讲的就是如何将10进制小数采用定点数的形式表示。


为什么2进制无法精准地表示10进制小数?

你在学习进制转换时,有没有关注过这样一个问题:

为什么10进制小数转成2进制小数的题目通常都会规定有效位数?

例如:将10进制数 0.1 转换为 2进制小数,要求小数有效位数为5位。按照转换方法–乘2直到小数部分为0即可。

那么 0.1(D)= 0.0001100110011····,这时你就会发现,这个乘法过程似乎可以一直持续下去,但是好在题目只要求到小数点后5位,所以结果是 0.00011

这能说明一个问题:10进制数 0.1 没办法被2进制精准地表示。不过某些小数,在特定的位宽下是可以被2进制精准表示的,比如:

0.5(D)= 0.1(B)

0.25(D)= 0.01(B)

0.875(D)= 0.111(B)

Why?

整数的2进制表示却没有这个问题,只要不限制位宽,那10进制整数一定可以被2进制精准表示,比如:

17(D)用4位2进制数无法表示,因为它的最大范围是4’b1111即15,但可以被5位及更多位的2进制数表示。

关于这一点可以从两个方面去理解:

  1. 整数是离散的,在固定范围内整数的个数是固定的,比如在0~15范围内那必然只有16个整数;而小数是连续的,在固定范围内小数的个数是无限。不管采用定点数还是浮点数的形式,那都是在用有限的编码个数来表示无限的小数,所以某些小数必然无法精准表示。
  2. 2进制整数的最小单位是最低位,即10进制的 “1”,所以整串数字可以看做是数个 “1” 的和,而显然任何整数都可以被 “1” 整除。但小数的2进制表示的最小单位是随着位宽而变化的,比如1位小数的最小单位是0.5,2位小数是0.25。所以不管是几位小数,这些 “最小单位” 都无法做到能整除所有小数。

至此,可以得出结论:并非所有的10进制小数,都可以被2进制数精确表示,在这个进制转换的过程中某些小数一定会存在误差。


浮点数定点数

浮点数转为定点数,也叫做 浮点数定点化

定点化首先需要约定好定点数的规格:**用几位表示整数,用几位表示小数,要不要表示符号位?**这些规格需要根据输入数据的范围和特性而定(这些往往在算法阶段确定)。

假如要输入的数据 a 的范围在 -9~5 之间,要求精度保留5位。那么绝对值最大的| -9 |至少需要用4位(1001)才能表示,所以整数部分为4位。综上,数据 a 的定点化规格应为:符号位1位,整数部分4位,小数部分5位,共10位。

假设a的一个值是 3.1415,那么它的定点化过程如下:

  1. 小数部分5位,则分辨率为2 ^ -5=0.03125。3.1415转化为2进制小数相当于在算需要多少个分辨率小数来表示它,所以转化过程为 3.1415 / 2 ^ -5 = 3.1415 × 2 ^ 5 = 100.528。
  2. 这个结果只能取整数部分,因为二进制小数相对其分辨率来说,只能表示整数个。例如两位小数的分辨率是1/4 = 0.25,那么 0.00-0.11(B)就分别表示0.01(B)即0.25(D)的0-3倍,即0、0.25、0.5、0.75。
  3. 取整的方法有两种:
    1. 直接截去小数部分(truncate),这相当于数学上的向下取整(floor),就电路设计角度而言,截去的实现是很简单的,所以这种方法最为常用;
    2. 四舍五入(round),这样产生的误差比直接截断的误差小,但是需要多余的电路来实现,因此不太常用。
  4. 将结果100.528的小数部分截掉,为 100(D),可以理解为需要100个0.03125才能表示,即3.1415(D) = 100(D) × 0.00001(B),所以只要将100转化为2进制表示即可,即100(D)= 1100100(B)。因为设计的位宽是10位,所以需要补上符号位和在整数部分的高位补0,即最终结果为 0_0011_00100 。

0_0011_00100表示的值为 +3.125,它和原始数之间的差值就是 量化误差,为|3.125 - 3.1415| = 0.0165。量化误差是在量化过程中因为截断或四舍五入所直接产生的,但本质上还是因为有限个2进制编码无法表示无穷个10进制小数。

浮点数乘以2^Q,然后四舍五入或截去小数,就是定点数。其中Q为定标值(以确定小数位数)。


定点数浮点数

还是要先说明,这个浮点数不是IEEE754规定的浮点数,仅指10进制小数,显然这就是定点化逆过程。以 定点数0_0011_00100 的转换为例:

  • 首先需要确定该定点数的规格,假设其规格如下:1位符号位 + 4位整数部分 + 5位小数部分
  • 符号位为0说明这是一个正数
  • 整数部分的值为0011,即10进制的3
  • 小数部分的值为00100,即10进制的0.125(可以理解为0.03125×4)
  • 综合起来的结果就是 +3.125

整个过程相对简单,只要将整数部分和小数部分分别从2进制转换为10进制,再结合起来即可。


http://www.ppmy.cn/ops/25596.html

相关文章

企业如何通过定制AI智能名片B2B2C商城系统革新营销手段

在日新月异的商业环境中,企业想要立足并蓬勃发展,就必须紧跟时代的步伐,不断革新营销手段。而定制开发AI智能名片B2B2C商城系统正是企业实现这一目标的重要武器。接下来,我们将深入探讨企业如何通过这一系统,在与客户交…

STM32、GD32等驱动AMG8833热成像传感器源码分享

一、AMG8833介绍 1简介 AMG8833是一种红外热像传感器,也被称为热感传感器。它可以用来检测和测量物体的热辐射,并将其转换为数字图像。AMG8833传感器可以感知的热源范围为-20C到100C,并能提供8x8的像素分辨率。它通过I2C接口与微控制器或单…

UE4 Widget制作搜索框

效果: 一、控件层级结构 1.父控件层级结构 2.子控件层级结构 二、蓝图 1.先清除掉创建子项(注意:这里使用的是reverse循环!) 2.判断是否含有关键字,创建子控件

git revert的使用

由于某种原因我们需要撤销掉之前某一次的修改,但是这个修改已经提交,并且后面又经历了好几轮的提交。可能如下这种情况: 那么此时使用git revert再合适不过啦。git revert ${commit_id}就可以将指定commit id的修改撤销,然后提交…

C#编程模式之组合模式(Composite)

创作背景:各位朋友,我们继续C#编程模式的探讨,这次探讨的模式是组合模式。它和桥接模式一样,是一种结构型设计模式,允许使用者将对象组合成树形结构来展示其“部分和整体”的层次结构。要求同样比较严格,用…

Docker镜像的创建 和 Dockerfile

一. Docker 镜像的创建 创建镜像有三种方法,分别为基于已有镜像创建、基于本地模板创建以及基于 Dockerfile 创建。 1 基于现有镜像创建 (1)首先启动一个镜像,在容器里做修改docker run -it --name web3 centos:7 /bin/bash …

Tomcat基本使用与控制台乱码解决方式

目录 Tomcat简单介绍 Tomcat基本使用 Tomcat控制台乱码解决方式 Tomcat简单介绍 tomcat是apache开源绿色版本的服务器。 Tomcat基本使用 安装:下载zip包解压即可。 卸载:删除解压的tomcat文件夹即可。 启动:双击bin/startup.bat 停止…

机器学习理论基础—集成学习(1)

机器学习理论基础—集成学习 个体与集成 集成学习通过构建并结合多个学习器来完成学习任务,有时也称为多分类系统等。 分类: 根据集成学习中的个体学习器的不同可以分为同质集成(集成的学习器相同例如全部是决策树)&#xff0c…