基于FPGA的数字信号处理（4）--浮点数的定点化

写在前面

首先要说明的是，题目《浮点数的定点化》中所谓的 浮点数 并不是指 IEEE754 规定的 单精度浮点数 或者 双精度浮点数 等格式，而是指10进制小数。所以说白了，这篇文章要讲的就是如何将10进制小数采用定点数的形式表示。

你在学习进制转换时，有没有关注过这样一个问题：

为什么10进制小数转成2进制小数的题目通常都会规定有效位数？

例如：将10进制数 0.1 转换为 2进制小数，要求小数有效位数为5位。按照转换方法–乘2直到小数部分为0即可。

那么 0.1（D）= 0.0001100110011····，这时你就会发现，这个乘法过程似乎可以一直持续下去，但是好在题目只要求到小数点后5位，所以结果是 0.00011。

这能说明一个问题：10进制数 0.1 没办法被2进制精准地表示。不过某些小数，在特定的位宽下是可以被2进制精准表示的，比如：

0.5（D）= 0.1（B）

0.25（D）= 0.01（B）

0.875（D）= 0.111（B）

Why？

整数的2进制表示却没有这个问题，只要不限制位宽，那10进制整数一定可以被2进制精准表示，比如：

17（D）用4位2进制数无法表示，因为它的最大范围是4’b1111即15，但可以被5位及更多位的2进制数表示。

关于这一点可以从两个方面去理解：

整数是离散的，在固定范围内整数的个数是固定的，比如在0~15范围内那必然只有16个整数；而小数是连续的，在固定范围内小数的个数是无限。不管采用定点数还是浮点数的形式，那都是在用有限的编码个数来表示无限的小数，所以某些小数必然无法精准表示。
2进制整数的最小单位是最低位，即10进制的 “1”，所以整串数字可以看做是数个 “1” 的和，而显然任何整数都可以被 “1” 整除。但小数的2进制表示的最小单位是随着位宽而变化的，比如1位小数的最小单位是0.5，2位小数是0.25。所以不管是几位小数，这些 “最小单位” 都无法做到能整除所有小数。

至此，可以得出结论：并非所有的10进制小数，都可以被2进制数精确表示，在这个进制转换的过程中某些小数一定会存在误差。

定点化首先需要约定好定点数的规格：**用几位表示整数，用几位表示小数，要不要表示符号位？**这些规格需要根据输入数据的范围和特性而定（这些往往在算法阶段确定）。

假如要输入的数据 a 的范围在 -9~5 之间，要求精度保留5位。那么绝对值最大的| -9 |至少需要用4位（1001）才能表示，所以整数部分为4位。综上，数据 a 的定点化规格应为：符号位1位，整数部分4位，小数部分5位，共10位。

假设a的一个值是 3.1415，那么它的定点化过程如下：

小数部分5位，则分辨率为2 ^ -5=0.03125。3.1415转化为2进制小数相当于在算需要多少个分辨率小数来表示它，所以转化过程为 3.1415 / 2 ^ -5 = 3.1415 × 2 ^ 5 = 100.528。
这个结果只能取整数部分，因为二进制小数相对其分辨率来说，只能表示整数个。例如两位小数的分辨率是1/4 = 0.25，那么 0.00-0.11（B）就分别表示0.01（B）即0.25（D）的0-3倍，即0、0.25、0.5、0.75。
取整的方法有两种：
1. 直接截去小数部分（truncate），这相当于数学上的向下取整（floor），就电路设计角度而言，截去的实现是很简单的，所以这种方法最为常用；
2. 四舍五入（round），这样产生的误差比直接截断的误差小，但是需要多余的电路来实现，因此不太常用。
将结果100.528的小数部分截掉，为 100（D），可以理解为需要100个0.03125才能表示，即3.1415（D） = 100（D） × 0.00001（B），所以只要将100转化为2进制表示即可，即100（D）= 1100100（B）。因为设计的位宽是10位，所以需要补上符号位和在整数部分的高位补0，即最终结果为 0_0011_00100 。

0_0011_00100表示的值为 +3.125，它和原始数之间的差值就是 量化误差，为|3.125 - 3.1415| = 0.0165。量化误差是在量化过程中因为截断或四舍五入所直接产生的，但本质上还是因为有限个2进制编码无法表示无穷个10进制小数。

浮点数乘以2^Q，然后四舍五入或截去小数，就是定点数。其中Q为定标值（以确定小数位数）。