浮点数运算

在电脑科学中，浮点数运算（Floating-point arithmetic）是一种用浮点（英语：floating point，缩写为FP）方式表示实数的运算方式。浮点是一种对于实数的近似值数值表现法，由一个有效数字（即尾数）加上幂数来表示，通常是乘以某个基数的整数次指数得到。以这种表示法表示的数值，称为浮点数（floating-point number）。浮点数运算运算通常伴随着因为无法精确表示而进行的近似或舍入。

计算机使用浮点数运算的主因，在于电脑使用二进位制的运算。例如：4÷2=2，4=100₍₂₎、2=010₍₂₎，在二进位相当于退一位数。则1.0÷2=0.5=0.1₍₂₎也就是 ${\frac {1}{2}}$ 。依此类推二进位的0.01₍₂₎就是十进位 ${\frac {1}{2^{2}}}$ = ${\frac {1}{4}}$ =0.25。由于十进位制无法准确换算成二进位制的部分小数，如0.1，因此只能使用近似值的方式表达。

这种表示方法类似于基数为10的科学记数法，在计算机上，通常使用2为基数的幂数来表示。一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，可选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数（英语：Significand））是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作正规化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的。e是指数。

这种表示法的设计，来自于对于值的表现范围，与精密度之间的取舍：可以在某个固定长度的存储空间内表示出某个实数的近似值。例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和−∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

其中，无穷大，可表示为inf，在内存中的值是阶码为全1，尾数全0。而NaN在内存中的值则是阶码全1，尾数不全0。