在電腦科學中,浮點數運算(Floating-point arithmetic)是一種用浮點(英語:floating point,縮寫為FP)方式表示實數的運算方式。浮點是一種對於實數的近似值數值表現法,由一個有效數字(即尾數)加上冪數來表示,通常是乘以某個基數的整數次指數得到。以這種表示法表示的數值,稱為浮點數(floating-point number)。浮點數運算運算通常伴隨著因為無法精確表示而進行的近似或捨入。
計算機使用浮點數運算的主因,在於電腦使用二進位制的運算,例如:4÷2=2,4=100(2)、2=010(2),在二進位相當於退一位數,則1.0÷2=0.5=0.1(2),也就是。依此類推二進位的0.01(2)就是十進位==0.25。由於十進位制無法準確換算成二進位制的部分小數,如0.1,因此只能使用近似值的方式表達。
這種表示方法類似於基數為10的科學記數法。在計算機上,通常使用2為基數的冪數來表示,一個浮點數a由兩個數m和e來表示:a = m × be。在任意一個這樣的系統中,可選擇一個基數b(記數系統的基)和精度p(即使用多少位來儲存),m(即尾數)是形如±d.ddd...ddd的p位數(每一位是一個介於0到b-1之間的整數,包括0和b-1)。如果m的第一位是非0整數,m稱作正規化的,有一些描述使用一個單獨的符號位(s 代表+或者-)來表示正負,這樣m必須是正的,e是指數。
這種表示法的設計,來自於對於值的表現範圍,與精密度之間的取捨:可以在某個固定長度的儲存空間內表示出某個實數的近似值,例如: 一個指數範圍為±4的4位元十進制浮點數可以用來表示43210,4.321或0.0004321,但是沒有足夠的精度來表示432.123和43212.3(必須近似為432.1和43210)。當然,實際使用的位數通常遠大於4。
此外,浮點數表示法通常還包括一些特別的數值:+∞和−∞(正負無窮大)以及NaN('Not a Number')。無窮大用於數太大而無法表示的時候,NaN則指示非法操作或者無法定義的結果。
其中,無窮大,可表示為inf,在主記憶體中的值是階碼為全1,尾數全0。而NaN在主記憶體中的值則是階碼全1,尾數不全0。
電腦的浮點數
浮點指的是帶有小數的數值,浮點運算即是小數的四則運算,常用來測量電腦運算速度。大部份電腦採用二進制(b=2)的表示方法。位(bit)是衡量浮點數所需儲存空間的單位,通常為32位元或64位元,分別被叫作單精度和雙精度。有一些電腦提供更大的浮點數,例如英特爾公司的浮點運算單元Intel8087協處理器(以及其被整合進x86處理器中的後代產品)提供80位元長的浮點數,用於儲存浮點運算的中間結果。還有一些系統提供128位元的浮點數(通常用軟體實現)。
浮點數的標準
舉例
π的值可以表示為π = 3.1415926...10(十進制)。當在一個支援17位尾數的電腦中表示時,它會變為0.11001001000011111 × 22。
浮點數運算
為了方便呈現,容易閱讀,以下的例子會用十進制,有效位數7位數的浮點數,也就是IEEE 754 decimal32格式,其原理不會隨進制或是有效位數而變。此處的s表示尾數(有效數字),而e表示指數。
處理浮點數加法的簡單作法是將二個浮點數調整到有相同的指數。在以下例子中,第二個數的小數點左移了三位,使二者的指數相同,之後即可進行一般的加法運算:
123456.7 = 1.234567 × 10^5 101.7654 = 1.017654 × 10^2 = 0.001017654 × 10^5
因此 123456.7 + 101.7654 = (1.234567 × 10^5) + (1.017654 × 10^2) = (1.234567 × 10^5) + (0.001017654 × 10^5) = (1.234567 + 0.001017654) × 10^5 = 1.235584654 × 10^5
若用e和s來表示
e=5; s=1.234567 (123456.7) + e=2; s=1.017654 (101.7654)
e=5; s=1.234567 + e=5; s=0.001017654 (移位後) -------------------- e=5; s=1.235584654 (實際的和:123558.4654)
這是真實的結果,二個數字真正的和,之後會再四捨五入到七位有效位數,若有需要的話,會再進行正規化,其結果為
e=5; s=1.235585 (最後答案:123558.5)
加數的最低三位數(654)沒有出現在結果中,這稱為捨入誤差。在一些極端的例子中,二個浮點數的和可能和其中的被加數或是加數相等:
e=5; s=1.234567 + e=−3; s=9.876543
e=5; s=1.234567 + e=5; s=0.00000009876543 (移位後) ---------------------- e=5; s=1.23456709876543 (真正的和) e=5; s=1.234567 (四捨五入及正規化後)
在上述的例子中,為了要有正確的四捨五入結果,在二數指數差距很大時,要增加許多位數才有正確的結果。不過,在二位制的加減法中,利用一個guard位元、一個rounding位元以及一個額外的sticky位元,就可以有正確的結果[1][2]:218–220。
另一個失去有效數字的情形出現在二個幾乎相等的數字相減時。在以下的例子中,e = 5; s = 1.234571和e = 5; s = 1.234567是有理數123457.1467和123456.659的近似值。
e=5; s=1.234571 − e=5; s=1.234567 ---------------- e=5; s=0.000004 e=−1; s=4.000000 (四捨五入及正規化後)
浮點數的差可以精確的計算,如同Sterbenz引理所說明的,就算是因為漸進式下溢位而出現下溢位也是一樣。不過,原來二個數的差是e = −1; s = 4.877000,和浮點數計算結果e = −1; s = 4.000000之間差了超過20%。在極端的例子中,甚至所有的有效數字都會不見[1][3]。上述的災難性抵消說明了,假設計算結果的每一位數都有意義,這個想法很危險。這類誤差的處理及修正是數值分析中的主題之一。
若要進行乘法,將有效數字相乘,指數相加,再進行四捨五入及正規化即可。
e=3; s=4.734612 × e=5; s=5.417242 ----------------------- e=8; s=25.648538980104 (真實乘積) e=8; s=25.64854 (四捨五入後) e=9; s=2.564854 (正規化)
而除法會將被除數和除數的有效數字相除,二者的指數相減,再進行四捨五入及正規化。
乘除法不會有抵消或是某一數字被吸收的問題,不過仍會出現一些小誤差,若連續運算,誤差會變大[1]。實務上,要進行上述運算的數位邏輯可能會相當的複雜(像是布斯乘法演算法以及除法器)。
準確性
由於浮點數不能表達所有實數,浮點運算與相應的數學運算有所差異,有時此差異極為顯著。
比如,二進制浮點數不能表達0.1和0.01,0.1的平方既不是準確的0.01,也不是最接近0.01的可表達的數。單精度(24位元)浮點數表示0.1的結果為,,即
- 0.100000001490116119384765625
此數的平方是
- 0.010000000298023226097399174250313080847263336181640625
但最接近0.01的可表達的數是
- 0.009999999776482582092285156250
浮點數也不能表達圓周率,所以不等於正無窮,也不會溢位。下面的C語言代碼
double pi = 3.1415926535897932384626433832795;
double z = tan(pi/2.0);
的計算結果為16331239353195370.0,如果用單精度浮點數,則結果為−22877332.0。同樣的,。
奔騰早期的60-100MHz P5版本在浮點運算單元有一個問題,在極少數情況下,會導致除法運算的精確度降低。這個缺陷於1994年被發現,變成如今廣為人知的奔騰浮點除錯誤,同時這一事件導致英特爾陷入巨大的窘態,建立召回計畫來回收有問題的處理器。
相關條目
參考資料
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.