半精度浮點數

半精度浮點數（英語：half-precision floating-point）是用來表示浮點數的一種數據類型，在計算機中占據16比特（2字節）大小，因此也稱為float16或FP16。在IEEE 754中這種16位二進制格式被正式稱為binary16格式，因為只有單精度浮點數的一般大小，也簡稱為half，即半精度。這種數據類型只適合存儲對精度要求不高的數字，不適合用來計算。

半精度浮點數是一種較新的浮點類型。英偉達在2002年初發布的Cg語言中稱它作 half 類型，並首次在2002年末發布的GeForce FX中實現。^[1]ILM 當時正在尋找一種擁有高動態範圍，且不需過多消耗硬碟和內存，並且能像單精度浮點數和雙精度浮點數那樣被用來進行浮點計算的圖像格式。^[2]由SGI的John Airey領導的硬體加速可程式著色小組在1997年發明了作為'bali'設計工作的一部分的s10e5數據類型，曾在SIGGRAPH 2000年的論文^[3]中介紹過。（見章節 4.3）並且在美國專利7518615^[4]中被進一步記錄。

半精度浮點數可在OpenEXR， JPEG XR， OpenGL， Cg語言、D3DX等計算機圖形環境中使用。其與8位或16位整數相比具有動態範圍高的優點，可以使高對比度圖片中更多細節得以保留。與單精度浮點數相比，它的優點是只需要一半的存儲空間和帶寬（但是會犧牲精度和數值範圍）。^[2]

[1]

[2]

[3]

[4]

半精度浮點數

定義

例子

參閱

引用

外部連結

Wikiwand - on