热图 (英语:heat map )在二维空间中以颜色的形式显示一个现象的绝对量,是一种数据可视化 技术。颜色的变化可能是通过色调 或强度 ,给读者提供明显的视觉提示,说明现象是如何在空间上聚集或变化的。热图有两种完全不同的类别:聚集热图和空间热图。在聚集热图中,幅度被排列成一个固定单元格大小的矩阵,其行和列是离散的现象和类别,行和列的排序是有意的,而且有些随意,目的是暗示聚集或描绘出通过统计分析发现的聚集。单元格的大小是任意的,但足够大,可以清晰可见。相比之下,空间热图中某一量级的位置是由该量级在该空间中的位置所决定的,没有单元的概念,现象被认为是连续变化的。
使用透过DNA微数组 生成的热图呈现出基因表达
无人机探测系统射频覆盖范围的热图
虽然“热图”是一个新兴的词汇,但是用明暗的矩阵来标示元素的方法已经有超过一世纪的历史了。[ 1]
热图起源于数据矩阵中数值的二维显示。较大的数值用深灰色或黑色的方格(像素)呈现,较小的数值用较浅的方格表示。Loua (1873)使用明暗矩阵来可视化巴黎 各区的社会统计数据。[ 1] Sneath (1957)通过将矩阵的行和列进行换位,将相似的数值按照聚类的方式放在彼此附近,来显示聚类分析 的结果。Jacques Bertin使用类似的表示方法来显示符合累积量表 的数据。将聚类树连接到数据矩阵的行和列的想法起源于1973年的Robert Ling。Ling使用打印机上的字符来表示不同的灰度,每个像素一个字符宽度。Leland Wilkinson在1994年开发了第一个用高分辨率彩色图形绘制聚集热图的计算机程序(SYSTAT )。
软件设计师Cormac Kinney在1991年注册了“热图”一词的商标,用来描述描述金融市场 信息的二维显示。[ 2] 2003年收购Kinney发明的公司无意中让该商标失效。[ 3]
根据对飞机可能飞行路径的贝叶斯法 分析,在彩色水深图上显示失踪的马航370航班 的可能位置的热图。[ 4]
热图有不同的种类:
生物学热图在分子生物学 中通常用于表示从DNA微数组 中获得的许多基因在一些可比样本(如不同状态的细胞 、不同患者的样本)中的表达水平。
树图 是数据的二维层次划分,在视觉上类似于热图。
拼贴图 (Mosaic plot )是表示双向或多向数据表的平铺热图。与树图一样,拼贴图中的矩形区域是分层组织的。这意味着这些区域是矩形而不是正方形。Friendly (1994)调查了该图的历史和使用情况。
密度函数可视化是一种用于表示地图中点的密度的热图。它使人们能够感知点的密度,而不受缩放系数的影响。Perrot et al. (2015)提出了一种使用密度函数的方法,利用Spark和Hadoop的大数据 基础设施来可视化数十亿和数十亿的点。[ 5]
可以使用许多不同的配色方案 来说明热图,每种方案都有感知上的优势和劣势。彩虹色彩映射经常被使用,因为相比于灰度的差异,人类更容易感知 色彩的明暗,据称这将增加图像中可感知的细节数量。然而,科学界的许多人并不鼓励这样做,原因如下:[ 6] [ 7] [ 8] [ 9] [ 10] [ 11]
这些颜色缺乏在灰度 或黑体光谱 彩色图中发现的自然感知排序。[ 6] [ 11]
常见的色彩映射(如许多可视化软件包中默认的“jet”色彩映射)在亮度方面的变化不受控制,这使得在显示或印刷 时无法有意义地转换为灰度。这也会分散对实际数据的注意力,使黄色和青色区域看起来比实际最重要的数据区域更突出。[ 6] [ 11]
颜色之间的变化也会导致人们感知到实际并不存在的渐变,使实际的渐变不那么突出,这意味着彩虹色图在很多情况下实际上会掩盖 细节,而不是增强细节。[ 6] [ 10] [ 11]
彩虹色彩映射中并不是所有的颜色都能被色觉障碍的读者区分,这使得相当一部分人无法使用这些颜色方案的图表。[ 11]
等值区域图 有时被误称为热图。等值区域图的特点是在地理边界内有不同的阴影或图案,以显示感兴趣的变量的比例,而热图(在地图上)的颜色变化与地理边界并不能对应上。[ 12]
用
频谱图 可视化的人声;代表
STFT 幅度的热图。另一种可视化方式是
瀑布图 。
曲面图 和热图的组合,其中曲面高度表示函数的振幅,颜色表示相角。
Heatmap . D3.js Graph Gallery. [25 July 2020] . (原始内容存档 于2021-03-09).
Bertin J . Sémiologie Graphique. Les diagrammes, les réseaux, les cartes [Graphic semiotics. Diagrams, networks, maps]. Gauthier-Villars. 1967. OCLC 2656278 (法语) .
Eisen MB, Spellman PT, Brown PO, Botstein D. Cluster analysis and display of genome-wide expression patterns . Proceedings of the National Academy of Sciences of the United States of America. December 1998, 95 (25): 14863–8. Bibcode:1998PNAS...9514863E . PMC 24541 . PMID 9843981 . doi:10.1073/pnas.95.25.14863 .
Friendly M. Mosaic Displays for Multi-Way Contingency Tables . Journal of the American Statistical Association. March 1994, 89 (425): 190–200. JSTOR 2291215 . doi:10.1080/01621459.1994.10476460 .
Ling RL. A computer generated aid for cluster analysis. Communications of the ACM. 1973, 16 (6): 355–361. S2CID 8033024 . doi:10.1145/362248.362263 .
Sneath PH. The application of computers to taxonomy. Journal of General Microbiology. August 1957, 17 (1): 201–26. PMID 13475686 . doi:10.1099/00221287-17-1-201 .
Wilkinson L . Advanced Applications: Systat for DOS Version 6 . SYSTAT. 1994. ISBN 978-0-13-447285-0 .
Barter RL, Yu B. Superheat: An R package for creating beautiful and extendable heatmaps for visualizing complex data . Journal of Computational and Graphical Statistics. 2018, 27 (4): 910–922. PMC 6430237 . PMID 30911216 . arXiv:1512.01524 . doi:10.1080/10618600.2018.1473780 .