数学 上,一个
m
×
n
{\displaystyle m\times n}
的矩阵 (英语:matrix )是一个有
m
{\displaystyle m}
行(row)
n
{\displaystyle n}
列(column)元素的矩形 阵列。矩阵里的元素可以是数字 或符号 甚至是函数 。
[
a
11
a
12
a
13
…
a
1
j
…
a
1
n
a
21
a
22
a
23
…
a
2
j
…
a
2
n
a
31
a
32
a
33
…
a
3
j
…
a
3
n
⋮
⋮
⋮
⋱
⋮
⋱
⋮
a
i
1
a
i
2
a
i
3
…
a
i
j
…
a
i
n
⋮
⋮
⋮
⋱
⋮
⋱
⋮
a
m
1
a
m
2
a
m
3
…
a
m
j
…
a
m
n
]
{\displaystyle {\begin{bmatrix}a_{11}&a_{12}&a_{13}&\dots &a_{1j}&\dots &a_{1n}\\a_{21}&a_{22}&a_{23}&\dots &a_{2j}&\dots &a_{2n}\\a_{31}&a_{32}&a_{33}&\dots &a_{3j}&\dots &a_{3n}\\\vdots &\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\a_{i1}&a_{i2}&a_{i3}&\dots &a_{ij}&\dots &a_{in}\\\vdots &\vdots &\vdots &\ddots &\vdots &\ddots &\vdots \\a_{m1}&a_{m2}&a_{m3}&\dots &a_{mj}&\dots &a_{mn}\end{bmatrix}}}
Quick Facts 线性代数, 矢量 ...
线性代数
A
=
[
1
2
3
4
]
{\displaystyle \mathbf {A} ={\begin{bmatrix}1&2\\3&4\end{bmatrix}}}
矢量 · 矢量空间 · 基底 · 行列式 · 矩阵
Close
Quick Facts “横排(row)”的各地常用名称, 中国大陆 ...
“横排(row)”的各地常用名称 中国大陆 行 台湾 列
Close
Quick Facts “纵排(column)”的各地常用名称, 中国大陆 ...
“纵排(column)”的各地常用名称 中国大陆 列 台湾 行
Close
大小相同(行数列数都相同)的矩阵之间可以相互加减,具体是对每个位置上的元素做加减法。矩阵乘法 则较为复杂。两个矩阵可以相乘,当且仅当 第一个矩阵的列数等于第二个矩阵的行数。矩阵乘法 满足结合律 和分配律 ,但不满足交换律 。
矩阵的一个重要用途是解线性方程组 。线性方程组中未知量的系数 可以排成一个矩阵,加上常数项,则称为增广矩阵。另一个重要用途是表示线性变换 ,即是诸如
f
(
x
)
=
4
x
{\displaystyle f(x)=4x}
之类的线性函数 的推广。设定基底 后,某个矢量
v
{\displaystyle \mathrm {v} }
可以表示为
m
×
1
{\displaystyle m\times 1}
的矩阵,而线性变换
f
{\displaystyle f}
可以表示为列数为
m
{\displaystyle m}
的矩阵
A
{\displaystyle A}
,使得经过变换后得到的矢量
f
(
v
)
{\displaystyle f(\mathrm {v} )}
可以表示成
A
v
{\displaystyle A\mathrm {v} }
的形式。矩阵的特征值 和特征矢量 可以揭示线性变换的深层特性。
矩阵是高等代数学中的常见工具,也常见于统计 分析等应用数学 学科中。在物理学 中,矩阵在力学 、电路学 、光学 和量子物理 等领域中都有应用;电脑科学 中,三维动画 制作也需要用到矩阵。矩阵的运算是数值分析 领域的重要问题。将矩阵分解 为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。对一些应用广泛而形式特殊的矩阵,例如稀疏矩阵 和准对角矩阵 ,有特定的快速运算算法 。关于矩阵相关理论的发展和应用,请参考矩阵理论 。在天体物理 、量子力学 等领域,也会出现无穷维的矩阵,是矩阵的一种推广。
中文中矩阵的概念最早见于1922年。1922年,北京师范大学附属中学 数学老师程廷熙 在一篇介绍文章中将矩阵译为“纵横阵”。1925年,在科学名词审查会算学名词审查组刊登于《科学》第十卷第四期的审定名词表中,矩阵被翻译为“矩阵式”,方块矩阵翻译为“方阵式”,而各类矩阵如“正交矩阵”、“伴随矩阵”中的“矩阵”则被翻译为“方阵”。1935年,中国数学会审查后,中华民国教育部审定的《数学名词》(并“通令全国各院校一律遵用,以昭划一”)中,“矩阵”作为译名首次出现。1938年,曹惠群在接受科学名词审查会委托就数学名词加以校订的《算学名词汇编》中,认为应当的译名是“长方阵”。1949年中华人民共和国成立后编订的《数学名词》中,则将译名定为“(矩)阵”。1993年,中国自然科学名词审定委员会 公布的《数学名词》中,“矩阵”被定为正式译名,并沿用至今[ 1] 。
作为解决线性方程的工具,矩阵也有不短的历史。成书最迟在东汉 前期的《九章算术 》中,已经出现过以矩阵形式表示线性方程组系数以解方程的图例,可视为矩阵的雏形[ 2] 。矩阵正式作为数学中的研究对象出现,则是在行列式 的研究发展起来后。逻辑上,矩阵的概念先于行列式,但在历史上则恰好相反。日本数学家关孝和 (1683年)与微积分的发现者之一戈特弗里德·威廉·莱布尼茨 (1693年)近乎同时独立建立了行列式论 。其后行列式作为解线性方程组的工具逐步发展。1750年,加布里尔·克拉默 发现了克莱姆法则 [ 3] 。
阿瑟·凯莱被认为是矩阵论的奠基人
进入十九世纪后,行列式的研究进一步发展,矩阵的概念也应运而生。奥古斯丁·路易·柯西 是最早将行列式排成方阵并将其元素用双重下标表示的数学家。他还在1829年就在行列式的框架中证明了实对称矩阵特征根为实数的结论[ 4] 。其后,詹姆斯·约瑟夫·西尔维斯特 注意到,在作为行列式的计算形式以外,将数以行和列的形式作出的矩形排列本身也是值得研究的。在他希望引用数的矩形阵列而又不能用行列式来形容的时候,就用“matrix”一词来形容[ 3] 。而在此之前,数学家已经开始将增广矩阵作为独立的对象引用了。西尔维斯特使用“matrix”一词是因为他希望讨论行列式的子式 ,即将矩阵的某几行和某几列的共同元素取出来排成的矩阵的行列式,所以实际上“matrix”被他看做是生成各种子式的“母体”:
我在先前的文章中将矩形排布的序列称为“Matrix”,盖因从中可以产生出各种不同的行列式,就如由同一个母体的子宫中孕育出来一样。[ 5]
阿瑟·凯莱 被公认为矩阵论的奠基人[ 3] 。他开始将矩阵作为独立的数学对象 研究时,许多与矩阵有关的性质已经在行列式的研究中被发现,这也使得凯莱认为矩阵的引进是十分自然的。他说:“我决然不是通过四元数 而获得矩阵概念的;它或是直接从行列式的概念而来,或是作为一个表达线性方程组的方便方法而来的。[ 3] ”他从1858年开始,发表了《矩阵论的研究报告》等一系列关于矩阵的专门论文[ 6] [ 7] ,研究了矩阵的运算律、矩阵的逆以及转置和特征多项式方程。凯莱还提出了凯莱-哈密尔顿定理,并验证了3×3矩阵的情况,又说进一步的证明是不必要的。哈密尔顿证明了4×4矩阵的情况,而一般情况下的证明是弗罗贝尼乌斯于1898年给出的[ 3] 。
此后更多数学家开始对矩阵进行研究。埃尔米特证明了如果矩阵等于其复共轭转置,则特征根为实数。这种矩阵后来被称为埃尔米特矩阵[ 3] 。弗罗贝尼乌斯对矩阵的特征方程、特征根、矩阵的秩、正交矩阵、矩阵方程等方面做了大量工作。1878年,在引进了不变因子、初等因子等概念的同时,弗罗贝尼乌斯给出了正交矩阵、相似矩阵 和合同矩阵 的概念。同年,他探讨了矩阵的最小多项式(最小方程)问题。1894年的论文中,他讨论了矩阵理论和四元数理论的关系。1896年,他给出了凯莱-哈密尔顿定理的完整证明[ 1] 。矩阵理论在19世纪沿着两个方向发展,分别是作为抽象代数结构和作为代数工具描述几何空间的线性变换。矩阵理论为群论和不变量理论的发展。
无限维矩阵的研究始于1884年。庞加莱 在两篇不严谨地使用了无限维矩阵和行列式理论的文章后开始了对这一方面的专门研究[ 1] 。1906年,希尔伯特引入无限二次型(相当于无限维矩阵)对积分方程进行研究,极大地促进了无限维矩阵的研究。在此基础上,施密茨、赫林格和特普利茨发展出算子理论,而无限维矩阵成为了研究函数空间算子的有力工具[ 1] 。
矩阵的定义 —
S
{\displaystyle S}
是一个集合,那函数
A
:
{
1
,
2
,
…
,
m
}
×
{
1
,
2
,
…
,
n
}
→
S
{\displaystyle \mathbf {A} :\{1,\,2,\,\ldots ,\,m\}\times \{1,\,2,\,\ldots ,\,n\}\to S}
就会被称为定义在
S
{\displaystyle S}
上的
m
×
n
{\displaystyle m\times n}
矩阵
直观上就是用两个数码去标记一堆数学实域(如数字、函数),实际上是有限序列 的一种推广。
A
(
i
,
j
)
{\displaystyle \mathbf {A} (i,\,j)}
被昵称为矩阵
A
{\displaystyle \mathbf {A} }
里的元素 ,通常简记为
A
i
,
j
{\displaystyle \mathbf {A} _{i,j}}
、
A
i
j
{\displaystyle \mathbf {A} _{ij}}
或
A
[
i
,
j
]
{\displaystyle \mathbf {A} _{[i,j]}}
。除此之外也会用小写字母
a
i
j
{\displaystyle \mathrm {a} _{ij}}
表示元素,来跟矩阵
A
{\displaystyle \mathbf {A} }
本身做区别。但不知
A
{\displaystyle \mathbf {A} }
的具域形式却想强调
a
i
j
{\displaystyle \mathrm {a} _{ij}}
为
A
{\displaystyle \mathbf {A} }
的元素的话,可以
A
=
[
a
i
j
]
m
×
n
{\displaystyle \mathbf {A} =[\mathrm {a} _{ij}]_{m\times n}}
或
A
=
[
a
i
,
j
]
m
×
n
{\displaystyle \mathbf {A} =[\mathrm {a} _{i,\,j}]_{m\times n}}
表示。
如果表达式
f
(
i
,
j
)
=
T
(
i
,
j
)
{\displaystyle f(i,\,j)=T(i,j)}
(严格来说是合式公式 ,其中
T
{\displaystyle T}
为一个包含变量
T
(
i
,
j
)
{\displaystyle T(i,\,j)}
的项 )可以唯一决定一个矩阵
A
{\displaystyle \mathbf {A} }
,那会将它记成
A
=
[
T
(
i
,
j
)
]
m
×
n
{\displaystyle \mathbf {A} =[T(i,\,j)]_{m\times n}}
。如:
A
:
{
1
,
2
,
…
,
m
}
×
{
1
,
2
,
…
,
n
}
→
N
{\displaystyle \mathbf {A} :\{1,\,2,\,\ldots ,\,m\}\times \{1,\,2,\,\ldots ,\,n\}\to \mathbb {N} }
且
A
(
i
,
j
)
=
i
+
j
{\displaystyle \mathbf {A} (i,\,j)=i+j}
就可以表达为
A
=
[
i
+
j
]
m
×
n
{\displaystyle \mathbf {A} =[i+j]_{m\times n}}
。
根据公理化集合论 ,可以定义一个函数的集合
S
m
×
n
{\displaystyle S^{m\times n}}
,它囊括所有定义在
S
{\displaystyle S}
上的
m
×
n
{\displaystyle m\times n}
矩阵,也就是说:
S
m
×
n
:=
{
f
|
f
:
{
1
,
2
,
…
,
m
}
×
{
1
,
2
,
…
,
n
}
→
S
}
{\displaystyle S^{m\times n}:=\left\{f\,|\,f:\{1,\,2,\,\ldots ,\,m\}\times \{1,\,2,\,\ldots ,\,n\}\to S\right\}}
以下的
3
×
2
{\displaystyle 3\times 2}
矩阵:
{
(
(
1
,
1
)
,
a
)
,
(
(
1
,
2
)
,
b
)
,
(
(
2
,
1
)
,
c
)
,
(
(
2
,
2
)
,
d
)
,
(
(
2
,
2
)
,
e
)
,
(
(
2
,
2
)
,
f
)
}
{\displaystyle \left\{\left((1,\,1),\,a\right),\,\left((1,\,2),\,b\right),\,\left((2,\,1),\,c\right),\,\left((2,\,2),\,d\right),\,\left((2,\,2),\,e\right),\,\left((2,\,2),\,f\right)\right\}}
一般会如下排列成为矩形来表示:
[
a
b
c
d
e
f
]
{\displaystyle {\begin{bmatrix}a&b\\c&d\\e&f\end{bmatrix}}}
英文将横向的元素组统称为“row ”,纵向统称为“column ”;但两岸对此却以不同的称呼;在中国大陆 ,横向的元素组称为“行”,纵向称为“列”,而在台湾 则相反,横向称为“列”,纵向称为“行”[ 8] 。
行数是1或列数是1的矩阵又可分别称为行矢量 和列矢量 ,在有限维 的情况下,矢量 可用其分量表示成行数或列数是1的矩阵。
矩阵的最基本运算包括矩阵加(减)法,数乘和转置运算。被称为“矩阵加法”、“数乘”和“转置”的运算不止一种[ 9] ,其中最基本最常用的定义如下:
More information , 矩阵 ...
运算
定义
例子
加(减)法
m
×
n
{\displaystyle m\times n}
矩阵
A
{\displaystyle \mathbf {A} }
和
B
{\displaystyle \mathbf {B} }
的和(差):
A
±
B
{\displaystyle \mathbf {A} \pm \mathbf {B} }
为一个
m
×
n
{\displaystyle m\times n}
矩阵,其中每个元素是
A
{\displaystyle \mathbf {A} }
和
B
{\displaystyle \mathbf {B} }
相应元素的和(差),
(
A
±
B
)
i
,
j
=
A
i
,
j
±
B
i
,
j
{\displaystyle (\mathbf {A} \pm \mathbf {B} )_{i,j}=\mathbf {A} _{i,j}\pm \mathbf {B} _{i,j}}
,
其中
1
≤
i
≤
m
,
1
≤
j
≤
n
{\displaystyle 1\leq i\leq m,1\leq j\leq n}
[
1
3
1
1
0
0
]
+
[
0
0
5
7
5
0
]
=
[
1
+
0
3
+
0
1
+
5
1
+
7
0
+
5
0
+
0
]
=
[
1
3
6
8
5
0
]
{\displaystyle {\begin{bmatrix}1&3&1\\1&0&0\end{bmatrix}}+{\begin{bmatrix}0&0&5\\7&5&0\end{bmatrix}}={\begin{bmatrix}1+0&3+0&1+5\\1+7&0+5&0+0\end{bmatrix}}={\begin{bmatrix}1&3&6\\8&5&0\end{bmatrix}}}
数乘
标量
c
{\displaystyle c}
与矩阵
A
{\displaystyle \mathbf {A} }
的数乘:
c
A
{\displaystyle c\mathbf {A} }
的每个元素是
A
{\displaystyle \mathbf {A} }
的相应元素与
c
{\displaystyle c}
的乘积,
(
c
A
)
i
,
j
=
c
⋅
A
i
,
j
{\displaystyle (c\mathbf {A} )_{i,j}=c\cdot \mathbf {A} _{i,j}}
2
⋅
[
1
8
−
3
4
−
2
5
]
=
[
2
⋅
1
2
⋅
8
2
⋅
(
−
3
)
2
⋅
4
2
⋅
(
−
2
)
2
⋅
5
]
=
[
2
16
−
6
8
−
4
10
]
{\displaystyle 2\cdot {\begin{bmatrix}1&8&-3\\4&-2&5\end{bmatrix}}={\begin{bmatrix}2\cdot 1&2\cdot 8&2\cdot (-3)\\2\cdot 4&2\cdot (-2)&2\cdot 5\end{bmatrix}}={\begin{bmatrix}2&16&-6\\8&-4&10\end{bmatrix}}}
转置
m
×
n
{\displaystyle m\times n}
矩阵
A
{\displaystyle \mathbf {A} }
的转置是一个
n
×
m
{\displaystyle n\times m}
的矩阵,记为
A
T
{\displaystyle \mathbf {A} ^{\mathrm {T} }}
(有些书中也记为
A
t
r
{\displaystyle \mathbf {A} ^{\mathrm {tr} }}
或
t
A
{\displaystyle ^{\mathrm {t} }\mathbf {A} }
、
A
′
{\displaystyle \mathbf {A} '}
),其中的第
i
{\displaystyle i}
个行矢量是原矩阵
A
{\displaystyle \mathbf {A} }
的第
i
{\displaystyle i}
个列矢量;或者说,转置矩阵
A
T
{\displaystyle \mathbf {A} ^{\mathrm {T} }}
第
i
{\displaystyle i}
行第
j
{\displaystyle j}
列的元素是原矩阵
A
{\displaystyle \mathbf {A} }
第
j
{\displaystyle j}
行第
i
{\displaystyle i}
列的元素,
(
A
T
)
i
,
j
=
A
j
,
i
{\displaystyle (\mathbf {A} ^{\mathrm {T} })_{i,j}=\mathbf {A} _{j,i}}
[
1
2
3
0
−
6
7
]
T
=
[
1
0
2
−
6
3
7
]
{\displaystyle {\begin{bmatrix}1&2&3\\0&-6&7\end{bmatrix}}^{T}={\begin{bmatrix}1&0\\2&-6\\3&7\end{bmatrix}}}
Close
矩阵的加法运算满足交换律:
A
+
B
=
B
+
A
{\displaystyle \mathbf {A} +\mathbf {B} =\mathbf {B} +\mathbf {A} }
[ 10] 。矩阵的转置和数乘运算对加法满足分配律:
(
A
+
B
)
T
=
A
T
+
B
T
{\displaystyle (\mathbf {A} +\mathbf {B} )^{\mathrm {T} }=\mathbf {A} ^{\mathrm {T} }+\mathbf {B} ^{\mathrm {T} }}
c
(
A
+
B
)
=
c
A
+
c
B
{\displaystyle c(\mathbf {A} +\mathbf {B} )=c\mathbf {A} +c\mathbf {B} }
矩阵加法和数乘两种运算使得
M
(
m
,
n
,
R
)
{\displaystyle {\mathcal {M}}(m,n,\mathbb {R} )}
成为一个
m
n
{\displaystyle mn}
维的实数线性空间 。而转置和数乘运算满足类似于结合律的规律:
c
(
A
T
)
=
c
(
A
)
T
{\displaystyle c(\mathbf {A} ^{\mathrm {T} })=c(\mathbf {A} )^{\mathrm {T} }}
矩阵也有类似行列式的初等变换 ,即对矩阵的某些行和某些列进行三类操作:交换两行/列,将一行/列的每个元素都乘以一个固定的量,以及将一行/列的每个元素乘以一个固定的量之后加到另一行/列的相应元素上。这些操作在求其逆矩阵 时有用。
矩阵A 和B 相乘得到AB 的示意图
两个矩阵的乘法仅当第一个矩阵
A
{\displaystyle \mathbf {A} }
的列数(column)和另一个矩阵
B
{\displaystyle \mathbf {B} }
的行数(row)相等时才能定义。如
A
{\displaystyle \mathbf {A} }
是
m
×
n
{\displaystyle m\times n}
矩阵和
B
{\displaystyle \mathbf {B} }
是
n
×
p
{\displaystyle n\times p}
矩阵,它们的乘积
A
B
{\displaystyle \mathbf {AB} }
是一个
m
×
p
{\displaystyle m\times p}
矩阵,它的一个元素
[
A
B
]
i
,
j
=
A
i
,
1
B
1
,
j
+
A
i
,
2
B
2
,
j
+
⋯
+
A
i
,
n
B
n
,
j
=
∑
r
=
1
n
A
i
,
r
B
r
,
j
{\displaystyle [\mathbf {AB} ]_{i,j}=A_{i,1}B_{1,j}+A_{i,2}B_{2,j}+\cdots +A_{i,n}B_{n,j}=\sum _{r=1}^{n}A_{i,r}B_{r,j}}
其中
1
≤
i
≤
m
,
1
≤
j
≤
p
′
{\displaystyle 1\leq i\leq m,\ 1\leq j\leq p'}
'[ 11] 。
例如
[
1
0
2
−
1
3
1
]
×
[
3
1
2
1
1
0
]
=
[
(
1
×
3
+
0
×
2
+
2
×
1
)
(
1
×
1
+
0
×
1
+
2
×
0
)
(
−
1
×
3
+
3
×
2
+
1
×
1
)
(
−
1
×
1
+
3
×
1
+
1
×
0
)
]
=
[
5
1
4
2
]
{\displaystyle {\begin{bmatrix}1&0&2\\-1&3&1\\\end{bmatrix}}\times {\begin{bmatrix}3&1\\2&1\\1&0\end{bmatrix}}={\begin{bmatrix}(1\times 3+0\times 2+2\times 1)&(1\times 1+0\times 1+2\times 0)\\(-1\times 3+3\times 2+1\times 1)&(-1\times 1+3\times 1+1\times 0)\\\end{bmatrix}}={\begin{bmatrix}5&1\\4&2\\\end{bmatrix}}}
矩阵的乘法满足结合律和对矩阵加法的分配律(左分配律和右分配律):
结合律:
(
A
B
)
C
=
A
(
B
C
)
{\displaystyle (\mathbf {AB} )\mathbf {C} =\mathbf {A} (\mathbf {BC} )}
左分配律:
(
A
+
B
)
C
=
A
C
+
B
C
{\displaystyle (\mathbf {A} +\mathbf {B} )\mathbf {C} =\mathbf {AC} +\mathbf {BC} }
右分配律:
C
(
A
+
B
)
=
C
A
+
C
B
{\displaystyle \mathbf {C} (\mathbf {A} +\mathbf {B} )=\mathbf {CA} +\mathbf {CB} }
矩阵的乘法与数乘运算之间也满足类似结合律的规律;与转置之间则满足倒置的分配律。
c
(
A
B
)
=
(
c
A
)
B
=
A
(
c
B
)
{\displaystyle c(\mathbf {AB} )=(c\mathbf {A} )\mathbf {B} =\mathbf {A} (c\mathbf {B} )}
(
A
B
)
T
=
B
T
A
T
{\displaystyle (\mathbf {AB} )^{\mathrm {T} }=\mathbf {B} ^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }}
矩阵乘法不满足 交换律 。一般来说,矩阵
A
{\displaystyle \mathbf {A} }
及
B
{\displaystyle \mathbf {B} }
的乘积
A
B
{\displaystyle \mathbf {AB} }
存在,但
B
A
{\displaystyle \mathbf {BA} }
不一定存在,即使存在,大多数时候
A
B
≠
B
A
{\displaystyle \mathbf {AB} \neq \mathbf {BA} }
。比如下面的例子:
[
1
2
3
4
]
[
0
1
0
0
]
=
[
0
1
0
3
]
,
[
0
1
0
0
]
[
1
2
3
4
]
=
[
3
4
0
0
]
{\displaystyle {\begin{bmatrix}1&2\\3&4\\\end{bmatrix}}{\begin{bmatrix}0&1\\0&0\\\end{bmatrix}}={\begin{bmatrix}0&1\\0&3\\\end{bmatrix}},\qquad \quad {\begin{bmatrix}0&1\\0&0\\\end{bmatrix}}{\begin{bmatrix}1&2\\3&4\\\end{bmatrix}}={\begin{bmatrix}3&4\\0&0\\\end{bmatrix}}}
。
这一特性使得矩阵代数与常见的一些数域 (有理数、实数、复数)以及环(多项式环 、整数环)都不同。给定一个
n
{\displaystyle n}
维的方块矩阵
A
{\displaystyle \mathbf {A} }
,与
A
{\displaystyle \mathbf {A} }
交换的所有方块矩阵构成一个环,称为
A
{\displaystyle \mathbf {A} }
的交换子环。这些矩阵也构成
M
(
n
,
R
)
{\displaystyle {\mathcal {M}}(n,\mathbb {R} )}
的一个子空间,称为
A
{\displaystyle \mathbf {A} }
的可交换空间[ 12] 。与
M
(
n
,
R
)
{\displaystyle {\mathcal {M}}(n,\mathbb {R} )}
中所有矩阵交换的矩阵只有形如
λ
I
n
,
λ
∈
R
{\displaystyle \lambda \mathbf {I} _{n},\,\lambda \in \mathbb {R} }
的矩阵(称为数乘矩阵)。其中的
I
n
{\displaystyle \mathbf {I} _{n}}
是单位矩阵 ,也就是主对角线上的元素为1,其它元素为0的矩阵。任意矩阵
M
{\displaystyle \mathbf {M} }
乘以单位矩阵都得到自身:
M
I
n
=
M
=
I
n
M
{\displaystyle \mathbf {M} \mathbf {I} _{n}=\mathbf {M} =\mathbf {I} _{n}\mathbf {M} }
。
除了最常见的矩阵乘法定义以外,也有一些较不常见的矩阵乘法,比如阿达马乘积 和克罗内克乘积 [ 13] 。
矩阵乘法的一个基本应用是在线性方程组上。线性方程组是方程组 的一种,它符合以下的形式:
{
a
1
,
1
x
1
+
a
1
,
2
x
2
+
⋯
+
a
1
,
n
x
n
=
b
1
a
2
,
1
x
1
+
a
2
,
2
x
2
+
⋯
+
a
2
,
n
x
n
=
b
2
⋮
⋮
a
m
,
1
x
1
+
a
m
,
2
x
2
+
⋯
+
a
m
,
n
x
n
=
b
m
{\displaystyle {\begin{cases}a_{1,1}x_{1}+a_{1,2}x_{2}+\cdots +a_{1,n}x_{n}=b_{1}\\a_{2,1}x_{1}+a_{2,2}x_{2}+\cdots +a_{2,n}x_{n}=b_{2}\\\vdots \quad \quad \quad \vdots \\a_{m,1}x_{1}+a_{m,2}x_{2}+\cdots +a_{m,n}x_{n}=b_{m}\end{cases}}}
其中的
a
1
,
1
,
a
1
,
2
{\displaystyle a_{1,1},\,a_{1,2}}
以及
b
1
,
b
2
{\displaystyle b_{1},\,b_{2}}
等等是已知的常数,而
x
1
,
x
2
{\displaystyle x_{1},\,x_{2}}
等等则是要求的未知数。运用矩阵的方式,可以将线性方程组写成一个矢量方程:
A
x
=
b
{\displaystyle \mathbf {A} \mathbf {x} =\mathbf {b} }
其中,
A
{\displaystyle \mathbf {A} }
是由方程组里未知量的系数排成的
m
×
n
{\displaystyle m\times n}
矩阵 ,
x
{\displaystyle \mathbf {x} }
是含有
n
{\displaystyle n}
个元素的行矢量,
b
{\displaystyle \mathbf {b} }
是含有
m
{\displaystyle m}
个元素的行矢量[ 14] 。
A
=
[
a
1
,
1
a
1
,
2
⋯
a
1
,
n
a
2
,
1
a
2
,
2
⋯
a
2
,
n
⋮
⋮
⋱
⋮
a
m
,
1
a
m
,
2
⋯
a
m
,
n
]
,
x
=
[
x
1
x
2
⋮
x
n
]
,
b
=
[
b
1
b
2
⋮
b
m
]
{\displaystyle \mathbf {A} ={\begin{bmatrix}a_{1,1}&a_{1,2}&\cdots &a_{1,n}\\a_{2,1}&a_{2,2}&\cdots &a_{2,n}\\\vdots &\vdots &\ddots &\vdots \\a_{m,1}&a_{m,2}&\cdots &a_{m,n}\end{bmatrix}},\quad \mathbf {x} ={\begin{bmatrix}x_{1}\\x_{2}\\\vdots \\x_{n}\end{bmatrix}},\quad \mathbf {b} ={\begin{bmatrix}b_{1}\\b_{2}\\\vdots \\b_{m}\end{bmatrix}}}
这个写法下,将原来的多个方程转化成一个矢量方程,在已知矩阵
A
{\displaystyle \mathbf {A} }
和矢量
b
{\displaystyle \mathbf {b} }
的情况下,求未知矢量
x
{\displaystyle \mathbf {x} }
。
矩阵是线性变换的便利表达法。矩阵乘法的本质在联络到线性变换的时候最能体现,因为矩阵乘法和线性变换的合成有以下的联络:
以
R
n
{\displaystyle \mathbb {R} ^{n}}
表示所有长度为
n
{\displaystyle n}
的行矢量的集合。每个
m
×
n
{\displaystyle m\times n}
的矩阵
A
{\displaystyle \mathbf {A} }
都代表了一个从
R
n
{\displaystyle \mathbb {R} ^{n}}
射到
R
m
{\displaystyle \mathbb {R} ^{m}}
的线性变换。反过来,对每个线性变换
f
:
R
n
→
R
m
{\displaystyle f:\mathbb {R} ^{n}\rightarrow \mathbb {R} ^{m}}
,都存在唯一m ×n 矩阵
A
f
{\displaystyle \mathbf {A} _{f}}
使得对所有
R
n
{\displaystyle \mathbb {R} ^{n}}
中的元素
x
{\displaystyle x}
,
f
(
x
)
=
A
f
x
{\displaystyle f(x)=A_{f}x}
。这个矩阵
A
f
{\displaystyle \mathbf {A} _{f}}
第
i
{\displaystyle i}
行第
j
{\displaystyle j}
列上的元素是正则基 矢量
e
j
=
(
0
,
⋯
,
0
,
1
,
0
,
⋯
0
)
T
{\displaystyle \mathbf {e} _{j}=(0,\cdots ,0,1,0,\cdots 0)^{T}}
(第j 个元素是1,其余元素是0的矢量)在
f
{\displaystyle f}
映射后的矢量
f
(
e
j
)
{\displaystyle f(\mathbf {e} _{j})}
的第
i
{\displaystyle i}
个元素。
也就是说,从
R
n
{\displaystyle \mathbb {R} ^{n}}
射到
R
m
{\displaystyle \mathbb {R} ^{m}}
的线性变换构成的矢量空间
L
(
R
n
,
R
m
)
{\displaystyle {\mathcal {L}}\left(\mathbb {R} ^{n},\mathbb {R} ^{m}\right)}
上存在一个到
M
(
m
,
n
,
R
)
{\displaystyle {\mathcal {M}}(m,n,\mathbb {R} )}
的一一映射 :
f
↦
A
f
{\displaystyle f\mapsto A_{f}}
以下是一些典型的2维实平面上的线性变换对平面矢量(图形)造成的效果,以及它们对应的2维矩阵。其中每个线性变换将蓝色图形映射成绿色图形;平面的原点(0, 0)用黑点表示。
推移 , 幅度m=1.25.
水平镜射 变换
“挤压 ”变换, 压缩程度r=3/2
伸缩 ,3/2倍
旋转 ,左转30°
[
1
1.25
0
1
]
{\displaystyle {\begin{bmatrix}1&1.25\\0&1\end{bmatrix}}}
[
−
1
0
0
1
]
{\displaystyle {\begin{bmatrix}-1&0\\0&1\end{bmatrix}}}
[
3
2
0
0
2
3
]
{\displaystyle {\begin{bmatrix}{\frac {3}{2}}&0\\0&{\frac {2}{3}}\end{bmatrix}}}
[
3
2
0
0
3
2
]
{\displaystyle {\begin{bmatrix}{\frac {3}{2}}&0\\0&{\frac {3}{2}}\end{bmatrix}}}
[
cos
(
π
6
)
−
sin
(
π
6
)
sin
(
π
6
)
cos
(
π
6
)
]
{\displaystyle {\begin{bmatrix}\cos({\frac {\pi }{6}})&-\sin({\frac {\pi }{6}})\\\sin({\frac {\pi }{6}})&\cos({\frac {\pi }{6}})\end{bmatrix}}}
设有
k
×
m
{\displaystyle k\times m}
的矩阵
B
{\displaystyle \mathbf {B} }
代表线性变换
g
:
R
m
→
R
k
{\displaystyle g:\mathbf {R} ^{m}\rightarrow \mathbf {R} ^{k}}
,则矩阵积
B
A
{\displaystyle \mathbf {BA} }
代表了线性变换的复合
g
∘
f
{\displaystyle g\circ f}
[ 15] ,因为
(
g
∘
f
)
(
x
)
=
g
(
f
(
x
)
)
=
g
(
A
x
)
=
B
(
A
x
)
=
(
B
A
)
x
{\displaystyle (g\circ f)(x)=g(f(x))=g(\mathbf {Ax} )=\mathbf {B} (\mathbf {Ax} )=(\mathbf {BA} )\mathbf {x} }
矩阵的秩 是指矩阵中线性无关 的行/列矢量的最大个数[ 16] ,同时也是矩阵对应的线性变换的像空间 的维度[ 17] 。秩-零化度定理 说明矩阵的列数量等于矩阵的秩与零空间 维度之和[ 18] 。
矩阵的元素除了可以是实数和复数以外,也可以任意环或域 中元素。在线性代数中,矩阵的性质可以经由有限维的线性空间中的线性变换定义。更广泛的,无限维空间中的线性算子 ,则可以定义更广泛的无穷维矩阵。矩阵的另一种推广是张量 。标量可以看成零维方式排列的数据(只有一个“点”),矢量可以看成是一维方式排列的数据(若干个“点”排成的“线段”),矩阵可以看成是二维方式排列的数据(若干个“线段”排成的“矩形”),而张量的概念则包括了这几种排列方式。在张量的概念中,标量是零维张量,矢量是一维张量,矩阵是二维张量,而更高维方式排列的数据方式就是高维张量[ 46] 。
矩阵的元素除了可以是实数和复数以外,还可以是任何能够使得矩阵的运算律成立的元素。首先,矩阵的元素可以是任意一个域(即能够进行“加减乘除”运算的集合)中元素。例如编码理论 中会出现系数为有限域 中元素的矩阵,以及有理数系数的矩阵。如果矩阵的系数所在域
K
{\displaystyle \mathbf {K} }
不是代数闭域 ,那么在求矩阵的特征值时,由于特征值是相应的特征多项式的根,可能不在系数域
K
{\displaystyle \mathbf {K} }
中,而是在系数域的某个扩域L 中。反过来,如果考虑扩域
L
/
K
{\displaystyle \mathbf {L/K} }
,以及
L
{\displaystyle \mathbf {L} }
中的一个元素
α
{\displaystyle \alpha }
,以及
L
{\displaystyle \mathbf {L} }
中线性变换
m
α
:
x
↦
α
x
{\displaystyle m_{\alpha }:\,x\mapsto \alpha x}
,那么由于
m
α
{\displaystyle m_{\alpha }}
也是一个
K
{\displaystyle \mathbf {K} }
-线性变换,它可以表示成一个
n
×
n
{\displaystyle n\times n}
的
K
{\displaystyle \mathbf {K} }
系数矩阵
X
α
{\displaystyle X_{\alpha }}
,其中的
n
{\displaystyle n}
是扩域
L
/
K
{\displaystyle \mathbf {L/K} }
的阶数。
α
{\displaystyle \alpha }
是这个矩阵的特征值,这个矩阵的特征多项式
p
X
α
{\displaystyle p_{X_{\alpha }}}
是
α
{\displaystyle \alpha }
在
K
{\displaystyle \mathbf {K} }
中的最小多项式
min
K
(
α
)
{\displaystyle \operatorname {min} _{\mathbf {K} }(\alpha )}
的幂次:
p
X
α
=
(
min
K
(
α
)
)
r
{\displaystyle p_{X_{\alpha }}=\left(\operatorname {min} _{\mathbf {K} }(\alpha )\right)^{r}\,}
。其中的
r
{\displaystyle r}
是扩域
L
/
K
{\displaystyle \mathbf {L/K} }
(
α
)
{\displaystyle (\alpha )}
的阶数[ 47] 。
更一般的情况是矩阵的元素属于某个环
R
{\displaystyle \mathbf {R} }
[ 48] 。环是比域更广泛的概念,只要求其中元素能够进行加减法和乘法运算(不一定能定义除法)。给定一个环
R
{\displaystyle \mathbf {R} }
,
M
(
m
,
n
,
R
)
{\displaystyle {\mathcal {M}}(m,n,\mathbf {R} )}
中的矩阵之间可以相互加减以及相乘,所以
M
(
m
,
n
,
R
)
{\displaystyle {\mathcal {M}}(m,n,\mathbf {R} )}
关于矩阵的加法和乘法也构成一个环,称为矩阵环 。
n
{\displaystyle n}
维方阵的环
M
(
n
,
R
)
{\displaystyle {\mathcal {M}}(n,\mathbf {R} )}
与左
R
{\displaystyle \mathbf {R} }
-模
R
n
{\displaystyle \mathbf {R} ^{n}}
的自同态 环同构 [ 49] 。
若
R
{\displaystyle \mathbf {R} }
是交换环 ,则
M
(
m
,
R
)
{\displaystyle {\mathcal {M}}(m,\mathbf {R} )}
是一个带单位元 的
R
{\displaystyle \mathbf {R} }
-代数 ,满足结合律,但不满足交换律。其中的矩阵仍然可以用莱布尼兹公式定义行列式 。一个矩阵可逆当且仅当其行列式为环
R
{\displaystyle \mathbf {R} }
中的可逆元 (域上的矩阵可逆只需行列式不等于0)[ 50] 。
前面已经提到,所有
R
n
→
R
m
{\displaystyle \mathbf {R} ^{n}\rightarrow \mathbf {R} ^{m}}
的线性变换都对应着一个
M
(
m
,
n
,
R
)
{\displaystyle {\mathcal {M}}(m,n,\mathbf {R} )}
中的矩阵。更一般地,给定了基底后,任意两个有限维线性空间之间的线性映射
f
:
V
→
W
{\displaystyle f:\mathbf {V} \rightarrow \mathbf {W} }
也对应着一个矩阵
A
f
=
(
a
i
j
)
{\displaystyle \mathbf {A} _{f}=(a_{ij})}
。设空间
V
{\displaystyle \mathbf {V} }
和
W
{\displaystyle \mathbf {W} }
的基底分别是
v
1
,
…
,
v
n
{\displaystyle \mathbf {v} _{1},\ldots ,\mathbf {v} _{n}}
和
w
1
,
…
,
w
m
{\displaystyle \mathbf {w} _{1},\ldots ,\mathbf {w} _{m}}
,那么
对任意
j
=
1
,
…
,
n
{\displaystyle j=1,\ldots ,n}
,
f
(
v
j
)
=
∑
i
=
1
m
a
i
,
j
w
i
{\displaystyle f(\mathbf {v} _{j})=\sum _{i=1}^{m}a_{i,j}\mathbf {w} _{i}}
矩阵
A
f
{\displaystyle \mathbf {A} _{f}}
实际上“记录”了
V
{\displaystyle \mathbf {V} }
中每个基底矢量经过变换后得到的
W
{\displaystyle \mathbf {W} }
中的像在基底
(
w
1
,
…
,
w
m
)
{\displaystyle (\mathbf {w} _{1},\ldots ,\mathbf {w} _{m})}
下的形式。要注意矩阵的内容取决于基底的选择。可以说,矩阵是线性变换f 在特定“角度”(基底)下的“素描”。不同的“角度”下,描述
f
{\displaystyle f}
的矩阵是不同的,但这些矩阵都是相似矩阵 [ 51] 。与矩阵有关的基本概念都可以用线性变换的层面来解释,比如一个矩阵的转置可以用f 的对偶变换
f
∗
:
W
∗
→
V
∗
{\displaystyle f^{*}:\mathbf {W} ^{*}\rightarrow \mathbf {V} ^{*}}
来表示[ 52] 。
当矩阵的元素是带单位元的环
R
{\displaystyle \mathbf {R} }
中的元素时,
m
×
n
{\displaystyle m\times n}
的
R
{\displaystyle \mathbf {R} }
-矩阵对应的则是
R
{\displaystyle \mathbf {R} }
-自由模
R
m
{\displaystyle \mathbf {R} ^{m}}
和
R
n
{\displaystyle \mathbf {R} ^{n}}
之间的
R
{\displaystyle \mathbf {R} }
-线性变换。
n
=
m
{\displaystyle n=m}
的时候,这些
R
{\displaystyle \mathbf {R} }
-线性变换可以相互复合,因此
n
{\displaystyle n}
维的
R
{\displaystyle \mathbf {R} }
-矩阵环能够与
R
{\displaystyle \mathbf {R} }
-自同态环
R
n
{\displaystyle \mathbf {R} ^{n}}
同构。
主条目:无限维矩阵
无穷维矩阵可以指行数或列数无穷大,或两者都是无穷大的矩阵[ 58] 。尽管这样的矩阵无法完整写出,但只要知道每行每列的元素的值,仍然可以对它进行矩阵操作和运算。这里矩阵的行数和列数甚至不一定需要是可数集 。需要注意的是,无穷维矩阵的乘法涉及到无穷级数 求和,因此只有在相关的无穷级数收敛 的时候,才能定义矩阵的乘积[ 59] 。无限维矩阵也可以是方块矩阵,定义为行标记集合与列标记集合相同的矩阵(如
N
×
N
{\displaystyle \mathbb {N} \times \mathbb {N} }
)[ 60] 。
无限矩阵无法定义通常意义上的行列式,因此可逆矩阵不一定是方块矩阵,同理,酉矩阵也不一定要是方块矩阵[ 61] 。
分块矩阵 是指一个大矩阵分割成“矩阵的矩阵”。举例,以下的矩阵
P
=
[
1
2
3
2
1
2
7
5
4
9
2
6
6
1
5
8
]
{\displaystyle P={\begin{bmatrix}1&2&3&2\\1&2&7&5\\4&9&2&6\\6&1&5&8\end{bmatrix}}}
可分割成4个2×2的矩阵
P
11
=
[
1
2
1
2
]
,
P
12
=
[
3
2
7
5
]
,
P
21
=
[
4
9
6
1
]
,
P
22
=
[
2
6
5
8
]
{\displaystyle P_{11}={\begin{bmatrix}1&2\\1&2\end{bmatrix}},P_{12}={\begin{bmatrix}3&2\\7&5\end{bmatrix}},P_{21}={\begin{bmatrix}4&9\\6&1\end{bmatrix}},P_{22}={\begin{bmatrix}2&6\\5&8\end{bmatrix}}}
P
=
[
P
11
P
12
P
21
P
22
]
{\displaystyle P={\begin{bmatrix}P_{11}&P_{12}\\P_{21}&P_{22}\end{bmatrix}}}
。将矩阵分块可以使得矩阵结构清晰,在某些时候可以方便运算、证明。两个大小相同、分块方式也相同的矩阵可以相加。行和列的块数符合矩阵乘法要求时,分块矩阵也可以相乘。将矩阵分块相乘的结果与直接相乘是一样的。用分块矩阵求逆,可以将高阶矩阵的求逆转化为多次低阶矩阵的求逆[ 65] 。
矩阵在许多领域都应用广泛。有些时候用到矩阵是因为其表达方式紧凑,例如在博弈论 和经济学 中,会用收益矩阵 来表示两个博弈对象在各种决策方式下的收益[ 66] 。文本挖掘 和索引典 汇编的时候,比如在TF-IDF 方法中,也会用到文件项矩阵 来追踪特定词汇在多个文件中的出现频率[ 67] 。
复数可以用实系数的2×2矩阵表示:
a
+
i
b
↔
[
a
−
b
b
a
]
,
{\displaystyle a+ib\leftrightarrow {\begin{bmatrix}a&-b\\b&a\end{bmatrix}},}
这种表示法与复数的加减法、乘法都相兼容。比如,2×2的旋转矩阵可以用来表示模长为1的复数,一个矢量乘以此旋转矩阵可以视作一个复数乘以该模长为1的复数。对四元数 也有类似的矩阵表达[ 68] 。
早期的密码 技术如希尔密码 也用到矩阵。然而,矩阵的线性性质使这类密码相对容易破解[ 69] 。电脑图像处理 也会用到矩阵来表示处理对象,并且用放射旋转矩阵来计算对象的变换,实现三维对象在特定二维屏幕上的投影[ 70] 。多项式环 上的矩阵在控制论 中有重要作用。
化学 中也有矩阵的应用,特别在使用量子理论 讨论分子键 和光谱 的时候。具体例子有解罗特汉方程 时用重叠矩阵 和福柯矩阵 来得到哈特里-福克 方法中的分子轨道 。
在多元函数微积分学中,对二阶偏导数存在的函数
f
:
R
n
→
R
{\displaystyle f:\mathbf {R} ^{n}\rightarrow \mathbf {R} }
,可以定义其海森矩阵 [ 73] :
H
(
f
)
(
x
)
=
[
∂
2
f
∂
x
i
∂
x
j
(
x
)
]
{\displaystyle H(f)(x)=\left[{\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}(x)\right]}
。
n
=
2
{\displaystyle n=2}
时,海森矩阵
[
2
0
0
−
2
]
{\displaystyle {\begin{bmatrix}2&0\\0&-2\end{bmatrix}}}
的特征值一正一负,说明函数
f
(
x
,
y
)
=
x
2
−
y
2
{\displaystyle f(x,y)=x^{2}-y^{2}}
在
(
x
=
0
,
y
=
0
)
{\displaystyle (x=0,y=0)}
处有一个鞍点 (红色点)
严格来说,仅当函数在某一点上的二阶偏导数存在,才能定义这一点上的海森矩阵。海森矩阵给出了函数在这一点的变化率方面的资讯。当给定的点
x
=
(
x
1
,
…
,
x
n
)
{\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})}
是函数平稳点 (即函数
f
{\displaystyle f}
在这一点上的一阶偏导数
∂
f
∂
x
i
{\displaystyle {\frac {\partial f}{\partial x_{i}}}}
都是0)时,就需要利用海森矩阵来查看函数在这一点周围的增长特性。多元函数在点
x
{\displaystyle \mathbf {x} }
的泰勒展开 是:
f
(
x
+
h
)
=
f
(
x
)
+
∇
f
(
x
)
⋅
h
+
1
2
h
T
H
(
f
)
(
x
)
h
+
∘
(
‖
x
‖
3
)
{\displaystyle f(x+h)=f(x)+\nabla f(x)\cdot h+{\frac {1}{2}}h^{T}H(f)(x)h+\circ \left(\|x\|^{3}\right)}
如果函数在点x 的一阶偏导数都是0,那么
∇
f
=
0
{\displaystyle \nabla f=0}
,所以函数在x 附近的变化率取决于海森矩阵
H
(
f
)
(
x
)
{\displaystyle H(f)(x)}
的性质。如果
H
(
f
)
(
x
)
{\displaystyle H(f)(x)}
是正定矩阵,那么函数在点x 获取局部最小值,如果是负定矩阵,则函数在x 获取局部最大值。在这类情况下,关于函数f 的条件最优化问题可以转变为关于海森矩阵的二次规划 问题[ 74] 。
矩阵在多元函数微积分中的另一个应用是雅可比矩阵 。函数
f
:
R
n
→
R
m
{\displaystyle f:\mathbf {R} ^{n}\rightarrow \mathbf {R} ^{m}}
在某一点x 上的一阶偏导数存在时,可以定义它在这点上的雅可比矩阵[ 75] :
J
f
(
x
)
=
[
∂
f
i
∂
x
j
(
x
)
]
1
≤
i
≤
m
,
1
≤
j
≤
n
{\displaystyle J_{f}(x)=\left[{\frac {\partial f_{i}}{\partial x_{j}}}(x)\right]_{1\leq i\leq m,1\leq j\leq n}}
。如果
n
>
m
{\displaystyle n>m}
,而
J
f
(
x
)
{\displaystyle J_{f}(x)}
又是满秩矩阵(秩等于
m
{\displaystyle m}
)的话,根据反函数定理 ,可以找到函数
f
{\displaystyle f}
在x 附近的一个局部的反函数[ 76] 。
偏微分方程 理论中,二阶拟线性偏微分方程可以根据最高次偏导项系数构成的矩阵的正定性分类。假设有一个二阶拟线性偏微分方程:
(
E
)
∑
1
⩽
i
,
j
⩽
n
a
i
j
∂
2
f
∂
x
i
∂
x
j
+
∑
i
=
1
n
b
i
∂
f
∂
x
i
+
c
f
=
g
{\displaystyle (\mathbf {E} )\qquad \qquad \sum _{1\leqslant i,j\leqslant n}a_{ij}{\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}+\sum _{i=1}^{n}b_{i}{\frac {\partial f}{\partial x_{i}}}+cf=g\qquad }
并假设
a
i
j
=
a
j
i
{\displaystyle a_{ij}=a_{ji}}
记矩阵
A
=
[
a
i
j
]
1
⩽
i
,
j
⩽
n
{\displaystyle \mathbf {A} =\left[a_{ij}\right]_{1\leqslant i,j\leqslant n}}
。如果矩阵
A
{\displaystyle \mathbf {A} }
是正定或负定矩阵,那么就称方程
(
E
)
{\displaystyle (\mathbf {E} )}
为椭圆形偏微分方程;如果
A
{\displaystyle \mathbf {A} }
不可逆,就称
(
E
)
{\displaystyle (\mathbf {E} )}
为抛物形偏微分方程,如果
A
{\displaystyle \mathbf {A} }
可逆而且恰有
n
−
1
{\displaystyle n-1}
个特征值同号,就称
(
E
)
{\displaystyle (\mathbf {E} )}
为双曲型偏微分方程。其它情况下也称
(
E
)
{\displaystyle (\mathbf {E} )}
为超双曲形偏微分方程。不同类型的方程解的形式也不一样[ 77] 。
用数值方法解偏微分方程时更需要用到矩阵。一个重要的方法是有限元方法 ,在求解各种物理中遇到的偏微分方程时广泛使用。有限元方法的基本思想是用一系列“简单”函数的线性组合来“逼近”偏微分方程的精确解。这些“简单”函数通常是指将求解区域分割成一定数量的“小块”后,仅在某一“小块”上非零的分段线性函数。选定了网格和“简单”函数后,可以求解关于刚度矩阵 的方程得到近似解。有限元理论中证明了在满足一定的条件下,近似解将随着网格趋于精细而弱收敛到精确解[ 78] [ 79] 。
概率论中常用到随机矩阵 ,即行矢量是概率矢量 (即所有的元素都在0和1之间,并且加起来等于1的矢量)的矩阵。随机矩阵可用来定义有限概率空间中的马尔可夫链 。设随机变量
X
n
{\displaystyle X_{n}}
是某个马尔可夫链在
t
=
n
{\displaystyle t=n}
时刻的状态,所有可能的状态
S
=
{
s
1
,
s
2
,
⋯
,
s
m
}
{\displaystyle S=\left\{s_{1},s_{2},\cdots ,s_{m}\right\}}
称为状态空间,那么随机矩阵
M
n
n
+
1
{\displaystyle M_{n}^{n+1}}
则记录了假设已知
X
n
{\displaystyle X_{n}}
的可能情况下
X
n
+
1
{\displaystyle X_{n+1}}
做各种取值的可能性[ 80] 。
M
n
n
+
1
{\displaystyle M_{n}^{n+1}}
的第
i
{\displaystyle i}
行第
j
{\displaystyle j}
列上的元素表示当
X
n
=
s
j
{\displaystyle X_{n}=s_{j}}
的时候,
X
n
+
1
=
s
i
{\displaystyle X_{n+1}=s_{i}}
的可能性。
M
n
n
+
1
{\displaystyle M_{n}^{n+1}}
的第
j
{\displaystyle j}
行记录了从
X
n
=
s
j
{\displaystyle X_{n}=s_{j}}
转移到
X
n
+
1
{\displaystyle X_{n+1}}
各种状态的可能性。所以
M
n
n
+
1
{\displaystyle M_{n}^{n+1}}
叫做
t
=
n
{\displaystyle t=n}
时刻的转移矩阵。如果马尔可夫链的转移矩阵不随时刻变化,则称为齐次马尔可夫链。这时马尔可夫链的吸引态 可以通过计算转移矩阵的特征矢量得到[ 81] 。
统计学中也会用到各种不同的矩阵。描述统计学 中常常需要用矩阵的形式来描述数据样本,显得更为紧凑。几个随机变量的协方差矩阵 表示它们之间的协方差 关系,在某种程度上表示了它们相互间的关联程度(但不绝对)[ 82] 。
统计学中用到矩阵的另一个地方是线性回归 中的最小二乘法 分析。当观测到随机样本
(
Y
i
,
X
i
1
,
…
,
X
i
p
)
,
i
=
1
,
…
,
n
{\displaystyle (Y_{i},X_{i1},\ldots ,X_{ip}),\,i=1,\ldots ,n}
时,线性回归法的目标是希望找到以下的线性关系:
Y
i
=
β
0
+
β
1
X
i
1
+
β
2
X
i
2
+
…
+
β
p
X
i
p
+
ε
i
,
i
=
1
,
…
,
n
{\displaystyle Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\varepsilon _{i},\qquad i=1,\ldots ,n}
即将变量
Y
{\displaystyle \mathbf {Y} }
表示成
X
{\displaystyle \mathbf {X} }
的分量的线性组合与一个已知的随机误差的和。这个表示可以写成矩阵的形式,并利用矩阵的奇异值分解 来分析[ 83] 。
另一种随机矩阵(random matrix )是指每个元素都是随机变量的矩阵,这些随机变量可以都遵循同一个分布,或各自遵循不同的分布。一个常见的例子是全部元素都是相互独立的标准正态分布 随机变量的随机矩阵。这种随机矩阵在数论 和物理 中也有应用[ 84] [ 85] 。
线性变换及其所对应的对称 ,在现代物理学中有着重要的角色。例如,在量子场论 中,基本粒子 是由狭义相对论的洛伦兹群 所表示,具体来说,即它们在旋量群 下的表现。内含泡利矩阵 及更通用的狄拉克矩阵 的具体表示,在费米子 的物理描述中,是一项不可或缺的构成部分,而费米子的表现可以用旋量 来表述[ 86] 。描述最轻的三种夸克 时,需要用到一种内含特殊酉群 SU(3)的群论表示;物理学家在计算时会用一种更简便的矩阵表示,叫盖尔曼矩阵 ,这种矩阵也被用作SU(3)规范群 ,而强核力的现代描述──量子色动力学 的基础正是SU(3)。还有卡比博-小林-益川矩阵 (CKM矩阵):在弱相互作用 中重要的基本夸克态,与指定粒子间不同质量 的夸克态不一样,但两者却是成线性关系,而CKM矩阵所表达的就是这一点[ 87] 。
1925年海森堡提出第一个量子力学 模型时,使用了无限维矩阵来表示理论中作用在量子态上的算子[ 88] 。这种做法在矩阵力学 中也能见到。例如密度矩阵 就是用来刻画量子系统中“纯”量子态 的线性组合表示的“混合”量子态[ 89] 。
另一种矩阵是用来描述构成实验粒子物理基石的散射实验的重要工具。当粒子在加速器 中发生碰撞,原本没有相互作用的粒子在高速运动中进入其它粒子的作用区,动量改变,形成一系列新的粒子。这种碰撞可以解释为结果粒子状态和入射粒子状态线性组合的标量积。其中的线性组合可以表达为一个矩阵,称为S矩阵 ,其中记录了所有可能的粒子间相互作用[ 90] 。
矩阵在物理学中的另一类泛应用是描述线性耦合调和系统。这类系统的运动方程 可以用矩阵的形式来表示,即用一个质量矩阵乘以一个广义速度来给出运动项,用力矩阵乘以位移矢量来刻画相互作用。求系统的解的最优方法是将矩阵的特征矢量求出(通过对角化 等方式),称为系统的简正模式 。这种求解方式在研究分子内部动力学模式时十分重要:系统内部由化学键结合的原子的振动可以表示成简正振动模式的叠加[ 91] 。描述力学振动或电路振荡时,也需要使用简正模式求解[ 92] 。
在几何光学 里,可以找到很多需要用到矩阵的地方。几何光学是一种忽略了光波波动性 的近似理论,这理论的模型将光线视为几何射线 。采用近轴近似 ,假若光线与光轴 之间的夹角很小,则透镜 或反射 组件对于光线的作用,可以表达为2×2矩阵与矢量的乘积。这矢量的两个分量是光线的几何性质(光线的斜率 、光线跟光轴之间在主平面 的垂直距离)。这矩阵称为光线传输矩阵 ,内中元素编码了光学组件的性质。对于折射,这矩阵又细分为两种:“折射矩阵”与“平移矩阵”。折射矩阵描述光线遇到透镜的折射行为。平移矩阵描述光线从一个主平面传播到另一个主平面的平移行为。
由一系列透镜或反射组件组成的光学系统,可以很简单地以对应的矩阵组合来描述其光线传播路径。[ 93]
Shen, Crossley & Lun 1999
The Collected Mathematical Papers of James Joseph Sylvester: 1837–1853, Paper 37 (页面存档备份 ,存于互联网档案馆 ), p. 247
Cayley 1889 , vol. II, p. 475–496
Dieudonné, ed. 1978 , Vol. 1, Ch. III, p. 96
Brown 1991 , Definition I.2.1 (addition), Definition I.2.4 (scalar multiplication), and Definition I.2.33 (transpose)
Brown 1991 , Theorem I.2.6
Brown 1991 , Definition I.2.20
Horn & Johnson 1985 , Ch. 4 and 5
Brown 1991 , I.2.21 and 22
Greub 1975 , Section III.2
Brown 1991 , Definition II.3.3
Greub 1975 , Section III.1
Brown 1991 , Theorem II.3.22
Brown 1991 , Definition I.5.13
Brown 1991 , Definition I.2.28
这个结论容易从矩阵乘法的定义获得:
tr
(
A
B
)
=
∑
i
=
1
m
∑
j
=
1
n
A
i
j
B
j
i
=
tr
(
B
A
)
{\displaystyle \scriptstyle \operatorname {tr} ({\mathsf {AB}})=\sum _{i=1}^{m}\sum _{j=1}^{n}A_{ij}B_{ji}=\operatorname {tr} ({\mathsf {BA}})}
。
Brown 1991 , Definition III.2.1
Mirsky 1990 , Theorem 1.4.1
Brown 1991 , Theorem III.2.12
Brown 1991 , Corollary III.2.16
Brown 1991 , Theorem III.3.18
Brown 1991 , Definition III.4.1
Steven A. Leduc [[#CITEREFSteven A. Leduc|]], 第293页
Brown 1991 , Definition III.4.9
Brown 1991 , Corollary III.4.10
Horn & Johnson 1985 , Theorem 2.5.6
Horn & Johnson 1985 , Chapter 7
Horn & Johnson 1985 , Theorem 7.2.1
Golub & Van Loan 1996 , Algorithm 1.3.1
Golub & Van Loan 1996 , Chapters 9 and 10, esp. section 10.2
Golub & Van Loan 1996 , Chapter 2.3
Press, Flannery & Teukolsky 1992
Stoer & Bulirsch 2002 , Section 4.1
Horn & Johnson 1985 , Theorem 2.5.4
Horn & Johnson 1985 , Ch. 3.1, 3.2
Arnold & Cooke 1992 , Sections 14.5, 7, 8
Lang 2002 , XVII.1, p. 643
Lang 2002 , Proposition XIII.4.16
Greub 1975 , Section III.3
Greub 1975 , Section III.3.13
Artin 1991 , Theorem 4.5.13
Rowen 2008 , Example 19.2, p. 198
Fudenberg & Tirole 1983 , Section 1.1.1
Manning 1999 , Section 15.3.4
Stinson 2005 , Ch. 1.1.5 and 1.2.4
Association for Computing Machinery 1979 , Ch. 7
Godsil & Royle 2004 , Ch. 8.1
Latouche & Ramaswami 1999
Mehata & Srinivasan 1978 , Ch. 2.8
Krzanowski 1988 , Ch. 2.2., p. 60
Zabrodin, Brezin & Kazakov et al. 2006
Itzykson & Zuber 1980 , Ch. 2
见Burgess & Moore 2007 , section 1.6.3. (SU(3)), section 2.4.3.2. (Kobayashi-Maskawa matrix)
Bohm 2001 , sections II.4 and II.8
Riley, Hobson & Bence 1997 , 7.17
Arnold, Vladimir I.; Cooke, Roger, Ordinary differential equations, Berlin, DE; New York, NY: Springer-Verlag, 1992, ISBN 978-3-540-54813-3
Artin, Michael, Algebra, Prentice Hall, 1991, ISBN 978-0-89871-510-1
Association for Computing Machinery, Computer Graphics, Tata McGraw–Hill, 1979, ISBN 978-0-07-059376-3
Baker, Andrew J., Matrix Groups: An Introduction to Lie Group Theory, Berlin, DE; New York, NY: Springer-Verlag, 2003, ISBN 978-1-85233-470-3
Bau III, David; Trefethen, Lloyd N., Numerical linear algebra, Philadelphia, PA: Society for Industrial and Applied Mathematics, 1997, ISBN 978-0-89871-361-9
Bretscher, Otto, Linear Algebra with Applications 3rd, Prentice Hall, 2005
王萼芳, 高等代数教程 第1版, 清华大学出版社, 1997, ISBN 9787302024521
Bronson, Richard, Schaum's outline of theory and problems of matrix operations, New York: McGraw–Hill, 1989, ISBN 978-0-07-007978-6
Brown, William A., Matrices and vector spaces, New York, NY: M. Dekker, 1991, ISBN 978-0-8247-8419-5
Coburn, Nathaniel, Vector and tensor analysis, New York, NY: Macmillan, 1955, OCLC 1029828
Conrey, J. Brian, Ranks of elliptic curves and random matrix theory, Cambridge University Press , 2007, ISBN 978-0-521-69964-8
Fudenberg, Drew; Tirole, Jean, Game Theory, MIT Press, 1983
Gilbarg, David; Trudinger, Neil S., Elliptic partial differential equations of second order 2nd, Berlin, DE; New York, NY: Springer-Verlag, 2001, ISBN 978-3-540-41160-4
Godsil, Chris; Royle, Gordon, Algebraic Graph Theory, Graduate Texts in Mathematics 207 , Berlin, DE; New York, NY: Springer-Verlag, 2004, ISBN 978-0-387-95220-8
Golub, Gene H.; Van Loan, Charles F., Matrix Computations 3rd, Johns Hopkins, 1996, ISBN 978-0-8018-5414-9
Greub, Werner Hildbert, Linear algebra, Graduate Texts in Mathematics, Berlin, DE; New York, NY: Springer-Verlag, 1975, ISBN 978-0-387-90110-7
Guenther, Robert D., Modern Optics, John Wiley, 1990, ISBN 0-471-60538-7
Halmos, Paul Richard, A Hilbert space problem book, Graduate Texts in Mathematics 19 2nd, Berlin, DE; New York, NY: Springer-Verlag, 1982, ISBN 978-0-387-90685-0 , MR 0675952
Horn, Roger A.; Johnson, Charles R., Matrix Analysis, Cambridge University Press, 1985, ISBN 978-0-521-38632-6
Householder, Alston S., The theory of matrices in numerical analysis, New York, NY: Dover Publications, 1975, MR 0378371
Krzanowski, Wojtek J., Principles of multivariate analysis, Oxford Statistical Science Series 3 , The Clarendon Press Oxford University Press, 1988, ISBN 978-0-19-852211-9 , MR 0969370
Itõ, Kiyosi (编), Encyclopedic dictionary of mathematics. Vol. I-IV 2nd, MIT Press, 1987, ISBN 978-0-262-09026-1 , MR 0901762
Ash, Robert B., A Course In Algebraic Number Theory (PDF) , Dept. of Mathematics, University of Illinois, [2012-04-15 ] , (原始内容存档 (PDF) 于2017-05-18)
Lang, Serge, Analysis II, Addison-Wesley, 1969
Lang, Serge, Calculus of several variables 3rd, Berlin, DE; New York, NY: Springer-Verlag, 1987a, ISBN 978-0-387-96405-8
Lang, Serge, Linear algebra, Berlin, DE; New York, NY: Springer-Verlag, 1987b, ISBN 978-0-387-96412-6
Latouche, Guy; Ramaswami, Vaidyanathan, Introduction to matrix analytic methods in stochastic modeling 1st, Philadelphia, PA: Society for Industrial and Applied Mathematics, 1999, ISBN 978-0-89871-425-8
Manning, Christopher D.; Schütze, Hinrich, Foundations of statistical natural language processing, MIT Press, 1999, ISBN 978-0-262-13360-9
Mehata, K. M.; Srinivasan, S. K., Stochastic processes, New York, NY: McGraw–Hill, 1978, ISBN 978-0-07-096612-3
Mirsky, Leonid, An Introduction to Linear Algebra , Courier Dover Publications, 1990, ISBN 978-0-486-66434-7
Nocedal, Jorge; Wright, Stephen J., Numerical Optimization 2nd, Berlin, DE; New York, NY: Springer-Verlag: 449, 2006, ISBN 978-0-387-30303-1
Bohm, Arno, Quantum Mechanics: Foundations and Applications, Springer, 2001, ISBN 0-387-95330-2
Burgess, Cliff; Moore, Guy, The Standard Model. A Primer, Cambridge University Press, 2007, ISBN 0-521-86036-9
Guenther, Robert D., Modern Optics, John Wiley, 1990, ISBN 0-471-60538-7
Itzykson, Claude; Zuber, Jean-Bernard, Quantum Field Theory, McGraw–Hill, 1980, ISBN 0-07-032071-3
Riley, Kenneth F.; Hobson, Michael P.; Bence, Stephen J., Mathematical methods for physics and engineering, Cambridge University Press, 1997, ISBN 0-521-55506-X
Schiff, Leonard I., Quantum Mechanics 3rd, McGraw–Hill, 1968
Weinberg, Steven, The Quantum Theory of Fields. Volume I: Foundations, Cambridge University Press, 1995, ISBN 0-521-55001-7
Wherrett, Brian S., Group Theory for Atoms, Molecules and Solids, Prentice–Hall International, 1987, ISBN 0-13-365461-3
Zabrodin, Anton; Brezin, Édouard; Kazakov, Vladimir; Serban, Didina; Wiegmann, Paul, Applications of Random Matrices in Physics (NATO Science Series II: Mathematics, Physics and Chemistry), Berlin, DE; New York, NY: Springer-Verlag, 2006, ISBN 978-1-4020-4530-1
林志兴; 杨忠鹏, 与给定矩阵A的可交换子环C(A)的一些探讨, 莆田学院学报,2010年, 17(2), 2010
Oualline, Steve, Practical C++ programming, O'Reilly , 2003, ISBN 978-0-596-00419-4
Press, William H.; Flannery, Brian P.; Teukolsky, Saul A.; Vetterling, William T., LU Decomposition and Its Applications, Numerical Recipes in FORTRAN: The Art of Scientific Computing (PDF) 2nd, Cambridge University Press: 34–42, 1992, (原始内容 (PDF) 存档于2009-09-06)
Punnen, Abraham P.; Gutin, Gregory, The traveling salesman problem and its variations, Boston, MA: Kluwer Academic Publishers, 2002, ISBN 978-1-4020-0664-7
Reichl, Linda E., The transition to chaos: conservative classical systems and quantum manifestations, Berlin, DE; New York, NY: Springer-Verlag, 2004, ISBN 978-0-387-98788-0
Rowen, Louis Halle, Graduate Algebra: noncommutative view, Providence, RI: American Mathematical Society , 2008, ISBN 978-0-8218-4153-2
Šolin, Pavel, Partial Differential Equations and the Finite Element Method, Wiley-Interscience, 2005, ISBN 978-0-471-76409-0
Stinson, Douglas R., Cryptography, Discrete Mathematics and its Applications, Chapman & Hall/CRC, 2005, ISBN 978-1-58488-508-5
Stoer, Josef; Bulirsch, Roland, Introduction to Numerical Analysis 3rd, Berlin, DE; New York, NY: Springer-Verlag, 2002, ISBN 978-0-387-95452-3
Ward, J. P., Quaternions and Cayley numbers, Mathematics and its Applications 403 , Dordrecht, NL: Kluwer Academic Publishers Group, 1997, ISBN 978-0-7923-4513-8 , MR 1458894
(中文) 居余马; 林翠琴, 线性代数, 清华大学出版社, 2002, ISBN 978-7-302-06507-4
(中文) 克莱因, 莫里斯; 著,张理京、张锦炎、江泽涵 译, 《古今数学思想》第三卷, 上海科学技术出版社, 2002, ISBN 7-5323-6172-1
Wolfram, Stephen, The Mathematica Book 5th, Champaign, IL: Wolfram Media, 2003, ISBN 978-1-57955-022-6
Thankappan, V. K., Quantum Mechanics 2nd, New Age International, 1993, ISBN 9788122405262
Faliva, Mario; Zoia, Maria Grazia, Dynamic Model Analysis: Advanced Matrix Methods and Unit-Root Econometrics Representation Theorems 2nd, Berlin, DE; New York, NY: Springer-Verlag: 218, 2008, ISBN 9783540859956
伊泽尔莱斯, 刘晓艳,刘学深译, 微分方程数值分析基础教程, 清华大学出版社, 2005, ISBN 9787302106524
董可荣, 矩阵理论的历史研究, 《山东大学》, 2007
Bôcher, Maxime, Introduction to higher algebra, New York, NY: Dover Publications, 2004, ISBN 978-0-486-49570-5
Cayley, Arthur, The collected mathematical papers of Arthur Cayley , I (1841–1853), Cambridge University Press: 123–126, 1889
Dieudonné, Jean (编), Abrégé d'histoire des mathématiques 1700-1900, Paris, FR: Hermann, 1978
Hawkins, Thomas, Cauchy and the spectral theory of matrices, Historia Mathematica, 1975, 2 : 1–29, ISSN 0315-0860 , MR 0469635 , doi:10.1016/0315-0860(75)90032-4
Knobloch, Eberhard, From Gauss to Weierstrass: determinant theory and its historical evaluations, The intersection of history and mathematics, Science Networks Historical Studies 15 , Basel, Boston, Berlin: Birkhäuser: 51–66, 1994, MR 1308079
Kronecker, Leopold, Hensel, Kurt , 编, Leopold Kronecker's Werke , Teubner, 1897
Mehra, Jagdish; Rechenberg, Helmut, The Historical Development of Quantum Theory 1st, Berlin, DE; New York, NY: Springer-Verlag, 1987, ISBN 978-0-387-96284-9
Shen, Kangshen; Crossley, John N.; Lun, Anthony Wah-Cheung, Nine Chapters of the Mathematical Art, Companion and Commentary 2nd, Oxford University Press, 1999, ISBN 978-0-19-853936-0
Weierstrass, Karl, Collected works 3 , 1915 [2012-05-06 ] , (原始内容存档 于2008-10-11)
百科全书 历史 在线书籍 Kaw, Autar K., Introduction to Matrix Algebra , [2015-01-10 ] , ISBN 978-0-615-25126-4 , (原始内容存档 于2008-08-08)
The Matrix Cookbook (PDF) , [2014-03-24 ] , (原始内容存档 (PDF) 于2013-12-12)
Brookes, Mike, The Matrix Reference Manual , London: Imperial College , 2005 [2008-12-10 ] , (原始内容存档 于2021-03-22) 线上矩阵计算器 Matrix Calculator (DotNumerics) , [2015-01-10 ] , (原始内容 存档于2014-09-04)
Xiao, Gang, Matrix calculator , [2008-12-10 ] , (原始内容存档 于2020-06-12)
Online matrix calculator , [2008-12-10 ] , (原始内容 存档于2008-12-12)
Online matrix calculator (ZK framework) , [2009-11-26 ] , (原始内容 存档于2013-05-12)
Oehlert, Gary W.; Bingham, Christopher, MacAnova , University of Minnesota , School of Statistics, [2008-12-10 ] , (原始内容存档 于2021-03-22) , a freeware package for matrix algebra and statistics
Online matrix calculator , [2009-12-14 ] , (原始内容存档 于2021-04-27)
Operation with matrices in R (determinant, track, inverse, adjoint, transpose) (页面存档备份 ,存于互联网档案馆 )