熵 - 又见苍岚

本文最后更新于：2024年5月7日下午

本文追随知乎大佬从熵的热力学定义，熵的统计力学定义（玻尔兹曼熵，吉布斯熵）和熵的信息学定义（香农熵）来介绍熵的含义。

基础知识

参考热力学基本定律，了解热力学基础
热力学第一定律
$$
dQ=dU-dW
$$

其中 U 表示系统内能，Q 表示系统热量， W 表示外界做功（ W＞0，表示外界对系统做功；W＜0，表示系统对外界做功）
热力学第零定律： 如果两个热力学系统中的每一个都与第三个热力学系统处于热平衡(温度相同)，则它们彼此也必定处于热平衡。

熵的热力学定义

利用卡诺热机和卡诺循环，可以证明如下的克劳修斯不等式，即对任一闭循环，有：

$$
\oint \frac{d Q}{T} \leq 0
$$

等号当且仅当该过程是可逆过程时候成立。所以，对可逆过程

$$
\oint \frac{d Q_{rev}}{T} = 0
$$

这告诉我们 $\frac{d Q_{rev}}{T}$ 的积分和路径无关，所以它是恰当微分，它的积分是一个态函数（所谓态函数，就是那些值只和状态有关而和怎么达到这个状态的路径无关的函数），我们把这个态函数就定义为熵：

$$
dS = \frac{d Q_{rev}}{T}
$$

状态 B 与状态 A 熵的差异为：

$$
S(B)-S(A)=\int_{A}^{B} \frac{d Q_{\mathrm{rev}}}{T}
$$

这就是熵的热力学定义。
联立克劳修斯不等式和熵的定义式，我们可以得到：

$$
d S= \frac{d Q_{rev}}{T} \geq \frac{d Q}{T}
$$

等号当且仅当可逆过程可以取到。对于绝热系统，$dQ=0$ ，所以对于绝热系统我们有：

$$
dS \geq 0
$$

这正是热力学第二定律的一种等价表述，它告诉我们：**对于绝热系统，熵永不减少。**如果过程可逆，那么熵不变，如果过程不可逆，那么熵增加。
利用熵的定义，对于处于平衡态的系统：
$$
d S= \frac{d Q}{T}
$$
$W$ 外界做功为系统做功 $pV$ 的负值，即：
$$
W=-pV
$$
我们可以把热力学第一定律$dU=dQ+dW$改写为:
$$
d U=T d S-p d V
$$

熵的统计力学定义

我们考虑两个相互之间可以传递热量的系统，但是它们整体和环境绝热。设两个系统的内能（即平均能量，是宏观量）分别为 $E1$ 和 $E2$，随着两个系统之间的热量交换，$E1$ 和 $E2$ 都会改变，但总能量 $E=E1+E2$ 是一个常数，因为两个系统整体和环境绝热。
设两个系统此时的微观状态数分别为 $ \Omega_{1}\left(E_{1}\right) $ 和 $ \Omega_{2}\left(E_{2}\right) $
则此时整体的微观状态数为 $ \Omega_{1}\left(E_{1}\right) \Omega_{2}\left(E_{2}\right) $
这两个系统不停地发生能量交换，经过足够长的时间后，它们将达到热平衡，之后E1和E2将固定不变（再次强调，E1和E2都是宏观量，是系统的平均能量，它们在系统达到平衡态后是不变的，但是因为涨落的存在，系统的瞬时能量（微观量）在达到平衡态后也可以不停地变化）。

能量分配

一个自然的问题是：当两个系统达到热平衡以后，$E1$ 和 $E2$ 分别应该取什么值呢？或者说，平衡状态下，总能量E是怎么样在两个系统中进行分割的呢？

为此，我们先作出以下几个很合理的假设：

（1）等概率假设：孤立系统所有可能的微观态有相同出现的可能性；

（2）系统内部的动力学使得系统的微观态是连续变化的；

（3）各态历经假设：经过足够长的时间，系统会遍历所有可能的微观态且经历每个态的时间相同。

根据这几个假设，我们得出以下结论：系统最有可能处于那个包含最多微观态数目的宏观态。对于一个大系统而言，“最有可能”将称为“压倒性的可能”。

即，平衡态下总能量 $E$ 在两个系统中的分割应该使得总微观态数 $ \Omega_{1}\left(E_{1}\right) \Omega_{2}\left(E_{2}\right) $ 最大。
为了确定E1，我们需要求解下式 :
$$
\frac{d}{d E_{1}} \Omega_{1}\left(E_{1}\right) \Omega_{2}\left(E_{2}\right)=0
$$
用链式法则展开
$$
\frac{d \Omega_{1}\left(E_{1}\right)}{d E_{1}} \Omega_{2}\left(E_{2}\right)+\Omega_{1}\left(E_{1}\right) \frac{d \Omega_{2}\left(E_{2}\right)}{d E_{2}} \frac{d E_{2}}{d E_{1}}=0
$$
因为 $ E_{1}+E_{2}=E $ 是常数，所以 $ d E_{1}=-d E_{2} $ ，所以
$$
\frac{1}{\Omega_{1}} \frac{d \Omega_{1}}{d E_{1}}-\frac{1}{\Omega_{2}} \frac{d \Omega_{2}}{d E_{2}}=0
$$
即：
$$
\frac{d \ln \Omega_{1}}{d E_{1}}=\frac{d \ln \Omega_{2}}{d E_{2}}
$$
也就是说，上面这个等式对应了热平衡下两个系统的使得总微观态数目最大的那种能量分割方式，也就是热平衡下两个系统需要满足的条件。

玻尔兹曼熵

根据热力学第零定律，处于热平衡的两个系统具有相同的温度，这和上面的等式是一致的，所以我们定义温度T为：
$$
\frac{1}{k_{B} T} \equiv \frac{d \ln \Omega}{d E}
$$
上述定义温度的方式就是温度的统计定义，其中$ k_{B}=1.38 \times 10^{-23} \mathrm{~J} / \mathrm{K} $是玻尔兹曼常数。这种定义方式和热力学中的绝对温度的定义是一致的。
考虑热力学第一定律 $d U=T d S-p d V$，在我们当前的场景中 $d V = 0$，$U = E$，因此可以表述为：
$$
\frac{1}{T}=\frac{d S}{d E}
$$
联立上述两个公式：
$$
S = k_B\ln \Omega
$$
这样，我们就从熵的热力学定义和温度的统计定义出发，推出了熵的统计力学定义。上式定义的熵称为玻尔兹曼熵，它告诉我们：

一个系统的玻尔兹曼熵正比于这个系统的微观状态数的对数。所以玻尔兹曼熵是系统混乱度的衡量，系统的微观状态数越多，系统的玻尔兹曼熵就越大。

吉布斯熵

假设一个系统含有 $N$ 个等概率的微观态，则系统的总熵为 $ S_{\text {总 }}=k_{B} \ln N $。但是，这 $N$ 个微观态并不都是可以通过实验测量进行区分的，也就是说，它们对应的总熵并不全部可以测量。我们假设这些微观态被分成了几组，其中第 $i$ 组包含了 $N_i$ 个微观态，当然有 $\sum_{i} N_{i}=N $。这些组是可以通过实验测量区分的，因为它们可能对应某一个宏观可测的性质，但是每个组内部的那些微观态是不可区分的。现在我们想知道对应可测量部分的熵的大小是多少？

因为第 $ \mathrm{i} $ 个组包含了 $ \mathrm{N_i} $ 个微观态，所以系统位于第 $ \mathrm{i} $ 个组中的概率 $ P_{i}=\frac{N_{i}}{N} $ ，第 $ \mathrm{i} $ 个组中的熵为 $ S_{i}=k_{B} \ln N_{i} $ ，因为每个组内部的微观态不可区分，所以 $ S_{i} $ 不可测量。
因为微观状态数具有可乘性，所以熵具有可加性（熵是微观状态数的对数），所以可测量部分的熵等于总熵减去不可测量部分的熵，不可测量部分的熵可以写为：
$$
S_{\text {不可测量 }}=\left\langle S_{i}\right\rangle=\sum_{i} P_{i} S_{i}=-k_{B} \sum_{i} P_{i} \ln N_{i}
$$
所以可测量部分的熵等于 :
$$
S=S_{\text {总 }}-S_{\text {不可测量 }}=k_{B}\left(\ln N-\sum_{i} P_{i} \ln N_{i}\right)=k_{B} \sum_{i} P_{i}\left(\ln N-\ln N_{i}\right)
$$
因为 $ \ln N-\ln N_{i}=-\ln \frac{N_{i}}{N}=-\ln P_{i} $，所以最后我们得到可测量部分的熵的表达式为:
$$
S=-k_{B} \sum_{i} P_{i} \ln P_{i}
$$
上述熵的定义称为吉布斯熵。

熵的信息学定义

我们将尝试将信息量与前面介绍的熵联系起来，并给出熵的信息学定义。

正确率与信息量

首先，我们考虑以下三句话：

（1）牛顿的生日处在一年之中的特定一天；

（2）牛顿的生日处在下半年；

（3）牛顿的生日是某月的25日。

假如我们事先对牛顿的生日一无所知（事实上，牛顿出生于公元1643年元月4日），我们来看看这三句话提供的信息量和这三句话正确的概率之间的关系。第一句话正确的概率是百分之百，但这是一句废话，不能提供任何信息量，因为所有人的生日都是一年之中的特定一天；第二句话正确的概率是1/2，它能提供一定的信息量；第三句话正确的概率只有12/365，但是它能提供最大的信息量。所以我们看到：

在缺乏任何先验信息的条件下，一句话正确的概率越大，则它提供的信息量越小 。
在知道表述的信息量和表述正确的概率是反相关后，接下来我们来建立它们之间的定量关系。
- 一个自然的假设是两个独立表述的信息量具有可加性，例如上面第二句话和上面第三句话提供的总信息量是它们各自提供的信息量之和；
- 两个独立表述正确的概率具有可乘性，例如上面第二句话和第三句话同时正确的概率为$1/2×12/365=6/365$，是它们各自正确概率的乘积。

香农熵

信息量和概率的这种性质促使我们把信息量定义为概率的对数 , 假设一个表述正确的概率是P，则这个表述包含的信息量Q定义为：
$$
Q=-k \log P
$$
这里 $k$ 是一个正的常数，这保证了当正确概率 $P$上升时，信息量 $Q$ 会下降。
上述这种信息量的定义是由香农 (Shannon) 给出的。如果我们取k=kB，并且选取自然常数为底 [公式] ，则这种定义将和热力学与统计物理中的结论一致；如果我们取k=1，并且选取2为底 [公式] ，则此时信息量Q的单位将用比特 (bit) 来量度。
假设我们有一组的表述，正确的概率分别为 $P_i$, 信息量分别为 $ Q_{i}=-k \log P_{i} $，则我们把信息熵定义为平均信息量：
$$
S=\langle Q\rangle=\sum_{i} P_{i} Q_{i}=-k \sum_{i} P_{i} \log P_{i}
$$
这种熵的定义称为香农熵。
从形式上来看，香农熵（信息熵）和吉布斯熵（热力学熵）完全一样。并且，两种熵都衡量了系统的不确定度。一个系统的微观状态数越多，则混乱度越大，不确定度越大，系统的热力学熵就越大；类似的，一个表述正确的概率越低，它的不确定度就越大，从而它的信息量就越大，而香农熵对平均信息量进行了量化。
所以，我们得出结论：热力学熵和信息熵本质上是一回事，它们都是对系统不确定度（混乱度）的衡量。这种热力学熵和信息熵的等价性，使得我们可以从信息论的观点着手理解热力学；同时，也意味着我们可以用热力学和统计力学中发展出来的工具去研究信息论。