[問卦] 什麼是熵？ - Gossiping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2022-01-08 03:10:04

看板 Gossiping

作者 fnm525 (松枝清顯)
標題 [問卦] 什麼是熵？
時間 Fri Jan 7 08:48:21 2022

熵，物理學裡最抽象的名詞之一

也是最長被誤解的詞之一

可以用來描述物理系統的演化行為

也和系統的混亂程度有關

也可以跟資訊扯上關聯

那麼，熵到底是什麼呢

有人知道嗎？

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.137.74.142 (臺灣)
※ 文章代碼(AID): #1XrutNIb (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1641516503.A.4A5.html

※ 同主題文章:

● 01-07 08:48 fnm525. ■ [問卦] 什麼是熵？

　 01-07 22:00 jfsu. ■ Re: [問卦] 什麼是熵？

　 01-08 16:36 moonblacktea. ■ Re: [問卦] 什麼是熵？

→ mono5566: 賣火的1F 1.165.33.170 台灣 01/07 08:49

推 Submicromete: 熱力學考試用的東西2F 42.77.51.180 台灣 01/07 08:51

→ EKman: 去問那個倒著走的黑人3F 223.137.110.48 台灣 01/07 08:55

推 child1991: 發廢文會產生熵4F 101.12.19.10 台灣 01/07 08:56

推 xturtle: 發優文也會產生熵，做什麼事都會加速熵5F 117.56.235.119 台灣 01/07 08:57

推 dealifeth: 問魔法少女6F 42.74.58.154 台灣 01/07 08:58

→ aclock: 問丘比才對7F 223.139.194.22 台灣 01/07 08:59

→ gn01693664: entropy8F 223.137.66.230 台灣 01/07 08:59

推 taichungbear: 用看小類人才知道這個字9F 223.136.162.98 台灣 01/07 09:00

推 ISNAKEI: 你幹點什麼就會越來越多的東西10F 42.77.253.114 台灣 01/07 09:01

推 andrewyllee: 請支持無排碳魔法少女發電11F 123.204.11.144 台灣 01/07 09:03

→ ePaper: 就是負面的不知道三小的代名詞12F 114.36.27.24 台灣 01/07 09:11

推 lovelovely: 就是廢物的意思13F 140.131.25.51 台灣 01/07 09:23

推 DMGA: 亂亂ㄉ14F 180.217.33.243 台灣 01/07 09:29

推 joey455111: dQ/T15F 114.136.142.93 台灣 01/07 09:31

推 drinkmywater: 搞得我很亂16F 36.237.18.223 台灣 01/07 09:36

推 dreamersmaya: 老高有講啊17F 60.251.69.62 台灣 01/07 09:41

→ emind: 時間18F 174.21.35.24 美國 01/07 09:44

推 dustin942093: 系統傾向最高亂度最低能量19F 114.137.23.5 台灣 01/07 09:44

推 YJM1106: 熵、焓20F 61.220.184.130 台灣 01/07 09:47
→ YJM1106: 再加個溫度就能判斷會不會自發根本神奇
→ YJM1106: 給你一個數學模型就能算出真實世界的熱
→ YJM1106: 力學狀態你不覺得很厲害嗎

→ onetear: 世界的真理24F 223.137.99.156 台灣 01/07 09:54

推 s9531: 其實就統計學啊25F 42.76.32.64 台灣 01/07 09:57

推 Lucas0806: 用無序度這個字眼比較嚴謹26F 101.9.185.25 台灣 01/07 10:07

推 kpfing644: time arrow27F 140.112.25.19 台灣 01/07 10:07

推 rayxg: 問小圓28F 111.243.131.17 台灣 01/07 10:07

→ kpfing644: 驅動這個世界前進的指標29F 140.112.25.19 台灣 01/07 10:08

→ cck525: 天能30F 223.137.81.212 台灣 01/07 10:18

噓 ian41360: 怎麼唸啊幹，從小到大老師都念entropy31F 27.247.200.6 台灣 01/07 10:33
→ ian41360: ，雞巴沒一個講中文的

推 qaz1219: 恩戳披33F 42.74.40.86 台灣 01/07 10:37

→ ulli: 就是亂源34F 223.139.241.218 台灣 01/07 10:50
→ ulli: 你所想的到的事件都是熵主導的

推 tomwu770926: 一切的源頭36F 42.72.54.210 台灣 01/07 10:55

→ hqu: 宇宙熱能會向最大亂度移動37F 210.69.166.241 台灣 01/07 12:05

※ 看板: Gossiping　文章推薦值: 0 目前人氣: 0 累積人氣: 287　

作者 fnm525 的最新發文:

+38 [22/7] 斎藤ニコル生日快樂！！！(發錢) - C_Chat 板

作者: fnm525 140.116.137.134 (台灣) 2024-07-07 22:39:38

39F 38推
+29 [22/7] 相川奈央生日快樂！！！(發錢) - C_Chat 板

作者: fnm525 140.116.137.134 (台灣) 2024-07-06 22:56:26

29F 29推
+51 [22/7] 佐藤麗華生日快樂！！！(發錢) - C_Chat 板

作者: fnm525 140.116.137.134 (台灣) 2024-05-20 22:58:41

52F 51推
+11 [22/7] 要幫新番唱ED了！ - C_Chat 板

作者: fnm525 39.14.57.202 (台灣) 2024-04-26 17:08:56

16F 11推
+23 [慶生] 日永麗生日快樂！！！(發錢) - C_Chat 板

作者: fnm525 114.150.246.5 (日本) 2024-04-09 22:43:17

23F 23推

點此顯示更多發文記錄

1樓時間: 2022-01-08 04:27:45 (台灣)

→

JAPCHINK

　 01-08 04:27 TW

···

熵的概念最早起源於物理學，用於度量一個熱力學系統的無序程度。在資訊理論裡面，熵是對不確定性的測量。但是在資訊世界，熵越高，則能傳輸越多的資訊，熵越低，則意味著傳輸的資訊越少。
 
英語文本數據流的熵比較低，因為英語很容易讀懂，也就是說很容易被預測。即便我們不知道下一段英語文字是什麼內容，但是我們能很容易地預測，比如，字母e總是比字母z多，或者qu字母組合的可能性總是超過q與任何其它字母的組合。如果未經壓縮，一段英文文本的每個字母需要8個位元來編碼，但是實際上英文文本的熵大概只有4.7位元。
 
如果壓縮是無損的，即通過解壓縮可以百分之百地恢復初始的消息內容，那麼壓縮後的消息攜帶的資訊和未壓縮的原始消息是一樣的多。而壓縮後的消息可以通過較少的位元傳遞，因此壓縮消息的每個位元能攜帶更多的資訊，也就是說壓縮資訊的熵更加高。熵更高意味著比較難於預測壓縮消息攜帶的資訊，原因在於壓縮消息裡面沒有冗餘，即每個位元的消息攜帶了一個位元的資訊。夏農的信源編碼定理揭示了，任何無損壓縮技術不可能讓一位元的消息攜帶超過一位元的資訊。消息的熵乘以消息的長度決定了消息可以攜帶多少資訊。
 
夏農的信源編碼定理同時揭示了，任何無損壓縮技術不可能縮短任何消息。根據鴿籠原理，如果有一些消息變短，則至少有一條消息變長。在實際使用中，由於我們通常只關注於壓縮特定的某一類消息，所以這通常不是問題。例如英語文檔和隨機文字，數位照片和噪音，都是不同類型的。所以如果一個壓縮算法會將某些不太可能出現的，或者非目標類型的消息變得更大，通常是無關緊要的。但是，在我們的日常使用中，如果去壓縮已經壓縮過的數據，仍會出現問題。例如，將一個已經是FLAC格式的音樂文件壓縮為ZIP文件很難使它占用的空間變小。
 熵的計算
如果有一枚理想的硬幣，其出現正面和反面的機會相等，則拋硬幣事件的熵等於其能夠達到的最大值。我們無法知道下一個硬幣拋擲的結果是什麼，因此每一次拋硬幣都是不可預測的。因此，使用一枚正常硬幣進行若干次拋擲，這個事件的熵是一位元，因為結果不外乎兩個——正面或者反面，可以表示為0, 1編碼，而且兩個結果彼此之間相互獨立。若進行n次獨立實驗，則熵為n，因為可以用長度為n的位元流表示。[3]但是如果一枚硬幣的兩面完全相同，那個這個系列拋硬幣事件的熵等於零，因為結果能被準確預測。現實世界裡，我們收集到的數據的熵介於上面兩種情況之間。
 
另一個稍微複雜的例子是假設一個隨機變量X，取三種可能值{\displaystyle {\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}}{\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}，機率分別為{\displaystyle {\begin{smallmatrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{smallmatrix}}}{\begin{smallmatrix}{\frac  {1}{2}},{\frac  {1}{4}},{\frac  {1}{4}}\end{smallmatrix}}，那麼編碼平均位元長度是：{\displaystyle {\begin{smallmatrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{smallmatrix}}}{\begin{smallmatrix}{\frac  {1}{2}}\times 1+{\frac  {1}{4}}\times 2+{\frac  {1}{4}}\times 2={\frac  {3}{2}}\end{smallmatrix}}。其熵為3/2。
 
因此熵實際是對隨機變量的位元量和順次發生機率相乘再總和的數學期望。 定義
依據Boltzmann's H-theorem，夏農把隨機變量X的熵值 Η（希臘字母Eta）定義如下，其值域為{x1, ..., xn}： {\displaystyle \mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]}\Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))]。
其中，P為X的機率質量函數（probability mass function），E為期望函數，而I(X)是X的資訊量（又稱為資訊本體）。I(X)本身是個隨機變數。 
當取自有限的樣本時，熵的公式可以表示為： 
{\displaystyle \mathrm {H} (X)=\sum _{i}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i}{\mathrm {P} (x_{i})\log _{b}\mathrm {P} (x_{i})},}\mathrm{H} (X)=\sum _{{i}}{{\mathrm  {P}}(x_{i})\,{\mathrm  {I}}(x_{i})}=-\sum _{{i}}{{\mathrm  {P}}(x_{i})\log _{b}{\mathrm  {P}}(x_{i})},
在這裏b是對數所使用的底，通常是2,自然常數e，或是10。當b = 2，熵的單位是bit；當b = e，熵的單位是nat；而當b = 10,熵的單位是Hart。 
pi = 0時，對於一些i值，對應的被加數0 logb 0的值將會是0，這與極限一致。 {\displaystyle \lim _{p\to 0+}p\log p=0}\lim_{p\to0+}p\log p = 0。
還可以定義事件 X 與 Y 分別取 xi 和 yj 時的條件熵為 {\displaystyle \mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}}{\displaystyle \mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}}
其中p(xi, yj)為 X = xi 且 Y = yj 時的機率。這個量應當理解為你知道Y的值前提下隨機變量 X 的隨機性的量。 
範例 
拋硬幣的熵H(X)（即期望資訊本體），以位元度量，與之相對的是硬幣的公正度Pr(X=1). 注意圖的最大值取決於分布；在這裡，要傳達一個公正的拋硬幣結果至多需要1位元，但要傳達一個公正的拋骰子結果至多需要log2(6)位元。
如果有一個系統S內存在多個事件S = {E1,...,En}，每個事件的機率分布P = {p1, ..., pn}，則每個事件本身的訊息（資訊本體）為： {\displaystyle I_{e}=-\log _{2}{p_{i}}}I_{e}=-\log _{2}{p_{i}}（對數以2為底，單位是位元（bit））
{\displaystyle I_{e}=-\ln {p_{i}}}I_{e}=-\ln {p_{i}}（對數以{\displaystyle e}e為底，單位是納特/nats）
如英語有26個字母，假如每個字母在文章中出現次數平均的話，每個字母的訊息量為： {\displaystyle I_{e}=-\log _{2}{1 \over 26}=4.7}I_{e}=-\log _{2}{1 \over 26}=4.7
以日文五十音平假名作為相對範例，假設每個平假名日語文字在文章中出現的機率相等，每個平假名日語文字可攜帶的資訊量為： {\displaystyle I_{e}=-\log _{2}{1 \over 50}=5.64}{\displaystyle I_{e}=-\log _{2}{1 \over 50}=5.64}
而漢字常用的有2500個，假如每個漢字在文章中出現次數平均的話，每個漢字的資訊量為： {\displaystyle I_{e}=-\log _{2}{1 \over 2500}=11.3}I_{e}=-\log _{2}{1 \over 2500}=11.3
實際上每個字母和每個漢字在文章中出現的次數並不平均，比方說較少見字母（如z）和罕用漢字就具有相對高的資訊量。但上述計算提供了以下概念：使用書寫單元越多的文字，每個單元所包含的訊息量越大。
 
熵是整個系統的平均消息量，即： {\displaystyle H_{s}=\sum _{i=1}^{n}p_{i}I_{e}=-\sum _{i=1}^{n}p_{i}\log _{2}p_{i}}H_{s}=\sum _{{i=1}}^{n}p_{i}I_{e}=-\sum _{{i=1}}^{n}p_{i}\log _{2}p_{i}
因為和熱力學中描述熱力學熵的玻爾茲曼公式本質相同（僅僅單位不同，一納特的資訊量即相當於k焦耳每開爾文的熱力學熵），所以也稱為「熵」。 
如果兩個系統具有同樣大的消息量，如一篇用不同文字寫的同一文章，由於漢字的資訊量較大，中文文章應用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應用總體數量少的字母印刷的文章要短。即使一個漢字占用兩個字母的空間，漢字印刷的文章也要比英文字母印刷的用紙少。
 熵的特性
可以用很少的標準來描述夏農熵的特性，將在下面列出。任何滿足這些假設的熵的定義均正比以下形式 {\displaystyle -K\sum _{i=1}^{n}p_{i}\log(p_{i})}-K\sum _{{i=1}}^{n}p_{i}\log(p_{i})
其中，K是與選擇的度量單位相對應的一個正比常數。 
下文中，pi = Pr(X = xi)且{\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})=\mathrm {H} (X)}\mathrm{H} _{n}(p_{1},\ldots ,p_{n})=\mathrm{H} (X) 連續性
該量度應連續，機率值小幅變化只能引起熵的微小變化。 對稱性
符號xi重新排序後，該量度應不變。 
{\displaystyle \mathrm {H} _{n}\left(p_{1},p_{2},\ldots \right)=\mathrm {H} _{n}\left(p_{2},p_{1},\ldots \right)}\mathrm{H} _{n}\left(p_{1},p_{2},\ldots \right)=\mathrm{H} _{n}\left(p_{2},p_{1},\ldots \right)等。
極值性
當所有符號有同等機會出現的情況下，熵達到最大值（所有可能的事件同等機率時不確定性最高）。 
{\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})\leq \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\log _{b}(n)} \Eta_n(p_1,\ldots,p_n) \le \Eta_n\left(\frac{1}{n}, \ldots, \frac{1}{n}\right) = \log_b (n)。
等機率事件的熵應隨符號的數量增加。 
{\displaystyle \mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}=\log _{b}(n)<\log _{b}(n+1)=\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.}{\displaystyle \mathrm {H} _{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}=\log _{b}(n)<\log _{b}(n+1)=\mathrm {H} _{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.}
可加性
熵的量與該過程如何被劃分無關。 
最後給出的這個函數關係刻畫了一個系統與其子系統的熵的關係。如果子系統之間的相互作用是已知的，則可以通過子系統的熵來計算一個系統的熵。 
給定n個均勻分布元素的集合，分為k個箱（子系統），每個裡面有 b1, ..., bk 個元素，合起來的熵應等於系統的熵與各個箱子的熵的和，每個箱子的權重為在該箱中的機率。
 
對於正整數bi其中b1 + ... + bk = n來說， 
{\displaystyle \mathrm {H} _{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)=\mathrm {H} _{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,\mathrm {H} _{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right)}\Eta_n\left(\frac{1}{n}, \ldots, \frac{1}{n}\right) = \Eta_k\left(\frac{b_1}{n}, \ldots, \frac{b_k}{n}\right) + \sum_{i=1}^k \frac{b_i}{n} \, \Eta_{b_i}\left(\frac{1}{b_i}, \ldots, \frac{1}{b_i}\right)。
選取k = n，b1 = ... = bn = 1，這意味著確定符號的熵為零：Η1(1) = 0。這就是說可以用n進位熵來定義n個符號的信源符號集的效率。參見資訊冗餘。 進一步性質
夏農熵滿足以下性質，藉由將熵看成「在揭示隨機變量X的值後，從中得到的資訊量（或消除的不確定性量）」，可來幫助理解其中一些性質。 增減一機率為零的事件不改變熵：
{\displaystyle \mathrm {H} _{n+1}(p_{1},\ldots ,p_{n},0)=\mathrm {H} _{n}(p_{1},\ldots ,p_{n})}\mathrm{H} _{{n+1}}(p_{1},\ldots ,p_{n},0)=\mathrm{H} _{n}(p_{1},\ldots ,p_{n})
可用琴生不等式證明
{\displaystyle \mathrm {H} (X)=\operatorname {E} \left[\log _{b}\left({\frac {1}{p(X)}}\right)\right]\leq \log _{b}\left(\operatorname {E} \left[{\frac {1}{p(X)}}\right]\right)=\log _{b}(n)}\mathrm{H} (X)=\operatorname {E}\left[\log _{b}\left({\frac  {1}{p(X)}}\right)\right]\leq \log _{b}\left(\operatorname {E}\left[{\frac  {1}{p(X)}}\right]\right)=\log _{b}(n)
具有均勻機率分布的信源符號集可以有效地達到最大熵logb(n)：所有可能的事件是等機率的時候，不確定性最大。
計算 (X,Y)得到的熵或資訊量（即同時計算X和Y）等於通過進行兩個連續實驗得到的資訊：先計算Y的值，然後在你知道Y的值條件下得出X的值。寫作
{\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (X|Y)+\mathrm {H} (Y)=\mathrm {H} (Y|X)+\mathrm {H} (X)} \Eta(X,Y)=\Eta(X|Y)+\Eta(Y)=\Eta(Y|X)+\Eta(X)。
如果Y=f(X)，其中f是確定性的，那麼Η(f(X)|X) = 0。應用前一公式Η(X, f(X))就會產生
{\displaystyle \mathrm {H} (X)+\mathrm {H} (f(X)|X)=\mathrm {H} (f(X))+\mathrm {H} (X|f(X)),}\mathrm{H} (X)+\mathrm{H} (f(X)|X)=\mathrm{H} (f(X))+\mathrm{H} (X|f(X)),
所以Η(f(X)) ≤ Η(X)，因此當後者是通過確定性函數傳遞時，變量的熵只能降低。
如果X和Y是兩個獨立實驗，那麼知道Y的值不影響我們對X值的認知（因為兩者獨立，所以互不影響）：
{\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)} \Eta(X|Y)=\Eta(X)。
兩個事件同時發生的熵不大於每個事件單獨發生的熵的總和，且僅當兩個事件是獨立的情況下相等。更具體地說，如果X和Y是同一機率空間的兩個隨機變量，而 (X,Y)表示它們的笛卡爾積，則
{\displaystyle \mathrm {H} (X,Y)\leq \mathrm {H} (X)+\mathrm {H} (Y)} \Eta(X,Y)\leq \Eta(X)+\Eta(Y)。
在前兩條熵的性質基礎上，很容易用數學證明這一點。
和熱力學熵的聯繫
物理學家和化學家對一個系統自發地從初始狀態向前演進過程中，遵循熱力學第二定律而發生的熵的變化更感興趣。在傳統熱力學中，熵被定義為對系統的宏觀測定，並沒有涉及機率分布，而機率分布是資訊熵的核心定義。
 
根據Jaynes（1957）的觀點，熱力學熵可以被視為夏農資訊理論的一個應用： 熱力學熵被解釋成與定義系統的微態細節所需的進一步夏農資訊量成正比，波茲曼常數為比例系數，其中系統與外界無交流，只靠古典熱力學的巨觀變數所描述。加熱系統會提高其熱力學熵，是因為此行為增加了符合可測巨觀變數 的系統微態的數目，也使得所有系統的的完整敘述變得更長。（假想的）麥克斯韋妖可利用每個分子的狀態資訊，來降低熱力學熵，但是Landauer（於1961年）和及其同事則證明了，讓小妖精行使職責本身——即便只是了解和儲存每個分子最初的夏農資訊——就會給系統帶來熱力學熵的增加，因此總的來說，系統的熵的總量沒有減少。這就解決了Maxwell思想實驗引發的悖論。Landauer法則也為現代計算機處理大量資訊時所產生的熱量給出了下限，雖然現在計算機的廢熱遠遠比這個限制高。

2樓時間: 2022-01-08 06:54:54 (台灣)

→

newbit

　 01-08 06:54 TW

熵炴變法

3樓時間: 2022-01-08 10:19:54 (台灣)

→

ppAVA

　 01-08 10:19 TW

發明熵這個字的人也不懂

回到看板(←)《Gossiping》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享