Re: [閒聊] AI畫圖是不是大數據拼圖？ - ACG板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文轉寄自 ptt.cc 更新時間: 2022-10-07 05:08:14

看板 C_Chat

作者 yoyololicon (十年魔乃粉)
標題 Re: [閒聊] AI畫圖是不是大數據拼圖？
時間 Fri Oct 7 00:04:31 2022

最近回去念書了，念的programme名字有AI，應該可以發個言ㄅ

新科技需要熱衷的族群做推廣，有推廣才有funding，我才有薪水qq

不過這些族群不一定對科技有正確的認識

這幾天看到一些不精確又容易誤導的解釋真的會中風

想說做點簡單的科普(科普很難我知道qq)

※ 引述《newwu (說不定我一生涓滴廢文)》之銘言：
: 見圖二
: 理解這個想法後
: 我們把圖像的高維空間畫成二維方便表示
: 以ＡＣＧ圖為例
: 那被人類接受的ＡＣＧ圖就是一個高維空間中的分佈
: 簡單理解就是一個範圍內的圖，會被視為可接受的ＡＣＧ圖
: 在那個範圍外的空間包含相片雜訊古典藝術支離破碎的圖
: 生成模型的目的，就是從範圍內的樣本（下圖紅點）建立一個模型
: 這個模型學習到這個範圍，而模型可以生成也只會生成在範圍內的點
: https://i.imgur.com/NfUyIAg.jpg
: 圖二

借用newwu的圖

目前大家在討論的AI，其實更精確地講，應該說是圖像的生成模型Generative Models(GM)

GM有很多種

舉凡VAE, Autoregressive Models, GAN, Normalizing Flow, Denoising Diffusion都是

而一個被科學家普遍採用的假設是

真實世界資料的複雜分布(圖二)，都對應到一個潛在空間latent space

而這個空間通常較具有可讀性(interpretable)，例如某個維度代表某種面向

另外方便起見，現實資料這個潛在空間的分布會是個很簡單可操作的分布

大部分論文都用常態分布Gaussian，但我相信也有人用binomial分布之類

為甚麼要這麼設計? 因為如果假設為真，可以幫助我們去分析與理解現實的資料

科學研究本來就是要幫助人類進步，怎麼會搶繪師的飯碗

而大部分模型在做的事，就是學這個兩個空間的對應關係

訓練方式也很簡單，最大化資料在這兩個空間的可能性(likelihood)

VAE的潛在分布在一個低維空間

GAN雖然理論基礎薄弱導致先天性缺陷一大堆，但也是在modeling低維的空間

Normalizing Flow和Diffusion比較特別，潛在空間的維度和原始資料一樣

Autoregressive Models直接模擬現實的分布，但不影響上述的假設

至於Diffusion Models的貢獻還有表現為甚麼這麼好，以至於瘋狂的流行起來

比之前的GAN熱潮有過而無不及，主要是因為訓練Diffusion Model和訓練VAE一樣

都是在最大化分佈的下限 maximium lower bound

然而卻沒有VAE的模糊問題，證明只要分佈設計的好

是可以同時保持VAE的好訓練特色和GAN一樣的高likelihood

也不是沒有缺點

如果把整個生成過程攤開來看，Diffusion model就是一個超~~極深的神經網路

比ResNet還深，導致生成非常耗時，加速生成過程也是一個熱門的研究方向

如果對diffusion models有興趣，想快速了解也不排斥讀論文

我推薦這篇近期的overview paper，對整個diffusion models的不同面向都有做講解

https://ar5iv.labs.arxiv.org/html/2208.11970

[2208.11970] Understanding Diffusion Models: A Unified Perspective

也可以看板上cybermeow的解說

另外這篇的結語也非常有趣

就是人在畫圖的時候，是否也是藉由不斷的去噪，提煉出一張圖的?

diffusion實際上真的模擬的人類的創作過程嗎? 值得玩味

最後回答幾個常見的QA

Q: AI畫圖都是從別人的圖找出來拼貼的。

A: 沒有這種事。

從以上以及前幾篇的講解，可以知道生成模型從頭到尾在做的

就只是機率統計而已。

給予離散的資料點，找出最能代表的連續函數，僅此而已。

因為有loss的關係，要生出完全一模一樣的圖幾乎不可能

(當然也有生出不完全相同，但人類感知上無法察覺不同的情況

Q: AI繪圖只能迎合大眾的喜好，無法有獨創性，提出新的概念。

A: 這是個無法說死的問題。

理想上，數個資料如有類似的屬性，不管是畫風、概念、構圖

在潛在空間應該會落在一個鄰近的區域(cluster)

如果我們有足夠的資料、足夠強的模型架構，能真的完全模擬現實資料的潛在分佈

那麼所謂的沒出現在訓練資料，具有獨特性的繪圖

也許只是某個能內差或外插出來的區域而已。

當然也有可能AI繪圖影響到人類繪圖的整體分佈，脫離原本的潛在空間。

Q: diffusion的訓練過程和GAN相比，會直接看到訓練過程所以較強(#1ZFbZ85b)

A: Nonsense.

diffusion強大的原因在前文已經解釋了。

GAN不可能沒用到原圖的資訊，你如果把discriminator和generator並在一起當作同一個

模型就知道了。

VAE的訓練也會直接看到原圖，效果卻一般。

Q: CNN的filter是找最常出現的pattern，所以有用到其他圖的資訊去拼貼!

A: Also nonsense。

如果今天CNN只有一層，那還有一點道理。

但一到兩層以上，這些Hidden feature所在的空間和原本資料所在的空間已經是不同的了

要說拿圖去拼貼非常牽強。

大概醬，有問題可以直接推文，還得寫今天跟老闆的會議紀錄QQ

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 31.205.105.234 (英國)
※ 文章代碼(AID): #1ZFloLRw (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1665072277.A.6FA.html

推 diabolica: 不懂的還是繼續不懂1F 10/07 00:06

→ erisiss0: 人類畫圖確實就是去噪2F 10/07 00:07
→ erisiss0: 這個原理就是人類畫圖先打線稿然後從線稿中追求理想
→ erisiss0: 塗上某個色彩然後又抹去部份添加細節

推 tym7482: 嗯嗯嗯跟我想的差不多5F 10/07 00:09

→ trywish: 重點是圖和照片界線越來越淡，以前大家希望保持細節，現6F 10/07 00:10
→ trywish: 在照片，反而一堆人只想要"線條"和顏色。修圖修到最後，
→ trywish: 細節都不見了，不過卻被說是"美的照片"

→ erisiss0: 模糊的美學嘛眼不見為淨不然拍照也不會出遠景了9F 10/07 00:12

推 nisioisin: 推科普10F 10/07 00:12

→ AN94: 一堆專有名詞誰看的懂不翻譯成人話也是枉然11F 10/07 00:13

推 inte629l: 先推等睡不著在看overview paper XD12F 10/07 00:13

→ DeeperOcean: AI技術上本來就是沒有問題的，問題一直是用法跟目的13F 10/07 00:15

→ yoyololicon: 我會再加強解釋的功力qq14F 10/07 00:16

→ DeeperOcean: 很多狀況根本是使用者本身希望能做到拿圖改圖的成果15F 10/07 00:16

推 pot1234: 難得看到有人認真介紹推推16F 10/07 00:18

→ DeeperOcean: 也就是藉由AI這個清白的工具，做些投機取巧的事17F 10/07 00:18
→ DeeperOcean: 這才會有那麼多問題的

推 erisiss0: 然後還要被一些不懂瞎搞的人說都是ai的錯禁止ai學圖19F 10/07 00:19

→ DeeperOcean: 即使NovelAI官方，肯定也沒有想為資料庫付錢的念頭20F 10/07 00:20

推 smart0eddie: 推21F 10/07 00:21

→ lay10521: 之前有個論文是把成果再加上一個分類器22F 10/07 00:22

推 aa9012: 2樓被打臉了還能堅持己見23F 10/07 00:22

→ XFarter: @aa9012 二樓那裡被打臉了？24F 10/07 00:24

→ erisiss0: 您是不是認錯人？25F 10/07 00:24

→ XFarter: 另外這篇文講得很好但不懂的閱讀的人還是不懂啦...文章26F 10/07 00:25
→ XFarter: 太長或圖片不夠多的都入不了某些版友的法眼，我猜。

→ smart0eddie: 人類的去噪跟defusion 的不一樣吧28F 10/07 00:25

→ erisiss0: 手法確實不一樣人類比較擅長加法的去噪29F 10/07 00:25

→ smart0eddie: 有人看不懂這也不是文章太長還是沒圖的問題30F 10/07 00:26

→ erisiss0: 人類對一張圖做的去噪就是加法31F 10/07 00:28

→ smart0eddie: 光是那個likelihood32F 10/07 00:28
→ smart0eddie: 非相關的人不太會去碰到吧

→ erisiss0: 加入無關的東西減少畫面的雜訊（白區）34F 10/07 00:28

→ hduek153: 理想ai跟現在的ai效果終究是有差距的35F 10/07 00:29

推 tim970303: 感謝解說每次看到說拼貼的頭都很痛，另外想請問diffusi36F 10/07 00:29
→ tim970303: on model中將原圖加上噪點後如何訓練denoise，像是NN就
→ tim970303: 是微分取導數求最快下降的梯度，那denoise的過程呢，如
→ tim970303: 果需要大量機率的背景知識或是大大懶得解釋就算了，謝
→ tim970303: 謝？

就是直接給加了noise的圖，模型吐出它覺得noise長怎樣

把它跟原本的noise算loss，求梯度而已

基本上就是在做源分離(source separation)

推 Vulpix: 去噪作畫……我覺得沙畫挺像的XD 或者用磁鐵玩沙鐵畫。41F 10/07 00:30

推 kingo2327: 多拉A夢我需要翻譯年糕42F 10/07 00:30

推 XFarter: 比較像是在玩可以把沙子拿起來砸回去的沙畫沒錯啦 diffus43F 10/07 00:31
→ XFarter: ion model 就我的理解就是在做這件事

※ 編輯: yoyololicon (31.205.105.234 英國), 10/07/2022 00:34:16

推 IllMOR: 推45F 10/07 00:34

推 friesman1270: 剛剛突然想到，假設今天再也沒有任何新的藝術創作，46F 10/07 00:37
→ friesman1270: ai還能夠繼續學習嗎？

"繼續學習"這個字眼不是很精確，有種模型在持續進化的感覺

但實際上訓練生成模型都是把資料收集，跑training，done

不會放在線上讓它持續增加資料庫這樣訓練

不知是電影或是對抗式生成網路讓大眾有這樣的誤解

如果不再有新資料，那模型的上限就到那邊

推 guogu: 沒事說拼貼的明天繼續說拼貼48F 10/07 00:38

※ 編輯: yoyololicon (31.205.105.234 英國), 10/07/2022 00:42:58

推 carson1997: 推個49F 10/07 00:40

推 tim970303: 原來如此感謝大大解說簡單明瞭50F 10/07 00:41

推 Darnatos: 推但不想懂的不會看51F 10/07 00:44

推 afking: 目前的AI本質上就是機率統計52F 10/07 00:44

推 friesman1270: 抱歉，用字不精確，謝謝原po解惑53F 10/07 00:46

推 jerrysaikou: 推但不懂的繼續跳針拼貼54F 10/07 00:46

推 healworld: 謝謝解說55F 10/07 00:52

推 an94mod0: 嗯，我之前也是這樣覺得56F 10/07 00:56

推 coaxa: 原來如此我懂了（完全看不懂）57F 10/07 00:56

推 ImCasual: 嗯嗯跟我想的差不多.jpg58F 10/07 00:57

推 hjwing280: 推59F 10/07 01:02

→ CP64: 之前是有在跟朋友開玩笑說之前修復耶穌像失敗的猴子耶穌60F 10/07 01:18
→ CP64: 算不算跟這個模型同一個邏輯 XDD

推 purplemagic: 圖片對電腦來說就是一堆色碼對吧？62F 10/07 01:24
→ purplemagic: 選定一個點的色碼為起點，將周圍的點的色碼以
→ purplemagic: 及和起點的距離等數據資料餵給電腦，找N個起點
→ purplemagic: 、重複NN次，跑統計分析，電腦就能知道在設定的
→ purplemagic: 那個起點周圍的點要用什麼色碼，才會符合人類的癖
→ purplemagic: 好，就能畫出類似的圖。可以這樣說嗎

推 CowGundam: 聽起來很像我之前看到有人說的黑洞理論，世界是黑洞表68F 10/07 01:27
→ CowGundam: 面上的資訊投影，不過這樣為什麼會有之前被比對的肉眼
→ CowGundam: 都可以看出來的描圖感呢
→ CowGundam: 聽起來應該是隨機生成的噪點卻剛好跟某張圖一摸一樣，
→ CowGundam: 去躁時才產生不一樣的點，算是機率問題嗎

推 octangus07: 長知識推73F 10/07 01:36

→ haha98: 你人真好看到拼貼仔根本懶得跟他講74F 10/07 01:37

推 orze04: @purplemagic AI認知的方式是一組向量75F 10/07 01:45

推 hanmas: 可以說英文嗎76F 10/07 01:50

推 DendiQ: 跟我想的一樣77F 10/07 01:51

推 peter91828: 那要如何決定採納他的資料來源，他的資料來源是否有78F 10/07 02:08
→ peter91828: 版權問題

推 namirei: 感謝科普80F 10/07 02:15

噓 iampig951753: 人類畫圖不是去噪難道是創造嗎81F 10/07 02:17
→ iampig951753: 那還取個屁材
→ iampig951753: 坐在家冥想就好

推 k12795: 描圖感有幾種可能啊印象中有一種服務是你給圖然後它參照84F 10/07 02:23
→ k12795: 再出圖的那很相似也正常
→ k12795: 另外一種就先射箭再畫把拿一張常見動作的AI圖直接去翻
→ k12795: 一個動作像的再出來嘴砲就好

推 holebro: 此生不碰deep learning88F 10/07 02:32

→ czplus: “像”是AI的目的，“但不完全像”這是AI合成過程中的必然89F 10/07 04:23
→ czplus: ，所以基本上很難說是拼貼
→ czplus: “很像”的情形其實代表AI“學得不錯”，AI找出了一個能用
→ czplus: 「向量」有效描述一張圖的方法
→ czplus: 創作某方面也是一個“像，又不完全像”的概念，你當然有可
→ czplus: 能AI生成的圖片中找到新的畫風，甚至要AI去學習那個畫風

※ 看板: ACG　文章推薦值: 0 目前人氣: 0 累積人氣: 168　

作者 yoyololicon 的最新發文:

+35 Re: [閒聊] AI畫圖是不是大數據拼圖？ - C_Chat 板

作者: yoyololicon 31.205.105.234 (英國) 2022-10-07 00:04:31

最近回去念書了，念的programme名字有AI，應該可以發個言ㄅ新科技需要熱衷的族群做推廣，有推廣才有funding，我才有薪水qq 不過這些族群不一定對科技有正確的認識這幾天看到一些不精確又容 …

94F 36推 1噓
+7 [閒聊] A-1 Pictures的合作短篇動畫 - C_Chat 板

作者: yoyololicon 140.113.121.149 (台灣) 2016-10-20 12:53:10

好像都沒人發這個就來推薦一下 A-1 Pictures和知名EDM DJ Porter Robinson合作,以Shelter這首歌做的的短篇動畫(MV?) 用電音做日式動畫感覺好特別劇情很簡單，不 …

12F 7推
+3 Re: [問題] 妖怪少女的蜘蛛女 - C_Chat 板

作者: yoyololicon 140.113.121.149 (台灣) 2016-10-17 08:45:06

終於看完惹~ 小姬真der超棒小姬我老婆 \小姬/\小姬/\小姬/

3F 3推
+65 [問卦] 台灣年輕人真的有人完全聽不懂台語嗎? - Gossiping 板

作者: yoyololicon 140.113.136.220 (台灣) 2015-10-20 09:53:11

本魯八年級的，真的不會，應該說幾乎不會父母都是南部人，結婚之後搬到北部住，因為媽媽覺得台語的髒話很難聽所以完全不教台語，平常也不給我們接觸到台語基本上平常生活不會有什麼問題，只是過年回南部會很痛 …

167F 75推 10噓
+190 [爆卦] 2015世界溜溜球大賽台灣選手女子組冠軍 - Gossiping 板

作者: yoyololicon 118.161.204.141 (台灣) 2015-08-16 18:33:08

2015世界溜溜球大賽為期五天，舉行於日本東京秋葉原，8/13~8/16分別為外卡賽、預賽、準決賽、決賽剛剛公布熱騰騰的成績，恭喜台灣選手王筱雯獲得女子組冠軍! 太神啦~台灣第一次溜溜球項目的世界 …

215F 194推 4噓

分享網址: 複製

DispBBS

回到看板(←)《ACG》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享