看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱

2017-03-01 by:CAE仿真在線(xiàn) 來(lái)源:互聯(lián)網(wǎng)

圖a. Principle of GAN.

這學(xué)期,老顧在講授一門(mén)研究生水平的數(shù)字幾何課程,目前講到了2016年和丘成桐先生、羅鋒教授共同完成的一個(gè)幾何定理【3】,這個(gè)工作給出了經(jīng)典亞歷山大定理(Alexandrov Theorem)的構(gòu)造性證明,也給出了最優(yōu)傳輸理論(Optimal Mass Transportation)的一個(gè)幾何解釋。

這幾天,機(jī)器學(xué)習(xí)領(lǐng)域的Wasserstein GAN突然變得火熱,其中關(guān)鍵的概念可以完全用我們的理論來(lái)給出幾何解釋,這允許我們?cè)谝欢ǔ潭壬嫌H眼“看穿”傳統(tǒng)機(jī)器學(xué)習(xí)中的“黑箱”。

下面是老顧下周一授課的講稿。

生成對(duì)抗網(wǎng)絡(luò) GAN

訓(xùn)練模型 生成對(duì)抗網(wǎng)絡(luò)GAN (Generative Adversarial Networks)是一個(gè)“自相矛盾”的系統(tǒng),就是以己之矛克以己之盾,在矛盾中發(fā)展,使得矛更加鋒利,盾更加強(qiáng)韌。這里的矛被稱(chēng)為是判別器(Descriminator),這里的盾被稱(chēng)為是生成器(Generator)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片2

圖b. Generative Model.

生成器G一般是將一個(gè)隨機(jī)變量(例如高斯分布,或者均勻分布),通過(guò)參數(shù)化的概率生成模型(通常是用一個(gè)深度神經(jīng)網(wǎng)來(lái)進(jìn)行參數(shù)化),進(jìn)行概率分布的逆變換采樣,從而得到一個(gè)生成的概率分布。判別器D也通常采用深度卷積神經(jīng)網(wǎng)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片3

圖1. GAN的算法流程圖。

矛盾的交鋒過(guò)程如下:給定真實(shí)的數(shù)據(jù),其內(nèi)部的統(tǒng)計(jì)規(guī)律表示為概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片4

,我們的目的就是能夠找出

。為此,我們制作了一個(gè)隨機(jī)變量生成器G,G能夠產(chǎn)生隨機(jī)變量,其概率分布是

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片6

,我們希望

盡量接近

。為了區(qū)分真實(shí)概率分布

和生成概率分布

,我們又制作了一個(gè)判別器D,給定一個(gè)樣本,D來(lái)復(fù)制判別這個(gè)樣本是來(lái)自真實(shí)數(shù)據(jù)還是來(lái)自偽造數(shù)據(jù)。Goodfellow給GAN中的判別器設(shè)計(jì)了如下的損失函數(shù)(lost function), 盡可能將真實(shí)樣本判為正例,生成樣本判為負(fù)例:

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片11

。

第一項(xiàng)不依賴(lài)于生成器G, 此式也可以定義GAN中的生成器的損失函數(shù)。

在訓(xùn)練中,判別器D和生成器G交替學(xué)習(xí),最終達(dá)到納什均衡(零和游戲),判別器無(wú)法區(qū)分真實(shí)樣本和生成樣本。

優(yōu)點(diǎn) GAN具有非常重要的優(yōu)越性。當(dāng)真實(shí)數(shù)據(jù)的概率分布不可計(jì)算的時(shí)候,傳統(tǒng)依賴(lài)于數(shù)據(jù)內(nèi)在解釋的生成模型無(wú)法直接應(yīng)用。但是GAN依然可以使用,這是因?yàn)镚AN引入了內(nèi)部對(duì)抗的訓(xùn)練機(jī)制,能夠逼近一下難以計(jì)算的概率分布。更為重要的,Yann LeCun一直積極倡導(dǎo)GAN,因?yàn)镚AN為無(wú)監(jiān)督學(xué)習(xí)提供了一個(gè)強(qiáng)有力的算法框架,而無(wú)監(jiān)督學(xué)習(xí)被廣泛認(rèn)為是通往人工智能重要的一環(huán)。

缺點(diǎn) 原始GAN形式具有致命缺陷:判別器越好,生成器的梯度消失越嚴(yán)重。我們固定生成器G來(lái)優(yōu)化判別器D?？疾烊我庖粋€(gè)樣本

,其對(duì)判別器損失函數(shù)的貢獻(xiàn)是

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片13

兩邊對(duì)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片14

求導(dǎo),得到最優(yōu)判別器函數(shù)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片15

代入生成器損失函數(shù),我們得到所謂的Jensen-Shannon散度(JS)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片16

。

在這種情況下(判別器最優(yōu)),如果

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片17

的支撐集合(support)交集為零測(cè)度,則生成器的損失函數(shù)恒為0,梯度消失。

改進(jìn) 本質(zhì)上,JS散度給出了概率分布

之間的差異程度,亦即概率分布間的度量。我們可以用其他的度量來(lái)替換JS散度。Wasserstein距離就是一個(gè)好的選擇,因?yàn)榧幢?/span>

的支撐集合(support)交集為零測(cè)度,它們之間的Wasserstein距離依然非零。這樣,我們就得到了Wasserstein GAN的模式【1】【2】。Wasserstein距離的好處在于即便

兩個(gè)分布之間沒(méi)有重疊,Wasserstein距離依然能夠度量它們的遠(yuǎn)近。

為此,我們引入最優(yōu)傳輸?shù)膸缀卫碚?Optimal Mass Transportation),這個(gè)理論可視化了W-GAN的關(guān)鍵概念,例如概率分布,概率生成模型(生成器),Wasserstein距離。更為重要的,這套理論中,所有的概念,原理都是透明的。例如,對(duì)于概率生成模型,理論上我們可以用最優(yōu)傳輸?shù)目蚣苋〈疃壬窠?jīng)網(wǎng)絡(luò)來(lái)構(gòu)造生成器,從而使得黑箱透明。

最優(yōu)傳輸理論梗概

給定歐氏空間中的一個(gè)區(qū)域

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片21

,上面定義有兩個(gè)概率測(cè)度

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片22

和

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片23

,滿(mǎn)足

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片24

我們尋找一個(gè)區(qū)域到自身的同胚映射(diffeomorphism),

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片25

, 滿(mǎn)足兩個(gè)條件:保持測(cè)度和極小化傳輸代價(jià)。

保持測(cè)度 對(duì)于一切波萊爾集

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片26

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片27

換句話(huà)說(shuō)映射T將概率分布

映射成了概率分布

,記成

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片30

。直觀上,自映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片31

,帶來(lái)體積元的變化,因此改變了概率分布。我們用

和

來(lái)表示概率密度函數(shù),用

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片34

來(lái)表示映射的雅克比矩陣(Jacobian matrix),那么保持測(cè)度的微分方程應(yīng)該是:

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片35

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片36

這被稱(chēng)為是雅克比方程(Jacobian Equation)。

最優(yōu)傳輸映射 自映射

的傳輸代價(jià)(Transportation Cost)定義為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片38

。

在所有保持測(cè)度的自映射中,傳輸代價(jià)最小者被稱(chēng)為是最優(yōu)傳輸映射(Optimal Mass Transportation Map),亦即:

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片39

最優(yōu)傳輸映射的傳輸代價(jià)被稱(chēng)為是概率測(cè)度

和概率測(cè)度

之間的Wasserstein距離,記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片42

。

在這種情形下,Brenier證明存在一個(gè)凸函數(shù)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片43

,其梯度映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片44

就是唯一的最優(yōu)傳輸映射。這個(gè)凸函數(shù)被稱(chēng)為是Brenier勢(shì)能函數(shù)(Brenier potential)。

由Jacobian方程,我們得到Brenier勢(shì)滿(mǎn)足蒙日-安培方程,梯度映射的雅克比矩陣是Brenier勢(shì)能函數(shù)的海森矩陣(Hessian Matrix),

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片45

。

蒙日-安培方程解的存在性、唯一性等價(jià)于經(jīng)典的凸幾何中的亞歷山大定理(Alexandrov Theorem)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片46

圖2. 亞歷山大定理。

亞歷山大定理 如圖2所示,給定平面凸區(qū)域

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片47

,考察一個(gè)開(kāi)放的凸多面體

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片48

,選定一個(gè)面

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片49

的法向量記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片51

的投影和

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片53

相交的面積記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片54

,則總投影面積滿(mǎn)足

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片55

凸多面體可以被

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片56

確定。亞歷山大定理對(duì)任意維凸多面體都成立。

后面,我們可以看到,這個(gè)凸多面體就是Brenier勢(shì)能函數(shù),其梯度映射將一個(gè)概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片57

映到另外一個(gè)概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片58

,并且這兩個(gè)概率分布之間的Wasserstein 距離對(duì)偶于此凸多面體決定的體積。理論上,這個(gè)凸多面體可以作為W-GAN模型中的生成器G。

W-GAN中關(guān)鍵概念可視化

Wasserstein-GAN模型中,關(guān)鍵的概念包括概率分布(概率測(cè)度),概率測(cè)度間的最優(yōu)傳輸映射(生成器),概率測(cè)度間的Wasserstein距離。下面,我們?cè)敿?xì)解釋每個(gè)概念所對(duì)應(yīng)的構(gòu)造方法,和相應(yīng)的幾何意義。

概率分布 GAN模型中有兩個(gè)至關(guān)重要的概率分布(probability measure),一個(gè)是真實(shí)數(shù)據(jù)的概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片59

,一個(gè)是生成數(shù)據(jù)的概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片60

。另外,生成器的輸入隨機(jī)變量,滿(mǎn)足標(biāo)準(zhǔn)概率分布(高斯、均勻分布)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片61

圖3. 由保角變換(conformal mapping)誘導(dǎo)的圓盤(pán)上概率測(cè)度。

概率測(cè)度可以看成是一種推廣的面積(或者體積)。我們可以用幾何變換隨意構(gòu)造一個(gè)概率測(cè)度。如圖3所示,我們用三維掃描儀獲取一張人臉曲面,那么人臉曲面上的面積就是一個(gè)概率測(cè)度。我們縮放變換人臉曲面,使得總曲面等于

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片62

。然后,我們用保角變換將人臉曲面映射到平面圓盤(pán)。如圖3所示,保角變換將人臉曲面上的無(wú)窮小圓映到平面上的無(wú)窮小圓,但是,小圓的面積發(fā)生了變化。每對(duì)小圓的面積比率定義了平面圓盤(pán)上的概率密度函數(shù)。

我們可以將以上的描述嚴(yán)格化。人臉曲面記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片63

,其上具有黎曼度量

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片64

。平面圓盤(pán)記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片65

,平面坐標(biāo)為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片66

,平面的歐氏度量為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片67

。保角映射記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片68

則

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片69

,這里面積變換率函數(shù)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片70

給出了概率密度函數(shù)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片71

誘導(dǎo)了圓盤(pán)

上的一個(gè)概率測(cè)度

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片73

。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片74

圖4. 兩個(gè)概率測(cè)度之間的最優(yōu)傳輸映射。

最優(yōu)傳輸映射 圓盤(pán)上本來(lái)有均勻分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片75

,又有保角變換誘導(dǎo)的概率分布

,則存在唯一的最優(yōu)傳輸映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片77

。圖4顯示了這個(gè)映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片78

,中間幀到右?guī)挠成渚褪亲顑?yōu)傳輸映射。我們看到,鼻尖周?chē)膮^(qū)域被壓縮,概率密度提高。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片79

圖5. 離散最優(yōu)傳輸。

離散最優(yōu)傳輸映射 最優(yōu)傳輸映射的數(shù)值計(jì)算非常幾何化,因此可以直接被可視化。我們將目標(biāo)概率測(cè)度離散化,表示成一族離散點(diǎn),

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片80

;每點(diǎn)被賦予一個(gè)狄拉克測(cè)度,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片81

,滿(mǎn)足

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片82

。然后,我們求得單位圓盤(pán)的一個(gè)胞腔分解,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片83

,每個(gè)胞腔

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片84

映到相應(yīng)的目標(biāo)點(diǎn)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片85

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片86

。映射保持概率測(cè)度,胞腔的面積等于目標(biāo)測(cè)度,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片87

同時(shí)極小化傳輸代價(jià),

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片88

。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片89

圖6. 離散Brenier勢(shì)能函數(shù),離散最優(yōu)傳輸映射。

離散Brenier勢(shì)能 離散最優(yōu)傳輸映射是離散Brenier勢(shì)能函數(shù)的梯度映射。對(duì)于每一個(gè)目標(biāo)離散點(diǎn)

,我們構(gòu)造一個(gè)平面

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片91

,這里平面的截距

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片92

是未知變量。這些平面的上包絡(luò)(upper envelope)構(gòu)成一個(gè)開(kāi)放的凸多面體,恰為離散Brenier勢(shì)能函數(shù)

的圖(Graph),

。

圖6左側(cè)顯示了離散Briener勢(shì)能函數(shù)。凸多面體在平面上的投影構(gòu)成了平面的胞腔分解,凸多面體的每個(gè)面

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片95

被映成了一個(gè)胞腔

;每個(gè)面

的梯度都是

,因此Brenier勢(shì)能函數(shù)的梯度映射就是

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片99

。

根據(jù)保測(cè)度性質(zhì),每個(gè)胞腔

的面積應(yīng)該等于指定面積

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片101

。由此,我們調(diào)節(jié)平面的截距

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片102

以滿(mǎn)足這個(gè)限制。根據(jù)亞歷山大定理,這種截距存在,并且本質(zhì)上唯一。

離散Wasserstein距離 我們和丘成桐先生建立了變分法來(lái)求取平面的截距

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片103

。給定截距向量

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片104

,平面族為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片105

,其上包絡(luò)構(gòu)成的Briener勢(shì)能函數(shù)為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片106

, 上包絡(luò)的投影生成了平面的胞腔分解

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片107

, 胞腔的面積記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片108

。我們定義的能量為,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片109

這個(gè)能量在子空間

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片110

上是嚴(yán)格凹的,其唯一的全局最大點(diǎn)就給出了滿(mǎn)足保測(cè)度條件的截距。這個(gè)能量的非線(xiàn)性項(xiàng),實(shí)際上是上包絡(luò)截出的柱體體積,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片111

圖7給出了柱體體積的可視化,柱體體積

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片112

是凸函數(shù)。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片113

圖7. 離散Brenier勢(shì)能函數(shù)的圖截出的柱體體積

。

體積函數(shù)

和Wasserstein距離之間相差一個(gè)勒讓德變換(Legendre Transformation)。勒讓德變換非常幾何化,我們可以將其可視化。給定一個(gè)定義在實(shí)數(shù)軸上的二階光滑凸函數(shù)
,其圖

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片116

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片117

是一條凸曲線(xiàn),這條凸曲線(xiàn)由其所有的切線(xiàn)包絡(luò)而成。如果,在任意一點(diǎn)

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片118

,函數(shù)的切線(xiàn)的斜率為y,則此切線(xiàn)的截距滿(mǎn)足

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片119

這被稱(chēng)為是函數(shù)

的勒讓德變換。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片121

以切線(xiàn)的斜率為參數(shù),以切線(xiàn)的截距為函數(shù)值。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片122

圖8.凸函數(shù)的圖像由其切線(xiàn)包絡(luò)而成,切線(xiàn)集合被表示成原函數(shù)的勒讓德對(duì)偶。

因?yàn)?/span>

的凸性,映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片124

是微分同胚,記為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片125

。那么,原函數(shù)和勒讓德變換后的函數(shù)滿(mǎn)足關(guān)系:

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片126

這里c,d是常數(shù)。原函數(shù)和其勒讓德變換的直觀圖解由圖9給出。我們?cè)趚y-平面上畫(huà)出曲線(xiàn)

,曲線(xiàn)下面的面積是

,曲線(xiàn)上面的面積是勒讓德變換

。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片130

圖9. 圖解勒讓德變換。

勒讓德變換的幾何圖景對(duì)任意維都對(duì)。我們下面來(lái)考察體積函數(shù)

的勒讓德變換

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片132

。根據(jù)定義,

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片133

假如我們變動(dòng)截距

,或者等價(jià)地變動(dòng)胞腔面積

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片135

,考察兩個(gè)胞腔交界處

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片136

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片137

p本來(lái)屬于

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片138

,變化后屬于

,所有這種點(diǎn)的總面積為

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片140

。則為Wasserstein距離帶來(lái)的變化是:

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片141

因此,總的Wasserstein距離的變化是

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片142

。

由此我們看到Wasserstein距離等于

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片143

其非線(xiàn)性部分是柱體積的勒讓德變換。

總結(jié)

通過(guò)以上討論,我們看到給定兩個(gè)概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片144

,則存在唯一的一個(gè)凸函數(shù)(Brenier 勢(shì)函數(shù))

,其梯度映射

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片146

把一個(gè)概率分布

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片147

映成了另外一個(gè)概率分布。這個(gè)最優(yōu)傳輸映射的傳輸代價(jià)就給出了兩個(gè)概率分布之間的Wasserstein距離。Brenier勢(shì)能函數(shù),Wasserstein距離都有明晰的幾何解釋。

在Wasserstein-GAN模型中,通常生成器和判別器是用深度神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)的。根據(jù)最優(yōu)傳輸理論,我們可以用Briener勢(shì)函數(shù)來(lái)代替深度神經(jīng)網(wǎng)絡(luò)這個(gè)黑箱,從而使得整個(gè)系統(tǒng)變得透明。在另一層面上,深度神經(jīng)網(wǎng)絡(luò)本質(zhì)上是在訓(xùn)練概率分布間的傳輸映射,因此有可能隱含地在學(xué)習(xí)最優(yōu)傳輸映射,或者等價(jià)地Brenier勢(shì)能函數(shù)。對(duì)這些問(wèn)題的深入了解,將有助于我們看穿黑箱。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱有限元理論圖片148

圖10. 基于二維最優(yōu)傳輸映射計(jì)算的曲面保面積參數(shù)化(area preserving parameterization),蘇政宇作。

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片149

看穿機(jī)器學(xué)習(xí)（W-GAN模型）的黑箱cae-fea-theory圖片150

圖11. 基于三維最優(yōu)傳輸映射計(jì)算的保體積參數(shù)化 (volume preserving parameterization),蘇科華作。

(在2016年,老顧撰寫(xiě)了多篇有關(guān)最優(yōu)傳輸映射的博文,非常欣慰地看到這些文章啟發(fā)了一些有心的學(xué)者,發(fā)表了SIGGRAPH論文,申請(qǐng)了NSF基金。感謝大家關(guān)注老顧談幾何,希望繼續(xù)給大家靈感。)

參考資料

[1]Arjovsky, M. & Bottou, L.eon (2017) Towards Principled Methods for Training Generative Adversarial Networks

[2] Arjovsky, M., Soumith, C. & Bottou, L.eon (2017) Wasserstein GAN.

[3] Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles forMinkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere
Equations, Vol. 20, No. 2, pp. 383-398, Asian Journal of Mathematics (AJM), April 2016.

開(kāi)放分享：優(yōu)質(zhì)有限元技術(shù)文章,助你自學(xué)成才