關於作者：彭博，人工智慧、量化交易、區塊鏈領域的資深技術專家，有 20 年以上的研發經驗。在人工智慧與資訊科技方面，對深度學習、機器學習、計算機圖形學、智慧硬體等有較為深入的研究；在量化交易方面，曾在全球最大的外匯對沖基金負責程式化交易，對市場的微觀和宏觀行為有較為深入的理解；在區塊鏈方面，對智慧合約、DApp 開發和自動交易有較為深入的實踐。知乎上科技領域的大 V，在專欄撰有大量技術文章。

本文內容節選自《深度摺積網路：原理與實踐》第 8.5 節。

大家對於 GAN 都已經很熟悉了，但 GAN 的訓練目前仍然存在樣式坍塌等等難題。目前還有其他採用深度網路的生成模型方法，例如 AE，它們的思想可互補，提高生成影象的質量和穩定性，典型的例子是 CVAE-GAN。在此我們對這些方法做簡介。

自編碼器：從AE到VAE

自編碼器（auto-encoder，AE）是經典的生成模型方法，其架構如下圖所示。

AE 可分為兩個網路：

編碼（encoder）網路，負責從 x 到 z，可稱為 E；
解碼（decoder）網路，負責從 z 到 x，可稱為 G，因為它和 GAN 中的生成網路都是從 z 到 x。

可將從 x 到 z 看成是壓縮資訊的過程，從 z 到 x 看成是解壓縮的過程。例如，如果 x 是 64*64 的彩色影象，那麼它有 3*64*64=12288 維。而 z 往往只有 50 到 200 維。

AE 和 GAN 的區別在於，AE 中沒有更先進的判別網路（D 網路），AE 的最佳化標的只是讓 x 和 G(E(x)) 儘量在畫素上接近。如本書的前文所述，這並不是個好標的，因此 AE 生成的影象往往很模糊，例如 AE 和 GAN 在 Fashion-MNIST 資料集的效果對比如下圖所示。

不過，AE 相對於 GAN 也有長處，就是生成的影象更均勻，光滑，訓練過程更穩定。因此研究人員提出了多種將 AE 和 GAN 結合的方法，後文會介紹的 CVAE-GAN 是效果出色的例子。

AE 的重要發展是 VAE（Variational Auto-Encoder，變分自編碼器，https://arxiv.org/pdf/1312.6114）。它能解決 AE 的一個缺點：AE 的 G 只能保證將由 x 生成的 z 還原為 x。如果我們隨機生成 1 個 z，經過 AE 的 G 後往往不會得到有效的影象。

而 VAE 可讓 E 生成的 z 儘量符合某個指定分佈，例如標準差為 1 的多維正態分佈。那麼此時只需從這個分佈取樣出 z，就能透過 G 得到有效的影象。具體而言，這是透過一個引數化技巧（reparameterization trick）實現，可參閱 VAE 的原始論文。

舉例，對於 MNIST 資料集，如果要求 z 是 2 維的，最終效果如下圖所示。

可見，無論選取怎樣的 z 坐標，都能得到較為合理的數字影象。

逐點生成：PixelRNN和PixelCNN系列

由 Google 提出的 PixelRNN（https://arxiv.org/abs/1601.06759）和 PixelCNN（https://arxiv.org/abs/1606.05328）是生成模型的另一種思路。

它的方法非常直接：從左到右，從上到下，逐步生成一個個畫素，最終生成整張影象。如果讀者對於迴圈神經網路（RNN）熟悉，會意識到這是一個很適合 RNN 的問題。

基本原理如下圖所示，以之前生成的畫素作為輸入，輸出對於下一個畫素的值的統計分佈的預測，然後從分佈取樣出下一個畫素。

可以想象，它會很適合生成小圖。例如下圖中是它生成的珊瑚礁影象，色彩很鮮艷。

而它的缺點無疑就是速度，以及目前仍然難以生成大圖。於是讀者可能會問，是否可構建出 PixelGAN？答案是肯定的（https://arxiv.org/abs/1706.00531）。

最後，Pixel 系列的思想尤其適合生成音訊和文字，例如 WaveNet（https://deepmind.com/blog/wavenet-generative-model-raw-audio/），它用此前生成的音訊取樣作為輸入，生成下一個取樣，不斷重覆此過程，最終可生成高質量的語音和音樂，如下圖所示。

將VAE和GAN結合：CVAE-GAN

CVAE-GAN 架構的論文是《 CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training》（https://arxiv.org/pdf/1703.10155v1.pdf），其中 C 代表能用分類作為輸入，生成指定分類的影象。它在各個分類上生成的影象效果都相當好，如下圖所示。