自強課程

課程名稱

【平日實體班】PyTorch深度學習生成模型實作:從GAN到Stable Diffusion 熱烈招生中線上/實體

📢早安鳥方案：會員於12/1前(含)報名，可享超值優惠價8500元(記得加入會員才能享早鳥方案喔)
📣舊生續報優惠：凡曾上過林哲聰老師Pytorch系列課程，即可再折500元💥~煩請來電或來信告知!!

每位學員必須有自己的Google 帳號以在Colab進行實作

課程代碼：

13C356-1

上課時間：

2025/1/6(一)、1/7(二)，09:00-16:00，共二天12小時。

上課時數：

12 小時

上課地點：

清華大學第四綜合大樓(清華大學東側門入口處左手邊即為自強基金會大門入口/清大郵局左側)

課程費用：

9500元 (符合超值優惠價格者需送出報名表後，系統發出報名成功回函確認金額。)

超值優惠：

VIP企業會員價：VIP企業會員可享優惠價格 (按我)
會員優惠價： 會員於開課前七天完成報名繳費者可享會員優惠價 9000 元
團報價方案：會員2人同行，可享同行價 8500 元(須於課前告知)
會員紅利折抵：本課程歡迎使用紅利折抵，最高可使用 100 點

課程目標：

１．協助具Python程式語言基礎之學員學會運用PyTorch此深度學習框架開發深度學習模型，尤其是生成式對抗網路與擴散模型。
２．未來可銜接各類進階深度學習模型開發課程
３．學會如何運用Stable Diffusion產生我們心目中的那張”圖”!

課程特色：

卷積神經網路之父- Yann LeCun曾說過生成式對抗網路(Generative Adversarial Network, GAN)是過去10年機器學習中最有趣的想法，自從2014 年Ian Goodfellow提出初版的GAN後，大量深度學習研究人員紛紛為這模型的潛力所著迷而投入此領域的研發，過去這幾年，更新、更強大的GAN不斷地被提出，使得各種影像生成或是影像轉換等應用的效果愈來愈好，例如StyleGAN已經能生成極為真實的人臉影像，StarGAN可分別轉換人臉的髮型、年齡或膚色; AugGAN可將一張白天影像轉換成晚上、雨天甚至是雨天夜晚，而這可以幫助自動駕駛車辨識系統產生巨量各式各樣行車情境下的訓練資料，以提升辨識率。DeepFake技術也是基於GAN模型的持續進化，許多網路流傳的名人影像甚至無法分別其是否為偽造的，例如抖音上的deeptomcruise　(https://www.tiktok.com/@deeptomcruise)
近年來，Diffusion model已被證實效果比GAN更好，2022年StableDiffusion橫空出世，只要給予一段充滿細節的文字，其生成的影像極為真實，此模型的主要原理來自同一年的LDM(Latent Diffusion Model)，而Diffusion model的主要突破來自2020年的DDPM模型，LDM最主要的突破在於將denoising的過程實現在Latent vector而不是影像中，因而能大幅提升模型訓練以及推論的速度。
本課程在Diffusion model將會介紹經典的DDPM (Denoising Diffusion Probabilistic Models), DDIM(Denoising Diffusion Implicit Models)以及LDM如何實現影像生成，Palette是如何運用Diffusion model實現影像轉換。
2022年底開始，如何微調Stable Diffusion成為了一門顯學，Stable Diffusion剛出現時為人所詬病的就是人物的手指往往很不自然，隨著Controlnet的出現，我們可以控制生成人物的姿態，以及自然的手部，甚至我們可以文字搭配素描/深度圖/光線分佈，來產生我們心目中的那張"圖"。
為了讓Stable Diffusion學會新的概念，我們可以使用Dreambooth微調模型，但又不會讓強大的Stable Diffusion忘記特定的影像, LORA的出現讓微調Stable Diffusion的檔案小到幾個MB，我們只要找到公開的LORA檔案，我們也可以生成某個明星，例如"迪麗熱巴"，的照片，甚至我們可以使用Textual Inversion的技術，產生特定概念的token，讓Stable Diffusion學會生成在某種場景下的某種特定物品(例如小時候爸媽送你的一個玩偶，但你連這個玩偶的名字都不知道)。
最後，Stable Diffusion只能透過文字產生影像，我們可否使用文字這樣的指令修改一張圖的內容呢?Instruct-Pix2Pix透過GPT模型學習將影像生成指令轉換為修改指令，搭配Prompt-to-Prompt產生成對的影像，最終得以微調Stable Diffusion，使其學會如何透過指令”修改”影像而不是”生成”影像。

本課程所有的程式都將在Colab此雲端平台上開發，具體實作內容包括了2014年第一代的GAN，一路到近年來的Stable Diffusion，具體的課程內容包括了。
1. 生成式對抗網路原理以及量化指標
2. 手寫數字影像生成:運用Ian Goodfellow所提出的初代GAN實現手寫數字生成。
2. 基礎人臉影像生成: 運用DCGAN實現人臉影像生成(使用CelebA dataset)。
3. 成對影像轉換:運用Pix2pix模型實現建築物影像轉換:給定建築物外觀草圖，將這些草圖轉換為真實的建築物外觀。
4. 非成對影像轉換: 運用能從非成對影像中學習的CycleGAN實現馬變斑馬。
5. 日夜街景影像轉換:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚。
7. 多領域(Multi-Domain)人臉轉換: 運用StarGAN，使用同一個模型即可分別轉換人臉的膚色、年齡或性別的轉換
8. 擴散模型基本原理
9. 運用DDPM/DDIM/LDM實現人臉影像生成(使用CelebA dataset)
10 運用Dreambooth產生特定物品/動物在各種情境下的影像
11. 使用LORA產生特定風格(例如cyberpunk)的影像
12. 使用Textual Inversion產生特定物品/動物在各種情境下的影像
13. 使用Instruct-Pix2Pix修改一張圖片的內容，例如將照片中的人物變成機器人

修課條件：

具備機器學習基礎知識、以及基礎Python程式開發經驗。

課程大綱：

1. 生成式對抗網路基本原理與量化指標
2. 基礎GAN原理與手寫數字影像生成實作
3. 基礎人臉影像生成原理實作(DCGAN)
4. 成對與非成對影像轉換原理與實作(Pix2pix與CycleGAN)
5. CyEDA原理與日夜街景影像轉換實作
6. StarGAN多領域人臉轉換
7. 擴散模型基本原理
8. DDPM原理與實作
9. DDIM原理與實作
10.LDM原理與實作
11.運用Palette實現影像轉換(使用Carla街景資料集)
12.Stable Diffusion原理與實作
13.Stable Diffusion微調:LORA原理與實作
14.Stable Diffusion微調:Dreambooth原理與實作
15.Stable Diffusion微調:Textual Inversion原理與實作
16.Stable Diffusion微調:Instruct-Pix2Pix 原理與實作

課程師資：

自強基金會林老師
現任瑞典Chalmers University of Technology博士後研究員

經歷
▻ 工研院機械所副研究員/研究員/資深研究員
▻ 馬來西亞偉特科技公司(ViTrox)研發顧問
▻ 馬來西亞10 EPOCH科技公司研發顧問
▻ 加州大學聖塔芭芭拉分校資工系訪問研究員

專長
電腦視覺、機器學習、深度學習及其在駕駛輔助系統以及自駕車之各種應用

主辦單位:

財團法人自強工業科學基金會