自強課程

課程名稱

【平日實體班】PyTorch 影像生成與視覺語言模型實作熱烈招生中

💥掌握生成模型、視覺語言與多模態實作，親手用 PyTorch 打造專屬 AI 影像與互動應用！💥

📢早安鳥方案：會員於115/1/11前(含)報名，可享超值優惠價8500元(請記得加入會員喔)
📣舊生續報優惠：凡曾上過林哲聰老師Pytorch系列課程，即可再折500元💥~煩請來電或來信告知!!

📌每位學員必須有自己的Google 帳號以在Colab進行實作

⭐若您想全面瞭解深度學習並涵蓋多種應用領域（分類、偵測、生成等）
🉑➡ 15W302【平日實體班】PyTorch深度學習模型全解析(從CNN到Transformer) ⬅🤳請點課程
⭐若您想全面掌握生成模型與多模態應用的實作能力
🉑➡ 15W303【平日實體班】PyTorch 影像生成與視覺語言模型實作 ⬅🤳請點課程

課程代碼：

15W303

上課時間：

115/1/27、2/3，每週二，09:30-16:30，共二週12小時。

上課時數：

12 小時

上課地點：

清華大學第四綜合大樓(清華大學東側門入口處左手邊即為自強基金會大門入口/清大郵局左側)

課程費用：

9500元 (符合超值優惠價格者需送出報名表後，系統發出報名成功回函確認金額。)

超值優惠：

VIP企業會員價：VIP企業會員可享優惠價格 (按我)
會員優惠價： 會員於開課前七天完成報名繳費者可享會員優惠價 9000 元
團報價方案：會員2人同行，可享同行價 8500 元(須於課前告知)
會員紅利折抵：本課程歡迎使用紅利折抵，最高可使用 100 點

課程目標：

1️⃣協助具Python程式語言基礎之學員學會運用PyTorch此深度學習框架開發深度學習模型，尤其是生成式對抗網路，擴散模型以及視覺語言模型。
2️⃣未來可銜接各類進階深度學習模型開發課程。
3️⃣學會如何運用Stable Diffusion產生我們心目中的那張”圖”!
4️⃣學會如何運用開源模型開發各類視覺語言模模型應用。

課程特色：

1️⃣ 生成式影像模型為核心：
(1)涵蓋 GAN 的完整演進
從 Ian Goodfellow 的初代 GAN、DCGAN、Pix2Pix、CycleGAN 到 StarGAN，完整學習生成式對抗網路的理論與實作。
(2)影像生成與轉換能力
　－StyleGAN：生成高真實度人臉　－StarGAN：同一模型可改變人臉屬性（年齡、髮型、膚色）
　－AugGAN / CycleGAN：場景轉換（白天/夜晚、馬變斑馬）
　－DeepFake 應用：生成技術進入極高擬真層次
(3)Diffusion Model 技術引入
　－透過逐步加噪/去噪生成高品質影像
　－Stable Diffusion 利用潛空間（Latent Space）減少運算量，讓個人電腦也可高效生成影像
2️⃣ 高階影像微調與控制技術
　－ControlNet：精準控制影像姿態、邊緣與深度資訊
　－DreamBooth：學習特定人物、物件或風格，無需重訓整個模型
　－LoRA (Low-Rank Adaptation)：輕量化微調特定風格
　－Textual Inversion：學習新詞彙或抽象概念，生成個人化影像
　－Instruct-Pix2Pix：結合 GPT 指令理解能力，用自然語言修改影像
3️⃣ 視覺語言模型 (VLM) 與多模態理解
　－CLIP：圖文對齊，實現零樣本分類 (Zero-shot classification)
　－BLIP / BLIP2：圖像描述（Captioning）、視覺問答（VQA）
　－LLaVA：多模態對話式應用，可「看圖聊天」、推論影像語意
　－GPT-4V：進階多模態理解，可讀取螢幕截圖、文件、圖表與照片，模糊文字與影像界線
4️⃣ 實作導向、PyTorch 深度學習框架
(1)從基礎理論到完整模型實作：
　－手寫數字影像生成 (初代 GAN)
　－人臉生成 (DCGAN)
　－成對與非成對影像轉換 (Pix2Pix、CycleGAN)
　－擴散模型實作與微調（DreamBooth、LoRA、Textual Inversion）
　－視覺語言模型實作（CLIP、BLIP2、LLaVA）
(2)強調從理論 → 實作 → 應用，讓學員能自己開發多模態 AI 專案
5️⃣ 課程目標與學習成果
　－學會 GAN、Diffusion、VLM 的原理與實作
　－運用 Stable Diffusion 與開源模型生成個人化影像
　－掌握多模態 AI 技術，能實現圖像生成、轉換、描述、視覺問答
　－為進階深度學習模型開發或 AI 創意應用奠定基礎

修課條件：

具備機器學習基礎知識、以及基礎Python程式開發經驗。

課程大綱：

1. 生成式對抗網路原理以及量化指標
2. 手寫數字影像生成:運用Ian Goodfellow所提出的初代GAN實現手寫數字生成。
2. 基礎人臉影像生成: 運用DCGAN實現人臉影像生成(使用CelebA dataset)。
3. 成對影像轉換:運用Pix2pix模型實現建築物影像轉換:給定建築物外觀草圖，將這些草圖轉換為真實的建築物外觀。
4. 非成對影像轉換: 運用能從非成對影像中學習的CycleGAN實現馬變斑馬。
5. 日夜街景影像轉換:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚。8. 擴散模型基本原理
9. 運用(使用CelebA dataset)
10 運用Dreambooth產生特定物品/動物在各種情境下的影像
11. 使用LORA產生特定風格(例如cyberpunk)的影像
12. 使用Textual Inversion產生特定物品/動物在各種情境下的影像
13. 使用Instruct-Pix2Pix修改一張圖片的內容，例如將照片中的人物變成機器人
14. Vision-Language Models (VLM) 理論與應用:介紹 CLIP 的圖文對齊原理，進行零樣本分類與圖文檢索。
15. BLIP2 / LLaVA 多模態生成實作: 透過 BLIP2 實現圖像描述 (Captioning)，使用 LLaVA 進行視覺問答 (VQA)

課程師資：

自強基金會林老師
現任瑞典Chalmers University of Technology博士後研究員

經歷
▻ 工研院機械所副研究員/研究員/資深研究員
▻ 馬來西亞偉特科技公司(ViTrox)研發顧問
▻ 馬來西亞10 EPOCH科技公司研發顧問
▻ 加州大學聖塔芭芭拉分校資工系訪問研究員

專長
電腦視覺、機器學習、深度學習及其在駕駛輔助系統以及自駕車之各種應用

主辦單位:

財團法人自強工業科學基金會

學員須知：

報名與繳退費方法｜常見問題與解決｜會員紅利積點活動辦法

注意事項

清華大學學生優惠方案：清華大學學生可享課程最低優惠價─VIP企業會員優惠價，完成報名後須來電告知修改費用(使用本優惠價須於報名同時檢附在學中有效的清華大學學生證，且不得開立抬頭「國立清華大學」以外的三聯式公司發票)。

若遇不可預測之突發因素，基金會保有相關課程調整、取消及講師之變動權。

無紙化環境，輕鬆達到減碳救地球，即日起16小時以上課程結業證書或未達16小時課程上課證明皆以電子方式提供。

使用VIP廠商優惠之學員，上課當日報到時須查核該公司識別證(相關證明資料)。

會員紅利折抵限以原價或會員優惠價再折抵，其他方案不適用。

課前請詳閱簡章之課程內容或利用課程諮詢電話。

課程嚴禁旁聽，亦不可攜眷參與。