自強課程

課程名稱
【平日實體班】PyTorch 影像生成與視覺語言模型實作
熱烈招生中

💥掌握生成模型、視覺語言與多模態實作,親手用 PyTorch 打造專屬 AI 影像與互動應用!💥
📢早安鳥方案:會員於115/1/11前(含)報名,可享超值優惠價8500元(請記得加入會員喔)
📣舊生續報優惠:凡曾上過林哲聰老師Pytorch系列課程,即可再折500元💥~煩請來電或來信告知!!
📢早安鳥方案:會員於115/1/11前(含)報名,可享超值優惠價8500元(請記得加入會員喔)
📣舊生續報優惠:凡曾上過林哲聰老師Pytorch系列課程,即可再折500元💥~煩請來電或來信告知!!
📌每位學員必須有自己的Google 帳號以在Colab進行實作

⭐若您想全面瞭解深度學習並涵蓋多種應用領域(分類、偵測、生成等)
🉑➡ 15W302【平日實體班】PyTorch深度學習模型全解析(從CNN到Transformer) ⬅🤳請點課程
⭐若您想全面掌握生成模型與多模態應用的實作能力
🉑➡ 15W303【平日實體班】PyTorch 影像生成與視覺語言模型實作 ⬅🤳請點課程

⭐若您想全面瞭解深度學習並涵蓋多種應用領域(分類、偵測、生成等)
🉑➡ 15W302【平日實體班】PyTorch深度學習模型全解析(從CNN到Transformer) ⬅🤳請點課程
⭐若您想全面掌握生成模型與多模態應用的實作能力
🉑➡ 15W303【平日實體班】PyTorch 影像生成與視覺語言模型實作 ⬅🤳請點課程
課程代碼:
15W303
上課時間:
115/1/27、2/3,每週二,09:30-16:30,共二週12小時。
上課時數:
12 小時
課程費用:
9500元
(符合超值優惠價格者需送出報名表後,系統發出報名成功回函確認金額。)
超值優惠:
- VIP企業會員價:VIP企業會員可享優惠價格 (按我)
- 會員優惠價: 會員於開課前七天完成報名繳費者可享會員優惠價 9000 元
- 團報價方案:會員2人同行,可享同行價 8500 元(須於課前告知)
- 會員紅利折抵:本課程歡迎使用紅利折抵,最高可使用 100 點
課程目標:
1️⃣協助具Python程式語言基礎之學員學會運用PyTorch此深度學習框架開發深度學習模型,尤其是生成式對抗網路,擴散模型以及視覺語言模型。
2️⃣未來可銜接各類進階深度學習模型開發課程。
3️⃣學會如何運用Stable Diffusion產生我們心目中的那張”圖”!
4️⃣學會如何運用開源模型開發各類視覺語言模模型應用。
2️⃣未來可銜接各類進階深度學習模型開發課程。
3️⃣學會如何運用Stable Diffusion產生我們心目中的那張”圖”!
4️⃣學會如何運用開源模型開發各類視覺語言模模型應用。
課程特色:
1️⃣ 生成式影像模型為核心:
(1)涵蓋 GAN 的完整演進
從 Ian Goodfellow 的初代 GAN、DCGAN、Pix2Pix、CycleGAN 到 StarGAN,完整學習生成式對抗網路的理論與實作。
(2)影像生成與轉換能力
-StyleGAN:生成高真實度人臉 -StarGAN:同一模型可改變人臉屬性(年齡、髮型、膚色)
-AugGAN / CycleGAN:場景轉換(白天/夜晚、馬變斑馬)
-DeepFake 應用:生成技術進入極高擬真層次
(3)Diffusion Model 技術引入
-透過逐步加噪/去噪生成高品質影像
-Stable Diffusion 利用潛空間(Latent Space)減少運算量,讓個人電腦也可高效生成影像
2️⃣ 高階影像微調與控制技術
-ControlNet:精準控制影像姿態、邊緣與深度資訊
-DreamBooth:學習特定人物、物件或風格,無需重訓整個模型
-LoRA (Low-Rank Adaptation):輕量化微調特定風格
-Textual Inversion:學習新詞彙或抽象概念,生成個人化影像
-Instruct-Pix2Pix:結合 GPT 指令理解能力,用自然語言修改影像
3️⃣ 視覺語言模型 (VLM) 與多模態理解
-CLIP:圖文對齊,實現零樣本分類 (Zero-shot classification)
-BLIP / BLIP2:圖像描述(Captioning)、視覺問答(VQA)
-LLaVA:多模態對話式應用,可「看圖聊天」、推論影像語意
-GPT-4V:進階多模態理解,可讀取螢幕截圖、文件、圖表與照片,模糊文字與影像界線
4️⃣ 實作導向、PyTorch 深度學習框架
(1)從基礎理論到完整模型實作:
-手寫數字影像生成 (初代 GAN)
-人臉生成 (DCGAN)
-成對與非成對影像轉換 (Pix2Pix、CycleGAN)
-擴散模型實作與微調(DreamBooth、LoRA、Textual Inversion)
-視覺語言模型實作(CLIP、BLIP2、LLaVA)
(2)強調從理論 → 實作 → 應用,讓學員能自己開發多模態 AI 專案
5️⃣ 課程目標與學習成果
-學會 GAN、Diffusion、VLM 的原理與實作
-運用 Stable Diffusion 與開源模型生成個人化影像
-掌握多模態 AI 技術,能實現 圖像生成、轉換、描述、視覺問答
-為進階深度學習模型開發或 AI 創意應用奠定基礎
(1)涵蓋 GAN 的完整演進
從 Ian Goodfellow 的初代 GAN、DCGAN、Pix2Pix、CycleGAN 到 StarGAN,完整學習生成式對抗網路的理論與實作。
(2)影像生成與轉換能力
-StyleGAN:生成高真實度人臉 -StarGAN:同一模型可改變人臉屬性(年齡、髮型、膚色)
-AugGAN / CycleGAN:場景轉換(白天/夜晚、馬變斑馬)
-DeepFake 應用:生成技術進入極高擬真層次
(3)Diffusion Model 技術引入
-透過逐步加噪/去噪生成高品質影像
-Stable Diffusion 利用潛空間(Latent Space)減少運算量,讓個人電腦也可高效生成影像
2️⃣ 高階影像微調與控制技術
-ControlNet:精準控制影像姿態、邊緣與深度資訊
-DreamBooth:學習特定人物、物件或風格,無需重訓整個模型
-LoRA (Low-Rank Adaptation):輕量化微調特定風格
-Textual Inversion:學習新詞彙或抽象概念,生成個人化影像
-Instruct-Pix2Pix:結合 GPT 指令理解能力,用自然語言修改影像
3️⃣ 視覺語言模型 (VLM) 與多模態理解
-CLIP:圖文對齊,實現零樣本分類 (Zero-shot classification)
-BLIP / BLIP2:圖像描述(Captioning)、視覺問答(VQA)
-LLaVA:多模態對話式應用,可「看圖聊天」、推論影像語意
-GPT-4V:進階多模態理解,可讀取螢幕截圖、文件、圖表與照片,模糊文字與影像界線
4️⃣ 實作導向、PyTorch 深度學習框架
(1)從基礎理論到完整模型實作:
-手寫數字影像生成 (初代 GAN)
-人臉生成 (DCGAN)
-成對與非成對影像轉換 (Pix2Pix、CycleGAN)
-擴散模型實作與微調(DreamBooth、LoRA、Textual Inversion)
-視覺語言模型實作(CLIP、BLIP2、LLaVA)
(2)強調從理論 → 實作 → 應用,讓學員能自己開發多模態 AI 專案
5️⃣ 課程目標與學習成果
-學會 GAN、Diffusion、VLM 的原理與實作
-運用 Stable Diffusion 與開源模型生成個人化影像
-掌握多模態 AI 技術,能實現 圖像生成、轉換、描述、視覺問答
-為進階深度學習模型開發或 AI 創意應用奠定基礎
修課條件:
具備機器學習基礎知識、以及基礎Python程式開發經驗。
課程大綱:
1. 生成式對抗網路原理以及量化指標
2. 手寫數字影像生成:運用Ian Goodfellow所提出的初代GAN實現手寫數字生成。
2. 基礎人臉影像生成: 運用DCGAN實現人臉影像生成(使用CelebA dataset)。
3. 成對影像轉換:運用Pix2pix模型實現建築物影像轉換:給定建築物外觀草圖,將這些草圖轉換為真實的建築物外觀。
4. 非成對影像轉換: 運用能從非成對影像中學習的CycleGAN實現馬變斑馬。
5. 日夜街景影像轉換:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚。8. 擴散模型基本原理
9. 運用(使用CelebA dataset)
10 運用Dreambooth產生特定物品/動物在各種情境下的影像
11. 使用LORA產生特定風格(例如cyberpunk)的影像
12. 使用Textual Inversion產生特定物品/動物在各種情境下的影像
13. 使用Instruct-Pix2Pix修改一張圖片的內容,例如將照片中的人物變成機器人
14. Vision-Language Models (VLM) 理論與應用:介紹 CLIP 的圖文對齊原理,進行零樣本分類與圖文檢索。
15. BLIP2 / LLaVA 多模態生成實作: 透過 BLIP2 實現圖像描述 (Captioning),使用 LLaVA 進行視覺問答 (VQA)
2. 手寫數字影像生成:運用Ian Goodfellow所提出的初代GAN實現手寫數字生成。
2. 基礎人臉影像生成: 運用DCGAN實現人臉影像生成(使用CelebA dataset)。
3. 成對影像轉換:運用Pix2pix模型實現建築物影像轉換:給定建築物外觀草圖,將這些草圖轉換為真實的建築物外觀。
4. 非成對影像轉換: 運用能從非成對影像中學習的CycleGAN實現馬變斑馬。
5. 日夜街景影像轉換:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚。8. 擴散模型基本原理
9. 運用(使用CelebA dataset)
10 運用Dreambooth產生特定物品/動物在各種情境下的影像
11. 使用LORA產生特定風格(例如cyberpunk)的影像
12. 使用Textual Inversion產生特定物品/動物在各種情境下的影像
13. 使用Instruct-Pix2Pix修改一張圖片的內容,例如將照片中的人物變成機器人
14. Vision-Language Models (VLM) 理論與應用:介紹 CLIP 的圖文對齊原理,進行零樣本分類與圖文檢索。
15. BLIP2 / LLaVA 多模態生成實作: 透過 BLIP2 實現圖像描述 (Captioning),使用 LLaVA 進行視覺問答 (VQA)
課程師資:
自強基金會 林老師
現任瑞典Chalmers University of Technology博士後研究員
經歷
▻ 工研院機械所副研究員/研究員/資深研究員
▻ 馬來西亞偉特科技公司(ViTrox)研發顧問
▻ 馬來西亞10 EPOCH科技公司研發顧問
▻ 加州大學聖塔芭芭拉分校資工系訪問研究員
專長
電腦視覺、機器學習、深度學習及其在駕駛輔助系統以及自駕車之各種應用
現任瑞典Chalmers University of Technology博士後研究員
經歷
▻ 工研院機械所副研究員/研究員/資深研究員
▻ 馬來西亞偉特科技公司(ViTrox)研發顧問
▻ 馬來西亞10 EPOCH科技公司研發顧問
▻ 加州大學聖塔芭芭拉分校資工系訪問研究員
專長
電腦視覺、機器學習、深度學習及其在駕駛輔助系統以及自駕車之各種應用
主辦單位:
財團法人自強工業科學基金會
學員須知:
注意事項