自強課程

課程名稱
【平日實體班】PyTorch 影像生成與視覺語言模型實作 熱烈招生中
💥掌握生成模型、視覺語言與多模態實作,親手用 PyTorch 打造專屬 AI 影像與互動應用!💥

📢早安鳥方案:會員於115/1/11前(含)報名,可享超值優惠價8500元(請記得加入會員喔)
📣舊生續報優惠:凡曾上過林哲聰老師Pytorch系列課程,即可再折500元💥~煩請來電或來信告知!!
📌每位學員必須有自己的Google 帳號以在Colab進行實作

⭐若您想全面瞭解深度學習並涵蓋多種應用領域(分類、偵測、生成等)
🉑➡ 15W302【平日實體班】PyTorch深度學習模型全解析(從CNN到Transformer) ⬅🤳請點課程
⭐若您想全面掌握生成模型與多模態應用的實作能力
🉑➡ 15W303【平日實體班】PyTorch 影像生成與視覺語言模型實作 ⬅🤳請點課程
 課程代碼:
15W303
 上課時間:
115/1/27、2/3,每週二,09:30-16:30,共二週12小時。 
 上課時數:
12 小時
 課程費用:
9500元 (符合超值優惠價格者需送出報名表後,系統發出報名成功回函確認金額。)
 超值優惠:
  • VIP企業會員價:VIP企業會員可享優惠價格 (按我)
  • 會員優惠價: 會員於開課前七天完成報名繳費者可享會員優惠價 9000 元
  • 團報價方案:會員2人同行,可享同行價 8500 元(須於課前告知)
  • 會員紅利折抵:本課程歡迎使用紅利折抵,最高可使用 100 點
 課程目標:
1️⃣協助具Python程式語言基礎之學員學會運用PyTorch此深度學習框架開發深度學習模型,尤其是生成式對抗網路,擴散模型以及視覺語言模型。
2️⃣未來可銜接各類進階深度學習模型開發課程。
3️⃣學會如何運用Stable Diffusion產生我們心目中的那張”圖”!
4️⃣學會如何運用開源模型開發各類視覺語言模模型應用。
 課程特色:
1️⃣ 生成式影像模型為核心:
(1)涵蓋 GAN 的完整演進
從 Ian Goodfellow 的初代 GAN、DCGAN、Pix2Pix、CycleGAN 到 StarGAN,完整學習生成式對抗網路的理論與實作。
(2)影像生成與轉換能力
 -StyleGAN:生成高真實度人臉 -StarGAN:同一模型可改變人臉屬性(年齡、髮型、膚色)
 -AugGAN / CycleGAN:場景轉換(白天/夜晚、馬變斑馬)
 -DeepFake 應用:生成技術進入極高擬真層次
(3)Diffusion Model 技術引入
 -透過逐步加噪/去噪生成高品質影像
 -Stable Diffusion 利用潛空間(Latent Space)減少運算量,讓個人電腦也可高效生成影像
2️⃣ 高階影像微調與控制技術
 -ControlNet:精準控制影像姿態、邊緣與深度資訊
 -DreamBooth:學習特定人物、物件或風格,無需重訓整個模型
 -LoRA (Low-Rank Adaptation):輕量化微調特定風格
 -Textual Inversion:學習新詞彙或抽象概念,生成個人化影像
 -Instruct-Pix2Pix:結合 GPT 指令理解能力,用自然語言修改影像
3️⃣ 視覺語言模型 (VLM) 與多模態理解
 -CLIP:圖文對齊,實現零樣本分類 (Zero-shot classification)
 -BLIP / BLIP2:圖像描述(Captioning)、視覺問答(VQA)
 -LLaVA:多模態對話式應用,可「看圖聊天」、推論影像語意
 -GPT-4V:進階多模態理解,可讀取螢幕截圖、文件、圖表與照片,模糊文字與影像界線
4️⃣ 實作導向、PyTorch 深度學習框架
(1)從基礎理論到完整模型實作:
 -手寫數字影像生成 (初代 GAN)
 -人臉生成 (DCGAN)
 -成對與非成對影像轉換 (Pix2Pix、CycleGAN)
 -擴散模型實作與微調(DreamBooth、LoRA、Textual Inversion)
 -視覺語言模型實作(CLIP、BLIP2、LLaVA)
(2)強調從理論 → 實作 → 應用,讓學員能自己開發多模態 AI 專案
5️⃣ 課程目標與學習成果
 -學會 GAN、Diffusion、VLM 的原理與實作
 -運用 Stable Diffusion 與開源模型生成個人化影像
 -掌握多模態 AI 技術,能實現 圖像生成、轉換、描述、視覺問答
 -為進階深度學習模型開發或 AI 創意應用奠定基礎
 修課條件:
具備機器學習基礎知識、以及基礎Python程式開發經驗。
 課程大綱:
1. 生成式對抗網路原理以及量化指標
2. 手寫數字影像生成:運用Ian Goodfellow所提出的初代GAN實現手寫數字生成。
2. 基礎人臉影像生成: 運用DCGAN實現人臉影像生成(使用CelebA dataset)。
3. 成對影像轉換:運用Pix2pix模型實現建築物影像轉換:給定建築物外觀草圖,將這些草圖轉換為真實的建築物外觀。
4. 非成對影像轉換: 運用能從非成對影像中學習的CycleGAN實現馬變斑馬。
5. 日夜街景影像轉換:運用CycleGAN加上Cycle-Object Edge Consistency將白天街景轉為夜晚。8. 擴散模型基本原理
9. 運用(使用CelebA dataset)
10 運用Dreambooth產生特定物品/動物在各種情境下的影像
11. 使用LORA產生特定風格(例如cyberpunk)的影像
12. 使用Textual Inversion產生特定物品/動物在各種情境下的影像
13. 使用Instruct-Pix2Pix修改一張圖片的內容,例如將照片中的人物變成機器人
14. Vision-Language Models (VLM) 理論與應用:介紹 CLIP 的圖文對齊原理,進行零樣本分類與圖文檢索。
15. BLIP2 / LLaVA 多模態生成實作: 透過 BLIP2 實現圖像描述 (Captioning),使用 LLaVA 進行視覺問答 (VQA)
 課程師資:
自強基金會 林老師
現任瑞典Chalmers University of Technology博士後研究員

經歷
▻ 工研院機械所副研究員/研究員/資深研究員
▻ 馬來西亞偉特科技公司(ViTrox)研發顧問
▻ 馬來西亞10 EPOCH科技公司研發顧問
▻ 加州大學聖塔芭芭拉分校資工系訪問研究員

專長
電腦視覺、機器學習、深度學習及其在駕駛輔助系統以及自駕車之各種應用
  主辦單位:
財團法人自強工業科學基金會
  注意事項
  • 清華大學學生優惠方案:清華大學學生可享課程最低優惠價─VIP企業會員優惠價,完成報名後須來電告知修改費用(使用本優惠價須於報名同時檢附在學中有效的清華大學學生證,且不得開立抬頭「國立清華大學」以外的三聯式公司發票)。
  • 若遇不可預測之突發因素,基金會保有相關課程調整、取消及講師之變動權。
  • 無紙化環境,輕鬆達到減碳救地球,即日起16小時以上課程結業證書或未達16小時課程上課證明皆以電子方式提供。
  • 使用VIP廠商優惠之學員,上課當日報到時須查核該公司識別證(相關證明資料)。
  • 會員紅利折抵限以原價或會員優惠價再折抵,其他方案不適用。
  • 課前請詳閱簡章之課程內容或利用課程諮詢電話。
  • 課程嚴禁旁聽,亦不可攜眷參與。
  • 優惠方案擇一使用。
  • 課程查詢或相關作業時程,請洽以下聯絡窗口。
    聯絡資訊