自強課程
課程名稱
生成式AI與強化學習(實作)
熱烈招生中
課程代碼:
13W316
上課時間:
113/9/24、10/1,星期二,9:00-16:00,共12小時。
上課時數:
12 小時
課程費用:
8000元
(符合超值優惠價格者需送出報名表後,系統發出報名成功回函確認金額。)
超值優惠:
- VIP企業會員價:VIP企業會員可享優惠價格 (按我)
- 會員優惠價: 會員於開課前七天完成報名繳費者可享會員優惠價 7800 元
- 早安鳥方案:會員於開課二週前(含)報名並完成繳費,可享超值優惠價 7300 元
- 會員紅利折抵:本課程歡迎使用紅利折抵,最高可使用 100 點
課程目標:
生成式學習(generative learning)與強化學習(reinforcement learning)是人工智慧(Artificial Intelligence, AI)時代下機率統計學習的重要發展,是近年來AI領域相當走紅的技術。生成式學習基於人類學習過程,依賴於頭腦中已經存在的記憶和知識,當新數據被整合到我們的長期記憶中時,它就成為我們新生理解與繼續應用的一部分。本課程從自動編碼器與重構式學習開始,進一步介紹基於賽局觀念的對抗學習方法 - 生成式對抗網路(Generative Adversarial Networks, GANs),結合多層感知機與卷積神經網路以生成或轉譯圖像。
強化學習處理的問題涉及順序相關的系列決策,而並非彼此獨立,或一次性的決策制定。其目標在於尋找長期或跨期規劃下的最佳決策 (optimal long-term planning),作業研究 (Operations Research, OR)中的確定性模型與隨機模型均與此類問題相關,動態規劃 (dynamic programming)、馬可夫鏈 (Markov chains)、馬可夫決策過程 (Markov Decision Process, MDP)、賽局理論 (game theory) 等,都是可能的解決方法。而應用的場景包括下棋、Atari遊戲、汽車自動駕駛、機器人控制等,結合案例數據進行實作,期能激發參與者對智能系統各種應用的興趣,邁向機器自主學習與譬劃未來的新境界。
強化學習處理的問題涉及順序相關的系列決策,而並非彼此獨立,或一次性的決策制定。其目標在於尋找長期或跨期規劃下的最佳決策 (optimal long-term planning),作業研究 (Operations Research, OR)中的確定性模型與隨機模型均與此類問題相關,動態規劃 (dynamic programming)、馬可夫鏈 (Markov chains)、馬可夫決策過程 (Markov Decision Process, MDP)、賽局理論 (game theory) 等,都是可能的解決方法。而應用的場景包括下棋、Atari遊戲、汽車自動駕駛、機器人控制等,結合案例數據進行實作,期能激發參與者對智能系統各種應用的興趣,邁向機器自主學習與譬劃未來的新境界。
課程大綱:
1.生成式AI及其應用
1-1.自動編碼器與生成式建模(autoencoders & generative modeling)
1-2.圖像生成與生成式對抗網路(GANs)
1-3.文本生成與遞歸類神經網路(RNNs)
1-4.生成式AI模型訓練的挑戰
2.強化學習原理
2-1.循序決策相關名詞與動態規劃(狀態State, 行動action, 狀態轉移transition, 報酬reward, 政策policy, 貝爾曼方程式Bellman equation等)
2-2.隨機模型與馬可夫決策過程(蒙地卡羅法Monte Carlo method,馬可夫鏈Markov chain)
2-3.政策最佳化方法(政策梯度Policy gradient)
2-4.價值為基礎的學習方法(價值迭代Value iteration, 時間差法temporal difference, Q-learning)
2-5.行動者-評論家方法(actor-critic method)
1-1.自動編碼器與生成式建模(autoencoders & generative modeling)
1-2.圖像生成與生成式對抗網路(GANs)
1-3.文本生成與遞歸類神經網路(RNNs)
1-4.生成式AI模型訓練的挑戰
2.強化學習原理
2-1.循序決策相關名詞與動態規劃(狀態State, 行動action, 狀態轉移transition, 報酬reward, 政策policy, 貝爾曼方程式Bellman equation等)
2-2.隨機模型與馬可夫決策過程(蒙地卡羅法Monte Carlo method,馬可夫鏈Markov chain)
2-3.政策最佳化方法(政策梯度Policy gradient)
2-4.價值為基礎的學習方法(價值迭代Value iteration, 時間差法temporal difference, Q-learning)
2-5.行動者-評論家方法(actor-critic method)
課程師資:
鄒慶士 教授
專長:人工智慧與機器學習、大數據與資料科學、進化式多目標最佳化、賽局模型應用、工程機率與統計、等候網路、系統模擬、彈性製造
現任:國立臺北商業大學資訊與決策科學研究所教授
專長:人工智慧與機器學習、大數據與資料科學、進化式多目標最佳化、賽局模型應用、工程機率與統計、等候網路、系統模擬、彈性製造
現任:國立臺北商業大學資訊與決策科學研究所教授
主辦單位:
財團法人自強工業科學基金會
相關課程:
13W308 工業大數據分析與應用(Analysis and Applications of Industrial Big Data)
13W309 Python資料視覺化與解析實作(實作)
13W310 自然語言處理與文字資料探勘實作(Natural Language Processing and Text Mining)
13W322 預訓練大語言模型(Pre-trained Large Language Models)
13W311 網絡安全人工智慧(實作)
13W314 Python數位訊號處理與時序建模應用(實作)
13W315 Python語言深度學習應用(實作)
13W316 生成式AI與強化學習(實作)
13W317 人工通用智慧與元學習(實作)
13W312 Python機率統計學習與人工智慧【基礎實作】
13W313 Python機率統計學習與人工智慧【進階實作】
13W309 Python資料視覺化與解析實作(實作)
13W310 自然語言處理與文字資料探勘實作(Natural Language Processing and Text Mining)
13W322 預訓練大語言模型(Pre-trained Large Language Models)
13W311 網絡安全人工智慧(實作)
13W314 Python數位訊號處理與時序建模應用(實作)
13W315 Python語言深度學習應用(實作)
13W316 生成式AI與強化學習(實作)
13W317 人工通用智慧與元學習(實作)
13W312 Python機率統計學習與人工智慧【基礎實作】
13W313 Python機率統計學習與人工智慧【進階實作】
學員須知:
注意事項