自強課程
課程名稱
【線上實作課程】Python強化學習及通用人工智慧 (Python Hands-On on Reinforcement Learning towards Artificial General Intelligence)
熱烈招生中
全線上
課程代碼:
13W371
上課時間:
113/10/22、10/29,星期二,09:00-16:00,共12小時。
上課時數:
12 小時
上課地點:
網路線上
課程費用:
8000元
(符合超值優惠價格者需送出報名表後,系統發出報名成功回函確認金額。)
超值優惠:
- VIP企業會員價:VIP企業會員可享優惠價格 (按我)
- 會員優惠價: 會員於開課前七天完成報名繳費者可享會員優惠價 7800 元
- 早安鳥方案:會員於開課二週前(含)報名並完成繳費,可享超值優惠價 7300 元
- 會員紅利折抵:本課程歡迎使用紅利折抵,最高可使用 100 點
課程目標:
學習強化學習各種解題方法的理論與應用實務,並能運用TensorFlow、PyTorch、Keras、OpenAI等Python套件與函式庫,讓學員短時間內掌握強化學習的重要知識。
課程特色:
強化學習(Reinforcement Learning, RL)處理的問題涉及順序相關的一系列相依決策,而非彼此獨立或一次性的決策制定。其目標在於尋找長期或跨期規劃下的最佳(optimal long-term planning)控制與決策,作業研究 (Operations Research, OR)中的確定性模型與隨機模型均與此類問題相關,動態規劃(dynamic programming)、馬可夫鏈(Markov chains)、馬可夫決策過程(Markov Decision Processes, MDP)、蒙地卡羅模擬(Monte Carlo simulation)等,都是牽涉其中的觀念與解決方法。而應用的場景包括下棋、Atari遊戲、汽車自動駕駛、機器人控制、供應鏈運作、製造品質與設備維護、行銷個人化與推薦系統、財務投資、智慧城市與資通安全等。
與機器學習的另外兩大支柱 - 監督式學習與非監督式學習相比,RL是在不確定的情況下,尋求長期利益最大化的控制與決策過程。它是從試誤經驗中不斷精煉解題策略的無精確目標學習方式,是創建智慧代理人邁向通用人工智慧的計算框架。本課程結合案例數據進行實作,期能激發參與者對智能系統各種應用的興趣,邁向機器自主學習與譬劃未來的新境界。
與機器學習的另外兩大支柱 - 監督式學習與非監督式學習相比,RL是在不確定的情況下,尋求長期利益最大化的控制與決策過程。它是從試誤經驗中不斷精煉解題策略的無精確目標學習方式,是創建智慧代理人邁向通用人工智慧的計算框架。本課程結合案例數據進行實作,期能激發參與者對智能系統各種應用的興趣,邁向機器自主學習與譬劃未來的新境界。
修課條件:
曾修習機器學習或深度學習相關課程
課程大綱:
A.強化學習背景知識
A-1.隨機變數與機率函數
A-2.抽樣與蒙地卡羅法
A-3.梯度下降與倒傳遞更新
B.強化學習原理
B-1.循序決策相關名詞與動態規劃(狀態state, 行動action, 狀態轉移transition, 報酬reward, 政策policy等)
B-2.馬可夫鏈、貝爾曼方程與馬可夫決策過程
B-3.價值最佳化方法(時間差法, SARSA, Q-learning, 高級技巧)
B-4.政策最佳化方法(政策梯度policy gradient)
B-5.行動者-評論家方法(actor-critic method)
B-6.連續控制與其他主題
A-1.隨機變數與機率函數
A-2.抽樣與蒙地卡羅法
A-3.梯度下降與倒傳遞更新
B.強化學習原理
B-1.循序決策相關名詞與動態規劃(狀態state, 行動action, 狀態轉移transition, 報酬reward, 政策policy等)
B-2.馬可夫鏈、貝爾曼方程與馬可夫決策過程
B-3.價值最佳化方法(時間差法, SARSA, Q-learning, 高級技巧)
B-4.政策最佳化方法(政策梯度policy gradient)
B-5.行動者-評論家方法(actor-critic method)
B-6.連續控制與其他主題
課程師資:
鄒慶士 教授
專長:人工智慧與機器學習、大數據與資料科學、進化式多目標最佳化、賽局模型應用、等候網路、系統模擬、時間序列分析與控制
現任:國立臺北商業大學資訊與決策科學研究所教授
專長:人工智慧與機器學習、大數據與資料科學、進化式多目標最佳化、賽局模型應用、等候網路、系統模擬、時間序列分析與控制
現任:國立臺北商業大學資訊與決策科學研究所教授
主辦單位:
財團法人自強工業科學基金會
相關課程:
學員須知:
注意事項