自強課程
課程名稱
【竹科管理局補助課程】語音人機介面技術:語音辨識與合成的關鍵技術(實作)
熱烈招生中
💥AI實作升級版💥
✨補助優惠價:會員於6/24前(含)報名:✨
🥇園區內:3,000元/人。
🥈園區外:4,000元/人。
📌任職於【科學園區廠商】 優先錄取! 報名完成後將會由後端統一修改優惠金額。
<6/4起恢復原價,敬請把握!>
✨補助優惠價:會員於6/24前(含)報名:✨
🥇園區內:3,000元/人。
🥈園區外:4,000元/人。
📌任職於【科學園區廠商】 優先錄取! 報名完成後將會由後端統一修改優惠金額。
<6/4起恢復原價,敬請把握!>
💥從語音辨識與合成出發,進一步整合大型語言模型(LLM),帶領學員實作完整 Voice Agent,打造可落地的AI語音互動系統。💥
✨課程亮點✨
1️⃣ 從語音辨識到語音合成,一次打通 Voice AI 全技術鏈
涵蓋 STT(語音轉文字)+TTS(文字轉語音)+Voice Agent,建立完整語音AI系統能力。
2️⃣ 實作主流語音模型:OpenAI Whisper × Neural TTS
深入理解 Whisper、VITS、Tacotron 等模型,並實際部署與應用。
3️⃣ 打造可運作的 Voice Bot(語音助理)
從語音輸入 → LLM理解 → 語音回應,完整串接 AI Agent 流程。
4️⃣ 即時語音互動(Streaming AI)實戰
學會低延遲語音處理技術,打造接近真人對話的互動體驗。
5️⃣ 支援在地語言(含台語)與模型微調能力
學會語音資料處理、Fine-tuning,打造在地化語音AI應用。
6️⃣ 整合 API × LLM × 自動化流程(n8n)
將語音AI真正導入應用場景(客服、IoT、機器人、LINE Bot)。
✨課程亮點✨
1️⃣ 從語音辨識到語音合成,一次打通 Voice AI 全技術鏈
涵蓋 STT(語音轉文字)+TTS(文字轉語音)+Voice Agent,建立完整語音AI系統能力。
2️⃣ 實作主流語音模型:OpenAI Whisper × Neural TTS
深入理解 Whisper、VITS、Tacotron 等模型,並實際部署與應用。
3️⃣ 打造可運作的 Voice Bot(語音助理)
從語音輸入 → LLM理解 → 語音回應,完整串接 AI Agent 流程。
4️⃣ 即時語音互動(Streaming AI)實戰
學會低延遲語音處理技術,打造接近真人對話的互動體驗。
5️⃣ 支援在地語言(含台語)與模型微調能力
學會語音資料處理、Fine-tuning,打造在地化語音AI應用。
6️⃣ 整合 API × LLM × 自動化流程(n8n)
將語音AI真正導入應用場景(客服、IoT、機器人、LINE Bot)。
課程代碼:
15W329
上課時間:
6/28、7/5,星期日,09:00-16:00,共二週12小時。
上課時數:
12 小時
課程費用:
(以下費用已由竹科管理局補助80%)
6000元
(科學園區廠商優惠價格需送出報名表後,系統發出報名成功回函確認金額。)
超值優惠:
課程目標:
本課程從語音辨識與合成出發,進一步整合大型語言模型(LLM),帶領學員實作完整 Voice Agent,打造可落地的AI語音互動系統。
課程特色:
1. 理論 × 實作並重:每章節以概念建立開場,搭配動手實驗收尾,確保學習不停留在紙上談兵。
2. 工具鏈完整覆蓋:整合 OpenAI Whisper、VITS/FastSpeech、Ollama/GPT、n8n、Docker 等業界主流工具,一次建立完整語音AI開發工作流。
3. 多場景應用導向:智慧客服、餐飲服務機器人、LINE 語音機器人、智慧販賣機——課程場景直接對應真實商業需求。
4. Edge AI 與雲端雙軌並行:同時涵蓋裝置端部署與雲端架構,兼顧效能優化與隱私安全需求。
5. 前瞻視野:延伸至語音+視覺+動作的多模態 AI 趨勢,讓你走在技術浪潮最前端。
2. 工具鏈完整覆蓋:整合 OpenAI Whisper、VITS/FastSpeech、Ollama/GPT、n8n、Docker 等業界主流工具,一次建立完整語音AI開發工作流。
3. 多場景應用導向:智慧客服、餐飲服務機器人、LINE 語音機器人、智慧販賣機——課程場景直接對應真實商業需求。
4. Edge AI 與雲端雙軌並行:同時涵蓋裝置端部署與雲端架構,兼顧效能優化與隱私安全需求。
5. 前瞻視野:延伸至語音+視覺+動作的多模態 AI 趨勢,讓你走在技術浪潮最前端。
修課條件:
1. 基礎要求: 具備基本的程式設計與人工智慧知識。
2. 適合對象: AI 開發者、語音技術愛好者、產品經理,以及對人機介面技術有興趣的從業人員。
2. 適合對象: AI 開發者、語音技術愛好者、產品經理,以及對人機介面技術有興趣的從業人員。
課程大綱:
1. 人機介面與語音AI發展趨勢
1-1 人機介面的演進:GUI → Touch → Voice → Agent
1-2 語音成為AI入口:Voice is the new UI
1-3 語音AI的商業價值與應用場景
智慧客服 / AI助理 / IoT設備 / 餐飲服務機器人
裝置端AI vs 雲端AI
Voice Agent(語音代理人)概念
多模態(語音+視覺+動作)
即時互動(Real-time streaming AI)
2. 語音辨識技術(Speech-to-Text)原理與實作
2-1 語音辨識基本原理
音訊處理(Feature extraction)
ASR模型(CTC / Transducer / Transformer)
2-2 現代語音模型架構
OpenAI Whisper 架構解析
Streaming ASR(即時語音辨識)
2-3 實作(Hands-on)
Whisper 本地部署(Docker / API)
即時語音轉文字(Streaming Demo)
2-4 應用案例
語音助理
會議紀錄自動化
LINE 語音機器人(串 n8n / API)
3. 語音合成技術(Text-to-Speech)與語音互動
3-1 語音合成基本原理
TTS pipeline(Text → Acoustic → Vocoder)
傳統 vs Neural TTS
3-2 現代語音模型
VITS / Tacotron / FastSpeech
即時語音生成(Low latency TTS)
3-3 實作(Hands-on)
本地 TTS 模型部署
建立「文字 → 語音」API
語音風格調整(語速 / 情緒)
3-4 應用場景
AI客服
智慧販賣機語音互動 機器人語音回應
4. Voice Agent 與語音AI系統整合
4-1 語音Agent架構
STT → LLM → TTS
Function Calling / Tools 使用
記憶(Memory)與上下文管理
4-2 實作
建立一個完整 Voice Bot
語音輸入 → AI理解 → 語音回應
串接:
LLM(如 Ollama / GPT)
API(天氣 / 訂單 / 查詢)
4-3 即時語音互動系統
Streaming pipeline
Latency優化技巧
Edge AI(裝置端部署)
5. 多語言語音模型與在地化(含台語)
5-1 多語言語音模型原理
5-2 Fine-tuning 與資料準備
語音資料收集
標註與清洗
5-3 實務案例
台語語音模型微調
在地化語音助理
6. 語音AI未來趨勢與產業應用
6-1 語音+多模態AI(Vision + Voice + Action)
6-2 裝置端AI(Edge AI)與隱私計算
6-3 語音在智慧場域的應用
智慧餐飲
智慧零售(販賣機 / 無人商店)
智慧城市
1-1 人機介面的演進:GUI → Touch → Voice → Agent
1-2 語音成為AI入口:Voice is the new UI
1-3 語音AI的商業價值與應用場景
智慧客服 / AI助理 / IoT設備 / 餐飲服務機器人
裝置端AI vs 雲端AI
Voice Agent(語音代理人)概念
多模態(語音+視覺+動作)
即時互動(Real-time streaming AI)
2. 語音辨識技術(Speech-to-Text)原理與實作
2-1 語音辨識基本原理
音訊處理(Feature extraction)
ASR模型(CTC / Transducer / Transformer)
2-2 現代語音模型架構
OpenAI Whisper 架構解析
Streaming ASR(即時語音辨識)
2-3 實作(Hands-on)
Whisper 本地部署(Docker / API)
即時語音轉文字(Streaming Demo)
2-4 應用案例
語音助理
會議紀錄自動化
LINE 語音機器人(串 n8n / API)
3. 語音合成技術(Text-to-Speech)與語音互動
3-1 語音合成基本原理
TTS pipeline(Text → Acoustic → Vocoder)
傳統 vs Neural TTS
3-2 現代語音模型
VITS / Tacotron / FastSpeech
即時語音生成(Low latency TTS)
3-3 實作(Hands-on)
本地 TTS 模型部署
建立「文字 → 語音」API
語音風格調整(語速 / 情緒)
3-4 應用場景
AI客服
智慧販賣機語音互動 機器人語音回應
4. Voice Agent 與語音AI系統整合
4-1 語音Agent架構
STT → LLM → TTS
Function Calling / Tools 使用
記憶(Memory)與上下文管理
4-2 實作
建立一個完整 Voice Bot
語音輸入 → AI理解 → 語音回應
串接:
LLM(如 Ollama / GPT)
API(天氣 / 訂單 / 查詢)
4-3 即時語音互動系統
Streaming pipeline
Latency優化技巧
Edge AI(裝置端部署)
5. 多語言語音模型與在地化(含台語)
5-1 多語言語音模型原理
5-2 Fine-tuning 與資料準備
語音資料收集
標註與清洗
5-3 實務案例
台語語音模型微調
在地化語音助理
6. 語音AI未來趨勢與產業應用
6-1 語音+多模態AI(Vision + Voice + Action)
6-2 裝置端AI(Edge AI)與隱私計算
6-3 語音在智慧場域的應用
智慧餐飲
智慧零售(販賣機 / 無人商店)
智慧城市
課程師資:
自強基金會 李老師
現任:
國立清華大學 智慧製造跨院學程 合聘講師
專長領域:
AI Agent、多代理系統、RAG架構、AI應用落地
現任:
國立清華大學 智慧製造跨院學程 合聘講師
專長領域:
AI Agent、多代理系統、RAG架構、AI應用落地
主辦單位:
財團法人自強工業科學基金會
相關課程:
學員須知:
證書及上課證明發放規定:
注意事項
※請前往竹科管理局廠商與單位名錄進行查詢,即可判斷公司是否為園區內廠商。
- 本計畫鼓勵女性學員報名參加培訓課程,必要時得優先錄取。
- 本計畫以竹科園區事業單位從業員工為主優先錄取,若有名額將開放有志進入園區就業人士報名參加。
- 若遇不可預測之突發因素,基金會保有相關課程調整、取消及講師之變動權。
- 無紙化環境,輕鬆達到減碳救地球,即日起16小時以上課程結業證書或未達16小時課程上課證明皆以電子方式提供。
- 本課程不適用廠商VIP折扣優惠
- 課前請詳閱簡章之課程內容或利用課程諮詢電話。
- 課程嚴禁旁聽,亦不可攜眷參與。
- 優惠方案擇一使用。
📌課程費用包含:講義及稅。《不提供午餐》
📌計畫補助課程不適用於其他基金會優惠方案及不可使用紅利點數折抵費用。
📌計畫補助課程《確定開課》/《線上課程講義寄出》後,若因故無法上課,則不予退費。
🔥🔥《企業內訓應援》
歡迎填寫🎯訓練心願清單《請點🎯》 !
我們將根據您的回饋來設計具體可行的課程方案,
是您達成培訓目標最強有力的後盾!😊



