自強課程

課程名稱

【竹科管理局補助課程】語音人機介面技術：語音辨識與合成的關鍵技術(實作)~📢區內免費如期開班

💥AI實作升級版💥
✨補助優惠價：會員於6/24前(含)報名：✨
　🥇園區內：免費。
　🥈園區外：500元/人。
📌任職於【科學園區廠商】優先錄取!　報名完成後將會由後端統一修改優惠金額。
<6/4起恢復原價，敬請把握!>

去年若您上過李老師的14W310『生成式AI：運用 LLM/語音辨識/語音合成建置聊天機器人應用實務班(實作)』，那麼您一定不能錯過今年的【AI實作升級版:15W329】。

💥從語音辨識與合成出發，進一步整合大型語言模型（LLM），帶領學員實作完整 Voice Agent，打造可落地的AI語音互動系統。💥

💥上課出席率需達７５％哦❗💥
🎁《優惠價》統一於確定開課後修改金額!

課程代碼：

15W329

上課時間：

6/28、7/5，星期日，09:00-16:00，共二週12小時。

上課時數：

12 小時

上課地點：

清華大學第四綜合大樓(清華大學東側門入口處左手邊即為自強基金會大門入口/清大郵局左側)

課程費用： (以下費用已由竹科管理局補助80%)

6000元 (科學園區廠商優惠價格需送出報名表後，系統發出報名成功回函確認金額。)

超值優惠：

科學園區廠商優惠價： 5000 元(★繳費完成才算報名成功喔★)

課程目標：

本課程從語音辨識與合成出發，進一步整合大型語言模型（LLM），帶領學員實作完整 Voice Agent，打造可落地的AI語音互動系統。

1. 理論 × 實作並重：每章節以概念建立開場，搭配動手實驗收尾，確保學習不停留在紙上談兵。
2. 工具鏈完整覆蓋：整合 OpenAI Whisper、VITS/FastSpeech、Ollama/GPT、n8n、Docker 等業界主流工具，一次建立完整語音AI開發工作流。
3. 多場景應用導向：智慧客服、餐飲服務機器人、LINE 語音機器人、智慧販賣機——課程場景直接對應真實商業需求。
4. Edge AI 與雲端雙軌並行：同時涵蓋裝置端部署與雲端架構，兼顧效能優化與隱私安全需求。
5. 前瞻視野：延伸至語音＋視覺＋動作的多模態 AI 趨勢，讓你走在技術浪潮最前端。

課程特色：

✨課程亮點✨
1️⃣ 從語音辨識到語音合成，一次打通 Voice AI 全技術鏈：
　　涵蓋 STT（語音轉文字）＋TTS（文字轉語音）＋Voice Agent，建立完整語音AI系統能力。
2️⃣ 實作主流語音模型：OpenAI Whisper × Neural TTS：
　　深入理解 Whisper、VITS、Tacotron 等模型，並實際部署與應用。
3️⃣ 打造可運作的 Voice Bot（語音助理）：
　　從語音輸入 → LLM理解 → 語音回應，完整串接 AI Agent 流程。
4️⃣ 即時語音互動（Streaming AI）實戰：
　　學會低延遲語音處理技術，打造接近真人對話的互動體驗。
5️⃣ 支援在地語言（含台語）與模型微調能力：
　　學會語音資料處理、Fine-tuning，打造在地化語音AI應用。
6️⃣ 整合 API × LLM × 自動化流程（n8n）：
　　將語音AI真正導入應用場景（客服、IoT、機器人、LINE Bot）。

修課條件：

1. 基礎要求：具備基本的程式設計與人工智慧知識。
2. 適合對象： AI 開發者、語音技術愛好者、產品經理，以及對人機介面技術有興趣的從業人員。

課程大綱：

代碼	課程名稱	日期	時數	補助優惠價
15W329	語音人機介面技術：語音辨識與合成的關鍵技術(實作)	6/28、7/5 星期日 09:00-16:00	12	園區內：2,500元園區外：3,500元
15W330	影像人機介面技術：OpenCV 與 AI 影像辨識實戰課程(實作)	8/16、8/23 星期日 09:00-16:00	12	園區內：2,500元園區外：3,500元

1. 人機介面與語音AI發展趨勢
　1-1 人機介面的演進：GUI → Touch → Voice → Agent
　1-2 語音成為AI入口：Voice is the new UI
　1-3 語音AI的商業價值與應用場景
　　　智慧客服 / AI助理 / IoT設備 / 餐飲服務機器人
　　　裝置端AI vs 雲端AI

Voice Agent（語音代理人）概念
多模態（語音＋視覺＋動作）
即時互動（Real-time streaming AI）
2. 語音辨識技術（Speech-to-Text）原理與實作
　2-1 語音辨識基本原理
　　　音訊處理（Feature extraction）
　　　ASR模型（CTC / Transducer / Transformer）
　2-2 現代語音模型架構
　　　OpenAI Whisper 架構解析
　　　Streaming ASR（即時語音辨識）
　2-3 實作（Hands-on）
　　　Whisper 本地部署（Docker / API）
　　　即時語音轉文字（Streaming Demo）
　2-4 應用案例
　　　語音助理
　　　會議紀錄自動化
　　　LINE 語音機器人（串 n8n / API）

3. 語音合成技術（Text-to-Speech）與語音互動
　3-1 語音合成基本原理
　　　TTS pipeline（Text → Acoustic → Vocoder）
　　　傳統 vs Neural TTS
　3-2 現代語音模型
　　　VITS / Tacotron / FastSpeech
　　　即時語音生成（Low latency TTS）
　3-3 實作（Hands-on）
　　　本地 TTS 模型部署
　　　建立「文字 → 語音」API
　　　語音風格調整（語速 / 情緒）
　3-4 應用場景
　　　AI客服
　　　智慧販賣機語音互動　　　機器人語音回應

4. Voice Agent 與語音AI系統整合
　4-1 語音Agent架構
　　　STT → LLM → TTS
　　　Function Calling / Tools 使用
　　　記憶（Memory）與上下文管理
　4-2 實作
　　　建立一個完整 Voice Bot
　　　語音輸入 → AI理解 → 語音回應
　　　串接:
　　　LLM（如 Ollama / GPT）
　　　API（天氣 / 訂單 / 查詢）
　4-3 即時語音互動系統
　　　Streaming pipeline
　　　Latency優化技巧
　　　Edge AI（裝置端部署）

5. 多語言語音模型與在地化（含台語）
　5-1 多語言語音模型原理
　5-2 Fine-tuning 與資料準備
　　　語音資料收集
　　　標註與清洗
　5-3 實務案例
　　　台語語音模型微調
　　　在地化語音助理

6. 語音AI未來趨勢與產業應用
　6-1 語音＋多模態AI（Vision + Voice + Action）
　6-2 裝置端AI（Edge AI）與隱私計算
　6-3 語音在智慧場域的應用
　　　智慧餐飲
　　　智慧零售（販賣機 / 無人商店）
　　　智慧城市