AWS 教你製作「聽得明」的搜尋系統　用 Amazon Nova Embeddings 讓聲音內容變得可搜尋

當企業手上有大量錄音資料例如客服通話、Podcast、會議記錄或音樂檔案時要在裡面找出特定內容其實並不容易，傳統做法通常是先把聲音轉成文字再用關鍵字搜尋，或者靠人工加標籤分類。但這些方法只能找出講了甚麼卻無法理解怎樣講。

例如你可能想找一段語氣憤怒的投訴電話，或是一段輕快爵士風格的背景音樂，單靠文字轉錄未必能準確捕捉情緒、語氣或音樂特徵。

AWS 在 2026 年 4 月發表技術文章，深入介紹如何利用 Amazon Nova Multimodal Embeddings 把聲音轉換成可理解及可搜尋的智能數據，建立真正懂聲音的搜尋系統。

甚麼是 Audio Embeddings？

可以把 Audio Embeddings 想像成聲音的座標，AI 會把每段聲音轉換成一組數字以代表聲音的特徵，例如節奏、音高、音色、情緒甚至語意內容。

當兩段聲音特質相似時它們在這個數字空間中的距離就會很接近，如果差異很大距離就會很遠。系統便可以透過計算相似度自動找出最接近的錄音。

例如一段小提琴旋律與一段大提琴旋律可能被判定為高度相似，而一段搖滾鼓聲與古典弦樂的距離則會較遠。這種搜尋方式不再依賴關鍵字而是根據聲音本身的特質。

Amazon Nova Multimodal Embeddings 是 AWS 在 2025 年 10 月推出的多模態模型，透過 Amazon Bedrock 提供服務，所謂多模態意思是同一個模型可以同時處理文字、圖片、檔案、影片和音訊，並把它們轉換到同一個向量空間。

換句話說用戶可以用文字搜尋聲音內容甚至跨媒體搜尋，例如輸入輕快爵士鋼琴系統可以找出符合特徵的音樂片段，或者輸入顧客抱怨帳單問題便能找出相關客服錄音。

模型支援多種輸出維度設定，企業可在準確度與儲存成本之間取得平衡，同時亦支援超過 200 種語言，意味著用西班牙文搜尋英文錄音也沒有問題。

整個流程其實分為兩個階段。

第一階段是建立資料庫，企業把所有音訊檔案上傳到雲端，然後利用 Amazon Nova 產生對應的向量。這些向量會儲存在向量資料庫中並附帶檔名、長度、類型等基本資訊，這個步驟通常只需做一次。

如果音訊超過 30 秒系統還會自動分段，例如每 15 秒產生一個向量，這樣日後搜尋時可以精準定位到某個時間點而不需要重聽整段錄音。

第二階段是搜尋，當用戶輸入查詢文字時系統會即時把這段文字轉成向量，再與資料庫中的音訊向量比較以找出最相似的幾段內容。整個過程通常在幾毫秒內完成。

這類技術特別適合需要處理大量音訊資料的企業。

例如客服中心可以快速找出帶有憤怒情緒的通話來分析服務問題，媒體公司可以更有效管理音樂與影片素材，企業內部也能快速搜尋會議紀錄中的關鍵片段。

AWS 在示範中把大量客服錄音建立成可搜尋資料庫，測試時只需輸入「找一段語氣很生氣的通話」或「顧客談論帳單問題的錄音」，系統就能精準找出對應片段而不必人工逐一標記。

相比自行訓練模型 Amazon Nova 提供的是現成及可擴展的雲端服務，企業毋須維護模型或基礎設施，只需透過 API 便可建立完整搜尋系統。對於希望快速部署又缺乏專門 AI 團隊的公司來說是較具吸引力的選擇。

更重要的是這種搜尋方式讓聲音資料不再只是儲存檔案，而是可被分析、分類與理解的智能資產。

過去我們搜尋內容主要靠文字，但現代企業累積的大量資料其實是聲音，Amazon Nova Multimodal Embeddings 提供一種方法把聲音轉換為可理解的數據，讓搜尋不再局限於關鍵字而是基於語意與聲音特質。

對企業而言這代表可以更有效運用錄音資料，不論是客服分析、媒體管理還是內容推薦都能更精準及更智能，聲音搜尋正式進入語意時代。