當企業手上有大量錄音資料例如客服通話、Podcast、會議記錄或音樂檔案時要在裡面找出特定內容其實並不容易,傳統做法通常是先把聲音轉成文字再用關鍵字搜尋,或者靠人工加標籤分類。但這些方法只能找出講了甚麼卻無法理解怎樣講。
例如你可能想找一段語氣憤怒的投訴電話,或是一段輕快爵士風格的背景音樂,單靠文字轉錄未必能準確捕捉情緒、語氣或音樂特徵。
AWS 在 2026 年 4 月發表技術文章,深入介紹如何利用 Amazon Nova Multimodal Embeddings 把聲音轉換成可理解及可搜尋的智能數據,建立真正懂聲音的搜尋系統。
甚麼是 Audio Embeddings?
可以把 Audio Embeddings 想像成聲音的座標,AI 會把每段聲音轉換成一組數字以代表聲音的特徵,例如節奏、音高、音色、情緒甚至語意內容。
當兩段聲音特質相似時它們在這個數字空間中的距離就會很接近,如果差異很大距離就會很遠。系統便可以透過計算相似度自動找出最接近的錄音。
例如一段小提琴旋律與一段大提琴旋律可能被判定為高度相似,而一段搖滾鼓聲與古典弦樂的距離則會較遠。這種搜尋方式不再依賴關鍵字而是根據聲音本身的特質。
Amazon Nova 有甚麼不同?
Amazon Nova Multimodal Embeddings 是 AWS 在 2025 年 10 月推出的多模態模型,透過 Amazon Bedrock 提供服務,所謂多模態意思是同一個模型可以同時處理文字、圖片、檔案、影片和音訊,並把它們轉換到同一個向量空間。
換句話說用戶可以用文字搜尋聲音內容甚至跨媒體搜尋,例如輸入輕快爵士鋼琴系統可以找出符合特徵的音樂片段,或者輸入顧客抱怨帳單問題便能找出相關客服錄音。
模型支援多種輸出維度設定,企業可在準確度與儲存成本之間取得平衡,同時亦支援超過 200 種語言,意味著用西班牙文搜尋英文錄音也沒有問題。

聲音搜尋實際如何運作?
整個流程其實分為兩個階段。
第一階段是建立資料庫,企業把所有音訊檔案上傳到雲端,然後利用 Amazon Nova 產生對應的向量。這些向量會儲存在向量資料庫中並附帶檔名、長度、類型等基本資訊,這個步驟通常只需做一次。
如果音訊超過 30 秒系統還會自動分段,例如每 15 秒產生一個向量,這樣日後搜尋時可以精準定位到某個時間點而不需要重聽整段錄音。
第二階段是搜尋,當用戶輸入查詢文字時系統會即時把這段文字轉成向量,再與資料庫中的音訊向量比較以找出最相似的幾段內容。整個過程通常在幾毫秒內完成。
可以應用在哪些場景?
這類技術特別適合需要處理大量音訊資料的企業。
例如客服中心可以快速找出帶有憤怒情緒的通話來分析服務問題,媒體公司可以更有效管理音樂與影片素材,企業內部也能快速搜尋會議紀錄中的關鍵片段。
AWS 在示範中把大量客服錄音建立成可搜尋資料庫,測試時只需輸入「找一段語氣很生氣的通話」或「顧客談論帳單問題的錄音」,系統就能精準找出對應片段而不必人工逐一標記。
為何企業會考慮使用 Nova?
相比自行訓練模型 Amazon Nova 提供的是現成及可擴展的雲端服務,企業毋須維護模型或基礎設施,只需透過 API 便可建立完整搜尋系統。對於希望快速部署又缺乏專門 AI 團隊的公司來說是較具吸引力的選擇。
更重要的是這種搜尋方式讓聲音資料不再只是儲存檔案,而是可被分析、分類與理解的智能資產。
過去我們搜尋內容主要靠文字,但現代企業累積的大量資料其實是聲音,Amazon Nova Multimodal Embeddings 提供一種方法把聲音轉換為可理解的數據,讓搜尋不再局限於關鍵字而是基於語意與聲音特質。
對企業而言這代表可以更有效運用錄音資料,不論是客服分析、媒體管理還是內容推薦都能更精準及更智能,聲音搜尋正式進入語意時代。
