|
近一兩年來, 由於語音處理技術已突破一些長久以來未能解決的瓶頸, 而得以走出實驗室、進入市場, 成為實際的商品應用在不同的領域, 目前在許多應用方面已有令人激賞的結果。由於語音處理的技術障礙非常高, 需要長期投入人力與資金, 所以主要的player多為一些國際性大廠, 像是Philip、 Nuance、 IBM、 L&H、SpeechWorks等等, 這些大廠都擁有多種語言的語音辨識技術, 中文(國語)也都在其內; 綜觀國內, 目前也有少數幾家公司正致力於將中文語音辨識商品化, 主要廠商有聲碩、語博、賽微、飛翼、以及不久前成立的聲威網際。基本上語音辨識的市場在台灣才剛要開始萌芽, 我們已經看到語音辨識技術應用在股價查詢、手機聲控撥號、車內聲控系統、以及所謂的語音入口網站, 至於語音辨識可以在哪些應用領域發揮實際效用? 市場到底有多大? 就讓我們先從應用的分類來探討。
基本上, 語音辨識應用主要可分為以下四類:
1. 電話應用 Telephony-based applications
電話應用原則上可以分成兩種, 一種是電話機端的應用, 一種是電話伺服器的應用。 所謂電話機端的應用包含我們現在常見的手機聲控撥號, 也包括了WAP手機應用 (Wireless Internet), 也就是可以直接用聲音代替電話按鍵來進行資料輸入; 而所謂的電話伺服器端的應用是指電話接收端由電腦先行接聽, 使用者可以用語音說出欲查詢的事項、 欲找尋的人名、或其他命令等等, 所以語音辨識是由接收端的電腦進行。
2. 電腦上的應用
最重要的應用就是以口代替手, 用口說出命令或說出想要輸入的資料, 而非用鍵盤輸入。 對於使用中文的人而言, 語音輸入一直都是終極理想, 如果能用唸的來取代各種繁瑣的輸入法, 不但可以提升輸入的速度, 更可以讓電腦使用人口更普及, 更多人得以將資料以書面型式保存; 在瀏覽器上也有一些產品可以讓使用者唸出網頁的hyperlink, 就可以直接選取該連結, 進入所選的網頁中。
3. 嵌入在家電製品中的應用
IA家電是近來眾多家電業與電腦業者競相投入的領域, 目前幾乎都著墨於無線傳輸藍芽功能, 強調家電可以上網, 所以未來我們可以透過Internet對家電做遠端遙控; 不過這些功能似乎離所謂的智慧還有那麼一點距離, 有一些人已經開始將語音辨識功能加入家電中, 將這一段距離填補起來, 算得上真正名符其實的智慧家電, 所以未來我們可以直接和電視、冰箱、洗衣機等電器對話, 告訴微波爐我們放了什麼進去、 想要煮成什麼效果, 然後微波爐就會決定該用多少熱度、多少時間來烹煮, 這種應用聽起來雖然很有趣, 但其中所面臨的技術複雜度相當高, 如何讓家電品不會誤聽, 以及如何避免生活環境中的噪音所造成的影響, 都是需要高度技術才能解決。
4. 車內聲控設備
這一陣子各大汽車廣告都有聲控相關的鏡頭¸ 可以知道車商幾乎都有志一同認為駕駛人如果能用聲音來操控車內的設備, 不僅方便, 更可以提高行車安全, 只要動口就可以掌控車內大小事, 並能透過無線通訊得知車外大小事, 這應該是所有汽車駕駛人的夢想。這對語音辨識是一個非常獨特的市場, 大概很少有其他技術可以與之匹敵, 當然前提是辨識的正確率要相當精確, 由於車內影響聲音接收的變數非常多, 像是車內音響的聲音、談話的聲音、 引擎震動的聲音、 車外的噪音等, 都增加辨識的困難度, 所以目前我們還未看到真正的霹靂遊俠在路上奔馳, 這個夢想在語音辨識技術突破之後應該就會實現。
現階段而言, 以上四種應用中, 最早進入市場的是電腦上的應用, 但多年來的觀察, 卻是叫好不叫座, 可能對電腦而言, 鍵盤已經是為眾人所接受而且很熟悉的輸入工具, 聲音操控電腦的便利性很難超越鍵盤,所以目前看到最大的市場是電話應用, 雖然它可能是其中最無趣的應用, 但卻是目前最實際的應用, 其所需之技術層面也最成熟, 至於電話語音市場可以約略分為以下三類:
1. 企業應用
採用語音辨識的自動總機算是目前常見的應用, 目前在國內只有極少數的企業在使用, 因為推動的業者極少。語音辨識總機基本上是進行總機接待員的轉接服務工作, 辨識來話者所說的訊息, 幫助來話者直接找到特定的人或部門, 對於非上班時段或其他總機人員不在時, 語音辨識型自動總機可以讓所有的來電都能轉接至適當的人手上。
另一種應用是語音操控的語音信箱, 可以讓使用者以說話的方式操作而不用按按鍵, 並且直接唸出指令處理留言, 諸如刪除、 儲存、 轉寄等, 過去可能需要聽一連串的只示才能完成的動作, 現在只需要直接用說的即可完成這類編輯的動作。
有些電信業者則利用語音辨識的技術, 提供自動電話查號並撥號的服務, 以及自動帳號維護管理, 讓用戶可以用說的方式作簡單的維護管理動作, 而不需要用到真正的人力來完成這樣的工作。
2. 話務中心
這幾年話務中心(call center)與客戶關係管理(CRM)越來越受到企業的重視, 紛紛利用各種新的資訊與通訊技術, 來提升客戶服務品質, 而語音辨識在話務中心能扮演什麼樣的角色呢? 首先讓我們來看一下call center最主要的花費是在哪裡。 雖然建置call center所需投入的軟硬體設備相當高昂, 但真正最龐大的費用事實上是人力資源, 所以企業無不希望找到合適的方法來降低人事成本, 而又能同時維持服務品質, 語音辨識正是一個可行的方法, 對於一些例行性的問題以及簡單的服務項目, 語音識別系統即可先行處理, 讓客服人員只處理較複雜且需要判斷力之工作, 將人力用在刀口上。 常見此類型應用包括: 自動股價查詢、飛機訂位、 還有很多其他很瑣碎的工作, 如傳送行程表、 型錄等。 語音辨識的技術將會改變傳統話務中心的生態, 因為簡單的工作都將移轉給語音識別系統處理, 真正的客服人員將以處理複雜而且需要互動的問題為主, 客服人員所面臨的客戶問題將比較具有挑戰性, 所以較不亦產生職業倦怠症而影響服務品質。過去, 話務中心是語音辨識的一個主要市場, 而未來這個市場的需求將更快速成長。
3. 語音入口網站
入口網站這幾年在網路界引起一陣風潮, 一夕之間風起雲湧, 不少網站都以入口網站自居, 且不論入口網站到底有多少商機, 有些人已經想到將語音技術運用在portal網站上, 以聲音取代鍵盤, 其他的操作機制則和傳統portal 網站相同, 可以讓internet真正無遠弗屆; 即使在無法上網的情況下, 仍然可以透過無所不在的電話機來查詢所需的資料。目前中文語音入口網站並不多, 雖然台灣中國都各有相當少數的語音portal, 但功能並不多, 一方面是由於中文語音辨識商品不多, 另一方面則是因為操作流程還不太能為人所接受, 接受度仍在觀察中。
語音網站的確是一個很好的點子, 也獲得相當多媒體的注意, 許多語音辨識廠商已經在這個市場投下了賭注, 預期將會是一個很大的市場; 不過如前所述, 事實上這個市場是否真能如此蓬勃發展, 還是一個問號, 目前絕大多數的語音portal功能都非常有限, 提供的資料也不夠豐富, 要能像多媒體網站般吸引大量人口流連忘返, 可能並不容易, 除了語音識別的正確率以外, 對語意的分析、實用性、 便利性、還有電話使用習慣, 都需要審慎設計, 才可能讓使用者覺得方便, 否則不斷重複進行輸入與確認的動作, 可能會嚇跑不少使用者。 另外一個威脅則來自於日趨成熟的第三代行動通訊網路系統, 3G的手機將具有較大型的瀏覽螢幕, 不僅可以顯示較多的訊息, 而且傳輸速度快, 屆時, 一些目前WAP搭配GSM所遭遇的問題皆可以解決了, 而用語音上網的部分需求可能就因此而減少, 在某些方面而言, 語音網站與3G是面對面的競爭, 語音的應用應該要從使用者的觀點考慮: 什麼時候人們喜歡用看的、什麼時候人們喜歡用聽的、何時偏好用按的、 何時偏好用講的, 在考慮清楚之後, 再將語音用在適當的場合和時機, 讓語音成為 'must', 而非 'nice to have', 才能真正掌握商機, 而不會成為曇花一現, 一下就被其他產品取代, 從市場上消失。
不過在3G真正成熟以前, 語音網站還是可以扮演一個非常好的角色, 幫助不方便上網的人以一個很方便的管道找尋網路上的資料, 當我們開車的時候, 可以用聲控的方式來查詢附近的醫院, 或是查詢道路狀況, 股市行情等等。
但另一方面, 即是3G普及後, 還是有很多語音辨識的商機, 因為手機的螢幕尺寸有限, 而且以手機按鍵輸入資料或是在小小的觸控板上輸入資料, 都非常不便, 也不易進行多量的資料輸入, 如果能用最自然的說話方式輸入資料, wireless internet 的實用性才能真正增加。 由於語言是最直接的一種溝通媒介, 將來甚至會有很多情況是利用手機上的語音辨識晶片來輔助進行資料輸入, 甚至也可以利用語音辨識的擴充功能, 來進行資料的翻譯。
語音辨識市場的商機
雖然目前語音辨識的應用有上列的多種產品, 但是絕大多數的人仍然是動手不動口來查詢所需之資料, 許多應用仍在我們的夢想當中, 遲早有一天我們會對著各種家電或車子或自動販賣機說話, 這或許還有一段路要走, 不過至少在可見的三、四年之內, 許多電話服務都將會有語音識別的功能, 幫助人們轉接電話、查詢常用資料或查詢電話號碼。
|