名古屋工業大學 (Nagoya Institute of Technology) 的語音處理實驗室 (Speech Processing Laboratory) 已經打造出一款用于建立在個人電腦上運行的語音互動系統的軟件工具包 “MMDAgent” 。用 “MMDAgent” 建立的語音互動系統使得個人電腦用戶可以與顯示器上顯示的 3D(三維)人物角色對話,效果逼真,仿佛與真人聊天一樣。 “MMDAgent” 軟件工具包融合了語音識別、語音合成、 3D 角色顯示和語音交互控制等多項單元技術。其功能包括:
“MMDAgent” 是自主開發的、先進的語音合成和語音識別技術的高水平整合。它由該實驗室經過長時間開發并推出的語音合成工具包 HTS (基于隱馬爾可夫模型 (HMM) 的語音合成系統)和具備高速、準確和極富表現力的對話能力的語音識別引擎 Julius 相結合。
該工具包擁有基于 OpenGL 的先進的 3D 描繪功能。它通過采用卡通描繪和陰影映射來實現真實的 3D 描繪,并利用一個物理引擎來達到呈現逼真表情的目的。
該工具包的語音互動控制部分可以使不懂專業知識的用戶應對各種內部條件和外部環境(包括語音輸入等)的變化,描述出細膩豐富的語音對話場景。
“MMDAgent” 預定作為開源軟件發布。由于其各種模型等的數據格式符合開源規格,用戶可以對人物角色的 3D模型、動作和聲音以及整個對話場景進行自定義,而且可以使用現有的模型和數據。
“MMDAgent” 將在2010年日本高新技術博覽會 (CEATEC Japan) (10月5日在幕張國際會展中心 (Makuhari Messe) 拉開帷幕)上亮相,該系統將被置入一個大的顯示屏,演示其用于實物大小的數字標牌的功能。在展會上,參觀者將能夠與流行的 3D 角色逼真對話。該語音處理實驗室作為一個專門的項目實驗室,致力于名古屋工業大學的國際語音語言處理研究, Tokuda & Lee Laboratory 在其中發揮主要作用。該實驗室一流的語音技術研究成果已經以開源軟件的形式對外公布。
應用實例:
數字標牌
娛樂
服務臺引導系統
宣傳
參考圖:
該系統的外觀(人物角色是“Mei-chan”,出現在名古屋工業大學校園信息導向系統的屏幕上)。
Crypton Future Media, Inc. 創造的人物角色“初音未來” (Miku Hatsune) ,顯示在執行屏幕上。