據英國《新科學家》雜志報道,日本本田公司的高級機器人“阿西莫”(ASIMO) 經改進后又獲得了一種新的超級能力:它能同時理解3個人的說話聲。如今,“阿西莫”的這一新本領正在應用到評判石頭-剪子-布的比賽中。在此比賽中,3人同時喊出他們的選擇,由“阿西莫”來裁決勝負,準確率達到70-80%。
專家認為,軟件處理這種聲音數量和句子的復雜性將來會得到進一步的提高。東京大學的歐庫若和本田研究院的仲代達共同開發了這種新軟件,他們給它取名為“HARK”。
質量控制
HARK軟件采用了一批8個麥克風來共同工作,識別來自每一個麥克風的每一個聲音,并將它與其它聲音隔離開來。之后,此軟件評判它提取的單個聲音的可靠性,評判之后再將此聲音送到語音識別軟件進行解碼。
這種質量控制的步驟很重要。其它的聲音可能會弄得語音識別軟件糊涂起來,因為此聲音文件包含有許多不同頻率的背景噪音。因此當每種修補過的聲音錄音經過語音識別系統時,此聲音文件的背景噪音都會被自動忽略。歐庫若說:“HARK確實超出了正常人類的聽覺能力,它能同時聽到幾種聲音,而不是集中聽取單個獨特的聲音。”
眾所周知,集中聽取單個聲音的現象就是所謂的“雞尾酒會效應”,歐庫若稱此軟件能力集中在同時識別多個聲音上,這就是日本的圣德太子效應(Prince Shotoku Effect)。據日本的傳說,圣德太子能同時聽10個人請示。
8只耳朵
雖然HARK還不能同時領會10個聲音,但研究人員表示當“阿西莫”機器人裝上這個軟件之后,它同時領會3位玩家的喊叫聲的準確率達到了70-80%。
此一批8個麥克風安置在“阿西莫”的面部和體內,能幫助它在同一時刻準確探測和隔離不同的聲音。仲代達說:“此系統預先沒有設定聲音源的數量和它們的方向。”
英國雪菲爾德大學的蓋伊·布朗對此工作留下深刻印象,他指出這是由大多數現有處理聲音的元件制造的,但效果相當出色。其主要成就是將此技術置入此機器人中,讓它能實時交互式地進行工作。不過,石頭-剪子-布使用的詞匯量很少,從而使任務相對容易完成。他說:“顯然,要讓機器人達到和我們人類在雞尾酒會情況下的聽力水平還有很長的路要走。”事實上,當研究人員讓“阿西莫”來同時評判幾個復雜的聲音――即3人定餐時,其準確識別率只有30-40%。
“阿西莫”的其它本領
人形機器人“阿西莫”還能認識面孔,能像見到熟人一樣打招呼,并能完成秘書的各種職能。阿西莫還會迎候和陪同來訪者,回答客人提出的各種問題,它甚至會“想起一些忘記的事”,同時還能上網聊天和預告天氣。如果有人問它:“明天的天氣怎樣”,它就會通過內置無線模塊訪問因特網,為發問的人找出所需要的天氣信息。這款機器人身上裝有智能軟件,使它能夠借助頭部的攝影機看到各種場景,并辨認出大小在40厘米以上、移動速度不超過4公里/小時的物體。