如果您曾經(jīng)嘗試過與聊天機(jī)器人進(jìn)行對話,那么您會知道,即使是當(dāng)今最先進(jìn)的系統(tǒng),也不是精通口才,經(jīng)常會分發(fā)無意義或痛苦的通用響應(yīng)。
不過,現(xiàn)在,谷歌創(chuàng)建了一個聊天機(jī)器人Meena,它說它比經(jīng)過測試的其他機(jī)器人都要好-這是該公司支持使用其專門開發(fā)的一種新指標(biāo)來衡量AI的對話能力的說法。
進(jìn)行對話
創(chuàng)建Meena(在預(yù)打印服務(wù)器arXiv上發(fā)表的論文中詳細(xì)介紹的過程)之后,Google需要一種評估聊天機(jī)器人的方法。為此,它開發(fā)了一種稱為“敏感性和特異性平均數(shù)”(SSA)的物質(zhì)。
為了計算該指標(biāo),Google要求人類工作者與Meena和其他幾個開放域聊天機(jī)器人進(jìn)行大約100次自由形式的對話。每次聊天機(jī)器人做出響應(yīng)時,工作人員都必須回答關(guān)于響應(yīng)的兩個問題。
首先,它在對話中是否具有邏輯和上下文意義?如果是的話,他們必須回答這個問題,“它是特定于對話嗎?”這是為了清除所有常規(guī)響應(yīng)-例如,如果人類寫下他們喜歡網(wǎng)球,而聊天機(jī)器人回答“很好”,則該響應(yīng)將被標(biāo)記為“不具體”。Google確定,普通人的SSA分?jǐn)?shù)將達(dá)到86%。
團(tuán)隊研究中的其他聊天機(jī)器人得分在31%到56%之間。但是,Meena的得分為79%,這使AI可以比其他聊天機(jī)器人更接近人類的預(yù)期對話水平。