麻省理工學(xué)院的研究人員創(chuàng)建了一個(gè)新系統(tǒng),該系統(tǒng)使用機(jī)器學(xué)習(xí)來幫助語言學(xué)家破譯已被時(shí)間遺忘的語言。研究表明,大多數(shù)曾經(jīng)存在過的語言都不再使用了,有幾十種已死的語言被認(rèn)為是無法破譯的。語言學(xué)家對語法、詞匯和句法了解不夠,無法理解這些遺失語言中留下的文本。
語言學(xué)家面臨的挑戰(zhàn)很多,包括許多這些丟失的語言都沒有可以與之相比的經(jīng)過充分研究的相關(guān)語言。有些還缺少分隔符,如空格和標(biāo)點(diǎn)符號。麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室最近在破譯丟失的語言方面取得了突破。
研究人員創(chuàng)建了一個(gè)新系統(tǒng),該系統(tǒng)能夠自動破譯丟失的語言,而無需了解其與其他語言的關(guān)系。該系統(tǒng)可以確定語言之間的關(guān)系,最近,它被用來暗示伊比利亞語與巴斯克語無關(guān),正如一些語言學(xué)家所認(rèn)為的那樣。該項(xiàng)目的科學(xué)家的最終目標(biāo)是能夠僅使用幾千個(gè)單詞就能破譯那些讓語言學(xué)家感到困惑的語言。
項(xiàng)目負(fù)責(zé)人 Regina Barzilay 表示,該系統(tǒng)依賴于基于歷史語言學(xué)見解的七項(xiàng)原則。這些原則認(rèn)為語言通常只會以可預(yù)測的方式發(fā)展。語言很少添加或刪除整個(gè)聲音,并且很可能會發(fā)生聲音替換。例如,在母語中帶有“P”的單詞在后代語言中可以變成“B”,但由于發(fā)音差距,不太可能變成“K”。
使用這些語言限制,麻省理工學(xué)院的研究人員開發(fā)了一種破譯算法,能夠處理可能的轉(zhuǎn)換的巨大空間。該算法學(xué)習(xí)將語言聲音嵌入到多維空間中,其中發(fā)音差異反映在對應(yīng)向量之間的距離上。該模型旨在對古代語言中的單詞進(jìn)行分割,并將它們映射到相關(guān)語言中的對應(yīng)詞。