在AI和機器學習系統(tǒng)中,通常通過訓練小模型(學生)來模仿大而笨重的模型(老師)來積累知識。這個想法是通過使用其輸出作為標簽來壓縮老師的知識以優(yōu)化學生的知識,但是并不能保證當老師很大時知識會轉(zhuǎn)移給學生。
這就是為什么一個亞馬遜研究人員小組在最近的一項研究中開發(fā)了一種將大型模型的內(nèi)部表示提煉為簡化版本的技術。他們聲稱,在實驗中,從表示中添加知識蒸餾往往比僅使用標記蒸餾更為穩(wěn)定。
所提出的方法允許上述學生通過轉(zhuǎn)移其語言特性在內(nèi)部扮演教師的角色。通過教師輸出中的標簽對學生進行優(yōu)化,并通過匹配其內(nèi)部表示來獲取隱藏在教師中的抽象。
在典型的AI模型中,神經(jīng)元(數(shù)學函數(shù))排列在相互連接的層中,這些層傳輸來自輸入數(shù)據(jù)的“信號”并緩慢調(diào)整每個連接的突觸強度(權重)。在上述技術中,對學生的各層進行了優(yōu)化以使其與教師的各層相匹配,以便從最低層(最靠近輸入)的知識先于高層被提取。這使學生能夠系統(tǒng)地學習和壓縮教師各層中的抽象。
研究人員在通用語言理解評估(GLUE)基準的四個數(shù)據(jù)集上進行了涉及GoogleBERT的實驗,該數(shù)據(jù)集是用于訓練,評估和分析自然語言處理算法的資源集合。即使在模型每隔兩層老師跳過一層的情況下,他們也報告說學生能夠復制老師教的行為。此外,在學生模型中復制了教師的泛化能力,這意味著學生可能會犯錯教師。它證明了基準數(shù)據(jù)集的性能提高了5-10%,其中包括團隊組裝的大型新Reddit數(shù)據(jù)集。
“不同于標準的[知識蒸餾]方法,即學生僅從教師的輸出概率中學習,我們通過揭示教師的內(nèi)部表示來教我們較小的模型。研究人員在描述他們工作的論文中寫道:“除了保持類似的表現(xiàn),我們的方法還可以有效地將教師的內(nèi)部行為壓縮到學生中。”“這在標準的[知識蒸餾]方法中不能得到保證,這可能會影響最初打算從教師那里轉(zhuǎn)移過來的泛化能力。”