用自然語言處理證明可能的藝術(shù)

英特爾的Dell EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室正在通過語言到語言翻譯和文本到語音翻譯的深度學(xué)習(xí)展示可能的藝術(shù)。

自然語言處理是人工智能的一種形式，它允許計(jì)算機(jī)應(yīng)用程序理解口頭或書面的人類語言。NLP的概念包括對(duì)語言的編碼，理解，解釋和操縱。NLP應(yīng)用程序使用計(jì)算機(jī)來翻譯語言，將語音轉(zhuǎn)換為文本并將文本轉(zhuǎn)換為語音，并創(chuàng)建類似于人的對(duì)話代理以幫助客戶，員工和其他人處理問題。

近年來，通過從統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法到使用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的轉(zhuǎn)變，NLP領(lǐng)域發(fā)生了變化。通過這些方法，現(xiàn)在可以構(gòu)建可以比以往任何時(shí)候都更加自然地與人交互的自動(dòng)化系統(tǒng)。前瞻性企業(yè)正在抓住機(jī)遇，將NLP納入其面向客戶活動(dòng)和內(nèi)部運(yùn)營的廣泛流程中。

為了幫助組織利用這一趨勢，Dell EMC和英特爾®一直在推動(dòng)NLP應(yīng)用程序開發(fā)的技術(shù)和方法。位于德克薩斯州奧斯汀的Dell EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室的團(tuán)隊(duì)在此領(lǐng)域中正在進(jìn)行兩個(gè)關(guān)鍵項(xiàng)目：一個(gè)涉及語言到語言翻譯，另一個(gè)涉及文本到語音翻譯。

語言到語言的翻譯

在該實(shí)驗(yàn)室致力于語言到語言翻譯的項(xiàng)目中，數(shù)據(jù)科學(xué)家正在努力解決與使用神經(jīng)網(wǎng)絡(luò)將一種人類語言轉(zhuǎn)換為另一種人類語言相關(guān)的關(guān)鍵問題。此過程涉及從源語言獲取輸入并將其轉(zhuǎn)換為目標(biāo)語言。

在此過程中，翻譯模型首先讀取源語言中的句子，然后將其傳遞給編碼器，該編碼器將構(gòu)建中間表示形式。然后將該中間表示傳遞給解碼器，該解碼器處理中間表示以產(chǎn)生目標(biāo)語言的翻譯句子。

對(duì)于語言到語言的翻譯項(xiàng)目，團(tuán)隊(duì)首先從Google創(chuàng)建的股票拓?fù)溟_始，然后改進(jìn)了一些基礎(chǔ)數(shù)學(xué)，以更有效地并行化工作流程。目標(biāo)是在數(shù)百個(gè)計(jì)算節(jié)點(diǎn)上運(yùn)行模型，以更快地找到解決方案。

在長達(dá)數(shù)月的優(yōu)化過程中，該團(tuán)隊(duì)研究了系統(tǒng)如何使用內(nèi)存，執(zhí)行計(jì)算以及結(jié)果的準(zhǔn)確性。對(duì)模型準(zhǔn)確性的驗(yàn)證確保了加快計(jì)算速度不會(huì)產(chǎn)生質(zhì)量較低的答案。

計(jì)算資源

在該項(xiàng)目中，HPC和AI創(chuàng)新實(shí)驗(yàn)室團(tuán)隊(duì)利用了Dell EMC Zenith超級(jí)計(jì)算機(jī)，該超級(jí)計(jì)算機(jī)由PowerEdge服務(wù)器和英特爾第二代可擴(kuò)展至強(qiáng)處理器構(gòu)成。這TOP500系統(tǒng)，戴爾EMC和英特爾之間的伙伴關(guān)系產(chǎn)生的，可作為內(nèi)部團(tuán)隊(duì)一個(gè)標(biāo)桿系統(tǒng)，以及用于評(píng)估的資源。

此外，實(shí)驗(yàn)室團(tuán)隊(duì)還利用位于德克薩斯大學(xué)奧斯汀分校的德克薩斯高級(jí)計(jì)算中心(TACC)的Dell EMC Stampede2超級(jí)計(jì)算機(jī)的處理能力。這種基于Intel的系統(tǒng)在2019年6月的TOP500排名中排名第19 位，是一項(xiàng)戰(zhàn)略性國家資源，可為美國成千上萬的研究人員提供HPC功能。

該團(tuán)隊(duì)將語言到語言翻譯的訓(xùn)練模型的過程擴(kuò)展到多達(dá)512個(gè)節(jié)點(diǎn)，而不會(huì)對(duì)結(jié)果的質(zhì)量產(chǎn)生負(fù)面影響。這一發(fā)現(xiàn)表明，現(xiàn)在可以在不破壞當(dāng)前技術(shù)水平的情況下以更快的速度和更大的規(guī)模訓(xùn)練這些模型。

文字到語音翻譯

文本到語音的翻譯采用文字并將其轉(zhuǎn)換為音頻。目的是合成一個(gè)完整的音頻波形，而不使用過去20年來一直在電話系統(tǒng)上收聽的機(jī)械化片段錄音。

通過這些更高級(jí)的方法，開發(fā)人員可以使用由成績單和配音演員讀取該成績單的剪輯組成的訓(xùn)練數(shù)據(jù)。這些資源可作為創(chuàng)建計(jì)算機(jī)將模仿的聲音的培訓(xùn)基礎(chǔ)。然后，開發(fā)人員訓(xùn)練神經(jīng)網(wǎng)絡(luò)以產(chǎn)生聽起來與演員的聲音極為相似的模擬聲音。

對(duì)于文本到語音翻譯項(xiàng)目，團(tuán)隊(duì)使用了一個(gè)分為兩個(gè)部分的過程，并提供了兩種深度學(xué)習(xí)模型：

他們首先采用文本并將其轉(zhuǎn)換為頻譜圖圖像，然后采用一種深度學(xué)習(xí)模型。該頻譜圖圖像是預(yù)期會(huì)在結(jié)果語音中產(chǎn)生的字母和聲音的頻率分布。

然后，該團(tuán)隊(duì)創(chuàng)建了第二個(gè)模型，該模型采用頻譜圖并生成完整的音頻波形，該波形使用了演員在訓(xùn)練過程中使用的逼真的合成聲音。

在這個(gè)正在進(jìn)行的項(xiàng)目中，他們現(xiàn)在正在努力加速產(chǎn)生音頻波形的過程。

HPC和AI創(chuàng)新實(shí)驗(yàn)室的工作展示了創(chuàng)建逼真的聲音的能力，并且并行化可以在相對(duì)較短的時(shí)間內(nèi)完成任務(wù)。通過將超級(jí)計(jì)算機(jī)上的流程并行化并利用英特爾®軟件優(yōu)化，該團(tuán)隊(duì)將生成逼真的語音模型的過程從一個(gè)多月減少到了不到三天。

重要要點(diǎn)

對(duì)于想要簡化與客戶，員工，合作伙伴和其他人的交互的企業(yè)和其他組織，自然語言處理是一種潛在的強(qiáng)大工具。為了幫助組織利用這一機(jī)會(huì)，戴爾EMC HPC和AI創(chuàng)新實(shí)驗(yàn)室致力于推動(dòng)開發(fā)語言到語言翻譯和文本到語音翻譯應(yīng)用程序的技術(shù)和方法。