賓夕法尼亞州立大學和亞利桑那州立大學的研究人員說,人類和機器共同協作,以幫助訓練一種優(yōu)于其他點擊誘餌檢測器的人工智能模型。他們說,此外,新的基于AI的解決方案還能夠分辨出由機器(或機器人)生成的clickbait標題與由人編寫的clickbait標題之間的區(qū)別。
在一項研究中,研究人員要求人們編寫自己的點擊誘餌-這是一個有趣但具有誤導性的新聞標題,旨在吸引讀者點擊其他在線故事的鏈接。研究人員還對機器進行了編程以生成人工點擊誘餌。然后,將人和機器的標題作為數據來訓練點擊誘餌檢測算法。
研究人員表示,由此產生的算法預測點擊誘餌標題的能力比其他系統好14.5%,研究人員今天(8月28日)在2019年IEEE / ACM國際社交網絡分析先進會議(ASONAM)上發(fā)布了他們的發(fā)現。加拿大溫哥華。
該項目的首席研究員,信息科學與技術學院副教授Dongwon Lee表示,除了將其用于點擊誘餌檢測之外,該團隊的方法還可能有助于總體上提高機器學習性能。Lee還是賓夕法尼亞州立大學計算機科學研究所(ICS)的附屬機構,該研究所為賓夕法尼亞州立大學的研究人員提供了超級計算資源的訪問權限。
“我們成功地證明了機器生成的點擊誘餌訓練數據可以反饋到訓練管道中,以訓練各種各樣的機器學習模型來提高性能,這一結果非常有趣。” Lee說。“這是解決需要大量高質量培訓數據的監(jiān)督型機器學習的基本瓶頸的一步。”
賓夕法尼亞州立大學信息科學與技術學院的一名博士生Thai Le表示,點擊誘餌檢測技術的發(fā)展面臨的挑戰(zhàn)之一是缺乏標記數據。就像人們需要老師和學習指南來幫助他們學習一樣,人工智能模型也需要帶有標簽的數據來幫助他們學習建立正確的聯系和關聯。
Le說:“當我們開始這個項目時,我們意識到的一件事是,我們沒有很多積極的數據點。”“為了識別點擊誘餌,我們需要讓人員標記訓練數據。有必要增加正面數據點的數量,以便以后我們可以訓練更好的模型。”
盡管在互聯網上找到點擊誘餌很容易,但點擊誘餌的多種變化又增加了另一層難度,據Donald P媒體效應教授兼媒體效應研究實驗室聯合主任James P. Jimirro的S. Shyam Sundar稱。 Bellisario通信學院,以及ICS子公司。
“有一些點擊誘餌是列表或列表;有一些點擊誘餌被表述為問題;有一些以誰,什么地方,何時開始;還有我們在研究中發(fā)現的各種其他種類的點擊誘餌。年。”桑達爾說。“因此,要找到足夠數量的所有這些類型的Clickbait樣本是一個挑戰(zhàn)。盡管我們都在抱怨周圍的Clickbait數量,但是當您四處獲取并標記它們時,這些數據集并不多。”
根據研究人員的說法,該研究揭示了人和機器在創(chuàng)建標題方面的差異。與機器產生的點擊誘餌相比,人們產生的標題傾向于在其標題中包含更多確定性詞(例如“ that”和“ that”)。
培訓似乎也促使點擊誘餌的創(chuàng)建有所不同。例如,受過訓練的作家(例如記者)比其他參與者傾向于使用更長的單詞和更多的代詞。記者也可能會使用數字作為頭條新聞。
據Sundar稱,研究人員計劃利用這些發(fā)現來指導他們對更強大的假新聞檢測系統的研究。
Sundar說:“對我們來說,點擊誘餌只是構成虛假新聞的眾多因素之一,但是這項研究是確保我們建立良好的點擊誘餌檢測系統的有用準備步驟。”
為了尋找人類點擊誘餌作者進行研究,研究人員從在線人群資源網站Amazon Turk招募了新聞專業(yè)的學生和工人。他們從現場招募了125名學生和85名工人。參與者首先閱讀了clickbait的定義,然后被要求閱讀了簡短的文章(約500個單詞)。然后要求參與者為每篇文章寫一個點擊誘餌標題。
機器生成的點擊誘餌標題是使用稱為變分自動編碼器(VAE)生成模型的機器學習模型開發(fā)的,該模型依賴于在數據中查找模式的可能性。
研究人員針對在線點擊誘餌檢測競賽Clickbait Challenge 2017的頂級系統測試了他們的算法。
賓夕法尼亞州大眾傳播學的博士候選人Maria Molina也為這項研究做出了貢獻。亞利桑那州立大學的計算機科學與工程教授劉歡和計算機科學與工程博士學位候選人凱舒。
國家科學基金會,橡樹嶺聯合大學和海軍研究辦公室支持這項工作。