亚洲免费www97爱|草草aⅴ在线观看视频|伊伊综合网在线视频免费|在线日本道二区免费v

    您的位置:首頁>科技>

    Facebook的AI檢測到文本中的性別偏見

    在本周發(fā)表的一篇技術(shù)論文中,F(xiàn)acebook研究人員描述了一個(gè)框架,該框架可以沿多個(gè)維度分解文本中的性別偏見,他們使用該框架來注釋數(shù)據(jù)集并評估性別偏見分類器。如果實(shí)驗(yàn)結(jié)果能說明問題,那么該團(tuán)隊(duì)的工作可能會從性別角度揭示進(jìn)攻性語言,甚至可能控制自然語言處理(NLP)模型中的性別偏見。

    研究人員稱,所有數(shù)據(jù)集,注釋和分類器都將公開發(fā)布。

    一個(gè)公開的秘密是,人工智能系統(tǒng)和受其訓(xùn)練的語料庫經(jīng)常反映出性別定型觀念和其他偏見。實(shí)際上,谷歌最近在Google翻譯中引入了針對性別的翻譯,主要是為了解決性別偏見??茖W(xué)家們提出了一系列的方法來減輕和衡量這個(gè),最近有一個(gè)排行榜,挑戰(zhàn)和指標(biāo)集的配音StereoSet。但是很少(如果有的話)得到廣泛使用。

    Facebook團(tuán)隊(duì)表示,其工作考慮了人類如何通過社交和社交方式構(gòu)建語言和性別認(rèn)同。也就是說,正在發(fā)言它占(1)從人的性別偏壓約,(2)從所述人的性別偏壓正在發(fā)言到,和(3)從揚(yáng)聲器的性別偏見。該框架試圖以這種方式捕捉描述女性的形容詞,動詞和名詞與描述男性的形容詞,動詞和名詞不同的事實(shí)。收件人的性別影響他們與他人交談的方式;以及性別對一個(gè)人的身份的重要性。

    利用此框架和Facebook的ParlAI(用于訓(xùn)練和測試NLP模型的開源Python工具集),研究人員開發(fā)了分類器,將句子的偏見分解為維度-偏見于所討論人員的性別等,同時(shí)包括性別信息。落在男女二進(jìn)制數(shù)之外。團(tuán)隊(duì)對分類器進(jìn)行了培訓(xùn),內(nèi)容包括從Wikipedia,F(xiàn)unpedia(非正式的Wikipedia版本),Yelp評論,OpenSubtitles(電影對話),LIGHT(聊天幻想對話)和其他來源中提取的一系列文本。之所以選擇這些關(guān)鍵字,是因?yàn)樗鼈儼嘘P(guān)作者和收件人性別的信息,可以為模型的決策提供依據(jù)。

    研究人員還通過收集兩名志愿者演講者之間的對話,創(chuàng)建了一個(gè)專門的評估語料庫-MDGender,每個(gè)演講者都有一個(gè)包含性別信息的角色描述,并負(fù)責(zé)采用該角色并與維基百科的傳記部分進(jìn)行對話。注釋者被要求重寫對話中的每個(gè)回合,以清楚地表明他們是在談?wù)撘粋€(gè)男人或一個(gè)女人,以一個(gè)男人或一個(gè)女人的身份說話,并且正在與一個(gè)男人或女人說話。例如,對“您今天好嗎?我剛下班”可能被改寫為“嘿,我和我的朋友和她的狗一起去喝咖啡。”

    在實(shí)驗(yàn)中,研究小組評估了針對MDGender的性別偏見分類器,測量了男性,女性和中性類別的百分比準(zhǔn)確性。他們發(fā)現(xiàn),性能最佳的模型(即所謂的多任務(wù)模型)在所有數(shù)據(jù)集上正確地分解了77%的句子,而在Wikipedia上則僅分解了81.82%的句子。

    在另一組測試中,研究人員應(yīng)用性能最佳的分類器來控制所生成文本的性別,在Wikipedia中檢測有偏見的文本,并探索令人反感的內(nèi)容與性別之間的相互作用。

    他們報(bào)告說,在包含來自Reddit的250,000個(gè)文本片段的數(shù)據(jù)集上對分類器進(jìn)行訓(xùn)練后,分類器就可以根據(jù)命令生成性別句子,例如“ Awwww,聽起來很棒”和“您可以做到!”單獨(dú)地,該模型設(shè)法對一組傳記中的段落進(jìn)行評分,以識別哪些是“大約”維度中的男性(74%偏向男性),但是分類器對女性頁面的女性化更有信心,這表明女性傳記包含更多性別的文字)。最后,在對分類器進(jìn)行訓(xùn)練并將其應(yīng)用于流行的帶有明顯性別的單詞的語料庫之后,他們發(fā)現(xiàn)25%的男性單詞屬于“令人反感”的類別,例如“性暗示”。

    “在理想的世界中,我們期望描述男性,女性和具有其他性別認(rèn)同的人的文字之間幾乎沒有區(qū)別,除了使用明顯的性別詞語,例如代詞或名字。因此,機(jī)器學(xué)習(xí)模型將無法掌握性別標(biāo)簽之間的統(tǒng)計(jì)差異(即性別偏見),因?yàn)檫@樣的差異將不存在。不幸的是,我們知道情況并非如此。”合著者寫道。“我們?yōu)榇四康奶峁┝艘粋€(gè)更細(xì)粒度的框架,分析了模型和數(shù)據(jù)中性別偏見的存在,并通過發(fā)布可用于解決眾多基于文本的用例的這些問題的工具來賦予他人權(quán)力。”

    免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

    最新文章