博客專欄

EEPW首頁 > 博客 > ACL 2021 | PENS: 個性化新聞標題生成數(shù)據(jù)集

ACL 2021 | PENS: 個性化新聞標題生成數(shù)據(jù)集

發(fā)布人:MSRAsia 時間:2021-08-12 來源:工程師 發(fā)布文章

編者按:數(shù)字信息時代人們獲取新聞的方式越來越高效,但是獲取新聞中關鍵信息的效率卻很低。而 NLP 領域的新聞標題生成任務 (News Headline Generation)則可以基于新聞正文,自動生成包含關鍵信息的簡短標題,使讀者可以高效地獲知新聞中的重要內容。

為了開展新聞標題生成任務的研究,微軟亞洲研究院的研究員們構建了第一個可以離線評測個性化新聞標題生成方法的基準數(shù)據(jù)集:PENS(PErsonalized News headlineS)數(shù)據(jù)集;同時還提出了一種個性化新聞標題生成的通用框架,并且對其進行了效果評估。該論文 “PENS: A Dataset and Generic Framework for Personalized News Headline Generation” 已被 ACL 2021 收錄。歡迎感興趣的讀者積極留言,交流感想!

在數(shù)字信息時代,由于文本信息的數(shù)量、傳播速度都以指數(shù)形式增長,因此導致信息過載問題日趨嚴重。以新聞為例,每天新發(fā)布的新聞消息不計其數(shù),用戶難以在有限的時間內,從海量的新聞中篩選出感興趣的文章進一步閱讀,因而用簡明的語言概括新聞的關鍵信息非常重要。在 NLP 領域,新聞標題生成任務(News Headline Generation)可以基于新聞正文,自動生成包含關鍵信息的簡短標題,使讀者高效地獲知新聞中的重要內容。由于標題本身是對新聞正文的高度概括,因此生成標題的簡潔性、流暢性和事實一致性,對該技術來說是一項挑戰(zhàn)。

近年來,隨著用戶個性化服務的普及與人工智能技術的進步,新聞網站等內容平臺希望通過標題來吸引讀者的閱讀興趣,但同時又要避免“標題黨”現(xiàn)象的發(fā)生。因此,生成個性化新聞標題成為標題生成領域的一個全新研究方向。

什么是個性化新聞標題呢?舉個例子,有一篇報道籃球比賽的新聞,其潛在的用戶受眾通常是比賽球隊的球迷。如果新聞標題不考慮用戶的閱讀興趣,只是客觀地描述比賽結果,那么輸球一方的球迷進一步閱讀這條新聞的概率可能較小,因為當他們看到標題時就已經知道自己支持的球隊輸了比賽,再具體了解輸球過程的意愿就會相對較低。但是,如果考慮用戶的閱讀興趣,對不同球隊的球迷呈現(xiàn)個性化的標題(如圖1所示),那么即使是輸球方的球迷,可能也愿意去了解這條新聞的內容。比如,以球迷支持的球星為標題的核心詞,突出球員的個人表現(xiàn)。

1.png

圖1:個性化新聞標題的實例

個性化新聞標題生成任務的定義是:給定用戶歷史閱讀行為數(shù)據(jù)和候選新聞內容,生成用戶專屬的不同新聞標題。生成的標題既要引起用戶的閱讀興趣,提高用戶進一步閱讀、獲取更高點擊和閱讀量的可能,又要兼顧新聞標題的事實一致性,保證用戶的閱讀質量,避免成為標題黨。它有兩個重點子任務:

①學習用戶的個性化閱讀興趣:通過用戶歷史閱讀行為信息,可以對用戶的個性化閱讀興趣建模,從而學習用戶的個性化表示;

②生成個性化新聞標題:將用戶的個性化表示算法與新聞標題生成算法融合,實現(xiàn)為不同閱讀興趣的用戶生成不同的新聞標題。

因此,以個性化標題展示的新聞,由于更能引起用戶的閱讀興趣,進而可能獲得更高的點擊和閱讀量,將成為新聞平臺關注的新興研究領域。

可離線評測的數(shù)據(jù)集 PENS

開展個性化新聞標題生成的研究,需要一個大規(guī)模的數(shù)據(jù)集,以開展離線評測。否則,當測試不同算法的表現(xiàn)時,研究者可能需要不斷重復線上 A/B 測試,或者通過組織人工評價的方式來觀察算法效果,不但實現(xiàn)成本高,而且公平性及可復現(xiàn)性均難以保證。

為了進一步研究個性化新聞標題的生成,微軟亞洲研究院的研究員們構建了PENS(PErsonalized News headlineS)數(shù)據(jù)集,該數(shù)據(jù)集是第一個離線評測個性化新聞標題生成方法的基準數(shù)據(jù)集,且所有數(shù)據(jù)基于 Microsoft News 用戶的匿名化新聞點擊記錄構建,同時包含了用戶行為信息和新聞語料信息。

PENS 的新聞語料庫包含了約11萬則英文新聞文章,每篇新聞文章都由四部分內容組成:新聞ID、新聞標題、新聞正文和新聞類別標簽。所有訓練和測試數(shù)據(jù)中出現(xiàn)的新聞,都與語料庫中文章的新聞 ID一一對應。

PENS 的訓練數(shù)據(jù)集則包含了匿名用戶的新聞曝光日志(Impression Log),其中包括44萬名匿名用戶的50萬次新聞曝光日志,以及每名用戶的歷史點擊信息。具體而言,每一條訓練數(shù)據(jù)都由五部分內容組成:用戶 ID、曝光時間戳、點擊新聞列表、未點擊新聞列表、用戶歷史點擊新聞列表。所有列表中出現(xiàn)的新聞按首次曝光時間排序。

為了滿足離線評測的需求,研究員們邀請了103名以英語為母語的高校學生(以下簡稱“標注者”),人工創(chuàng)建 PENS 的測試數(shù)據(jù)集。其構造過程分為兩個階段:第一階段,每位標注者瀏覽1000條從新聞語料庫中隨機抽取的新聞標題,并從中選擇至少50個自己感興趣的標題,視為該用戶的歷史點擊行為;第二階段,每位標注者為另外200篇新聞正文撰寫心中的理想標題。這些人工撰寫的新聞標題由專業(yè)新聞編輯審查質量。低質量的標題會被刪除(例如過長、過短或與正文不符),剩余合格的標題作為相應用戶的個性化新聞標題的黃金標準。

研究員們認為,這些標注者雖然不具備專業(yè)的新聞編輯素養(yǎng),但其人工撰寫的標題能夠充分反映他們的個性化閱讀興趣,因此可以作為測試時的“標準答案”。最終,這103名標注者構建的點擊行為數(shù)據(jù)和撰寫的2萬多個個性化新聞標題構成了 PENS 的測試數(shù)據(jù)集。在此數(shù)據(jù)集上,個性化新聞標題生成方法可以采用文本生成中常采用的評價指標來評估其效果,如 BLEU、ROUGE 等。

2.png

表1:PENS數(shù)據(jù)集統(tǒng)計信息

3.png

圖2:PENS數(shù)據(jù)集新聞標題和正文長度分布(a,b)

標題和正文中實體數(shù)量分布(c,d)、新聞主題分布(e)和用戶點擊歷史長度分布(f)

個性化新聞標題生成通用框架

目前,還沒有專門的方法來生成個性化新聞標題,為了填補這個空白,微軟亞洲研究院的研究員們還提出了一種個性化新聞標題生成的通用框架。研究員們設計了一種以 Transformer 編碼器和指針網絡****為基本模型的新聞標題生成器,并提出了三種通過向基本模型注入用戶個性化信息的方法,來生成個性化標題??蚣艿慕Y構如圖3所示:

4.png

圖3:個性化新聞標題生成的通用框架

標題生成器,由 Transformer 編碼器和指針網絡****組成。Transformer 編碼器編碼候選新聞的文本信息,學習新聞正文單詞的隱藏表示 h=[h_(v_1),h_(v_2),?,h_(v_n)]。在解碼過程的第 t 步,指針網絡****首先會采用注意力機制來計算當前隱藏狀態(tài) s_t 對新聞正文單詞的注意力分布 a_t=[a_(v_1),a_(v_2),?,a_(v_n)];然后基于此注意力分布,加權求和得到上下文向量 c_t;最后,原始詞匯表中每個單詞生成的概率分布 P_vocab,以及選擇原始詞匯或直接復制新聞正文單詞的指針 p_gen^t,可由 c_t,s_t 等參數(shù)得到。最后第 t 步解碼詞的總體概率 w_t 分布為:

5.png

用戶個性化注入,所提出的框架共設計了三種形式:①將用戶個性化表示( User Embedding ) 作為指針網絡****的初始隱藏狀態(tài),進而實現(xiàn)影響生成詞語的總體概率分布 P(w_t);②將 User Embedding 加入到對正文單詞注意力分布 a_t 的計算中,區(qū)分不同用戶對正文單詞的關注程度,從而影響****從原文復制單詞的概率分布 P_copy;③將 User Embedding 加入到 p_gen^t 的計算中,從而影響解碼階段的單詞是來自詞表生成還是來自正文復制。

研究員們在 PENS 數(shù)據(jù)集上驗證了該框架的效果。為了對比個性化與非個性化的差異,研究員們首先對比了兩種代表性的標題生成方法:基本的指針生成網絡(用 Pointer-Gen 表示)和用強化學習框架拓展的指針生成網絡(用 PG+RL-ROUGE 表示)。由于論文中提出的框架并未限制用戶表示的學習方法(它們通??捎蓚€性化新聞推薦算法學習得到),因此研究員們采用了6種代表性的個性化新聞推薦算法:EBNR、DKN、NPA、NRMS、LSTUR 和 NAML。這6種個性化新聞推薦算法按照本文框架中的三種注入方式,分別注入研究員們提出的標題生成器,從而可以得到18種具體的個性化新聞標題生成方法。

評價指標上,實驗以 AUC、MRR、nDCG@5 和 nDCG@10 作為用戶興趣建模性能的評價指標,以 ROUGE-1,ROUGE-2,ROUGE-L 的 F1 均值作為個性化標題生成質量的評價指標。這里采用 ROUGE 系列指標是因為研究員們更關注召回率,即用戶撰寫的標題內容出現(xiàn)在生成結果中的比率。對比結果請見表2。

6.png

表2:實驗結果(IM指用戶個性化表示的注入方式)

分析表2可得到以下結論:

①所有個性化新聞標題生成方法的表現(xiàn)都優(yōu)于普通標題生成方法。這是因為該方法能夠根據(jù)學習到的用戶興趣來生成個性化的新聞標題,個性化標題與用戶撰寫的新聞標題具有更高的相似度。通過表3的樣例所示,該個性化標題生成方法可以從用戶的歷史點擊行為中捕捉到個性化閱讀興趣的信息,并根據(jù)不同用戶的興趣,為同一篇新聞生成不同的個性化標題。

7.png

表3:個性化標題生成樣例

②用戶的個性化建模方法在個性化標題生成任務中起到了重要作用。更好的用戶建模方法可以從用戶行為歷史中獲得更豐富的個性化信息,進而生成更好的個性化標題。如 NAML 方法在用戶興趣建模的4項指標上均得到了最高分,同時也在3種個性化注入方式中取得了最高的 ROUGE 分數(shù),這意味著該方法生成的個性化新聞標題質量更好。

③第二種用戶興趣注入方式在大多數(shù)用戶建模方法中表現(xiàn)最好。這可能是因為用戶的閱讀興趣很可能具體表現(xiàn)為對正文中的人名、地名、事件等重點信息的關注,這些單詞有更大的概率是通過指針網絡****中的拷貝機制生成至標題中的,所以讓用戶興趣表示直接去影響從正文復制單詞的概率分布,也許是最直接、有效的一種方法。但是第二種方式并沒有在所有用戶建模方法中達到最佳效果(如 NPA、LSTUR)。因此,更好的用戶個性化注入方式還有待進一步探索。

總結

本文針對個性化新聞標題生成進行了研究,并構建了名為 PENS 的數(shù)據(jù)集,這是第一個可以采用離線方式評測個性化新聞標題生成方法的基準數(shù)據(jù)集;此外,研究員們還提出了一個通用的個性化新聞標題生成方法框架,以三種不同的方式將用戶興趣注入到編碼器-****結構的標題生成器中,用于生成個性化新聞標題。最后,研究員們也比較了用戶建模和標題生成的 SOTA 方法,用以提供 PENS 的基準分數(shù)。結果表明,該提出的方法及通用框架均達到了滿意的效果,不過目前仍存在一些問題,更好的用戶個性化注入方式還有待進一步探索。

了解更多信息,請訪問:

論文鏈接:

https://www.microsoft.com/en-us/research/publication/pens-a-dataset-and-generic-framework-for-personalized-news-headline-generation/

GitHub主頁:

https://msnews.github.io/pens.html 

本文作者:

敖翔、王希廷、羅玲、喬穎、何清、謝幸

*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

高壓發(fā)生器相關文章:高壓發(fā)生器原理
絕緣電阻測試儀相關文章:絕緣電阻測試儀原理


關鍵詞: AI

相關推薦

技術專區(qū)

關閉